SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Sat, Jul 02, 2005 at 06:28:47PM +0200, Ole Laursen wrote:
> Keld Jørn Simonsen <sslug@sslug> writes:
> 
> > Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere
> > måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å
> > og som to tegn: a med bolle. Normaliseringen sørger så for at en hel
> > tekst (fil) enten koder alle å-erne på den ene eller den anden måde.
> > Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at
> > det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne
> > kodes på forskellig måde.
> 
> Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig
> til fordel for 'å' eller hvordan?

Ja, i en normaliserngsform vil enkelttegnet 'å' være ulovlig (fx i NFD), og i en
anden normaliseringsform er 'a+bolle' ulovlig (fx i NFC).

> >> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge
> >> fast i ISO-8859-* modarbejder du den idé.
> >
> > Jeg tror man skal kunne tillade flere tegnsæt samtidigt.
> > Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1
> > iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger
> > og endianner, bare for at tage danske forhold. Vi skal altså kunne
> > snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores
> > egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8
> > filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne
> > kunne behandle fremover, også de næste 10-20-30 år.
> 
> Det er naturligvis klart at man bliver nødt til at kunne behandle data
> i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så
> man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med
> ISO-8859-*.

Det er derfor man anbefaler at bruge ucs-4 som intern proces-kode på
alle maskiner, i bl.a. C og C++-standarderne (wchar_t).

Hilsen
keld


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .