SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



Keld Jørn Simonsen <sslug@sslug> writes:

>> Det må jeg indrømme jeg aldrig har hørt om, og jeg kan ikke lige finde
>> noget med Google. Kan du uddybe? Så vidt jeg er orienteret, er UTF-8
>> bare en måde at kode tegnene fra ISO-10646 på.
>
> Jeg tror han mener normalisering.

Ja, det fandt jeg også efterhånden ud af da jeg læste lidt mere om
sagen i en FAQ på nettet. Men det ville jo også være et problem hvis
man benyttede UCS-4 som kodning.

> Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere
> måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å
> og som to tegn: a med bolle. Normaliseringen sørger så for at en hel
> tekst (fil) enten koder alle å-erne på den ene eller den anden måde.
> Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at
> det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne
> kodes på forskellig måde.

Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig
til fordel for 'å' eller hvordan?

>> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge
>> fast i ISO-8859-* modarbejder du den idé.
>
> Jeg tror man skal kunne tillade flere tegnsæt samtidigt.
> Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1
> iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger
> og endianner, bare for at tage danske forhold. Vi skal altså kunne
> snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores
> egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8
> filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne
> kunne behandle fremover, også de næste 10-20-30 år.

Det er naturligvis klart at man bliver nødt til at kunne behandle data
i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så
man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med
ISO-8859-*.

-- 
Ole Laursen
http://www.cs.aau.dk/~olau/


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .