|
|||||||||||||||||||||||||||
Keld Jørn Simonsen <sslug@sslug> writes: >> Det må jeg indrømme jeg aldrig har hørt om, og jeg kan ikke lige finde >> noget med Google. Kan du uddybe? Så vidt jeg er orienteret, er UTF-8 >> bare en måde at kode tegnene fra ISO-10646 på. > > Jeg tror han mener normalisering. Ja, det fandt jeg også efterhånden ud af da jeg læste lidt mere om sagen i en FAQ på nettet. Men det ville jo også være et problem hvis man benyttede UCS-4 som kodning. > Unicode er ikke et tegnsæt i gængs forstand, fordi der er flere > måder at kode det samme tegn. Fx 'å' kan kodes som et enkelt tegn å > og som to tegn: a med bolle. Normaliseringen sørger så for at en hel > tekst (fil) enten koder alle å-erne på den ene eller den anden måde. > Det er IMHO noget forfærdeligt rod, og jeg fik igennem i 10646 at > det i hvert fald terminologisk ikke var sådan i 10646 at tegn konne > kodes på forskellig måde. Skulle sekvensen 'a + bolle over foregående tegn' så være ugyldig til fordel for 'å' eller hvordan? >> Og det er netop her UTF-8 kommer ind. Ved at anbefale folk at hænge >> fast i ISO-8859-* modarbejder du den idé. > > Jeg tror man skal kunne tillade flere tegnsæt samtidigt. > Vi har ihvertfald i dag flere tegnsæt der er relevante, iso-8859-1 > iso-8859-15, UTF-8, UTF-16LE, UTF-16BE, UCS4 i forskellige afskygninger > og endianner, bare for at tage danske forhold. Vi skal altså kunne > snakke sammen og udveksle filer og iøvrigt kunne gøre det også på vores > egne systemer, hvor jeg da har en masse iso-8859-1 filer og en del utf-8 > filer, og jeg med tiden vil få feler utf-8 filer, nok. Det vil jeg gerne > kunne behandle fremover, også de næste 10-20-30 år. Det er naturligvis klart at man bliver nødt til at kunne behandle data i andre tegnsæt. Men det dejligste er nu hvis alle bruger det samme så man ikke behøver at spekulere på det. Det kan ikke lade sig gøre med ISO-8859-*. -- Ole Laursen http://www.cs.aau.dk/~olau/
|
||||||||||||||
|
||||||||||||||