SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

UTF-8 er noget værre slam (Was: tar og tegnsæt)



Ole Laursen skrev:
Jacob Sparre Andersen skrev:

UTF-8 er noget værre slam.

UTF-8 er, ud over at være en væsentlig bedre løsning end ISO-8859-? på problemet med at give adgang til andre tegn end bare de ASCII-definerede, en aldeles snedig standard.

UTF-8 er en løsning på problemet med at kunne kode flere tegn end bare dem i ISO-8859-1. Korrekt. Men UTF-8 er ikke den eneste løsning på dette problem. Og det er nok nærmest den værst tænkelige løsning på problemet.


Problemer:

+ ASCII er en delmængde af UTF-8 (=> at afprøvningen af programmer der skal forestille at håndtere UTF-8 er mangelfuld)

+ UTF-8 er en variabel-længde-kodning (=> en masse kodekompleksitet for at holde styr på længden af strenge => flere potentielle fejl)

+ UTF-8 kommer med begrebet »harmonisering« af strenge (=> programmer har lov til at omkode tegn til nogle der af og til ligner det)

Der er sikkert flere, men dette er nok til at jeg holder fast ved at UTF-8 er et problem og ikke en løsning.

Hvis alle benytter UTF-8, er der ikke noget problem.

Jo!


Ovennævnte problemer er uafhængige af om alle bruger UTF-8.

Det er netop
fordi folk stadig hænger fast i ISO-8859-? og lign. at vi stadig, i år
2005, må døje med med at få æøå til virke af sig selv, selv
Linux-distributioner imellem.

Microsoft bruger ikke UTF-8 og alligevel fungerer tegnkodning fint på deres styresystemer. Jeg tror du helt har misforstået problemet.


Jeg synes at ideen om at skifte til en tegnkodning der kan repræsentere flere tegn end bare lige dem vi bruger i Vesteuropa er helt fin, men det skal f...... gøres ordentligt:

1) Fast antal bits per tegn.
2) Ikke noget rod med »harmonisering« af strenge.
3) Lav styresystemer, protokoller og filformater så de kun arbejder med én tegnkodning (det er noget rod at man kan angive filtypen »text/<et eller andet>« uden at angive en tegnkodning - og at en bruger kan ændre fortolkningen af et filnavn ved at ændre en opsætningsvariabel).


(det med at droppe bagudkompatibiliteten med ASCII følger helt automatisk af 1 og 2)

Jacob
--
»Vi andre har dog den anstændighed at gøre det på 6.000 km.s
afstand!«                         -- Divus Madsen, exam.gud



 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .