SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Thu, Jun 30, 2005 at 09:28:59PM +0200, Jacob Sparre Andersen wrote:
> Keld Jørn Simonsen skrev:
> 
> > utf-8 blev oprindeligt kaldt utf-fss - file system safe.
> > Den bevarede ascii, fordi man så ikke behøvede at lave om
> > i Unix (og plan 9) kildetekst, idet man kunne være sikker
> > på at et ascii tegn var det som man altid havde regnet
> > med.
> 
> Så bare fordi Unix' fædre ikke lige tænkte udover deres eget
> sprogområde, så skal vi hænge på UTF-8 i stedet for at løse
> problemet?
> 
> Og ville problemet ikke blive løst, hvis vi besluttede at i
> POSIX er en "char" på 32 bit?  Alle programmerne ville
> selvfølgelig skulle genoversættes, men bortset fra det bør
> der vel ikke være nogle problemer.

det er også hvad man har vedtaget, dvs der er en ekstern 
repræsentation af tegn som er variabel-længde og med ascii som subset,
og så er der en intern kodning som er 32 bit. Sådan er det i POSIX, og
sådan er det i C, som er POSIX's oprindelige implementeringssprog.
Jeg skrev endog engang et papir om det:
http://www.ex.ac.uk/~DCannon/iso-wg15/document/n658.txt
(10 år gammelt!)

> > det som MS bruger hedder utf-16 og er også variabel-længde
> > tegn - men nu i bidder af 16 bit:-(
> 
> Jeg troede de brugte BMP - og altså bare ikke kunne håndtere
> tegn udover 16 bit (ligesom ISO-8859-1 er de første 8-bit af
> ISO-10646/Unicode).

Jeg er halvstolt over ikke at kende meget til MS-Windows, men jeg tror
altså at de understøtter utf-16.

Hilsen
keld


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .