SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Thu, Jun 30, 2005 at 06:59:53PM +0200, Jacob Sparre Andersen wrote:
> Ole Kofoed Hansen skrev:
> > Jacob Sparre Andersen skrev:
> 
> > > (det med at droppe bagudkompatibiliteten med ASCII
> > > følger helt automatisk af 1 og 2)
> > 
> > Og det er naturligvis det, der er årsagen til at folk ikke
> > gør det sådan.
> 
> Men hvorfor er det lige ASCII skidtet skal være kompatibelt
> med?  Hvorfor ikke ISO-8859-15?

utf-8 blev oprindeligt kaldt utf-fss - file system safe.
Den bevarede ascii, fordi man så ikke behøvede at lave om i Unix
)og plan 9) kildetekst, idet man kunne være sikker på at et ascii tegn
var det som man altid havde regnet med.

iso-8859-15 blev lavet efter utf-8 var blevet vedtaget.

> > Det er nemlig meget mere besværligt at implementere på
> > kort sigt.
> 
> Det er ikke spor mere besværligt at implementere.  
> Variabel-længde tegn er kompliceret at implementere og folk
> gør det stort set konsekvent forkert.  Den eneste fordel der
> er ved UTF-8 er for amerikanerne der kan lade som ingenting
> og fortsætte med at bruge ASCII.

det som MS bruger hedder utf-16 og er også variabel-længde tegn - men nu
i bidder af 16 bit:-(

> > Der er mange folk, der hellere vil have en løsning, der
> > virker for dem nu,
> 
> Til det formål har vi ISO-8859-1.  Den har faste
> tegnlængder.  Den dækker både skånsk og sjællandsk (og alle
> de andre sprog jeg kan læse og/eller skrive).

Ja, 8859-15 dækker alt som almindelige danskere kan finde på,
og mere til. Det kan være en kilde til fejl at bruge utf-8
fordi det er rimeligt nemt at komme til at skrive tegn som man ikke skal
bruge.

> > Problemet er så bare at overbevise tilhængerne om at UTF-8
> > ikke er 'adequate'.
> 
> Vi kunne starte med at sørge for at
> postlisterne/nyhedsgrupperne kun accepterer ISO-8859-1, så
> folk bliver vænnet af med at have deres programmer sat til
> at bruge UTF-8.
> 
> Det næste trin kan så passende være at specificere en
> acceptabel delmængde af Unicode (eller en helt ny
> tegnkodningsstandard) og begynde at implementere den.
> 
> Et andet nyttigt trin kan være at hakke lidt i Linux og
> Glibc, så brugerne ikke kan pille ved tegnkodningen efter at
> systemadministratoren har fastsat den.
> 
> Jacob
> 
> PS: Jeg har på fornemmelsen at POSIX er så elendigt skruet
>     sammen at det slet ikke _kan_ fungere med
>     fast-bredde-tegnkodninger på over 8 bit/tegn, men jeg
>     håber da at jeg tager fejl.  Helt specifikt er har jeg
>     det indtryk at det er en byte med indholdet 0 der
>     afslutter et filnavn og en byte med indholdet 47 der
>     skiller katalognavne - og ikke nogle tegn der
>     tilfældigvis har de numre.  Med lidt held kan problemet
>     klares ved at omdefinere C-typen "char" passende.

Ja, det er vist rigtigt.
Det er rigtigt at byte-værdien 0 afslutter strenge og 47
angiver kataloger. UTF-8 er lavet til at man kan bruge disse
indbyggede værdier.

Problemet er for mig også at UTF-8 efterhånden ikke er en international
standard, men noget defineret af industrikonsortiet Unicode.
Dette er bl.a tilfældet på nettet.

Hilsen
keld


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:54
Denne side vedligeholdes af MHonArc .