|
|||||||||||||||||||||||||||
On Thu, Jun 30, 2005 at 06:59:53PM +0200, Jacob Sparre Andersen wrote: > Ole Kofoed Hansen skrev: > > Jacob Sparre Andersen skrev: > > > > (det med at droppe bagudkompatibiliteten med ASCII > > > følger helt automatisk af 1 og 2) > > > > Og det er naturligvis det, der er årsagen til at folk ikke > > gør det sådan. > > Men hvorfor er det lige ASCII skidtet skal være kompatibelt > med? Hvorfor ikke ISO-8859-15? utf-8 blev oprindeligt kaldt utf-fss - file system safe. Den bevarede ascii, fordi man så ikke behøvede at lave om i Unix )og plan 9) kildetekst, idet man kunne være sikker på at et ascii tegn var det som man altid havde regnet med. iso-8859-15 blev lavet efter utf-8 var blevet vedtaget. > > Det er nemlig meget mere besværligt at implementere på > > kort sigt. > > Det er ikke spor mere besværligt at implementere. > Variabel-længde tegn er kompliceret at implementere og folk > gør det stort set konsekvent forkert. Den eneste fordel der > er ved UTF-8 er for amerikanerne der kan lade som ingenting > og fortsætte med at bruge ASCII. det som MS bruger hedder utf-16 og er også variabel-længde tegn - men nu i bidder af 16 bit:-( > > Der er mange folk, der hellere vil have en løsning, der > > virker for dem nu, > > Til det formål har vi ISO-8859-1. Den har faste > tegnlængder. Den dækker både skånsk og sjællandsk (og alle > de andre sprog jeg kan læse og/eller skrive). Ja, 8859-15 dækker alt som almindelige danskere kan finde på, og mere til. Det kan være en kilde til fejl at bruge utf-8 fordi det er rimeligt nemt at komme til at skrive tegn som man ikke skal bruge. > > Problemet er så bare at overbevise tilhængerne om at UTF-8 > > ikke er 'adequate'. > > Vi kunne starte med at sørge for at > postlisterne/nyhedsgrupperne kun accepterer ISO-8859-1, så > folk bliver vænnet af med at have deres programmer sat til > at bruge UTF-8. > > Det næste trin kan så passende være at specificere en > acceptabel delmængde af Unicode (eller en helt ny > tegnkodningsstandard) og begynde at implementere den. > > Et andet nyttigt trin kan være at hakke lidt i Linux og > Glibc, så brugerne ikke kan pille ved tegnkodningen efter at > systemadministratoren har fastsat den. > > Jacob > > PS: Jeg har på fornemmelsen at POSIX er så elendigt skruet > sammen at det slet ikke _kan_ fungere med > fast-bredde-tegnkodninger på over 8 bit/tegn, men jeg > håber da at jeg tager fejl. Helt specifikt er har jeg > det indtryk at det er en byte med indholdet 0 der > afslutter et filnavn og en byte med indholdet 47 der > skiller katalognavne - og ikke nogle tegn der > tilfældigvis har de numre. Med lidt held kan problemet > klares ved at omdefinere C-typen "char" passende. Ja, det er vist rigtigt. Det er rigtigt at byte-værdien 0 afslutter strenge og 47 angiver kataloger. UTF-8 er lavet til at man kan bruge disse indbyggede værdier. Problemet er for mig også at UTF-8 efterhånden ikke er en international standard, men noget defineret af industrikonsortiet Unicode. Dette er bl.a tilfældet på nettet. Hilsen keld
|
||||||||||||||
|
||||||||||||||