SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Fri, Jul 01, 2005 at 01:56:59PM +0200, Jacob Sparre Andersen wrote:
> Keld Jørn Simonsen skrev:
> > Jacob Sparre Andersen skrev:
> > > Keld Jørn Simonsen skrev:
> 
> > > > anbefalingen var at ekstern kodning, i filer, på
> > > > netværksinterfaces var utf-8, mens intern
> > > > programmering var 32 bit.
> > > 
> > > Den anbefaling må vi så hellere se at få ændret til et
> > > krav om at alle grænsesnit køre med 32 bit tegnkodning.
> > 
> > Lidt mere: Hvorfor? Anbefalingen tilsikrer at al
> > programmering med tegn foregår i 32-bit, som du ønsker.
> 
> Mener du at compileren selv finder ud af hvilken tegnkodning
> der blev brugt til at skrive de tekstfiler jeg indlæser?  
> Det lyder næsten som microsoftsk magi.

Det er indbygget i oversætteren, eller du kan sætte det på dine inddata
og uddata-strømme.

> > Det, der sker er at al kodet tekst konverteres til intern
> > 32 bit, så det kan behandles på en ensartet og nem måde,
> > og så når behandlingen er overstået konverteres det så til
> > ekstern repræsentation igen når data skal udskrives. Den
> > eksterne repræsentation kan iøvrigt være alle slags
> > tegnsæt, incl utf-8 utf-16 og ucs4.
> 
> Problemet er at ca. halvdelen af alle programmørerne kun
> husker at konvertere dataene den ene vej og den anden
> halvdel kun husker at konvertere dem den anden vej.

nej, det er ikke noget programmørene skal huske, det sker automatisk af
systemet. Sådan er standarden lavet.

>  Og
> variabel-længde tegnkodninger er noget slam - også i filer
> og netværkskabler.  Hvad pokker er der galt med at køre UCS4
> (det ér den rene 32 bit-kodning, ikke?) konsekvent?

Det bryder med det meste eksisterende kørende programmel.
utf-8 blev også lavet til at være kompatibel med de eksisterende
netværksprotokoller, hvor fx NUL er et tegn der har svært ved at slippe
igennem nogetsomhelst. Variabellængdekodning er noget man har kendt til
i mange år og man forstår at kode det uden problemer, fx i Japan og
Korea. UTF-8 giver en let migreringsvej for internet-protokoller, og er
derfor anbefalet til alle internetprotokoller (se RFC 2130 - hvor jeg er
medforfatter).

Hilsen
keld


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .