SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] UTF-8 er noget værre slam



On Fri, Jul 01, 2005 at 01:26:43PM +0200, Ole Laursen wrote:
> Jacob Sparre Andersen <sslug@sslug> writes:
> 
> > Er det nok at justere definitionen af »char« i GCC til at være på 32
> > bit og oversætte kernen for at køre med en 32 bit fast-længde
> > tegnkodning? Eller er det ikke?
> 
> Selv hvis POSIX skulle tillade det, kan man simpelthen ikke - der er
> ufatteligt mange programmer der er bygget op om at char er en byte.
> Det kan simpelthen ikke lade sig gøre.
> 
> Hvis du virkelig tror det er realistisk, kan jeg bedre forstå dine
> udtalelser.

Både C og POSIX (og C++) er tegnsætsuafhængige standarder.
De skal kunne fungere både med ascii, iso-8859-15, japansk, 
utf-8 og utf-16 og ucs4 som tegnsæt. Dette er en 'god ting' TM.

Jeg tror også det vil blive meget svært at få
standardiseringsorganisationerne til at ændre det, der er for mange
implementationer der er afhængig af understøttelsen af bestemte tegnsæt.

Og ændre gcc og linux til at have 32 bit som grundenhed for tegn er nok
noget der vil tage meget lang tid. Det har taget 10-12 år at komme frem
til det niveau af implementering af 10646 som vi har i dag, og som langt
fra er perfekt.

Jeg tror ikke der vil være goodwill omkring en POSIX standard med 32
bit som almen tegnbredde. Og hvilken 32-bit version skulle det være? Der
er mindst 2 versioner, little-endian og big-endian.

Derimod er der goodwill omkring at benytte 32 bit internt i
programmeringssprogene til al tegnbehandling. Og C++ er faktisk modent
til at få forslag om udbygning af denne suppoert.

Hilsen
keld


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:55
Denne side vedligeholdes af MHonArc .