|
|||||||||||||||||||||||||||
Enligt GPL är källkoden "det format, som man helst redigerar", dvs om
jag skriver ett yacc-parser och låter yacc producera C-kod, så är den
C-koden inte källkod, eftersom den programmerare som har ett val,
väljer att redigera yacc-koden i stället för C-koden.
Är de svenska och danska dsdo/sol-ordlistorna (words-XX.sq) verkligen
källkod? Eller var är källkoden?
Vore det inte mer hanterligt att redigera ordlistan i ispell-format,
där man kan ange affix-flaggor för böjningsmönstren?
Ordlistorna både till Aspell och Ispell saknar kommentarsyntax, vilket
jag som programmerare finner problematiskt. Någon har lagt till ordet
A-avdrag, men jag vet inte vad A-avdrag är, och funderar på att ta
bort ordet. Kanske är det rätt, kanske är det fel, men hur vet vi?
Innehållet i sol-1.3.8/words-sv.sq (med ord som "abborr",
"avloppssytem" och "överläkar") indikerar att någon har tagit den
gamla svenska ispell-ordlistan (t.ex. iswedish-1.2.1) och kört
ispell -d svenska -e < iswedish-1.2.1/svenska.datalista |
tr ' ' '\n' | sort -u | ./sq > words-sv.sq
Detta ger 119629 ord, bara marginellt fler än de 119591 som finns i
aspell-sv-1.3.8/words-sv.sq
Nackdelen med detta är flera:
* Det har skapat falska ord (abborr) som enligt ispell enbart får
förekomma i sammansättningar (abborr-),
* Det har fört med sig felaktigeter (avloppssytem) från den gamla
listan.
* Man har förlorat informationen om vilka stavningsvarianter som hör
till vilken ordstam (t.ex. att adagionas kommer av adagio).
Även om aspell inte klarar affix på samma sätt som ispell, så kan man
fundera ut ett smartare källkodsformat för ordlistan, och sedan
konstruera aspell- och ispell-listorna utifrån detta.
--
Lars Aronsson (sslug@sslug)
Aronsson Datateknik
Teknikringen 1e, SE-583 30 Linuxköping, Sweden
tel +46-70-7891609
http://aronsson.se/ http://elektrosmog.nu/ http://susning.nu/
|
||||||||||||||
|
||||||||||||||