|
|||||||||||||||||||||||||||
Hej rødder,
Jeg har nu haft openoffice med dansk stavekontrol installeret hos et par
stykker, og jeg må indrømme at jeg ikke er helt så stolt over produktet som
før jeg havde set det "tested-in-battle" som det vist hedder i disse herrens
år.
Generelt er der et problem med at mange af ordene ikke har alle former med.
Jeg lavede derfor en hurtig (jeg tror vi har lavet øvelsen før, men jeg kan
ikke huske om vi fik fulgt op på det?)
awk -F "/" '{print $2}' da_DK.dic | sort | uniq -c | sort -n -r
Resultater er at der 90% af ordene er dækket ind af de 13 mest populære
bøjningsformer mens de resterende 10% (ca 15.000 ord) repræsenterer over 2100
forskellige bøjningsformer. Selvfølgelig er nogle af disse udtryk for stærke
bøjninger, og noget af det er forskellige prefix, men montro der ikke også
skulle være en hel del af disse ord som mangler en bøjningsform eller 2?
Hvis man vil se de 1163 ord som har unikke bøjningsformer kan man jo se lidt
på
for ord in `awk -F "/" '{print $2}' da_DK.dic | sort | uniq -c | sort -n |
cut -f 2 |head -n 1163`; do echo $ord;grep -E "/$ord$" da_DK.dic |
ispell -e;done
og se om man ikke kan få dem til at passe med nogle af mere normale
bøjningsformer (de 50 mest normale er)
awk -F "/" '{print $2}' da_DK.dic | sort | uniq -c | sort -n -r | head -n 50
Jeg ved godt at der sikkert ikke er nogen på listen som har tid til det, men
nu har jeg ihvertfald dokumenteret fremgangsmåden, og så må vi jo se om jeg
selv får tid til at kigge på det :-)
mvh
Sune
|
||||||||||||||
|
||||||||||||||