SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] ordlistornas källkod



Quoting Lars Aronsson <sslug@sslug>:

> Goran Andersson wrote:
> 
> > Observera att CVS och liknande system är till för källkod, inte
> > för data.
> 
> Exakt, men min åsikt är att en ordlista är källkod.
> 
> > På adressen http://217.215.183.103/ har jag satt upp ett enkelt
> > webbgränssnitt till en svensk XD-ordlista.
> 
> Mycket intressant.
> 
> Göran, vad står siffran för i vänsterkolumnen i din svenska_ord.txt ?
> Den verkar ha värdena 1, 2 och 3.  Anger den licensvillkor, källa,
> ordfrekvens, eller vad?

Revisionsnummer för ordformen. På http://217.215.183.103/, prova att
lista ordformer: skriv in exempelvis "fri" efter ledtexten "ord med
början vid", och klicka sedan på "LISTA". I den lista man får upp,
klicka exempelvis på "fria" för att få se revisionshistoriken för
denna ordform. (Jag har ännu inte gjort något bra gränssnitt för att
visa revisionshistoriken, så den är kanske inte så lätt att tolka.
Revision 1 säger att ordformen skapades 2003-02-08 23:58:43 av xdadmin,
med kommentaren "från ispell-ordlistan". Revision 2 och 3 säger att
ordformen refereras av den syntaktiska enheten nummer 523 - verbet fria.)

I filen svenska.txt står id-nummer och revisionsnummer för 
syntaktiska enheter (SyntacticUnit). För att se revisionshistorik
för en syntaktisk enhet, skriv exempelvis "friade" efter ledtexten
"Sök ordet" och klicka sedan på "SÖK". Följ sedan länken "Korrekturläsning"
på den sida man får upp.

(Formatet som används i filerna svenska.txt och svenska_ord.txt är
bara något tillfälligt jag hittat på för att göra materialet
lättillgängligt.)

> Min approach är att arbeta vidare med ispell, men definiera en ny
> svenska.aff som inte utgår från grammatiska deklinationer utan ifrån
> faktiska böjningsmönster.  En enkel statistisk analys säger att
> genitiv-s är det vanligaste böjningsmönstret, och därför värt en
> flagga.  Den nuvarande svenska.aff kallar den /A men jag kallar den /s
> eftersom det dels är vackrare med små bokstäver, dels lättare att
> minnas att /s betyder genitiv-s.  Min ordlista innehåller alltså raden
> 
> Anderstorp/s
> 
> vilket betyder att formerna Anderstorp och Anderstorps förekommer.
> Ord som "andedräkt" förekommer med ändelserna -en och -ens, förutom
> att det har genitiv-s (dock förekommer andedräkt inte i pluralis).
> Detta mönster har jag kallat /n och raden i min källkodsfil blir
> 
> andedräkt/ns
> 
> vilket är så mnemoniskt att det nästan går att uttala.  Plural med
> -er, -ers, -erna, -ernas har fått flaggan /r, så en tredje rad blir
> 
> dräkt/rns
> 
> vilket jag för minnets skull uttalar dräkt-eR-Na-S.
> 
> Till detta har jag lagt en enkel kommentarsyntax, så att jag ska
> minnas varför ett ord står med, och inte är ett misstag, t.ex.
> 
> produktplacering/ns  # reklam genom användning av produkten i en film
> 
> Min Makefile använder sed för att skala bort kommentarerna och kör
> sedan ispell -e för att expandera böjningsflaggorna till alla
> förekommande ordformer, vilket blir underlag för aspell-ordlistan till
> funktionen "förhandsgranska" i http://susning.nu/
> 
> När jag nu kommer på att "produkt" saknas i min ordlista, och det böjs
> ju -er-na-s, så kan jag direkt skriva in en enda rad i min textfil
> 
> produkt/rns
> 
> Detta är ett rejält snabbt sätt att bygga en ordlista, som jag trivs
> med.  Det är källkod för mig (= den form jag helst arbetar med).  Jag

Ja, jag jobbade på ungefär samma sätt med min ispell-ordlista för några
år sedan, och visst blir det smidigt att jobba så när man kommer ihåg
de vanligaste flaggorna utantill. Men majoriteten av potentiella
bidragsgivare till en språkdatabas kan inte arbeta på detta sätt.

> tror inte att ett webbgränssnitt kan bli lika snabbt.  Det kan säkert

OK, prova nu på http://217.215.183.103/ att lägga in t.ex. verbet
"expandera" eller adjektivet "galen". Skriv in ordet efter ledtexten
"Ange ord att infoga i databasen", var noga med att klicka i rutan
"Listord", och klicka sedan på "MITT BI..".

Vid klassificeringen, klicka i rätt ordklass och sedan på "MITT BI..".

Vid "Ange böjningsformer", klicka på rätt böjningsmönster, t.ex. "de,t"
eller "(-en)na,et" och slutligen på "MITT BI..".
Man skriver in ordet EN gång, klickar några få gånger och sedan är det
klart. Och man har möjlighet att ge kommentarer  vid varje operation.

> vara ett bra komplement för att rapportera brister och tillägg, men

:-)

Jag föredrar inte heller att jobba via ett webbgränssnitt, men jag tror
att ett webbgränssnitt till XD kan vara mycket mer än "ett br komplement för att
rapportera brister och tillägg".

> seriöst redigeringsarbete görs genom att köra en roman från Projekt
> Runeberg eller ett artikelarkiv från dn.se genom aspell och redigera
> in orden i listan med Emacs.  Då adderar man 3-6 ordstammar per
> minut, med fullständiga böjningsmönster.  I genomsnitt resulterar
> varje ordstam i 4,5 stavningsvarianter, så aspell-listan kan växa med
> 10-30 ord/minut under effektivt arbete.  Min svenska aspell-lista (den

Tja, under en uppbyggnadsfas är detta det snabbaste sättet att bygga på
ordlistan. Men utdatan från aspell kan man mata in direkt till XD med
hjälp av olika funktioner ("batch_insert"). Jag har själv gjort så
för att mata in den gamla ispell-ordlistan i XD.

Återigen, XD tillåter alla möjliga gränssnitt; jag skriver gärna 

> expanderade, som används på susning.nu) är idag 176.000 ord, vilket
> munchlist (ett program som följer med ispell) kan reducera till 38.000
> stammar.  Munchlist hittar dock en del fuskmönster, t.ex. kan den tro
> att en "fors" (vattenfall) är verbet "for" med s-ändelse, och förkorta
> detta till for/s, men det skulle jag inte skriva in i källkoden för
> min ordlista.
> 
> Fortfarande är min version av affixlistan "svenska.aff" inte riktigt
> stabil, och jag gör fortfarande ändringar i den (varvid jag måste
> ändra alla ord i min ordlista som använder de påverkade flaggorna).
> Detta utvecklingsarbete skulle försvåras väsentligt om jag publicerade
> en fryst version av affixlistan, men kanske kunde det vara läge att
> publicera en "beta" som underlag för diskussioner.  Är någon
> intresserad av detta?  Eller är jag den ende som är korkad nog att
> vilja arbeta med ispell?
> 
> 
> -- 
>   Lars Aronsson (sslug@sslug)
>   Aronsson Datateknik - http://aronsson.se/
> 
> 




 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:53
Denne side vedligeholdes af MHonArc .