|
|||||||||||||||||||||||||||
Bo: > Hermed fremsendes en rapport som Dorte Haltrup fra > Center for Sprogteknologi har forfattet. > > Det beskrives bl.a. hvordan det edb corpus som denne > gruppe har indsamlet behandles. Det lyder som spændende læsning. Jeg vender nok tilbage med spørgsmål inden længe. > Jeg har gjort de beskrevne værktøjer (vistnok primært > perl scripts) tilgængelige på > cst.dk/sto/corpustool.tar.gz Fint. Jeg har hentet en kopi, så jeg kan se på dem ved lejlighed. > Any, sufficiently satisfying, translation is indistinguishable from magic :-) :-) <så gik jeg alligevel igang med at læse rapporten> Det lyder som nogle nyttige værktøjer. > [...] Ved at sammenligne listen af kandidater med en > fuldformsliste sikres at ordet ikke allerede er kodet. Jeg formoder at en fuldformsliste er en liste med ordene i alle tænkelige bøjningsformer, uanset om de er set i brug eller ej. > [...] Fuldformslisten består af 292.748 ortografisk > forskellige ordformer, Det er vist det vi er dovne nok til bare at kalde ordformer. > hvilket svarer til 37.718 forskellige lemmaer. Er "lemmaer" det vi kalder "rødder"? Hvad er forskellen? > Fundet automatisk: > Tokens i alt 449.671 > (filen: linux_korpus) > Forskellige tokens 21.750 > Tokens der ikke findes i det gamle edb-korpus 10.728 > (filen: edb.tok.uni.filt) > Relevante ordformer blandt tokens 3.027 > (filen: edb.tok.uni.filt.numsort) > Relevante ordformer der ikke er kodet 2.183 > (filen: ordform.lst.nix) Det gør jo godt nok arbejdet lidt lettere... Jacob -- Warning: Dates in calendars are closer than they appear.
|
||||||||||||||
|
||||||||||||||