SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] Korpus teknikker



Bo:

> Hermed fremsendes en rapport som Dorte Haltrup fra
> Center for Sprogteknologi har forfattet.
>
> Det beskrives bl.a. hvordan det edb corpus som denne
> gruppe har indsamlet behandles.

Det lyder som spændende læsning. Jeg vender nok tilbage med
spørgsmål inden længe.

> Jeg har gjort de beskrevne værktøjer (vistnok primært
> perl scripts) tilgængelige på
> cst.dk/sto/corpustool.tar.gz

Fint. Jeg har hentet en kopi, så jeg kan se på dem ved
lejlighed.

> Any, sufficiently satisfying, translation is indistinguishable from magic :-)

:-)

<så gik jeg alligevel igang med at læse rapporten>

Det lyder som nogle nyttige værktøjer.

> [...] Ved at sammenligne listen af kandidater med en
> fuldformsliste sikres at ordet ikke allerede er kodet.

Jeg formoder at en fuldformsliste er en liste med ordene i
alle tænkelige bøjningsformer, uanset om de er set i brug
eller ej.

> [...] Fuldformslisten består af 292.748 ortografisk
> forskellige ordformer,

Det er vist det vi er dovne nok til bare at kalde ordformer.

> hvilket svarer til 37.718 forskellige lemmaer.

Er "lemmaer" det vi kalder "rødder"? Hvad er forskellen?

> Fundet  automatisk:
> Tokens	i alt					449.671
> (filen: linux_korpus)
> Forskellige tokens				 21.750
> Tokens der ikke findes i det gamle edb-korpus	 10.728
> (filen: edb.tok.uni.filt)
> Relevante ordformer blandt tokens		  3.027 
> (filen: edb.tok.uni.filt.numsort)
> Relevante ordformer der ikke er kodet		  2.183
> (filen: ordform.lst.nix)

Det gør jo godt nok arbejdet lidt lettere...

Jacob
-- 
Warning: Dates in calendars are closer than they appear.



 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:52
Denne side vedligeholdes af MHonArc .