SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] Webskanning



> Der er nu en ny udgave på adressen:
> 
>    http://hugin.ldraw.org/temp/gafl_tekst_fra_websted-20010313.tar.gz
> 
> Jacob

Den virker fint.
Jeg har testet den på miljøministeriets hjemmeside www.mst.dk og efterprocesseret 
lidt på det resultatet og smidt det på:

http://192.38.108.132/bop/environliste1.txt

Processeringen er foretaget nogenlunde som følger:

./gafl www.mst.dk da - 1 > result

./newtok <result > result.tok

cat result.tok | tr [:upper:] [:lower:] | sort | uniq > environ

diff -u parole environ | grep "^+" | cut -c2- | grep [:alpha:] > environliste1.txt


Kommentarer:

1. Tokeniseringen er ikke helt optimal, der er stadig få rester af diverse tegn og 
paranteser.

2. Ordlisten er ikke superinteressant som "miljø korpus" fordi der er for mange 
almindelige ord i den (vores parole korpus er ikke stort nok), men også en masse 
"offentlig sektor" ord...

3. Måden jeg gør det på ovenfor forhindrer mig i i første omgang at frasortere 
lavfrekvente ord idet jeg smider frekvensinformationen væk med uniq.

/Bo


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:52
Denne side vedligeholdes af MHonArc .