SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] Webskanning



Bo:

> Der er ikke tilfældigvis nogen der ligger inde med et
> script som (måske ved hjælp af lynx?) tømmer et helt
> site for ord?

Jeg troede jeg havde et, men jeg kan ikke finde det. I
stedet får du en løs skitse.

 1) Husk at tjekke /robots.txt for forbudte dele af
    webstedet.
 2) Hold styr på URL'erne med to filer:
     * én med alle de læste sider
     * én med alle observerede URL'er (både læste og ulæste
       sider)
 3) `egrep '[ 0-9][ 0-9][ 0-9][ 0-9][.] http:'` fanger
    URL'erne sidst i udskriften.
 4) `lynx -dump -nolist ${URL}` skriver teksten ud uden
    URL'er og uden URL-numre i teksten.
 5) `sleep 2` holder to sekunders pause.

Jacob
-- 
Growing older is compulsory. Growing up isn't.



 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:52
Denne side vedligeholdes af MHonArc .