|
|||||||||||||||||||||||||||
Bo:
> Der er ikke tilfældigvis nogen der ligger inde med et
> script som (måske ved hjælp af lynx?) tømmer et helt
> site for ord?
Jeg troede jeg havde et, men jeg kan ikke finde det. I
stedet får du en løs skitse.
1) Husk at tjekke /robots.txt for forbudte dele af
webstedet.
2) Hold styr på URL'erne med to filer:
* én med alle de læste sider
* én med alle observerede URL'er (både læste og ulæste
sider)
3) `egrep '[ 0-9][ 0-9][ 0-9][ 0-9][.] http:'` fanger
URL'erne sidst i udskriften.
4) `lynx -dump -nolist ${URL}` skriver teksten ud uden
URL'er og uden URL-numre i teksten.
5) `sleep 2` holder to sekunders pause.
Jacob
--
Growing older is compulsory. Growing up isn't.
|
||||||||||||||
|
||||||||||||||