天天看點

提問:Heritrix應用問題

Heritrix應用問題

請教一下大家如何用heritrix抓取以下網站内容,需要定制麼?下面是USPTO的專利網頁:http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&r=0&f=S&l=50&d=PTXT&OS=+%28battery+OR+motor%29+AND+automobile&RS=%28%28battery+OR+motor%29+AND+automobile%29&Query=+%28battery+OR+motor%29+AND+automobile&TD=45309&Srch1=%28%28battery+OR+motor%29+AND+automobile%29&NextList1=Next+50+Hits其中NextList1表示第一個50條資訊的頁面,NextList2,NextList3,以此類推,在這些頁面中點選每條超連結得到的是針對此條專利資訊的具體頁面,那麼現在我如何設定heritrix,可以抓取到每頁50條,一共幾萬條的這些具體專利資訊頁面到本地呢?另外可否抓取的同時将html格式轉換僞txt格式到本地?謝謝高手指點!

歡迎交流:

qq:      173635235

msn:    [email protected]

email:   [email protected]