爬虫中常用JSoup处理Html,对于类似百度这样的搜索引擎,则需要配合fiddler使用,步骤如下
在IE浏览器中打开http://www.cncorpus.org/CnCindex.aspx,使用fiddler抓取,如下图

双击fidder中的捕获链接,获取整个连接信息
然后在http://www.cncorpus.org/CnCindex.aspx
后加入捕获的链接信息
即
同理也可以获取下一页链接
这里需要注意的是,下一页链接需要填入查询页cookie
代码如下
使用的时候,调用getCookie(findUrl)即可,其中findUrl是查找页url
思路是把链接保存到Html中,然后通过JSoup解析
这里需要的包是jsoup-1.8.1.jar
保存需要下边两个工具类
主程序如下,由于网址限制短时间访问次数,写一个定时器,每隔20s爬取一次,代码如下
抓取的html在htmlfind和htmlnext文件夹下,结果保存在result.txt中