Fiddler + JSoup 爬取现代汉语语料库数据Fidder获取链接信息JSoup处理运行结果

2017-08-03 17:16:02

爬虫中常用JSoup处理Html，对于类似百度这样的搜索引擎，则需要配合fiddler使用，步骤如下

在IE浏览器中打开http://www.cncorpus.org/CnCindex.aspx，使用fiddler抓取，如下图

双击fidder中的捕获链接，获取整个连接信息

然后在http://www.cncorpus.org/CnCindex.aspx

后加入捕获的链接信息

即

同理也可以获取下一页链接

这里需要注意的是，下一页链接需要填入查询页cookie

代码如下

使用的时候，调用getCookie(findUrl)即可，其中findUrl是查找页url

思路是把链接保存到Html中，然后通过JSoup解析

这里需要的包是jsoup-1.8.1.jar

保存需要下边两个工具类

主程序如下，由于网址限制短时间访问次数，写一个定时器，每隔20s爬取一次，代码如下

抓取的html在htmlfind和htmlnext文件夹下，结果保存在result.txt中