天天看点

Fiddler + JSoup 爬取现代汉语语料库数据Fidder获取链接信息JSoup处理运行结果

爬虫中常用JSoup处理Html,对于类似百度这样的搜索引擎,则需要配合fiddler使用,步骤如下

在IE浏览器中打开http://www.cncorpus.org/CnCindex.aspx,使用fiddler抓取,如下图

Fiddler + JSoup 爬取现代汉语语料库数据Fidder获取链接信息JSoup处理运行结果

双击fidder中的捕获链接,获取整个连接信息

然后在http://www.cncorpus.org/CnCindex.aspx

后加入捕获的链接信息

同理也可以获取下一页链接

这里需要注意的是,下一页链接需要填入查询页cookie

代码如下

使用的时候,调用getCookie(findUrl)即可,其中findUrl是查找页url

思路是把链接保存到Html中,然后通过JSoup解析

这里需要的包是jsoup-1.8.1.jar

保存需要下边两个工具类

主程序如下,由于网址限制短时间访问次数,写一个定时器,每隔20s爬取一次,代码如下

抓取的html在htmlfind和htmlnext文件夹下,结果保存在result.txt中

Fiddler + JSoup 爬取现代汉语语料库数据Fidder获取链接信息JSoup处理运行结果