天天看点

【Python】网络爬虫(一):pyquery一瞥1.pyquery简介2.实例

python中的pyquery模块语法与jquery相近,可用来解析html文件。官方文档地址: 。通过html中的标签、id、给定的索引等来获取元素,使得解析html文件极为方便。

右键chrome中的审查元素,观察到主演的标签为<a href="/celebrity/1005773/" rel="v:starring">

【Python】网络爬虫(一):pyquery一瞥1.pyquery简介2.实例

为找出主演,需要把带有rel="v:starring"的所有a标签找出来

得到结果

【Python】网络爬虫(一):pyquery一瞥1.pyquery简介2.实例

爬虫功能:将楼主的所发内容保存在本地txt文件中。

分析页面地址:只看楼主页面是贴子地址后加“?see_lz=1”,到第二页时,页面再加上“&pn=2”。分析页面元素:楼主所发内容正则表达式为id="post_content.*?>(.*?)

【Python】网络爬虫(一):pyquery一瞥1.pyquery简介2.实例

纯python版的百度贴吧爬虫(参看)