python中的pyquery模块语法与jquery相近,可用来解析html文件。官方文档地址: 。通过html中的标签、id、给定的索引等来获取元素,使得解析html文件极为方便。
右键chrome中的审查元素,观察到主演的标签为<a href="/celebrity/1005773/" rel="v:starring">

为找出主演,需要把带有rel="v:starring"的所有a标签找出来
得到结果
爬虫功能:将楼主的所发内容保存在本地txt文件中。
分析页面地址:只看楼主页面是贴子地址后加“?see_lz=1”,到第二页时,页面再加上“&pn=2”。分析页面元素:楼主所发内容正则表达式为id="post_content.*?>(.*?)
纯python版的百度贴吧爬虫(参看)