python中的pyquery子產品文法與jquery相近,可用來解析html檔案。官方文檔位址: 。通過html中的标簽、id、給定的索引等來擷取元素,使得解析html檔案極為友善。
右鍵chrome中的審查元素,觀察到主演的标簽為<a href="/celebrity/1005773/" rel="v:starring">

為找出主演,需要把帶有rel="v:starring"的所有a标簽找出來
得到結果
爬蟲功能:将樓主的所發内容儲存在本地txt檔案中。
分析頁面位址:隻看樓首頁面是貼子位址後加“?see_lz=1”,到第二頁時,頁面再加上“&pn=2”。分析頁面元素:樓主所發内容正規表達式為id="post_content.*?>(.*?)
純python版的百度貼吧爬蟲(參看)