天天看點

微信公衆号的文章爬取有三種方式

a. 通過微信訂閱号在釋出文章,可以查找公衆号的文章,方式見微信連結。,閱讀數、點贊數、評論數仍無法抓取。

b. 通過搜狗微信搜尋微信公衆号,但是文章篇幅仍然後有限制,點贊、閱讀數、和評論數無法抓取。

c. 通過“中間人方式”對資料進行攔截,過濾解析後進行抓取。

這裡就時利用第三種c方式對資料進行抓取。

思路:

1. 安裝代理AnProxy,在手機端安裝CA憑證,啟動代理,設定手機代理;

2. 擷取目标微信公衆号的__biz;

3. 進入微信公衆号的曆史頁面;

4. 使用Monkeyrunner控制滑屏;擷取更多的曆史消息;

5. 記錄文章标題,摘要,建立時間,創作類型,位址等等;

6. 文章清單擷取完成後,利用Monkeyrunner進入文章的清單,

7. 記錄文章的閱讀數,點贊數,評論數等;

8. 重複以上操作。