天天看點

【最新2020.3】小紅書資料采集 APP 爬蟲 入門【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)

這裡寫自定義目錄标題

  • 【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)
    • 關于抓包工具
    • Xposted架構+Justtrustme
    • 愉快抓包

【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)

百度直接搜小紅書爬蟲,出來的文章都是一兩年前的了,甚至還有web版本的(小紅書web隻能顯示20條)。花了5天時間研究app爬蟲内容,整合到此,以小紅書為案例與大家分享中間經過的坑。【最新可操作方式】

關于抓包工具

常用的抓包工具有好多種,可百度搜尋抓包工具自行挑選:

主要介紹Flidder,适用安卓和Web抓包。怎麼下載下傳和前期調試請參考:

fiddler下載下傳及配參

注意:按步驟一步一步走哈。配置好後fiddler最好重新開機一次

坑1:選擇Decrypt HTPS traffic後,電腦有可能無法連接配接網絡。取消這個勾就可以,手機抓包不影響,且抓包一定要開,否則HTTPS抓不到]

【最新2020.3】小紅書資料采集 APP 爬蟲 入門【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)

坑2:手機證書無法下載下傳

手動下載下傳手機證書

Xposted架構+Justtrustme

Fiddler安裝好了以後,正常的手機網頁和小型APP(活動行)是可以直接抓包的,但會有亂碼或不完整。但是小紅書,抖音,淘寶,微信這些是無法抓取的。原因是fiddler的證書是不受這些APP信任的。我們需要繞過這些ssl證書綁定。

解決方案:Xposted架構+Justtrustme

Xposted有多厲害自己可以百度查一下,基本上在安卓系統就是上帝純在了。唯一一點不好就是需要手機root權限開放。

給個建議:不是專業刷機的同學有三種解決方案,

1、某寶服務專業root+Xp架構安裝。半張毛爺爺就能解決(建議系統刷7.0以下)

2、模拟器+Xposted架構

3、virtualXpost+Xposted.apk

我是哪一種,你猜一下。再次強調不是專業刷機!千萬别自己來!裡面坑太大。。。會磚的。

Xposted架構成功後,點選直接下載下傳Justtrustme

安裝JustTrustMe

安裝完成後打開子產品選項(圖檔來源見水印~)

【最新2020.3】小紅書資料采集 APP 爬蟲 入門【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)

坑1:道理上可以抓小紅書了,但有可能出現下載下傳完成後小紅書無法連接配接網絡的問題。前提是WIFI沒問題

解決方法:

1.系統等級太高,删除架構後是否可以聯網,不行就重刷系統(我的系統8.0躺坑)

2.Xposted架構與系統不比對,重刷Xposted架構

3.莫名的原因。比如我小紅書可以,抖音不行。自行解決吧

愉快抓包

走到這一步,收獲第一階段的勝利。打開Fiddler,如下圖:

【最新2020.3】小紅書資料采集 APP 爬蟲 入門【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)
【最新2020.3】小紅書資料采集 APP 爬蟲 入門【最新2020.3】小紅書資料采集 APP 爬蟲 入門 (1)

#接下來更新PYTHON爬取篇