天天看點

Python爬蟲:爬取手機App資料,記得安裝配置Charles

目錄

  • Python爬蟲
    • 配置Charles
      • 設定手機代理伺服器
      • 安裝證書
        • 安裝PC證書
        • 安裝Android手機證書

對于現在的爬蟲程式來說,PC端網頁資料往往并不理想。比如就拿CSDN來說,一篇文章是否上熱榜其根據的是App端資料,并不是PC端網頁資料。

這也是時代的進步,從PC端到移動端,而且還有像小紅書一樣的App,其根本不提供PC端網頁,隻有App,要爬取這些資料,普通的Python爬蟲肯定已經淘汰。

是以,我們需要借助Charles來抓取手機的HTTP與HTTPS資料包。盡然要通過Charles軟體來抓取,我們首先要做的就是安裝它。下載下傳位址如下:

https://www.charlesproxy.com/latest-release/download.do
           

然後點選對應的作業系統進行下載下傳即可。

安裝完成之後,我們并不能直接擷取App端的資料。因為你的手機互動并不會發送資料到Charles軟體。是以,我們需要一系列的設定。

首先,我們運作Charles軟體,選擇Proxy-Proxy Settrings。在彈出的對話框之中設定如下資訊:

接着,我們需要進入手機的WIFI中,設定連接配接的代理伺服器。你需要檢視的電腦安裝Charles軟體的區域網路IP,同時設定成剛才的8888接口。

Python爬蟲:爬取手機App資料,記得安裝配置Charles

當這些步驟完成之後,你的手機打開任何一個進行網絡互動的App都能捕獲其網絡請求,比如部落客這裡打開的微網誌,效果如下:

Python爬蟲:爬取手機App資料,記得安裝配置Charles

不過,因為微網誌資料并不是HTTP請求,而是HTTPS請求,所有,我們需要安裝證書後才能進行解析操作。具體的步驟如下:

想通過Charles軟體監聽HTTPS資料,必須在PC端與手機端同時安裝相應的證書。

在PC端安裝的步驟:Charles軟體-Help-SSL Proxying-Install Charles Root Certificate,效果圖如下所示:

Python爬蟲:爬取手機App資料,記得安裝配置Charles
Python爬蟲:爬取手機App資料,記得安裝配置Charles

接着,點選安裝證書,然後點選選擇本地計算機,最後選擇首信任的裝置即可完成安裝,具體步驟如下:

Python爬蟲:爬取手機App資料,記得安裝配置Charles

到這裡,我們電腦端的證書就已經安裝完成。

接着,我們需要安裝Android手機證書,具體步驟如下:

首先,在浏覽器中輸入http://chls.pro/ssl,或預設下載下傳手機證書,你選擇下載下傳位置,然後導入到手機即可。

Python爬蟲:爬取手機App資料,記得安裝配置Charles

接着,我們在Android的設定中搜尋證書,然後點選安裝證書,在檔案夾中找到對應的證書進行安裝即可。

Python爬蟲:爬取手機App資料,記得安裝配置Charles

到這裡,我們就可以擷取到真實的資訊了,再也不是unknown。但是,并不是到這裡我們就可以擷取真實的資訊,因為現在顯示的有可能是亂碼。

我們需要前往Proxy – > SSL Proxying Aetting – > 在SSL Proxying 标簽下勾選Enable SSL P roxying,然後Add 添加Location資訊,如下所示: