天天看點

手機app資料爬取難度等級評估

一般來說網絡資料爬取有兩個來源,一個是網頁,另一個是移動終端(手機app);随着移動終端的普及和推廣,更多的使用者甚至已經放棄了網頁的通路,是以爬取移動端的資料更為合适。

但是,爬取移動端app資料具有不同的難度等級;與網頁相比,移動端app可以針對自身的請求資料進行特殊的加工處理,有些資料并不是很透明。

難度評估:

*:

此類app沒有進行特殊的防護,可以直接在網頁通路app中請求的url

困難點:無

**:

此類app使用的cookie和session等技術,對資料的請求需要cookie等資訊

困難點:

1、請求頭需要附帶cookie值

***:

此類app在發起請求時,在headers中添加md5驗證字段,該字段對請求的url的參數進行特殊的處理然後進行hash;如果想爬這類app,需要對app進行反向編譯,經過大量的代碼閱讀,分析該app的hash算法和參數拼接;

困難點:

1、反編譯

2、Android代碼的閱讀能力

3、花費大量時間和精力也不一定能找到,這是最蛋疼的。。。。

****:

此類app對請求發起url請求,背景收到請求後在傳回的資料中,針對有效資料進行加密,是以在用抓包工具進行分析時,無法看到具體的資料;如果想爬取這類app,隻能先去反編譯,然後分析出如何對請求資料加密的算法,隻有完成了算法的破解才能進行資料的分析。

困難點:

1、無法通過抓包工具對所需資料進行分析

2、反編譯

3、Android代碼的閱讀能力,尋找加密資料的算法

3、花費大量時間和精力也不一定能找到,這是最蛋疼的。。。。