天天看点

手机app数据爬取难度等级评估

一般来说网络数据爬取有两个来源,一个是网页,另一个是移动终端(手机app);随着移动终端的普及和推广,更多的用户甚至已经放弃了网页的访问,因此爬取移动端的数据更为合适。

但是,爬取移动端app数据具有不同的难度等级;与网页相比,移动端app可以针对自身的请求数据进行特殊的加工处理,有些数据并不是很透明。

难度评估:

*:

此类app没有进行特殊的防护,可以直接在网页访问app中请求的url

困难点:无

**:

此类app使用的cookie和session等技术,对数据的请求需要cookie等信息

困难点:

1、请求头需要附带cookie值

***:

此类app在发起请求时,在headers中添加md5验证字段,该字段对请求的url的参数进行特殊的处理然后进行hash;如果想爬这类app,需要对app进行反向编译,经过大量的代码阅读,分析该app的hash算法和参数拼接;

困难点:

1、反编译

2、Android代码的阅读能力

3、花费大量时间和精力也不一定能找到,这是最蛋疼的。。。。

****:

此类app对请求发起url请求,后台收到请求后在返回的数据中,针对有效数据进行加密,所以在用抓包工具进行分析时,无法看到具体的数据;如果想爬取这类app,只能先去反编译,然后分析出如何对请求数据加密的算法,只有完成了算法的破解才能进行数据的分析。

困难点:

1、无法通过抓包工具对所需数据进行分析

2、反编译

3、Android代码的阅读能力,寻找加密数据的算法

3、花费大量时间和精力也不一定能找到,这是最蛋疼的。。。。