Hadoop筆記之十七——爬蟲架構scrapy實際案例（爬取安卓版QQ閱讀）

2023-03-08 07:24:20

話不多說，我們的目的：使用scrapy爬取安卓版QQ閱讀所有的小說（隻是小說的基本資訊，小說内容是不要想的、千萬不要想……）

環境準備

安卓收集模拟器：夜神模拟器

安卓手機抓包工具：fiddler

代碼運作環境： python3.6

存儲資料庫： postgreSQL。

大體思路

本來想詳細的寫一寫過程步驟，但是懶癌來了怎麼都攔不住。下面可以給大家一個，每一步驟的具體操作網上都有，不難也不難了解，我會上傳一份可用的自己寫好的QQ閱讀的scrapy代碼，直通車——。

（1）準備好postgreSQL資料庫，設定可遠端連接配接。

（2）夜神模拟器安裝QQ閱讀。

（3）通過fiddler監聽夜神模拟器發出的所有請求。

需要注意的是：fiddler預設不監聽https的請求，我們需要在它的設定裡面取設定，并且要在被監聽的模拟器裡面安裝信任安全證書。

（4）分析QQ閱讀的請求，找到我們需要的資料接口并分析其Json規則。

QQ閱讀APP的規則并不難找，隻能上面的監聽成功了。我們就可以在QQ閱讀的全部分類裡面，先爬取到所有的分類，然後對每一個分類分别爬取其下所有的小說，具體規則如下：

1、大類别（男女、出版、漫畫、聽書）下的小類别：https://androidtgw.reader.qq.com/v7_0_5/queryOperation?categoryFlag=1

（categoryFlag 1—5代表五種大類别，傳回資料種actionId為小類别Id）

2、小類别下小說清單（舉例男生—玄幻）：http://rec.reader.qq.com/v7_0_5/listDispatch?actionTag=,-1,-1,-1,-1,101&actionId=20001&action=categoryV3&pagestamp=1 （pagestamp為分頁辨別）

3、某一小說（舉例男生-玄幻，男生-奇幻，女生-言情）：

奇幻：

https://androidtgw.reader.qq.com/v7_0_5/nativepage/book/detail?pagestamp=1&alg=67.1.11&dataType=cate_id&data_type=0&fromPage=&origin=20005&bid=25297287

言情：https://androidtgw.reader.qq.com/v7_0_5/nativepage/book/detail?bid=25054827&pagestamp=1&alg=67.1.11&dataType=cate_id&data_type=0&fromPage=&origin=30013

（bid為書籍辨別，actionId為小類别id，pagestamp為分頁辨別）

（5）搭建scrapy架構，根據上面得到的規則編寫代碼，進行資料的爬取。

這裡需要注意的地方是我們爬取一些（有反爬蟲的）網站的時候要麼使用個代理ip池、要麼設定個爬取延時，不然這些網站可能會封掉我們的ip，不過QQ閱讀還是沒有的，至少沒有封掉我……

Hadoop筆記之十七——爬蟲架構scrapy實際案例（爬取安卓版QQ閱讀）

環境準備

大體思路

繼續閱讀

hadoop--環境搭建--域名解析失敗

Hadoop--mkdir: Call From Linux01/192.168.1.3 to Linux01:9000 failed on connection exception

Hadoop--java.net.BindException: Problem binding to [0.0.0.0:50010] java.net.BindException: 位址已在使用;

Hadoop筆記之十一——Flume安裝及簡單執行個體

Storm API (二)

Hadoop生态圈（十六）- HDFS Snapshot快照詳解前言1. Snapshot快照

MapReduce架構原理之Shuffle機制前言一、Partiton分區二、WritableComparable排序三、Combiner合并 <b,1> <b,1>==<b,2> 四、GroupingComparator分組（輔助排序）

使用eclipse視圖操作HDFS的操作流程

大資料學習[05]:Spark高可用配置安裝

HDFS和Hive是如何映射的Hive一條Select語句，底層是如何讀取HDFS檔案的？

大資料學習[01]:zookeeper環境配置

了解Spark之一——stage劃分

zookeeper中的四種節點(永久、臨時、臨時序列化、永久序列化)Zookeeper中的四種節點類型

日常工作之Zabbix源碼編譯，相容mysql5.6原文連結：http://www.leleblog.top/daily/more?id=6Zabbix源碼編譯

工作日常之微信助手itchat

MapReduce之Shuffle機制