文章目錄
- 三行代碼爬取京東資料
-
- python學習
- 關于資料
- 關于代碼
三行代碼爬取京東資料
潦潦草草
python學習
-
了解python爬蟲
python程式裡,爬取網絡資料的蟲子叫爬蟲,它的實質是模拟浏覽器的工作原理,向伺服器請求相應的資料。
-
浏覽器的工作原理
浏覽器向伺服器發送請求,伺服器給予浏覽器相應的響應,然後浏覽器翻譯解析才讓我們看到了真正的界面。
-
爬蟲的工作原理
python向京東的伺服器發送請求,伺服器給予python相應的響應,然後python提取想要的資料。
關于資料
-
所找的商品銷售資料
通過評論資料間接得到鞋子的銷售資料
-
尋找評論區内容背後的URL(網址)
a. 滑鼠右擊選擇檢查,或者f12,打開程式員調試視窗,點選network
b. 重新整理目前頁面
c. 複制一小段評論區内容,粘貼到程式員調試視窗内搜尋框
d. 點選重新整理
e. 點選查詢結果跳到對應請求
f. 點選Headers, 找到Resquest URL即是評論區資料背後的URL
關于代碼
引入python工具包requests
使用工具包中get方法,向伺服器發起請求
列印輸出請求回來的資料(print)即可
舉例:爬取一頁京東上銷量較高的口紅評論區資料
import requests
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(resp.text)