天天看點

三行代碼爬取京東資料三行代碼爬取京東資料

文章目錄

  • 三行代碼爬取京東資料
    • python學習
    • 關于資料
    • 關于代碼

三行代碼爬取京東資料

潦潦草草

python學習

  1. 了解python爬蟲

    python程式裡,爬取網絡資料的蟲子叫爬蟲,它的實質是模拟浏覽器的工作原理,向伺服器請求相應的資料。

  2. 浏覽器的工作原理

    浏覽器向伺服器發送請求,伺服器給予浏覽器相應的響應,然後浏覽器翻譯解析才讓我們看到了真正的界面。

  3. 爬蟲的工作原理

    python向京東的伺服器發送請求,伺服器給予python相應的響應,然後python提取想要的資料。

關于資料

  1. 所找的商品銷售資料

    通過評論資料間接得到鞋子的銷售資料

  2. 尋找評論區内容背後的URL(網址)

    a. 滑鼠右擊選擇檢查,或者f12,打開程式員調試視窗,點選network

    b. 重新整理目前頁面

    c. 複制一小段評論區内容,粘貼到程式員調試視窗内搜尋框

    d. 點選重新整理

    e. 點選查詢結果跳到對應請求

    f. 點選Headers, 找到Resquest URL即是評論區資料背後的URL

關于代碼

引入python工具包requests

使用工具包中get方法,向伺服器發起請求

列印輸出請求回來的資料(print)即可

舉例:爬取一頁京東上銷量較高的口紅評論區資料

import requests
resp = requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100006262957&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1')
print(resp.text)