動态資料采集

2021-09-10 23:50:00

動态加載

需求：爬取豆瓣網中的電影詳情資料，
- url： https://movie.douban.com/typerank?type_name=%E7%A7%91%E5%B9%BB&type=17&interval_id=100:90&action=
- 涉及到終點：動态加載資料
分析網站：
- 當滾輪滑動到底部的時候，頁面會發起ajax請求，且請求到一組電影詳情資料。
- 當滾輪不滑動的時候，頁面顯示的電影資料，通過對浏覽器位址欄的url發起請求是請求不到的。
動态加載的資料
- 可見非即可得
- 概念：通過非浏覽器位址欄url請求到的資料（另外的一個新的請求請求到的資料）
- 當我們對一個陌生的網站進行指定資料爬取之前，我們在寫代碼之前必須要做的一個事情就是校驗你想要爬取的資料是否為動态加載的資料
  - 是動态加載的資料
    - 基于抓包工具進行全局搜尋，鎖定動态加載資料對應的資料包即可。從資料包中提取請求的url和請求方式和請求參數。
  - 不是動态加載的資料
    - 直接對位址欄的url發起請求就可以擷取指定資料

import requests

url = 'https://movie.douban.com/j/chart/top_list'
#參數動态化
params = {
    "type": "17",
    "interval_id": "100:90",
    "action": "",
    "start": "20",
    "limit": "10",
}
response = requests.get(url=url,headers=headers,params=params)
page_text = response.json() #json傳回的是序列号好的對象
#将電影名稱和評分進行解析
for dic in page_text:
    name = dic['title']
    score = dic['score']
    print(name+':'+score)

問題：如何檢測頁面中的資料是否為動态加載的資料？
- 基于抓包工具進行局部搜尋
  - 搜尋到：不是動态加載資料
  - 搜尋不到：是動态加載資料
肯德基餐廳查詢： http://www.kfc.com.cn/kfccda/storelist/index.aspx
分析：
- 資料為動态加載資料
- 通過抓包工具的全局搜尋捕獲動态加載資料

import requests

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
data = {
    "cname": "",
    "pid": "",
    "keyword": "北京",
    "pageIndex": "1",
    "pageSize": "10",
}
#參數：data是用來實作參數動态化，等同于get方法中的params參數的作用
response = requests.post(url=url,headers=headers,data=data)
page_text = response.json()
for dic in page_text['Table1']:
    pos = dic['addressDetail']
    print(pos)

 import requests

#想要擷取所有頁碼對應的位置資訊
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
for pageNum in range(1,8):
    data = {
        "cname": "",
        "pid": "",
        "keyword": "北京",
        "pageIndex": str(pageNum),
        "pageSize": "10",
    }
    #參數：data是用來實作參數動态化，等同于get方法中的params參數的作用
    response = requests.post(url=url,headers=headers,data=data)
    page_text = response.json()
    for dic in page_text['Table1']:
        pos = dic['addressDetail']
        print(pos)

動态資料采集

動态加載

繼續閱讀

windows10 64bit + Anaconda + python3.5 安裝xgboost的一種簡單方法

資料挖掘-歸一化

Anaconda：Matpotlib工具安裝

anaconda安裝及使用小技巧anaconda使用小技巧

Anaconda環境配置

一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）一、Python資料挖掘（環境篇——Anaconda與Jupyter Notebook）

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

2018年不想被web前端開發淘汰，你需要掌握哪些技術？

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

用Matlab搞計算機視覺是怎樣的體驗？

在weka中內建自己的算法