裁判文書網爬蟲

2023-03-08 06:41:23

——————————————————————

最新更新

2019-09-02 文書網已改版，本文已經失效

——————————————————————

本次腳本運作環境：

python 3.X 運作py環境

Node.js(V8) execjs依賴

DBUtils 多線程資料庫連接配接

pymysql 資料存儲

redis ip緩存

裁判文書資料擷取

本腳本釋出日期為2019年5月20日，距釋出日期，該腳本依舊能運作成功

一開始運作的時候提示報錯很正常，因為伺服器有時傳回的資料存在問題，這個事情的發生前提和ip有關，也和對方伺服器有關。隻要能運作出正常資料即可。

PS：本腳本僅供學習使用，請勿作用于任何商業用途發生任何事情，與本人無關。

再PS：若對你有幫助，請不要吝啬你的star,靴靴

本腳本的邏輯結構為

1：生成需要擷取的時間範圍

2：根據時間範圍list，和所有省份清單，開始進行接口請求，擷取中級法院清單

3：根據中級法院清單裡當天的文書數量，進行二次判斷，是否需要進行基層法院清單擷取

4：根據cpws.js和第一次請求傳回的參數，進行加密參數擷取，并請求

5：根據傳回的doc_id,使用docid.js進行文書id解密，并進行通路

6：截取内容json，擷取指定資料，存入mysql

7：根據清單資料數量，進行翻頁請求

ps1:腳本中有注釋，請自行觀看

ps2:清單加密參數會與請求的ip進行綁定，需注意

ps3:2019-05-13至2019-05-17期間，出現詳細内容檢視失敗，伺服器報錯的情況，并伴随多次搜尋提示：伺服器繁忙。大機率是請求過多導緻。請控制自己的行為

ps4:如果使用者需要大量資料，請聯系本人，别去霍霍這個網站了，作者君看的都心疼了。

ps5:資料量較大，若存儲空間較小，請做好長字段的資料緩存。（10W條資料 = 1G）

ps6:1996~2013資料量較少

ps7:會使用大量IP，請使用者自行斟酌。

github:項目位址删除，這小夥子們一點數都沒有。

裁判文書網爬蟲

繼續閱讀

Day17面向對象作業

day8學習筆記（元組和字典）元組和字典

python的判斷語句及循環語句

Python自學記錄——循環語句

簡單的爬蟲----爬取百度百科練習

python之程序_線程_協程總結

---初識python---Python

Django入門：第一個Django應用

Django項目建立之---Models（三）

python學習 Day03

變态又實用的Python學習路線，就問你學不學？

ubuntu 安裝librosa的時候出現No matching distribution found for pytest-runner解決方法參考文獻

幾點有關java以及Python學習

Python學習日記（四）

Python基礎入門（中）--阿裡雲天池龍珠計劃python訓練營一、學習内容概況二、具體學習内容

兩種url轉向的執行個體