天天看點

裁判文書網爬蟲

——————————————————————

最新更新

2019-09-02 文書網已改版,本文已經失效

——————————————————————

本次腳本運作環境:

python 3.X 運作py環境

Node.js(V8) execjs依賴

DBUtils 多線程資料庫連接配接

pymysql 資料存儲

redis ip緩存

裁判文書資料擷取

本腳本釋出日期為2019年5月20日,距釋出日期,該腳本依舊能運作成功

一開始運作的時候提示報錯很正常,因為伺服器有時傳回的資料存在問題,這個事情的發生前提和ip有關,也和對方伺服器有關。隻要能運作出正常資料即可。

PS:本腳本僅供學習使用,請勿作用于任何商業用途發生任何事情,與本人無關。

再PS:若對你有幫助,請不要吝啬你的star,靴靴

本腳本的邏輯結構為

1:生成需要擷取的時間範圍

2:根據時間範圍list,和所有省份清單,開始進行接口請求,擷取中級法院清單

3:根據中級法院清單裡當天的文書數量,進行二次判斷,是否需要進行基層法院清單擷取

4:根據cpws.js和第一次請求傳回的參數,進行加密參數擷取,并請求

5:根據傳回的doc_id,使用docid.js進行文書id解密,并進行通路

6:截取内容json,擷取指定資料,存入mysql

7:根據清單資料數量,進行翻頁請求

ps1:腳本中有注釋,請自行觀看

ps2:清單加密參數會與請求的ip進行綁定,需注意

ps3:2019-05-13至2019-05-17期間,出現詳細内容檢視失敗,伺服器報錯的情況,并伴随多次搜尋提示:伺服器繁忙。大機率是請求過多導緻。請控制自己的行為

ps4:如果使用者需要大量資料,請聯系本人,别去霍霍這個網站了,作者君看的都心疼了。

ps5:資料量較大,若存儲空間較小,請做好長字段的資料緩存。(10W條資料 = 1G)

ps6:1996~2013資料量較少

ps7:會使用大量IP,請使用者自行斟酌。

github:項目位址删除,這小夥子們一點數都沒有。