——————————————————————
最新更新
2019-09-02 文書網已改版,本文已經失效
——————————————————————
本次腳本運作環境:
python 3.X 運作py環境
Node.js(V8) execjs依賴
DBUtils 多線程資料庫連接配接
pymysql 資料存儲
redis ip緩存
裁判文書資料擷取
本腳本釋出日期為2019年5月20日,距釋出日期,該腳本依舊能運作成功
一開始運作的時候提示報錯很正常,因為伺服器有時傳回的資料存在問題,這個事情的發生前提和ip有關,也和對方伺服器有關。隻要能運作出正常資料即可。
PS:本腳本僅供學習使用,請勿作用于任何商業用途發生任何事情,與本人無關。
再PS:若對你有幫助,請不要吝啬你的star,靴靴
本腳本的邏輯結構為
1:生成需要擷取的時間範圍
2:根據時間範圍list,和所有省份清單,開始進行接口請求,擷取中級法院清單
3:根據中級法院清單裡當天的文書數量,進行二次判斷,是否需要進行基層法院清單擷取
4:根據cpws.js和第一次請求傳回的參數,進行加密參數擷取,并請求
5:根據傳回的doc_id,使用docid.js進行文書id解密,并進行通路
6:截取内容json,擷取指定資料,存入mysql
7:根據清單資料數量,進行翻頁請求
ps1:腳本中有注釋,請自行觀看
ps2:清單加密參數會與請求的ip進行綁定,需注意
ps3:2019-05-13至2019-05-17期間,出現詳細内容檢視失敗,伺服器報錯的情況,并伴随多次搜尋提示:伺服器繁忙。大機率是請求過多導緻。請控制自己的行為
ps4:如果使用者需要大量資料,請聯系本人,别去霍霍這個網站了,作者君看的都心疼了。
ps5:資料量較大,若存儲空間較小,請做好長字段的資料緩存。(10W條資料 = 1G)
ps6:1996~2013資料量較少
ps7:會使用大量IP,請使用者自行斟酌。
github:項目位址删除,這小夥子們一點數都沒有。