天天看點

Java裸寫爬蟲技術,運用多線程技術,高效爬取某個醫療機構網站資料

最近喜歡上了資料的龐大的感覺,就爬取了一下某個醫療機構網站醫療資料,由于資料量龐大,隻爬取了江西省的各個市的各個醫院的各個科室的各個科室。中各種資訊。其中用的持久層技術是hibernate架構,和用到一些ioc技術。話不多說,上圖。

Java裸寫爬蟲技術,運用多線程技術,高效爬取某個醫療機構網站資料

結構很簡單,但是代碼量有一點,在這個程式中,隻開了12個線程,爬取過程并未出現什麼異常。

在之前測試全國資料的時候,開了36個線程,出現了一些事務異常,可能會出現幻讀,現象。

t_city:

Java裸寫爬蟲技術,運用多線程技術,高效爬取某個醫療機構網站資料

 t_department:

Java裸寫爬蟲技術,運用多線程技術,高效爬取某個醫療機構網站資料

t_hospital

Java裸寫爬蟲技術,運用多線程技術,高效爬取某個醫療機構網站資料

還有省份