天天看点

Java裸写爬虫技术,运用多线程技术,高效爬取某个医疗机构网站数据

最近喜欢上了数据的庞大的感觉,就爬取了一下某个医疗机构网站医疗数据,由于数据量庞大,只爬取了江西省的各个市的各个医院的各个科室的各个科室。中各种信息。其中用的持久层技术是hibernate框架,和用到一些ioc技术。话不多说,上图。

Java裸写爬虫技术,运用多线程技术,高效爬取某个医疗机构网站数据

结构很简单,但是代码量有一点,在这个程序中,只开了12个线程,爬取过程并未出现什么异常。

在之前测试全国数据的时候,开了36个线程,出现了一些事务异常,可能会出现幻读,现象。

t_city:

Java裸写爬虫技术,运用多线程技术,高效爬取某个医疗机构网站数据

 t_department:

Java裸写爬虫技术,运用多线程技术,高效爬取某个医疗机构网站数据

t_hospital

Java裸写爬虫技术,运用多线程技术,高效爬取某个医疗机构网站数据

还有省份