天天看点

网络爬虫(heritrix)

预期目的:从社交网络上挖掘出有用的信息

基本预期是采用下面文档提供的方法尝试,heritrix+html paser

http://wenku.baidu.com/view/fd31cbee5ef7ba0d4a733ba6.html

1.以前装过java sdk,重装系统后得重新安装,配置时遇到了些不明白的问题,下面的文章讲的很清楚

http://wenku.baidu.com/view/0569c21755270722192ef768.html

2.安装使用heritrix,参考下面的网址

http://wenku.baidu.com/view/4e604c1efc4ffe473368ab08.html?from=related&hasrec=1

下载后里面含有heritrix的使用手册和开发手册。应该是以使用为主。研究中……

3.比较相关的文章,人人网的网络爬虫

http://blog.csdn.net/yahohi/article/details/6114194