网络爬虫(1)

2015-10-02 23:50:00

算法分析

我们现在从需求中提取关键词来逐步分析问题。

首先是“种子节点”。它就是一个或多个在爬虫程序运行前手动给出的URL（网址），爬虫正是下载并解析这些种子URL指向的页面，从中提取出新的URL，然后重复以上的工作，直到达到设定的条件才停止。

最后是“设定的条件”，爬虫程序终止的条件可以根据实际情况灵活设置，比如设定爬取时间，爬取数量，爬行深度等。

到此，我们分析完了爬虫如何开始，怎么运作，如何结束（当然，要实现一个强大，完备的爬虫要考虑的远比这些复杂，这里只是入门分析），下面给出整个运作的流程图：

数据结构分析

根据以上的分析，我们需要用一种数据结构来保存初始的种子URL和解析下载的页面得到的URL，并且我们希望先解析出的URL先执行请求，因此我们用队列来储存URL。因为我们要频繁的添加，取出URL，因此我们采用链式存储。下载的页面解析后直接原封不动的保存到磁盘。

技术分析

所谓网络爬虫，我们当然要访问网络，我们这里使用jsoup，它对http请求和html解析都做了良好的封装，使用起来十分方便。根据数据结构分析，我们用LinkedList实现队列，用来保存未访问的URL，用HashSet来保存访问过的URL（因为我们要大量的判断该URL是否在该集合内，而HashSet用元素的Hash值作为“索引”，查找速度很快）。

代码

以上分析，我们一共要实现2个类：

① JsoupDownloader，该类是对Jsoup做一个简单的封装，方便调用。暴露出以下几个方法：

—public Document downloadPage(String url)；根据url下载页面 —public Set<String> parsePage(Document doc, String regex)；从Document中解析出匹配regex的url。 —public void savePage(Document doc, String saveDir, String saveName, String regex)；保存匹配regex的url对应的Document到指定路径。

② UrlQueue，该类用来保存和获取URL。暴露出以下几个方法：

—public void enQueue(String url)；添加url。 —public String deQueue()；取出url。 —public int getVisitedCount()；获取访问过的url的数量；

注：userRequest\\?userRequest=showNoParticipateTask&taskid=\\d{1,2} 是本地的网站中网页里的地址，当然种子地址也是本地网站！

在请求这个地址后会产生地址重定向，到博客园地址http://www.cnblogs.com/hujunzheng/，并完成相应的下载！

1.这是请求超时的情况

2.正常访问或者重定向访问

网络爬虫(1)

继续阅读

nginx location中斜线的位置的重要性

XX系统实施过程问题总结

nginx 安装错误信息解决

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method