Java爬虫之学习篇 Jsoup爬取页面

不知不觉在这个爬虫行业工作半年多了。在网上看到的java文章大多都是比较简单的一个例子。

没有太多系统的总结的专栏,既然没有的话,我就自己写一个吧。不足之处希望大家,多多指点.

此篇主要内容: jsoup的使用, 对不同数据类型抓取. 对数据的抽取：

开始前，先介绍下Jsoup。

Jsoup是java的一个开源，可以来模拟浏览器来获取网页数据的框架。也就是可以实现爬虫的功能，知道这个就行了。有兴趣深入的小伙伴。可以观看下面官方文档。

jsoup官方的文档：https://www.open-open.com/jsoup/ 这是一篇中文官方的文档。

下面开始介绍Jsoup: 按功能分类的话：Josup可以分为两类：抓取数据，数据抽取。下面就这两个功能开始详细说明。

抓取数据：从页面中将数据爬下来。

抓取数据的一些前期准备工作：

一、fiddler抓包工具

官网下载地址：http://www.telerik.com/fiddler

这种需要抓包工具,抓取参数。向大家推荐fiddler.上网有许多大佬，写了很详细的介绍，我就不献丑了。就推荐一篇

fiddler使用介绍：https://www.cnblogs.com/ink-marks/p/6363275.html

二、jar包的下载(之后再补充吧)

下面进入主题,开始爬数据了。

首先:爬数据之前，我们应该知道，想要爬取的网站是以什么向服务器发出的请求，返回的数据又是什么格式。知道这些，后面就可以想套公示一样去解析该网站。

浏览器向服务器端请求的方式，大多分为post与get。而返回的数据类型，一般为html与json两种格式。(目前我只碰到这些)

所以组合一下，网站大致可以为4种爬取数据的类型，本文针对这4种数据类型分别说明

get请求,返回html格式的数据.的情况

Document doc = Jsoup.connect(url)   //url 是浏览器地址栏的连接,直接放入就可以了
			 .timeout(1000*10)      //访问时长的设置
			 .get();		       //get请求

post请求,返回html格式的数据.的情况

post请求则需要抓包工具,来帮助我们,来获得传递的参数了

get请求,返回json格式的数据.的情况

post请求,返回json格式的数据.的情况

之后补充,再将4个demo 的例子传上来.

数据抽取基本上从上述官方文档中获取的。

一、使用dom方法来遍历一个Document对象

Java爬虫之学习篇 Jsoup爬取页面

官方的文档：https://www.open-open.com/jsoup/dom-navigation.htm 类似js的一些使用

二、选择器

jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.

这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。

Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。

Selector选择器概述

tagname: 通过标签查找元素，比如：a
ns|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 <fb:name> 元素
#id: 通过ID查找元素，比如：#logo
.class: 通过class名称查找元素，比如：.masthead
[attribute]: 利用属性查找元素，比如：[href]
[^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素
[attr=value]: 利用属性值来查找元素，比如：[width=500]
[attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/]
[attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]
*: 这个符号将匹配所有元素

Selector选择器组合使用

el#id: 元素+ID，比如： div#logo
el.class: 元素+class，比如： div.masthead
el[attr]: 元素+class，比如： a[href]
任意组合，比如：a[href].highlight
ancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素
parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素
siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + div
siblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ p
el, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo

伪选择器selectors

:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素
:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素
:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素
:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素
:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup)
:containsOwn(text): 查找直接包含给定文本的元素
:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login)
:matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素

三、元素抽取属性，文本和HTML

方法

要取得一个属性的值，可以使用Node.attr(String key) 方法

对于一个元素中的文本，可以使用Element.text()方法

对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法

示例：

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
 Element link = doc.select("a").first();//查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml(); 
// "<a href="http://example.com" target="_blank" rel="external nofollow" ><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

说明

上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：

Element.id()
Element.tagName()
Element.className() and Element.hasClass(String className)

Java爬虫之学习篇 Jsoup爬取页面

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method