天天看点

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

Jsoup

抓取网页后,需要对网页解析,可以使用字符串处理工具解析页面,也可以使用正则表达式

jsoup 的作用:是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据

jsoup的主要功能如下:

1.从一个URL,文件或字符串中解析HTML;

2.使用DOM或CSS选择器来查找、取出数据;

3.可操作HTML元素、属性、文本;

创建练习类

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

解析URL

第一个参数是访问的url,第二个参数是访问的超时时间

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

使用标签选择器,获取title标签中的内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

输出结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

读取文件

准备一个简易的HTML文件

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

获取这个

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

读取文件,获取字符串,代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

使用dom方式遍历文档

解析文件获取document对象

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据id获取,这个是id的内容,我们获取这个内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

编写代码,显示结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据标签获取,我们获取这个标签的内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据class获取,获取内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据属性,属性内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

接下来从元素中获取数据

首先从元素中获取ID

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取className

文本

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

如果内容是两个class

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

那么代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取属性

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

获取元素的所有属性

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取文本内容,这个之前有,代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习
jsoup 获取不到全部html_爬虫学习之Jsoup简单练习