jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

2023-07-18 02:42:47

Jsoup

抓取网页后，需要对网页解析，可以使用字符串处理工具解析页面，也可以使用正则表达式

jsoup 的作用：是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据

jsoup的主要功能如下：

1.从一个URL，文件或字符串中解析HTML；

2.使用DOM或CSS选择器来查找、取出数据；

3.可操作HTML元素、属性、文本；

创建练习类

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

解析URL

第一个参数是访问的url，第二个参数是访问的超时时间

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

使用标签选择器，获取title标签中的内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

输出结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

读取文件

准备一个简易的HTML文件

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

获取这个

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

读取文件，获取字符串，代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

使用dom方式遍历文档

解析文件获取document对象

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据id获取，这个是id的内容，我们获取这个内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

编写代码，显示结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据标签获取，我们获取这个标签的内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据class获取，获取内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

依据属性，属性内容

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

接下来从元素中获取数据

首先从元素中获取ID

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取className

文本

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

如果内容是两个class

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

那么代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取属性

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

获取元素的所有属性

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

代码及结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

从元素中获取文本内容，这个之前有，代码和结果

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

jsoup 获取不到全部html_爬虫学习之Jsoup简单练习

jsoup 获取不到全部html

上一篇: 没看完这篇文章，别说你会用Ping

下一篇: Java 基础——垃圾回收器与内存分配策略

继续阅读

jsoup 获取不到全部html_爬虫学习之Jsoup练习
jsoup 获取不到全部html
05-04