使用 jsoup 爬取数据

1、因为工作安排，临时让我这从没摸过爬虫的人爬数据，过程吧，还算可以，网上开源的有，加上伟大的群友的帮忙，算是出了一版运行结果正确的爬虫，现在记录下，有什么隐患，欢迎广大同行批评指正。

2、代码结构：

使用 jsoup 爬取数据

如上图，结构很简单，引用了jsoup jar包，Rule类具体的爬虫代码，Air类是要获取的页面数据实体类。

3、代码：

Air.java:

package com.zyy.splider.rule;

public class Air {

String indexNo ;//序号

String city;//城市

String date; //日期

String aqi; //AQI指数

String level;//空气质量级别

String prev;//首要污染物

public Air(

String indexNo,

String city,

String date,

String aqi,

String level,

String prev){

this.indexNo = indexNo;

this.city = city;

this.date = date;

this.aqi = aqi;

this.level = level;

this.prev = prev;

}

public String getIndexNo() {

return indexNo;

}

public void setIndexNo(String indexNo) {

this.indexNo = indexNo;

}

public String getCity() {

return city;

}

public void setCity(String city) {

this.city = city;

}

public String getDate() {

return date;

}

public void setDate(String date) {

this.date = date;

}

public String getAqi() {

return aqi;

}

public void setAqi(String aqi) {

this.aqi = aqi;

}

public String getLevel() {

return level;

}

public void setLevel(String level) {

this.level = level;

}

public String getPrev() {

return prev;

}

public void setPrev(String prev) {

this.prev = prev;

}

Rule.java

package com.zyy.splider.rule;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class Rule {

public static void main(String[] args) throws Exception {

crawler();

}

//爬取

public static void crawler() throws Exception{

List<Air> cityInfo = new ArrayList<Air>();

int index = 1;

int line = 1;

for(int i = 1;i < 14;i ++){

System.out.println("==================================================" + i);

String root_url="http://datacenter.mep.gov.cn/report/air_daily/air_dairy.jsp?page=" + i;

Document document=Jsoup.connect(root_url).timeout(3000000).get();

System.out.println("*****************************************");

Elements links=document.getElementsByClass("report1_5");

//Elements links = document.select("#report1 .report1_5");

String indexNo = null ;//序号

String city = null;//城市

String date = null; //日期

String aqi = null; //AQI指数

String level = null;//空气质量级别

String prev;//首要污染物

for(Element link:links){

System.out.println( link.text());

if(index % 6 == 1){//序号

//air.setIndexNo(link.text()) ;

indexNo = link.text();

}else if(index % 6 == 2){//城市

//air.setCity(link.text());

city = link.text();

}else if(index % 6 == 3){ //日期

//air.setDate(link.text());

date = link.text();

}else if(index % 6 == 4){ //AQI指数

//air.setAqi(link.text());

aqi = link.text();

}else if(index % 6 == 5){ //空气质量级别

//air.setLevel(link.text());

level = link.text();

}else if(index % 6 == 0){ //首要污染物

//air.setPrev(link.text());

prev= link.text();

//将air信息保存到cityInfo列表

cityInfo.add(new Air(indexNo, city, date, aqi, level, prev));

line ++;//表示一行结束，行号+1

}

index ++;

}

//打印cityInfo中的信息

for(int i = 0;i < cityInfo.size();i ++){

System.out.println("第" + i + "条数据--------------------------------->");

System.out.println("序号：" + cityInfo.get(i).getIndexNo());

System.out.println("城市：" + cityInfo.get(i).getCity());

System.out.println("日期：" + cityInfo.get(i).getDate());

System.out.println("AQI指数：" + cityInfo.get(i).getAqi());

System.out.println("空气质量级别：" + cityInfo.get(i).getLevel());

System.out.println("首要污染物：" + cityInfo.get(i).getPrev());

}

4、也不知道这算不算一个爬虫程序，反正要的数据算是都有了，代码很简单，运行测试真心痛苦，因为有分页，每页显示条数还是网站定死的，所以只能连发13个请求获取每页的数据，可能因为那个网站属于政府的网站，速度慢到死，，这里简单记录下，希望这是第一次也是最后一次爬网站。。。。。。

原文链接：https://blog.csdn.net/weixin_33912638/article/details/93714073

使用 jsoup 爬取数据

继续阅读

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

sort()函数到底是怎样进行数字排序的

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method