爬虫、网页爬取Jsoup

2023-07-18 10:30:34

Jsoup存在的时间已经很长，历史可以追溯到2010年的青葱岁月。说起来，那时的java工程师们还是神一般的存在，那会我们自己搞工具，自己搞框架，唯独缺少了开源精神。好些比较好用的工具都湮灭在原公司的资料库中。

Jsoup这个工具的活跃度还不错，对有一定开发经验的人来说，入门还是很容易的。它对前端的css选择器知识有一定要求，这个网上搜索一下，很快也就掌握了。

下面我爬取了中工网的一些信息，作为测试。

Document page_entrance= Jsoup.connect("http://www.workercn.cn/xuexi/").timeout(30000).get();
            Element nav=page_entrance.getElementById("nav");
            Elements a_targets=nav.select("a");
            hrefs=a_targets.eachAttr("href");

有一点，不够人性化的设计是，对于404或者503这类的响应码，Jsoup都是通过异常的形式抛出，再编码的时候，异常的捕获需要着重处理。

try {
                    content_list = Jsoup.connect(cur_href).timeout(30000).get();
                } catch (HttpStatusException e){
                    int code=e.getStatusCode();
                    writer.write(code+"_[ "+cur_href+" ]\r\n");
                }catch (ConnectException e){
                    writer.write("链接异常_[ "+cur_href+" ]\r\n");
                }catch (SocketTimeoutException e){
                    writer.write("访问超时_[ "+cur_href+" ]\r\n");
                }catch (Exception e){
                    writer.write(e.getMessage());
                }

通过异常捕获记录一些信息，比如，检测网站上的无效链接。

另外，还有一点值得注意。借用Jsoup与某些接口进行交互时，post请求很多时候需要忽略内容类型，否则可能出现UnsupportedMimeTypeException.下面是在某功能中使用Jsoup 向百度站长进行链接提交的实现。

Document document=Jsoup.connect("http://data.zz.baidu.com/urls?site=www.workercn.cn&token=*********").ignoreContentType(true).requestBody(toBd.toString()).header("Content-Type", "application/json").post();
                        System.out.println(document.body());

在请求体的时候，可以参考如下：

//构造字符串，以\r\n进行不同链接的间隔区分
 toBd.append(toBidu.get(i)+"\r\n");

爬虫、网页爬取Jsoup

继续阅读

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

sort()函数到底是怎样进行数字排序的

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method