天天看点

Java使用Jsoup爬虫获取网站内容(二)Jsoup介绍Jsoup

Jsoup

Jsoup是可以对获取到的html页面和URL地址进行解析,并且可以通过DOM,CSS的方式以及类似于jQuery的方式来操作数据的Java的html解析器。

Jsoup也可以用于操作HTML的元素 和 属性。

方法介绍

Jsoup可以通过设置URL和超时时间的方式对指定地址进行解析,并获得一个Document对象。也可以通过文件的形式和编码方式对文档文件进行解析

1.通过地址和超时时间进行解析

public static Document parse(URL url, int timeoutMillis) throws IOException {
        Connection con = HttpConnection.connect(url);
        con.timeout(timeoutMillis);
        return con.get();
    }
           

2.通过文件和编码格式进行解析

public static Document parse(File in, String charsetName) throws IOException {
        return DataUtil.load(in, charsetName, in.getAbsolutePath());
    }
           

继续阅读