HTMLParser的HasAttributeFilter过滤方式分析网页

2023-05-05 03:54:17

HTMLParser 在分析网页的时候有两种方式，一种是Visitor方式另外一种是Filter方式。

在这里我们看看使用filter分析网页信息的方法。

使用Filter方式访问网页，目的就是提取网页上的节点。在这里我们就可以使用HasAttributeFilter来进行分析。例如，我们要在百度上查询www.javaeerun.com的收录情况，那么根据上一篇文章简单收录查询工具的原理我们知道了要访问的URL和需要获取的节点，那么接下来就以此为例。

有这么几步是固定的：

Parser parser = new Parser((HttpURLConnection) new URL(url).openConnection());

NodeFilter filter = new HasAttributeFilter(attrName, attrValue);

NodeList nodeList = parser.extractAllNodesThatMatch(filter);

这样我们就已经获得了具有attrName=attrValue的NodeList了，接下来就是对Node的处理了

代码如下：

package com.javaeerun.demo.HTMLparserdemo.filter;
 
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
 
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
 
public class HasAttributeFilterDemo {
    public static void main(String[] args) {
        try {
            Parser parser = new Parser(
                    (HttpURLConnection) new URL("http://www.baidu.com/s?"
                            + "wd=site%3Awww.javaeerun.com").
                            openConnection());
            parser.setEncoding("GBK");
            NodeFilter filter = new HasAttributeFilter("class", "nums");
            NodeList nodeList = parser.extractAllNodesThatMatch(filter);
 
            if (nodeList != null && nodeList.size() > 0) {
                Node node = nodeList.elementAt(0);
                // 获取class="nums"的span
                System.out.println(node.toHtml());
                NodeList nl = node.getChildren();
                Node textNode = nl.elementAt(0);
                // 获取Text节点
                System.out.println(textNode.getText());
 
            }
        } catch (ParserException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
}

这样，我们就获得了这样的结果：

百度为您找到相关结果N个

这里的N是数字，具有xxx,xxx,xxx的格式。我们要做的处理就是把这个字符串当中非数字部分全部去掉然后拼接起来就可以了，这里就不做演示了。

本文转自JAVAEERun.com 转载请注明

HTMLParser的HasAttributeFilter过滤方式分析网页

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method