JAVA中使用Htmlparse解析HTML文档

2021-11-06 21:01:03

import java.util.hashmap;

import java.util.map;

import org.htmlparser.node;

import org.htmlparser.nodefilter;

import org.htmlparser.parser;

import org.htmlparser.tags.linktag;

import org.htmlparser.util.nodelist;

import com.yao.http.httprequester;

import com.yao.http.httprespons;

/**

* java中使用htmlparse解析html文档，使用htmlparse遍历出html文档的所有超链接（<a>标记）。

* @author yymmiinngg

public class test {

public static void main(string[] args) {

try {

/* 首先我们先使用httprequester类和httprespons类获得一个http请求中的数据（html文档）。可以从(http://download.csdn.net/source/321516)中下载htmlloader，该库中有上述类；或从我的《java发送http请求，返回http响应内容，实例及应用》一文中摘取上述两java类的代码。htmlparse可以从(http://download.csdn.net/source/321507)中下载

map<string, string> map = new hashmap<string, string>();

httprequester request = new httprequester();

httprespons hr = request.sendget("http://www.baidu.com");

parser parser = parser.createparser(hr.getcontent(), hr

.getcontentencoding());

try {

// 通过过滤器过滤出<a>标签

nodelist nodelist = parser

.extractallnodesthatmatch(new nodefilter() {

//实现该方法,用以过滤标签

public boolean accept(node node) {

if (node instanceof linktag)//<a>标记

return true;

return false;

}

});

// 打印

for (int i = 0; i < nodelist.size(); i++) {

linktag n = (linktag) nodelist.elementat(i);

system.out.print(n.getstringtext() + " ==>> ");

system.out.println(n.extractlink());

}

} catch (exception e) {

e.printstacktrace();

}

} catch (exception e) {

e.printstacktrace();

}

JAVA中使用Htmlparse解析HTML文档

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method