基于行块分布函数的正文抽取

2013-12-31 11:30:00

如果无法FQ获取最新版：

百度网盘下载：（各种语言版本及算法说明）

链接：http://pan.baidu.com/s/1c0ImY7e 密码：tcr6

基于行块分布函数的正文抽取算法思路：
1、预处理：剔除网页HTML标签，去掉所有的空白符（\n,\r,\t等）；
2、依据"\n"分行，若某文字行的上下存在两个空行，且此文字行长度小于阈值40，则删除此文字行；
3、设定三行为一行块，计算每段行块的长度；
4、找出每个连续有字符的段落，并找到起点和终点；
          要求：行块长度大于0（段落开始），且随后连续行块长度大于0，直到行块长度为0（即段落结束）
5、如果两块段落只差两个空行，并且两块包含文字均较多，则进行段落合并；
6、找出最长段落，如果长度小于100，则推出提供的网页为非主体性网页；否则，最长段落即为正文；

性能分析：

通过在线性时间内建立的行块分布函数图，直接准确定位网页正文。同时采用了统计与规则相结合的方法来处理通用性问题。

哈工大基于行块分布函数的正文抽取算法实现：

基于行块分布函数的正文抽取

继续阅读

HDU 5724 Chess

ZOJ 3911 Prime Query

HUST 1606 Naive

01-HTML

Apache common 包 StringUtils 关于isEmpty与isBlank的使用区别

PAT (Advanced Level) Practise 1078 Hashing (25)

ZOJ 3888 Twelves Monkeys

HDU 4196 Remoteland

HDU 5327 Olympiad

golang学习笔记-pprof性能分析1

【性能分析工具 linux 环境安装】yum install sysbench时报错“No package sysbench available.”问题：解决方法&步骤：

bzoj-1003 物流运输

自动驾驶Nvidia Jetson +FPGA设计方案

《MySQL技术内幕 InnoDB存储引擎第2版》

HUST 1374 Just Another Game

【转载】性能测试知多少---性能分析与调优的原理