天天看点

读《Information Extraction:A Survey》(1)

这两天一直在读关于I.E.的基础性文章,《IE:A Survey》的作者是Sunita Sarawagi,写在2007年,在2008年发表。在写这篇文章的时候,她供职于Indian Institute of Technology。

这是她的介绍主页: http://www.cse.iitb.ac.in/~sunita/.

ABSTRCT

从无结构的文本中自动化得抽取结构信息,已经开启了一条通向查询、组织、数据分析的新道路,实现这一点正是由于IE将冗余的无机构文档整理成为语义清晰的机构化信息而带来的。

INTRODUCTION

1.    IE是这样的一个过程或者处理:将包含诸如实体、实体间关系以及对实体表述的属性的结构化信息从冗余的无结构文档中提取出来。

        IE已经花费了全球各个技术社区多位学者近20年的研究时间。IE最早来源于NLP社区对将名字实体从新闻报道中抽取出来这一挑战的研究和讨论。在研究过程中,不断引入了来自Machine-learning,database,Information retrieve,web,document analysis等领域的技术。IE的影响范围的扩大,得益于以下两个会议:MUC(Message Understanding Conference)、ACE(Automatic Content Extraction)。

2.    IE的技术发展:IE在最初的方法是rule-based with manually coded rules,即依靠手动编写的规则;但由于手动的工作繁琐和单调,于是产生了通过例子自动学习产生规则的算法,即采用了machine-learning的方法,他总体上还是基于规则的,即可称为rule-based with machine-learning;但是当IE系统面对噪音度更大的文档时,有时候会发现规则会很脆弱,因此产生了statistical learning;在statistical learning并存着两条路线,generative model(以HMM作为代表),和Conditional model(以MEMM为代表);随后的statistical learning基本上全部转向了Conditional Random Fields;随后又有来自grammar construction的技术得到了发展。

虽然,随着时间轴的延伸,各种技术方法的发现,并没有一个明显的胜者。rule-based与statistic-based两条路线继续并行发展着。当然,随后又出现了一些混合模型。

3.    应用领域

        a. Enterprise-Application:news tracking、Customer Care(像当当那样)、Data Cleaning、classified Ads。

        b. Personal Information Management。

        c. Web-oriented Application:Citation DB、Opinion DB、Community websites、Comparsion Shopping(这里有deep web的概念,从格式良好的页面中抽取信息并不是这篇报告中的内容之一,哎。。)、Ad Placement on webpages、Structured Web Search(最高境界)。

4.  对IE领域的探索可以从以下几个方面进行:

        a. The type of structure extracted (entities, relationships, lists,tables, attributes, etc.).这里extracted是对structure的修饰,不是说structure extracting。这样就好理解了,指的是我们从哪些无结构文档中抽取哪些东西出来。

        b. The type of unstructured source (short strings or documents,templatized or open-ended).对待抽取文档集合可以按两种方式来分。方式1:按文档的粒度,分为记录与句子、段落与文章;方式2:按文档集合的在格式和风格上的异同性(heterogeneity)来分,分为machine generated pages(由deep web产生的,关于deep web 可以在这里了解http://en.wikipedia.org/wiki/Deep_Web)、半结构的某一主题内的文档、完全开放性质的文档。

        c. The type of input resources available for extraction (structured databases, labeled unstructured data, linguistic tags, etc.).我感觉其实就是在说训练样本。

        d. The method used for extraction (rule-based or statistical, manually coded or trained from examples).

        e. The output of extraction (annotated unstructured text, or a database).

未完,持续。。。。。

文章的下载地址在这里:http://download.csdn.net/source/2517877