天天看点

信息抽取(Information Extraction)是什么

本文参考了Mayank Kejriwal的新著《Domain-Specific Knowledge Graph Construction》(2019年)

写在前面

        这篇文章主要简单地介绍了针对知识图谱的信息抽取。文章由两个部分组成,第一个部分为简介,第二个部分讲了现在(2019年)信息抽取主要面临的问题。

信息抽取(Information Extraction)是什么

一、简介

        信息抽取(information extraction,简称IE)是知识图谱(knowledge graph,简称KG)构建流程中的一个基础部分。信息抽取,顾名思义,就是从原始数据(通常是文档或者网页)当中抽取有用的信息。我们有很多标准来判断信息是否有用,但其中最重要的一个标准就是这些信息可以被计算机查询,或者被推理出来。

        IE在自然语言处理当中被认为是一个早期难题,原因就是计算机不擅长理解自然语言。就算是技术发展迅猛的今天,计算机也不能像人类一样理解语言。

        所以,IE的目的主要是从自然语言的文本中抽取关键的信息,比如实体(entities)、关系(relations)、事件(events)和属性(attributes)。

        Web的发展让IE变得更加有趣(复杂?)了,因为虽然网页在视觉上对人来说越来越容易阅读,但是它们的原始HTML文件含有越来越多其他元素,比如表(tables)、列表(lists)、连接(links)、图片(images),甚至是动态的内容,如JavaScript程序。

        IE在实际应用中是一个非常广泛的概念,而且也不存在一个IE系统可以从文本里抽取出所有的实体和关系。通常,IE系统都受限于它底层的ontology,但是近年来出现了Open IE的概念,也就是可以不受限于ontology地抽取信息。

        在过去几十年中,IE中有很多技术被广泛应用,包括经典的规则基础(rule-based)方法和相对比较新的序列标记(sequence labeling)方法(如Conditional Random Fields,简称CRFs),还有更前沿的深度神经网络(deep neural networks)方法。接下来我们首先要讲一讲为什么IE是一个很难的任务。

二、IE面临的挑战

        AI的研究人员已经探索了IE好几十年,但是仍未解决所有问题。这里我们要讲一讲影响IE在现实世界(real-world)数据集上表现的一些原因。主要有以下三点:

        首先,最先进的IE系统都倾向于使用监督机器学习(supervised machine learning)。监督机器学习的成功取决于已经标记了的训练数据(labeled training data)。标记数据是一项艰苦耗时的劳动,而且不能被有效地扩展。

        有的时候,标记了的数据能够成为强有力的竞争优势,所以被严密保护起来,尤其是在商业界。

        有学会制定了训练和评价IE算法的基准,可是只有一部分IE任务得到了好的支持。而且随着IE任务的增加,以及新的数据集出现,之前的标注数据集变得不那么有用了。

        第二,在进行特定领域(knowledge-specific)的KG构建时,IE将碰到一些额外的挑战。因为大部分使用机器学习的IE都是被Wikipedia或者谷歌新闻等内容广泛的语料库所优化的,所以当需要使用的数据与这些语料库不一样的时候,问题就出现了。这时候我们需要一些特殊的技术来提升IE的效果。

        有一个棘手的问题就是:如何建立一个高质量的IE系统,而不用标注大量的数据?反过来讲,如何有效利用那些未标注的数据?有相关研究一直在解决这个问题,我们今后也会提到。

        第三,格式的不同和原始数据的异质性会导致大家分享研究结果时遇到问题。我们要从HTML网页,还是从纯文本中提取信息?如果从HTML网页提取,那里面有很多表格等元素吗?在使用IE之前先选取需要的部分也是一个挑战。

下一篇文章是《信息抽取(Information Extraction)涵盖了哪些内容?》

里面将会讲到信息抽取的范围是什么,它到底包含哪些任务,敬请期待~

本人也在边总结这本书边学习知识图谱,如果有错误还请指正^_^

这一系列文章主要是提取一些最最最关键内容,想仔细阅读的朋友们还请移步原书哟~

(last but not least:转载请注明出处)

继续阅读