天天看点

自然语言处理NLP基本知识小结

1.什么是NLP? 

人与人、人与计算机交互中的语言问题。 

能力模型,通常是基于语言学规则的模型,建立在人脑中先天存在语法通则这一假设的基础上,认为语言是人脑的语言能力推导出来的,建立语言模型就是通过建立人工编辑的语言规则集来模拟这种先天的语言能力。又称“理性主义的”语言模型。 

应用模型,根据不同的语言处理应用而建立的特定语言模型,通常是基于统计的模型。又称“经验主义的”语言模型,使用大规模真实语料库中获得语言各级语言单位上的统计信息,依据较低级语言单位上的统计信息运用相关的统计推理技术计算较高级语言单位上的统计信息

2、分词 

词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 

中文分词技术可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 

http://www.cnblogs.com/flish/archive/2011/08/08/2131031.html

3、词性标注 

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%准确率的中文词性标注程序。利用HMM即可实现更高准确率的词性标注 

http://blog.csdn.net/truong/article/details/18847549

4、命名实体识别 

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 

(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他) 

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具。

基于规则和词典的方法( MUC-6 会议中几乎所有参赛成员都采用基于规则的方法),该方法需要专家制定规则,准确率较高,但依赖于特征领域,可移植性差; 

基于统计的方法,主要采用 HMM 、 MEMM 、 CRF, 难点在于特征选择上,该方法能获得好的鲁棒性和灵活性,不需太多的人工干预和领域限制,但需要大量的标注集。 

混合方法,采用规则与统计相结合,多种统计方法相结合等,是目前主流的方法。 

特征:上下文信息+构词法

5、指代消解 

指代是一种常见的语言现象,一般情况下,指代分为2种:回指和共指。 

回指是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性和非传递性; 

共指主要是指2个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。 

目前指代消解研究主要侧重于等价关系,只考虑2个词或短语是否指示现实世界中同一实体的问题,即共指消解。

中文的指代主要有3种典型的形式: 

(1)人称代词(pronoun),例如:李明 怕高妈妈一人呆在家 

里寂寞,他 便将家里的电视搬了过来。 

(2)指示代词(demonstrative),例如:很多人都想留下什么给孩子,这 可以理解,但不完全正确。 

(3)有定描述(definite description),例如:,贸易制裁已经成为了美国政府对华的惯用大棒,这根 大棒 真如美国政府所希望的那样灵验吗?

6、文本分类 

一个文本(以下基本不区分“文本”和“文档”两个词的含义) 分类问题就是将 

一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。

7、问答系统 

问答系统(Question Answering System, QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。 

依据问题类型可分为:限定域和开放域两种,依据数据类型可分为:结构型和无结构型(文本),依据答案类型可分为:抽取式和产生式两种。 

问句分析-》文档检索-》答案抽取(验证)

---------------------

作者:默一鸣

来源:CSDN

原文:https://blog.csdn.net/yimingsilence/article/details/54934516

版权声明:本文为博主原创文章,转载请附上博文链接!

继续阅读