天天看点

《Python自然语言处理》——1.6 小结

本节书摘来自异步社区《python自然语言处理》一书中的第1章,第1.6节,作者[美]steven bird,ewan klein,edward loper, 陈涛,张旭,崔杨,刘海平 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

在python中,文本用链表来表示:['monty', 'python']。我们可以使用索引、分片和len()函数对链表进行操作。

词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一个特定序列字母的唯一形式。我们使用len(text)表示计数词的标识符,使用len(set(text))表示计数词的类型。

我们使用sorted(set(t))获得文本t的词汇表。

我们使用[f(x) for x in text]对文本的每一项目进行操作。

为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用set([w.lower() for w in text if w.isalpha()])。

我们使用for语句对文本中的每个词进行处理,例如for win t:或者for word in text:。后面必须跟冒号和在每次循环都被执行的缩进代码。

我们使用if语句测试一个条件:if len(word)<5:。后面必须跟冒号和仅当条件为真时执行的缩进代码。

频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。

函数是指定了名字并且可以重用的代码块。函数通过def关键字定义,例如在def mult(x, y)中x和y是函数的参数,起到实际数据值占位符的作用。

函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3, 4)或者len(text1)。