《Python自然语言处理》——1.6　小结

2021-11-08 08:15:38

本节书摘来自异步社区《python自然语言处理》一书中的第1章，第1.6节，作者[美]steven bird,ewan klein,edward loper，陈涛,张旭,崔杨,刘海平译，更多章节内容可以访问云栖社区“异步社区”公众号查看。

在python中，文本用链表来表示：['monty', 'python']。我们可以使用索引、分片和len()函数对链表进行操作。

词“token”（标识符）是指文本中给定词的特定出现；词“type”（类型）则是指词作为一个特定序列字母的唯一形式。我们使用len(text)表示计数词的标识符，使用len(set(text))表示计数词的类型。

我们使用sorted(set(t))获得文本t的词汇表。

我们使用[f(x) for x in text]对文本的每一项目进行操作。

为了获得没有大小写区分和忽略标点符号的词汇表，我们可以使用set([w.lower() for w in text if w.isalpha()])。

我们使用for语句对文本中的每个词进行处理，例如for win t:或者for word in text:。后面必须跟冒号和在每次循环都被执行的缩进代码。

我们使用if语句测试一个条件：if len(word)<5:。后面必须跟冒号和仅当条件为真时执行的缩进代码。

频率分布是项目连同它们的频率计数的集合（例如：一个文本中的词与它们出现的频率）。

函数是指定了名字并且可以重用的代码块。函数通过def关键字定义，例如在def mult(x, y)中x和y是函数的参数，起到实际数据值占位符的作用。

函数是通过指定它的名字及一个或多个放在括号里的实参来调用，就像这样：mult(3, 4)或者len(text1)。

继续阅读