天天看点

《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.8 罕见词移除

本节书摘来异步社区《nltk基础教程——用nltk和python库构建机器学习应用》一书中的第2章,第2.8节,作者:nitin hardeniya,更多章节内容可以访问云栖社区“异步社区”公众号查看。

这是一个非常直观的操作,因为该操作针对的单词都有很强的唯一性,如说名称、品牌、产品名称、某些噪音性字符(例如html代码的左缩进)等。这些词汇也都需要根据不同的nlp任务来进行清除。例如对于文本分类问题来说,对名词的使用执行预测是个很坏的想法,即使这些词汇在预测中有明确的意义。我们会在后面的章节进一步讨论这个问题。总而言之,我们绝对不希望看到所有噪音性质的分词出现。为此,我们通常会为单词设置一个标准长度,那些太短或太长的单词将会被移除: