本節書摘來異步社群《nltk基礎教程——用nltk和python庫建構機器學習應用》一書中的第2章,作者:nitin hardeniya,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
nltk基礎教程——用nltk和python庫建構機器學習應用
在上一章中,我們為python以及nltk庫的學習開了一個不錯的頭,帶你初步了解了一下如何針對一些文本資料進行一些有意義的eda。我們用非常粗糙和簡單的方式将預處理部分的所有工作都做了一遍。在本章,我們将具體來讨論辨別化處理、詞幹提取、詞形還原(lemmatization)以及停用詞移除等這些預處理步驟。這些話題将會涉及nltk中所有用于處理文本歧義的工具。屆時,我們将會讨論現代nlp應用中會用到的所有預處理步驟,以及實作其中某些任務的不同方法,并說明我們通常該做什麼、不該做什麼。總而言之,我們會為你提供關于這些工具的足夠資訊,以便你可以自行決定在自己的應用程式中使用怎麼樣的預處理工具。我們希望讀者在閱讀完本章之後,可以掌握以下内容。
所有與資料歧義相關的情況,并能運用nltk處理它們。
文本清理的重要性以及我們可以用nltk實作什麼樣的常見任務。