本節書摘來異步社群《nltk基礎教程——用nltk和python庫建構機器學習應用》一書中的第2章,第2.2節,作者:nitin hardeniya,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
一旦我們将各種資料源解析成了文本形式,接下來所要面臨的挑戰就是要使這些原生資料展現出它們的意義。文本清理就泛指針對文本所做的絕大部厘清理、與相關資料源的依賴關系、性能的解析和外部噪聲等。從這個意義上來說,這些工作和我們在第1章——自然語言處理簡介中調用html_clean()對html文檔進行清理的工作是一樣的。當然還有其他情況,如果我們要解析pdf檔案,可能就需要清理掉一些不必要的幹擾字元,移除非ascii 字元等。總之在繼續下一步驟之前,我們需要做一些清理以獲得一個可以被進一步處理的幹淨文本。而對于像xml這樣的資料源,我們可能就隻需要關注一些特定的樹元素即可。對于資料庫,我們則有各種可操作的分離器,而且有時我們也隻需要關注一些特定的列。總而言之,對于所有緻力于淨化文本、清理掉文本周圍所有可能幹擾的工作,我們稱之為文本清理。資料再加工(data munging)、文本清理與資料歧義這幾個術語之間并沒有清晰的界限,它們在類似的語境中可以互相交替使用。在接下來的幾節中,我們将會具體讨論一些在任何nlp任務中都極為常見的預處理步驟。