《NLTK基礎教程——用NLTK和Python庫建構機器學習應用》——2.2　文本清理

2021-11-08 08:56:27

本節書摘來異步社群《nltk基礎教程——用nltk和python庫建構機器學習應用》一書中的第2章，第2.2節，作者：nitin hardeniya，更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

一旦我們将各種資料源解析成了文本形式，接下來所要面臨的挑戰就是要使這些原生資料展現出它們的意義。文本清理就泛指針對文本所做的絕大部厘清理、與相關資料源的依賴關系、性能的解析和外部噪聲等。從這個意義上來說，這些工作和我們在第1章——自然語言處理簡介中調用html_clean()對html文檔進行清理的工作是一樣的。當然還有其他情況，如果我們要解析pdf檔案，可能就需要清理掉一些不必要的幹擾字元，移除非ascii 字元等。總之在繼續下一步驟之前，我們需要做一些清理以獲得一個可以被進一步處理的幹淨文本。而對于像xml這樣的資料源，我們可能就隻需要關注一些特定的樹元素即可。對于資料庫，我們則有各種可操作的分離器，而且有時我們也隻需要關注一些特定的列。總而言之，對于所有緻力于淨化文本、清理掉文本周圍所有可能幹擾的工作，我們稱之為文本清理。資料再加工（data munging）、文本清理與資料歧義這幾個術語之間并沒有清晰的界限，它們在類似的語境中可以互相交替使用。在接下來的幾節中，我們将會具體讨論一些在任何nlp任務中都極為常見的預處理步驟。

《NLTK基礎教程——用NLTK和Python庫建構機器學習應用》——2.2　文本清理

繼續閱讀

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

《NLTK基礎教程——用NLTK和Python庫建構機器學習應用》——2.2 文本清理

繼續閱讀

《NLTK基礎教程——用NLTK和Python庫建構機器學習應用》——2.2　文本清理