天天看點

《NLTK基礎教程——用NLTK和Python庫建構機器學習應用》——2.6 詞形還原

本節書摘來異步社群《nltk基礎教程——用nltk和python庫建構機器學習應用》一書中的第2章,第2.6節,作者:nitin hardeniya,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

詞形還原(lemmatization)是一種更條理化的方法,它涵蓋了詞根所有的文法和變化形式。詞形還原操作會利用上下文語境和詞性來确定相關單詞的變化形式,并運用不同的标準化規則,根據詞性來擷取相關的詞根(也叫lemma)。

在這裡,wordnetlemmatizer使用了wordnet,它會針對某個單詞去搜尋wordnet這個語義字典。另外,它還用到了變形分析,以便直切詞根并搜尋到特殊的詞形(即這個單詞的相關變化)。是以在我們的例子中,通過ate這個變量是有可能會得到eat這個單詞的,而這是詞幹提取操作無法做到的事情。

現在你能解釋詞幹提取與詞性還原之間的差別了嗎?

現在你能為自己的母語設計一個porter詞幹提取器(基于規則)了嗎?

為什麼對于中文這樣的語言來說,詞幹提取器是很難實作的?