天天看點

NLP的python包:pattern.en簡介和安裝詞性編碼對照表定冠詞和不定冠詞

來自于對 原文 的中文重新解釋,希望能友善更多人。本身不是搞NLP的,但是需要用一些工具,有些了解和翻譯可能不準确,可以在評論裡指出,我修改。

簡介和安裝

pattern.en 是一個基于python的自然語言處理工具包,en代表English(沒錯,還有西班牙語es、德語de、法語fr、意大利語it、荷蘭語nl),它可以做的事包括:詞性标注(part-of-speech tagger)、情感分析(sentiment analysis)、動詞處理(verb conjugation,不知道怎麼翻譯啦)、名詞的單複數處理(noun singularization & pluralization)以及一個WordNet的接口。

要使用

pattern.en

首先要安裝

pattern

,這是一個更大包,裡面還有其它很多功能,在此我們就不介紹了。下載下傳在這裡,然後使用如下指令安裝:

cd pattern-
python setup.py install 
           

或者你安裝了

pip

的話,也可以這樣

pip install pattern
           

如果上面兩種方法都失敗了,還有下面的解決方案(未測試):

1. 将

pattern

放在要執行的python腳本同一檔案夾下,這樣是不通用,在哪執行就複制到哪。

2. 為了在電腦的任意位置都可使用,可以将

pattern

放在如下位置:

c:\python27\Lib\site-packages\ (Windows)
/Library/Python/2.7/site-packages/ (Mac)
/usr/lib/python2.7/site-packages/ (Unix)
           
  1. 或者在要執行的python腳本中加入如下語句:
import sys
sys.path.append('/your/path/to/pattern')
           

詞性編碼對照表

内容太多,請參看這裡,有時間也整理出來。

定冠詞和不定冠詞

冠詞(article),編碼DT,在英語中經常使用,其中定冠詞(definite )是

the

,不定冠詞(indefinite )是

a

an

相關函數:

from pattern.en import referenced
print referenced('university')
print referenced('hour')

# output:
# a university
# an hour
           

未完待續