來自于對 原文 的中文重新解釋,希望能友善更多人。本身不是搞NLP的,但是需要用一些工具,有些了解和翻譯可能不準确,可以在評論裡指出,我修改。
簡介和安裝
pattern.en 是一個基于python的自然語言處理工具包,en代表English(沒錯,還有西班牙語es、德語de、法語fr、意大利語it、荷蘭語nl),它可以做的事包括:詞性标注(part-of-speech tagger)、情感分析(sentiment analysis)、動詞處理(verb conjugation,不知道怎麼翻譯啦)、名詞的單複數處理(noun singularization & pluralization)以及一個WordNet的接口。
要使用
pattern.en
首先要安裝
pattern
,這是一個更大包,裡面還有其它很多功能,在此我們就不介紹了。下載下傳在這裡,然後使用如下指令安裝:
cd pattern-
python setup.py install
或者你安裝了
pip
的話,也可以這樣
pip install pattern
如果上面兩種方法都失敗了,還有下面的解決方案(未測試):
1. 将
pattern
放在要執行的python腳本同一檔案夾下,這樣是不通用,在哪執行就複制到哪。
2. 為了在電腦的任意位置都可使用,可以将
pattern
放在如下位置:
c:\python27\Lib\site-packages\ (Windows)
/Library/Python/2.7/site-packages/ (Mac)
/usr/lib/python2.7/site-packages/ (Unix)
- 或者在要執行的python腳本中加入如下語句:
import sys
sys.path.append('/your/path/to/pattern')
詞性編碼對照表
内容太多,請參看這裡,有時間也整理出來。
定冠詞和不定冠詞
冠詞(article),編碼DT,在英語中經常使用,其中定冠詞(definite )是
the
,不定冠詞(indefinite )是
a
和
an
。
相關函數:
from pattern.en import referenced
print referenced('university')
print referenced('hour')
# output:
# a university
# an hour
未完待續