天天看點

《Python自然語言處理》——1.6 小結

本節書摘來異步社群《python自然語言處理》一書中的第1章,第1.6節,作者:【美】steven bird , ewan klein , edward loper,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

在python中,文本用連結清單來表示:['monty', 'python']。我們可以使用索引、分片和len()函數對連結清單進行操作。

詞“token”(辨別符)是指文本中給定詞的特定出現;詞“type”(類型)則是指詞作為一個特定序列字母的唯一形式。我們使用len(text)表示計數詞的辨別符,使用len(set(text))表示計數詞的類型。

我們使用sorted(set(t))獲得文本t的詞彙表。

我們使用[f(x) for x in text]對文本的每一項目進行操作。

為了獲得沒有大小寫區分和忽略标點符号的詞彙表,我們可以使用set([w.lower() for w in text if w.isalpha()])。

我們使用for語句對文本中的每個詞進行處理,例如for win t:或者for word in text:。後面必須跟冒号和在每次循環都被執行的縮進代碼。

我們使用if語句測試一個條件:if len(word)<5:。後面必須跟冒号和僅當條件為真時執行的縮進代碼。

頻率分布是項目連同它們的頻率計數的集合(例如:一個文本中的詞與它們出現的頻率)。

函數是指定了名字并且可以重用的代碼塊。函數通過def關鍵字定義,例如在def mult(x, y)中x和y是函數的參數,起到實際資料值占位符的作用。

函數是通過指定它的名字及一個或多個放在括号裡的實參來調用,就像這樣:mult(3, 4)或者len(text1)。