《Python自然語言處理》——1.6　小結

2021-11-08 10:08:22

本節書摘來異步社群《python自然語言處理》一書中的第1章，第1.6節，作者：【美】steven bird , ewan klein , edward loper，更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

在python中，文本用連結清單來表示：['monty', 'python']。我們可以使用索引、分片和len()函數對連結清單進行操作。

詞“token”（辨別符）是指文本中給定詞的特定出現；詞“type”（類型）則是指詞作為一個特定序列字母的唯一形式。我們使用len(text)表示計數詞的辨別符，使用len(set(text))表示計數詞的類型。

我們使用sorted(set(t))獲得文本t的詞彙表。

我們使用[f(x) for x in text]對文本的每一項目進行操作。

為了獲得沒有大小寫區分和忽略标點符号的詞彙表，我們可以使用set([w.lower() for w in text if w.isalpha()])。

我們使用for語句對文本中的每個詞進行處理，例如for win t:或者for word in text:。後面必須跟冒号和在每次循環都被執行的縮進代碼。

我們使用if語句測試一個條件：if len(word)<5:。後面必須跟冒号和僅當條件為真時執行的縮進代碼。

頻率分布是項目連同它們的頻率計數的集合（例如：一個文本中的詞與它們出現的頻率）。

函數是指定了名字并且可以重用的代碼塊。函數通過def關鍵字定義，例如在def mult(x, y)中x和y是函數的參數，起到實際資料值占位符的作用。

函數是通過指定它的名字及一個或多個放在括号裡的實參來調用，就像這樣：mult(3, 4)或者len(text1)。

繼續閱讀