天天看點

《數學之美》吳軍 - 讀書筆記(1)

第一章 文字和語言VS數字和資訊

語言和數學的産生都是為了同一個目的——記錄和傳播資訊。

1. 資訊

2. 文字和數字

(1)最早的儲存資訊的方式——用圖形表示事物

(2) 随着文明的進步,資訊量增加,但埃及的象形文字數量不在随着文明的發展而增加,于是概念的第一次概括和歸類就開始了。這種概念的聚類,在原理上與今天自然語言處理和機器學習的聚類有很大的相似性。

(3)文字可以根據上下文除去歧義,但是對上下文建立的機率模型再好,也有失靈的時候。

(4)翻譯這件事之是以能夠達成,僅僅是因為不同的文字系統在記錄資訊上的能力是相同的。

(5)文字本身的載體是石頭還是紙張并不重要,它承載的資訊才是最重要的。

(6)資訊的備援是資訊安全的保障。這對信道編碼有指導意義。

(7)語言的資料,我們稱之為語料,尤其是雙語或者多語的對照語料對翻譯至關重要。

(8)數字是計數系統的基礎。當然,早期數字并沒與書寫的形式,而是掰指頭,這就是我們今天使用十進制的原因。

(9)進位制的發明說明我們的祖先開始懂得對數量進行編碼了。

(10)瑪雅文明采用的是二十進制。

(11)阿拉伯數字或者說印度數字的革命性不僅在于它的簡介有效,而且标志着數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年裡沒有重合的軌迹,而且越走越遠。

3. 文字和語言背後的數學

(1)如果把中文的筆畫作為字母,它其實也是一種拼音文字,不過它是二維的而已。

(2)從象形文字到拼音文字是一個飛躍,因為人類在描述物體的方式上,從物體的外表進化到了抽象的概念,同時不自覺地采用了對資訊的編碼。

(3)最短編碼原理。使用頻率高的碼長短,使用頻率低的碼長長。

(4)在通信時,如果信道較寬,資訊不必壓縮既可以直接傳遞;而如果信道很窄,資訊在傳遞前需要盡可能的壓縮,然後在接收端進行解壓縮。

(5)古猶太人抄寫聖經,要檢查每一行、每一列的校驗是否正确。

(6)如果說從字母到詞的構詞法是詞的編碼規則,那麼文法規則是語言的編碼和解碼規則。相比較而言,詞可以認為是有限而且封閉的集合,而語言則是無限和開放的集合。從數學上講,對于前者可以有玩呗的編解碼規則,而後者則不具備這個特性。是以任何語言都有文法規則覆寫不到的地方。

(7)一個語言學研究方法的問題:到底是語言對,還是文法對。前者堅持從真實的語句文本(稱為語料)出發,而後者堅持從規則出發。

4. 小結

今天自然語言處理學者們研究的問題,我們的祖先在設計語言之初其實已經遇到了,并且用類似今天的方法解決了,雖然他們的認識大多是自發,而不是自覺的。他們過去遵循的法則和我們今天探求的研究方法背後有着共同的東西,這就是數學規律。

繼續閱讀