天天看点

《数学之美》吴军 - 读书笔记(1)

第一章 文字和语言VS数字和信息

语言和数学的产生都是为了同一个目的——记录和传播信息。

1. 信息

2. 文字和数字

(1)最早的保存信息的方式——用图形表示事物

(2) 随着文明的进步,信息量增加,但埃及的象形文字数量不在随着文明的发展而增加,于是概念的第一次概括和归类就开始了。这种概念的聚类,在原理上与今天自然语言处理和机器学习的聚类有很大的相似性。

(3)文字可以根据上下文除去歧义,但是对上下文建立的概率模型再好,也有失灵的时候。

(4)翻译这件事之所以能够达成,仅仅是因为不同的文字系统在记录信息上的能力是相同的。

(5)文字本身的载体是石头还是纸张并不重要,它承载的信息才是最重要的。

(6)信息的冗余是信息安全的保障。这对信道编码有指导意义。

(7)语言的数据,我们称之为语料,尤其是双语或者多语的对照语料对翻译至关重要。

(8)数字是计数系统的基础。当然,早期数字并没与书写的形式,而是掰指头,这就是我们今天使用十进制的原因。

(9)进位制的发明说明我们的祖先开始懂得对数量进行编码了。

(10)玛雅文明采用的是二十进制。

(11)阿拉伯数字或者说印度数字的革命性不仅在于它的简介有效,而且标志着数字和文字的分离。这在客观上让自然语言的研究和数学在几千年里没有重合的轨迹,而且越走越远。

3. 文字和语言背后的数学

(1)如果把中文的笔画作为字母,它其实也是一种拼音文字,不过它是二维的而已。

(2)从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的外表进化到了抽象的概念,同时不自觉地采用了对信息的编码。

(3)最短编码原理。使用频率高的码长短,使用频率低的码长长。

(4)在通信时,如果信道较宽,信息不必压缩既可以直接传递;而如果信道很窄,信息在传递前需要尽可能的压缩,然后在接收端进行解压缩。

(5)古犹太人抄写圣经,要检查每一行、每一列的校验是否正确。

(6)如果说从字母到词的构词法是词的编码规则,那么语法规则是语言的编码和解码规则。相比较而言,词可以认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有玩呗的编解码规则,而后者则不具备这个特性。因此任何语言都有语法规则覆盖不到的地方。

(7)一个语言学研究方法的问题:到底是语言对,还是语法对。前者坚持从真实的语句文本(称为语料)出发,而后者坚持从规则出发。

4. 小结

今天自然语言处理学者们研究的问题,我们的祖先在设计语言之初其实已经遇到了,并且用类似今天的方法解决了,虽然他们的认识大多是自发,而不是自觉的。他们过去遵循的法则和我们今天探求的研究方法背后有着共同的东西,这就是数学规律。

继续阅读