喾哲~ (八月最佳)

《目錄》

數學的起源

大數定律：

貝葉斯機率：

傅立葉變換：

哈夫曼編碼：

最大熵原理：

幸存者偏差：

醜小鴨定理：

阿姆達爾法則：

馬爾可夫模型：

學者存在性定理：

奧卡姆剃刀法則：

柯爾莫哥洛夫複雜度：

哥德爾不完備定理：

二進制編碼的有效性：

中心極限定理與三大分布模型

數學期望、标準差、正态分布

費馬大定理、可證僞性、回歸平均

啟發式、沒有免費午餐定理、最小最大值定理

讀書不能如追星，仰望、仰望着世界，得試着俯視，才有鑽研學問的感覺。

數學公式看不懂，直接看數學原理背後的哲學結論好了，因為哲學就是時時刻刻試圖觸及事物的本質，我們來一起探索......

數學的起源

對一般人來說，數學意味着數字和計算，但其實數學遠比這個答案要複雜得多，數學是研究數量、結構、變化、空間以及資訊等概念的一門學科。

一般，數學可以分成三個部分，幾何、分析和代數。

幾何(geometry)，是描述靜态物體空間關系的。
分析(analysis)，是用來處理物體随時間改變和移動的，像微積分就屬于分析。
代數(algebra)，是幫助我們用數字、符号和方程式來處理資訊的。像群論、圖論和拓撲學都屬于代數的範疇。

對于人類來說，數學是為人類自身的生存而發展出來的能力。

為了讓數學具備簡潔、直接、齊整的特性，人們把數學發展為了一門符号語言。

在原始社會時，人需要知道什麼時候夜幕會降臨，遇到危險怎麼找到最快的路徑離開，最有可能找到食物的地方......

現在呢，要抓住一個飛來的球，在擁擠的地鐵上穿行，開車...... ，這些數學計算對于人是不自知，雖然數學計算是預設的，但并不意味着頭腦裡的計算一定、一直是對的。

舉個 “賭徒謬誤” 的例子。

我在玩俄羅斯輪盤賭，小球第一次停在了紅色區域，我會覺得，下一次小球出現在黑色區域的可能性會更大，但是從數學機率上來說，其實每一次的機率都是 50%。

那為什麼我會覺得，小球再一次出現在紅色區域的機率不如出現在黑色區域的大呢？

這是因為在我們祖先的生活經驗裡，在一個地方生活過一段時間，把那裡的食物采集得差不多之後，就必須換地方了，不然沒東西可以吃了，是以從生存經驗上來說，出現過一次的事件，不太可能出現第二次，這種認知模式被保留下來，就出現了“賭徒謬誤”。

像大腦的自動計算，目前機器還不能完全做到，如無人駕駛就不能适應各種各樣又随時變化的路況。

數學，能告訴我們所有生物的壽命極限、絕對力量(一次舉重最大重量)、形态(為什麼長到一定程度就不能長高了)、毛細血管為啥是四維的......

接電話，聽到一個甜膩膩的聲音，啊，肯定對面是一個美女！！！

女生覺得某個男孩帥，那 TA 一定也聰明，說不定性格也好......

從數學上分析，幾個小機率事件組合再一起的機率隻會更小。

您遇見/即将遇見的那位，更多的是，是擁有大機率事件的人，除非您特别特别的特别。

見過某位黑客找女朋友，啧啧，沒誰了。

大佬認為像我這麼優秀的人，必須找一位才貌雙全的女子。

美貌第一，那女朋友的長相應該在人群的倆個标準差之外(比 97.5% 的女性美，剩下的 2.5%)。

智商也得比較高才行(為後代着想)，大佬認為簡單點，就一個标準差吧(從 2.5% 中再選 16%)。

現在就剩下 0.4%，而她還必須和大佬年齡相仿、單身、和大佬互相吸引......

這麼算下來，全球大約隻有幾千女性是大佬的結婚對象。

嗯，大佬得到了一個結論：就現在的相親模式，“我” 用數學方法證明了自己一輩子(幾乎)找不到女朋友。

數學的作用是幫助我們克服經驗和感覺帶來的不精确，讓我們不但可以超越自身的感覺來了解世界和宇宙，還可以使用數學語言來對抽象的概念進行深入的探索。

大數定律

重來一次，人生也并不能改變什麼。

1939年，南非數學家克裡奇冒失地跑到歐洲，結果被關進集中營。

百無聊賴的時候，他給自己找到了一個有趣的樂子：一枚硬币抛了1萬次，記錄了正面朝上的數量。

統計結果：

喾哲~ (八月最佳)

圖中的折線，一開始結果偏離 50% 特别遠，很多次都是正面。

随着抛硬币的次數越來越多，正面朝上的機率明顯地向 50% 靠近。

其實，計算機模拟的結果也是這樣：

抛 10 枚硬币，正面朝上的比例範圍是 30%~90%；
抛 100 枚，比例範圍就縮小了，變為了 40%~60%；
抛 1000 枚，比例範圍就縮小到 46.2%~53.7%。

越來越接近 50%，那是不是有一種神秘力量，讓結果不斷逼近50%呢？

其實這靠的是，大數對小數的稀釋作用。

大數定律不會對已經發生的情況進行平衡，而是利用新的資料去削弱Ta的影響力，直到前面的資料從結果上看，影響力非常小，可以忽略不計。

如果我們人生中犯了一兩個錯誤，也不要糾結，我們應該用更多正确的事，把這件事稀釋掉。

生活中，我們很難像監獄裡的數學家一樣，扔 1 萬次硬币來驗證一件事。

但當您真正了解了大數定律，在這類問題面前，您就能作出更正确的決策。

假如您現在可以搭乘一部時光穿梭機，改變您人生中任意一件事，您能否改變自己的命運？

我們往往把人生的問題，歸結為嫁錯人，選錯專業，進錯公司。

改變這些選擇，能改變我們的人生嗎？

我們都知道那句人生格言，人生關鍵的就那麼幾步，選錯了就選錯了。

那我去改變關鍵選擇不就好了嗎，但為什麼說這樣不起作用呢？

了解了大數定律，您就能了解為什麼穿越不能改變命運。

就像買股票，預言家告訴您：“現在是茅台的最低價位一個機會，一定要全倉買入茅台。”

能您覺得你會發财嗎？

不會啊。因為您可能在下一次危機中，加杠杆就賠得傾家蕩産。

這樣的故事我們見得還少嗎？

獲得彩票大獎的人，後來就會一生幸福嗎？

并不是。根據統計，許多美國彩票中獎者後來過得都不怎麼樣，因為一次的飛來橫财，并不會讓一個人的生活更美好。

賭博怎麼都是輸的：

輸了，繼續賭還是輸；
赢了，繼續賭，随着賭注的增加，隻會輸的更多，傾家蕩産是完全可能的；

一個硬币即使連續 20 次出現正面，但是如果連續抛很多次的話，正面出現的機率還是 50%。

也就是說，硬币的命運，是由Ta自身的結構所決定的。

當樣本量足夠大的時候，大數定律就開始發揮作用。

當我們讨論一生的命運時，我們的個人命運不取決于一兩次選擇，而取決于我們的系統。

是以，“性格決定命運”這句話，應該修正為：性格決定行為方式，行為方式決定命運。

您的行為方式就是那個決定您命運的系統。

就算有時光穿梭的機器，回到過去甩了男友、換掉老闆，最後的命運可能還是一樣。

面對人生的大數定律，我們該怎麼辦呢，因為我對現在的自己還不太滿意，但我又想改變！

我們可以先業界的前輩學習經驗，比如，澳門賭場。

以澳門賭場的美式輪盤為例，賭場的機率優勢隻有 2.7%，看起來很小，但是憑借“大數定律”的魔力，能夠穩穩地形成對賭客的機率壓制。

是以，改變系統也不用您做對人生中的每一件事，做好每個選擇，隻需要您把人生系統的指針，向正确的方向撥一點。

但别小看這一點點偏差，就是這點偏差，會引領我們走向完全不一樣的人生軌道。

遇事順不順其實在心，所有看問題的角度都可以概括為對【挨一耳光】的反應：

扇回去：太強勢與生活裡的人、事都要鬥一鬥，結果誰都鬥不過，失去了一切；
認慫，捂臉離開：一輩子都懦弱、膽小怕事，失去了自我；
先冷靜分析一下：卒然臨之而不驚，無故加之而不怒，人是可以成長、改變的，必然有出路。

學習、做事、工作都會不斷的遇到【挨一耳光】的事，不知道，我一直走的哪種呢？

從短期來看，人生充滿偶然，充斥着不盡的選擇；而長期呢，每個人的生命是必然的。

調整我們自己的人生系統，堅持做正确的事情，也許會比暴富一次更能讓人滿足和幸福。

除此之外，大數定律還可以打三國殺。

因為在 8v8、國站經常會有沖動的孩子，盲打。

我被盲打後，就想跳了。

不過，有大數定律之後，我明白要想讓我總的個人戰績很好看，我必須原諒那沖動的孩子，忽略我還做不到。

如果您追求總戰績的美觀，在這裡，送上打三國殺的秘笈：

菜雞報複

老手原諒

高手忽略

說到命，很多中國人腦海裡難免會受到算命的影響，進而潛意識裡去認命，可其實如果具體去看什麼決定了每一個人的命，是選擇，而合理的選擇是建立在方法論上，好的方法論，離不開有一個正确的價值觀，說到底，多數時候我們認命是預設了自己粗糙的價值觀。

能認識自己的人，知道如何去改變自己，也知道哪些是自己能夠左右的，哪些是自己無法改變的。當一個人意識到自己的一生除去運的那部分是可以改變的，潛意識也會跟着改變。

貝葉斯機率

如何漂白王境澤的真相定律？

還記得，小時候書本上的文章《狼來了》？

今天學了貝葉斯機率後，可以試着推一下小孩子每次說狼來了的可信度分别是多少，最後您就知道為什麼村民不相信 ta 了。

超乎尋常的論斷需要超乎尋常的證據。

那麼如何量化證據和論斷的聯系呢？

貝葉斯說，您對某個假設的相信程度，應該用一個機率來表示 —— P( 假設 ) 。

用機率定義了信和不信，P = 1 就是絕對相信，P = 0 就是絕對不信，P = 15% 就是有一點信。

先把信仰給量化，有了新的證據我們就更新這個機率，變成 —— P( 假設|證據 ) ，這個叫條件機率。

名詞解析：

信仰：對某種思想、宗教、某人、某物的相信程度。

證據：可以證明事件事實的材料。

機率：用

喾哲~ (八月最佳)
表示某事情發生的可能性大小(有可能發生，有可能不發生) 的一個量。

一般來說，P( A|B ) 的意思是 “在事件B 是真的條件下，事件A 的機率”。

咱們舉個例子，A 表示下雨，B 表示帶傘。一般來說這個地方不常下雨，是以 P(A) = 0.1。

但今天您注意到愛看天氣預報的老張上班帶了傘，那就可以推斷，今天下雨的機率應該增加 —— 在 “老張帶傘” 這個條件下的下雨機率，就是 P( A|B )。

倆個因果關系：

緣故 → 結果，在這裡就是 “下雨 → 帶傘” 即 A → B。
結果 → 緣故，在這裡就是 “帶傘 → 下雨” 即 B → A。

A → B 和 “老王是兇手 → 在老王家裡找到兇器”，ta 們都相當于 “假設 → 證據”。

現在我們想算的是 P(假設|證據)，是從結果倒推緣故，這叫“逆機率”，這個不好算。

一般都是從緣故推結果容易算，如您看見一個小孩向窗戶扔球，您可以估計窗戶被打碎的機率有多大，這是“正向機率”；但如果您看到窗戶碎了，想要推測窗戶是怎麼碎的，那就無法确定了。

是以咱們要算的是一個逆機率，這要怎麼算呢，有一個貝葉斯的方法。

為了計算 P( A|B )，我們考慮這麼一個問題：A 和 B 都發生的機率有多大？

這道題有兩個算法。

一個辦法是先算出 B 發生的機率有多大，是 P(B)；再算 B 發生的情況下，A 也發生的機率有多大，是 P( A|B )，那麼 A、B 都發生的機率，就是把這兩個數相乘，結果是 P( A|B )×P( B )。

同理，先考慮 A 發生再考慮 A 發生的條件下 B 也發生，結果是 P(B|A)×P(A)。

這倆的結果一定相等，P( A|B )×P( B ) = P( B|A )×P( A )，求逆機率P( A|B ) 即：

喾哲~ (八月最佳)

舉個貝葉斯機率應用的例子，如果您真的讀懂了，那類似的問題都可以自己解決，如狼來了。

有一位 40 歲的女性去做乳腺癌的檢查，檢查結果是陽性。那請問，這位女性真的得了乳腺癌的機率有多大。

我們用 A 表示她得了乳腺癌，B 表示測試結果為陽性，這個因果關系是乳腺癌導緻陽性， A → B。我們要計算 P(A|B)。根據貝葉斯公式，我們需要 P(A)，P(B) 和 P(B|A)。

在有新證據之前，P(A) 就是一般相同年齡段女性得乳腺癌的機率，統計表明是

喾哲~ (八月最佳)

。

P(B|A) 是如果這個人真有乳腺癌，她的監測結果為陽性的可能性。這是由檢測儀器的敏感度決定的，答案是73%，儀器并不怎麼準确。

P(B) 是随便找個人，給她檢測出陽性的可能性是多大。這個我們沒有直接的資料，要拆成這個人有乳腺癌（A）和沒有乳腺癌（~A）兩種情況，其中 P(~A) = 1-P(A) =

喾哲~ (八月最佳)

。

剛才說了有乳腺癌、檢測為陽性的機率是73%。而沒有乳腺癌的人還可能會被誤診成陽性，已知這個誤診率是 P(B|~A) = 12%。

于是， P(B) = P(B|A)×P(A) + P(B|~A)×P(~A) = 12.1%。

把這些數字帶入公式，我們最終得到 P(A|B) =

喾哲~ (八月最佳)

。

也就是說，哪怕這位女性被檢測出來是乳腺癌陽性，她真得乳腺癌機率也隻有不到 1%。

這是一個非常出乎意料的結論。但是貝葉斯公式不是什麼黑箱操作的魔法，您還可以用下面這張圖參詳一下。

喾哲~ (八月最佳)

假設有 3000 名 40 歲的女性，根據前面說的各項資料，其中隻有 4 人真有乳腺癌，而被正确檢測為陽性的隻有三人。另一方面，被檢測儀器誤診為陽性的，卻有 360 人。是以在所有陽性診斷之中，隻有不到 1% 的人真有乳腺癌。

出現這種情況的根本原因就在于乳腺癌的患者比例很小，而檢測儀器又很不準确。

幾乎每一本講貝葉斯方法的書都會使用一個這樣的例子，您想明白一個就想明白了所有的。

請注意，如果這位女性本身攜帶容易得乳腺癌的基因，那我們一開始選用的 P(A) 就不是 1/700 了，而應該是 1/20。用這個數算，最後的 P(A|B) = 1/3，這就非常不一樣了。

這是一個關鍵問題。一開始，您到底憑什麼選擇 P(A) 的數值呢？

那是您自己的主觀判斷。

這就是為什麼有很多統計學家攻擊貝葉斯方法，人們總是覺得科學方法應該是完全客觀的才對！

但貝葉斯方法實際上是對科學方法的重大更新。

傳統的科學方法，是

1. 提出一個理論假設；

2. 做實驗驗證；

3. 如果實驗結果符合理論，這個理論就暫時站得住腳，如果不符合，理論就被證僞了。

這是非黑即白的劇情，理論要麼就繼續保留，要麼就徹底抛棄。

而貝葉斯方法則是先給理論假設設定一個可信度。

新證據并不直接證明或者證僞理論，隻是調整可信度的大小，做一個動态的判斷。

貝葉斯方法是一種實用主義的态度，其實咱們想想，我們搞研究的目的并不一定是了解絕對真實的世界 —— 我們現在的數學定理也隻是再發現世界和宇宙的規律，如同人在叢林的冒險—— 我們的目的是通過擷取實用的知識，做出盡可能準确的判斷和決策。

喾哲~ (八月最佳)

貝葉斯公式右邊乘法的

喾哲~ (八月最佳)

有時候被稱為 “似然比”。

貝葉斯公式可以寫成：

喾哲~ (八月最佳)

您可以把 ta 了解成 “觀念更新” 的公式，P(假設) 是老觀念，新證據發生之後，您的新觀念是 P(假設|證據)。

新觀念 = 老觀念 * 似然比。

您的觀點，随着事實，發生了改變。

貝葉斯定理讓我想到了一群牛人，那就是企業家：

1、馬雲當年說無論如何都不會做遊戲，而現在遊戲已經是阿裡很重要的一塊業務。

2、小米最開始出手機時，說手掌大小的手機最适合，絕對不會做大屏手機，而現在手機越做越大。

3、羅永浩說手機絕對不會低于3000塊，後來果斷降價了。

4、羅振宇說羅輯思維視訊節目要做10年。做了不到一半就停更了。

我之是以說出以上這些案例，不是為了嘲笑他們的不堅守(那是傻子做的事)，我想一定是他們的認知更新了，他們随着環境條件的變化重新整理了自己的認知，立即産生了行動。我想這是他們今天如此成功的原因。不是傻傻的堅守一個看似堅定不移的信念或者對自我的承諾，而是認真的觀察這個世界發生的一切而随時矯正自己的行為方式。這就是牛人。是以如果說誰對貝葉斯定理運用的最好，一定是成功的企業家，因為他們是真金白銀的在這個競争殘酷的世界做每一次選擇。

我們設想一下，如果每個人的閱曆和想法不同，一開始的觀點不一樣，那麼哪怕是面對同樣的證據，人們更新之後的觀點，也還是不一樣的！

是以貝葉斯方法本質上是個主觀的判斷方法：同樣的證據，貝葉斯方法允許您有不同的判斷！！！

我們首先有一個初始信念，被稱為先驗，當我們獲得額外的資訊後可以對這個信念進行修正更新。

1. 先評估一下自己的信念，設定 P(信念)；

2. 等待新證據；

3. 證據出來以後，用貝葉斯公式更新自己的信念，計算 P(信念|證據)；

4. 繼續等待新證據……

還有更秀的：

看過神雕俠侶，年齡不是問題；

看過金剛，種族不是問題；

看過倩女幽魂，生死不是問題；

看過斷背山，性别也不是問題。

從哲學角度來說，貝葉斯機率是了解差異。

上次聊天時，朋友說我們三觀不一樣、聊不下去。

如果用貝葉斯想一下。。。。。。

其實這很正常，說明開始的時候你們互相并不了解嘛。

西方有一句諺語說：我們因為不了解而走到一起，因為了解而分手。

年輕人交友容易這樣，開始時把友誼想得很完美，然後就用這個完美的标準去要求友誼，結果一定出問題。

在友誼中，不能沒有寬容，要尊重雙方的差異。

回想交朋友時，開始時是不是太輕率，後來是不是太苛求。

不過，這很難，因為人很難保持開放哦~

所謂開放是讓人可以放下成見、情緒、舊東西，合理的面對不同的觀念，并且不陷入認知偏誤，這很難的。

喾哲~ (八月最佳)

機器學習基礎算法之一

傅立葉變換

您寫的文章真的是原創嗎？

十九世紀法國數學家傅裡(立)葉發現任何周期性的函數(信号)都等同一些三角函數的線性組合。

從哲學角度來說，傅裡葉變換是把一個複雜的事物拆解為一堆标準化的簡單事物的方法。

如，跳舞這個複雜的動作由腿部、手部、肩部、腰部等單一的動作組成。

舉一個相關的例子，傅裡葉運用于聲音中。

聲音是空氣的震動，手指輕輕地彈一下碗，我們會聽到悅耳的聲音。

聲音由音調和音量(響度) 組成，音調是震動的頻率，音量是震動的幅度。

喾哲~ (八月最佳)

上圖的正弦曲線，也是一個簡單的聲音。

這個聲音呈完美周期性的變換、頻率是固定的。

而一個複雜的聲音，就是由這樣簡單的聲音組成。

喾哲~ (八月最佳)

是以，傅裡葉變換在聲音的領域中即：

由一系列簡單的波動如搭積木一般組成一個複雜的波動，看下圖。

喾哲~ (八月最佳)

圖中倆條紅色的曲線，都是由那些藍色的波形疊加而出。

傅裡葉變換最核心的是可以告訴我們，圖中紅色曲線是由多少組成比例的藍色曲線構成。

紅色曲線 = 頻率是 100 的藍色曲線 × 0.5 + 頻率是 200 的藍色曲線 × 0.2 + 頻率是 300 的藍色曲線 × 0.1 + 頻率是 400 的藍色曲線 × 0.08 + ……

取出藍色曲線的數值成分：紅色曲線 = (0.5, 0.2, 0.1, 0.08, ......)。

寫一篇文章，會參考許多資料；那這篇文章，就可以拆分為《XX》*0.1 + 《XX》*0.2 + ......

是以，現在大部分原創經常是已知的、簡單的事物的排列組合。

這裡說的是，傅裡葉變換的思想原理，而其中更加有趣的地方，您可以看看：

《傅裡葉變換的終極解釋》(上)

《傅裡葉變換的終極解釋》(下)

《用傅裡葉變換畫出任何簡筆畫》

從哲學角度來說，傅裡葉變換是把一個複雜的事物拆解為一堆标準化的簡單事物的方法，大道至簡。

哈夫曼編碼

如何創造一門數字語言？

前置知識：二進制編碼的有效性。

我們在諜戰片中經常看到報務員還沒有發完報，敵方的特工就沖了進來，這種場景并不完全是虛構的，因為在二戰時歐洲德占區這種情景時常出現，是以省一點時間就意味着自身的安全。

即使不考慮戰争中的特殊情況，省掉三分之一的通信成本，也是很可觀的。

現在我們來設計一個用于英文通信的編碼系統吧，特點：最短、易用。

英文通信系統由 26 個字母組成，為了擁有易用這個特點，我們選擇最基礎的二進制作為整個編碼系統的最小單元(而且二進制和機器配合的最好)。

26 個英文字母都由 0 和 1 來代替，那麼任何設計呢？

首先思考幾個問題：

需要多少二進制位才能表示 26 個字母？
二進制位怎麼對應一個字母才是最優的？
到底是等長編碼的平均編碼長度少，還是不等長編碼的平均長度少？

搞清楚上面的 3 個問題，您就可以自己造出著名的摩爾斯電碼，甚至還可以優化！！

[名詞解析]

等長編碼：表示 26 個英文字母的二進制長度是一樣的。

不等長編碼：表示 26 個英文字母的二進制長度不一樣。

平均編碼：表示 26 個英文字母的二進制總長度 / 26 得出的平均長度。

舉個例子，等長編碼下 B 是 10，那 A 是 1，有等長這個條件 A 就需要補一個零，A 即 01，B 即 10。

不等長編碼下 B 是 10，那 A 是 1，莫爾斯電碼就是不等長編碼。

需要多少二進制位才能表示 26 個字母？

顯然是 5 個，表示 26 個字母的任意一個就是 26 選 1 啦。

資訊量是

喾哲~ (八月最佳)

，結果是約(向上取整)是 5 比特。

二進制位怎麼對應一個字母才是最優的？

個人覺得經常出現的字母要采用容易敲的(等長編碼)/較短(不等長編碼) 的編碼，不常見的字母就采用較長的編碼。

下圖是一些自然語言的頻率統計，更加具體的請見部落格：《密碼學》。

喾哲~ (八月最佳)

著名的莫爾斯電碼沒有嚴格的按照字元的頻率來設計，是以，哈哈，莫爾斯電碼還可以改進一下哈。

到底是等長編碼的平均編碼長度少，還是不等長編碼的平均長度少？

著名的莫爾斯電碼(不等長編碼)采用的也是二進制，平均編碼長度是 3；而使用等長編碼系統的平均長度是 5，顯然不等長編碼長度比等長編碼長度要劃算......

喾哲~ (八月最佳)

證明：

假定有 32 條資訊，每條資訊出現的機率分别為

喾哲~ (八月最佳)

、

喾哲~ (八月最佳)

、

喾哲~ (八月最佳)

、

喾哲~ (八月最佳)

……

依次遞減，最後 31、32 兩個資訊出現的機率是

喾哲~ (八月最佳)

、

喾哲~ (八月最佳)

( 此時 32 個資訊的出現機率之和就是 1 )。

用二進制數對 ta 們進行編碼。

等長度和不等長度兩種編碼方法，我們來對比一下：

方法一：采用等長度編碼，碼長為 5。因為是 log32=5 比特。
方法二：不等長度編碼，如果出現機率高就短一些，機率低就長一些。

我們把第一條資訊用 0 編碼，第二條用 10 編碼，第三條用 110 編碼……最後 31、32 兩條出現機率相同，都很低，碼長都是 31。

第 31 條資訊就用 1111……110( 30 個 1 加 1 個0 ) 編碼，第 32 條資訊，就用1111……111( 31個1 ) 來編碼。

這樣的編碼雖然大部分碼的長度都超過了 5，但是乘以出現機率後，平均碼長隻有 2，也就是說節省了 60% 的碼長。

如果利用這個原理進行資料壓縮，可以在不損失任何資訊的情況下壓縮掉 60%。

這種方法最早是由 MIT 的教授哈夫曼發明的，是以也被稱為 “哈夫曼編碼”。

哈夫曼編碼從本質上講，是将最寶貴的資源（最短的編碼）給出現機率最大的資訊。

資源配置設定原則：一條資訊編碼的長度和出現機率的對數成正比。

如在上面的例子中，第一條消息出現的機率為

喾哲~ (八月最佳)

，我們知道

喾哲~ (八月最佳)

(以二為底) 的對數等于 -1，是以TA的編碼長度就是 1 (即碼 0)；最後倆條消息出現的機率為

喾哲~ (八月最佳)

次方，取對數後等于 -31，是以TA們的編碼長度就是 31。

從哲學角度來說：閑暇出智慧，所謂閑暇是有時間花在自己身上(熱愛的領域)。

金錢 < 時間 < 注意力(對别人凡是不妨礙我達成目标的事，我都可以替 TA 服務)，

最大熵原理

我知道我會在哪裡死，又如何？

每鄭一次骰子 ?，1 - 6 的可能性都是

喾哲~ (八月最佳)

。

每個面的可能性都是相同的，這是在理想環境下。

那麼，不理想的環境是什麼呢？？

骰子 ? 質地分布不均勻、且各個面的形狀有差異。

骰子畢竟是實體，是以，每個面的機率大多數情況下不是平均分布的，會多也會少呀。

當我們使用的骰子就是上面這顆不均的骰子，那我們該如何去賭呢？？

其實還是應該猜

喾哲~ (八月最佳)

，機率均攤讓風險最小。

現在經統計得到了此骰子 ? 鄭到 3 點的機率是

喾哲~ (八月最佳)

，而 3 點對面的 4點(對應面之和是7) 的機率幾乎為 0。

現在，我們又該如何去賭呢？？

總機率 1 減去 3 、4 點的機率和，再把結果機率均攤到其餘的 1、2、5、6 點，均攤的 4 點機率是

喾哲~ (八月最佳)

。

采用均攤是因為在不知道别的資訊的條件下，均攤的風險最小，均攤為什麼讓風險最小呢？

因為我們沒有對未知的情況作出如何主觀的假設，我們的預測都在目前已知的資訊下決定的；均攤就如一句話：“不要把所有的雞蛋 ? 放一個籃子裡”。

第一次，我們得到的資訊是：骰子質地不均。

雖然我們知道機率發生了變化，但并不好主觀的假設。

第二次，我們得到的資訊是：骰子質地不均、3 和 4 點出現的機率之和是

喾哲~ (八月最佳)

。

我們知道了 3 點、4 點的機率是

喾哲~ (八月最佳)

和 0，其餘各點均攤為

喾哲~ (八月最佳)

。

最大熵原理即：當我們需要對一個随機事件的機率分布進行預測時，我們的預測應當滿足全部已知的條件，而對未知的情況不要作任何主觀假設。

最大熵原理簡直就是在複述我們鄭骰子的過程，不是嘛！！

我們按照上述的流程，建立一個機率的模型，這樣的模型會使得不确定性達到最大，是以，得名為 “最大熵模型”。

名詞解析

熵：不确定性。

記住啦，使用目前的資訊就好，不要自作主張得想進一步減低不确定性而作出需要主觀的假設，這樣預測反而越不準确。

從哲學角度來說：最大熵原理如過猶不及。

幸存者偏差

媽媽為什麼不挑食？

講一個小故事，也是 2018 年的聯考作文題。

在第二次世界大戰期間，美國軍方在哥倫比亞大學建立了一個秘密研究小組，叫統計研究小組。

TA 的任務是組織美國的統計學家為打赢第二次世界大戰服務。這個小組裡牛人無數，如我們熟悉的控制論的創始人諾伯特·維納（Norbert Wiener），還有後來得過諾貝爾經濟學獎的米爾頓·弗裡德曼。

不過，在這個牛人無數的小組中，天賦最高的并不是他們，而是一位叫亞伯拉罕·瓦爾德（Abraham Wald）的數學家。

美國軍方認為，如果每次戰鬥中，自己被擊落的飛機比對方少 5%，消耗的油料低 5%，彈藥多 5%，機動性高 5%，就會最終成為勝利方。這個結論也是有數學依據的，不是假設。

是以，軍方給這群數學家出了一道題。在打仗的時候，為了不讓自己的飛機被敵人的戰鬥機擊落，需要給飛機裝上裝甲。但是，裝甲會增加飛機的重量，這樣飛機的機動性就會減弱，還要消耗更多的燃油。

是以，需要解決的問題是，怎樣在防禦性能和飛行性能之間找一個平衡點。軍方希望數學家幫助他們搞清楚，在哪裡加強裝甲防護是最合适的。

軍方給數學家提供了很多資料。美軍的飛機跟敵軍的飛機交火之後傳回基地，飛機上會留下來很多彈孔。軍方發現，在返航的飛機上，機身上的彈孔比引擎上的彈孔更多。

喾哲~ (八月最佳)

是以，軍方認為，最應該加強防禦的是飛機的機身。他們想讓統計學家研究一下，為了保護飛機，機身需要增加多少裝甲。

瓦爾德給出的答案卻和軍方最初的想法大不一樣。瓦爾德認為，需要加裝裝甲的地方不應該是彈孔多的部位，而應該是彈孔少的部位，也就是飛機的引擎。

為什麼會是這樣呢？？

我們先從一個理論假設來看。從理論上來說，飛機各個部位中彈的機率應該是一樣的。

那麼，為什麼返航的飛機機身上的彈孔比引擎上的彈孔更多呢？？換言之，引擎上本來應該有的彈孔去哪裡了？？

瓦爾德認為，這是因為引擎被擊中的飛機都墜毀了。回來的飛機，機身上盡管留下了很多彈孔，卻仍然能夠經得住打擊，是以才能安全返航。打個比方來說，如果我們到戰地醫院去統計受傷的士兵，您會發現，腿部中彈的士兵肯定比腦部中彈的士兵要多。腦部中彈的士兵很少能夠活下來，腿部中彈的士兵才有更大的機率存活。

數學家把這類現象稱為 “幸存者偏差”，人們隻看到幸存下來的，卻沒有看見已經失敗和消亡的。

再舉幾個 “幸存者偏差” 的例子：

媽媽為什麼不挑食？因為她買菜的時候已經挑過了。
吸煙有害健康，煙草公司會列舉長壽的人裡也有很多人吸煙的例子來證明吸煙也可以長壽！大多數吸煙的人提前去逝了。
因為媒體報道的交通事故基本是飛機，是以我們感覺飛機很危險，事實是汽車每天出事的機率遠大于飛機，報道的卻少。
在股票的買賣上，很多騙局就是利用幸存者偏差騙到了投資人，原理就是：“大面積撒網，選擇性補刀”。
比爾·蓋茨、紮克伯格、脫不花等人都沒上完大學，那我們是不是就不要上大學了呢？您要知道和創業一樣，媒體報道的都是成功的極小數，對于大部分人來說，大學并不一定可以提高成功的機率( luck ! )，但一定會減低您失敗的機率。

現在，我們一起分析一下幸存者偏差理論的數學基礎吧。

我們做一個簡單的假設，飛機被擊中的部位隻有倆個，引擎和機翼，這兩個随機事件分别被稱之為 A 和 B。

當然還有一種情況，就是 A 和 B 同時發生，為了簡單起見，我們不考慮 TA 。

于是飛機被擊中的總機率為 P(A) + P(B)。

接下來如果 A 發生(擊中引擎)，墜落的機率我們假定為 P1，返航的機率當然就是 1 - P1。

類似的，我們假設 B 發生後(擊中機翼)，墜落和返航的機率為 P2 和 1 - P2。

由于有幸存者偏差，我們看到的墜毀和返航的分布情況是 P2 和 1 - P2，但這是一部分資訊缺失的情況下的誤判。

那麼真實的墜毀和返航比例應該是什麼呢 ? ？

在前面的假設下，飛機墜毀的總機率為 P(A) * P1 + P(B) * P2。

之前有說飛機被擊中的總機率為 P(A) + P(B)，是以被擊中後墜毀的條件機率可以用一個公式給出，當然返航的機率就是從 100% 中減去 TA 。

公式及推導：

喾哲~ (八月最佳)

我們假定引擎被擊中的機率為 5%，被擊中後墜毀的機率為 60%，機翼被擊中的機率為 10%，被擊中後墜毀的機率為 10%。

10% vs 90%，這是我們在缺失資訊後看到的墜毀和返航的比例(擊中機翼的情況，墜落和返航的機率為 P2 和 1 - P2)。

用上面的式子算下來，總的來講飛機被擊中後墜毀的機率為 27%，是以真實的返航墜毀比例是 27% vs 73%，而不是 10% vs 90%，說明資訊缺失很多。

如果我們加強引擎，讓擊中後墜毀的機率降到 30%，減少機翼的裝甲，讓相應的機率增加到 15%，那麼總的來講飛機被擊中後墜毀的機率降低到了 20%，比前面的 27% 降低了很多。

相反，如果加強機翼，減少引擎的裝甲，被擊中後墜毀的機率将大幅上升。

從哲學角度來說：幸存者偏差應是說，重要的東西要用心看。

It is only with the heart that one can see rightly; what is essential is invisible to the eyes.

---《小王子》

而學習哲學的這個動作，能幫您透過現實世界錯綜複雜的表面看清現象的本質。

醜小鴨定理

我，我長的醜怎麼辦？

《醜小鴨的故事》：

喾哲~ (八月最佳)

在夏日陰涼的樹陰下，鴨媽媽孵着鴨寶寶。小鴨子一個個破殼而出，隻有那隻最大的蛋還沒有動靜。鴨媽媽耐心地等着，終于，小家夥鑽出來了，他又大又醜，和别的小鴨子很不一樣。大家一見到他就叫起來：瞧，他多醜啊！有一隻鴨子馬上撲過來，狠狠啄了他一下。

大家都不喜歡醜小鴨，連他的兄弟姐妹也說：“你這個醜八怪，真希望貓兒把你抓去才好！”

醜小鴨很難過，他真想躲到一個别人看不見的地方。這天天黑的時候，他悄悄地離開了家，晚上睡在一片沼澤地裡。天亮時，突然傳來砰砰的槍響，整群的大雁從蘆葦裡飛出來，原來有獵人在打獵。一隻獵狗跑了過來，把鼻子頂到他身上，兇巴巴地露出牙齒。醜小鴨吓得縮成一團，可是獵狗嗅了嗅，又跑開了。

啊，我醜得連獵狗也不咬我了！醜小鴨悲傷地想。

他來到一家農舍，農舍裡住着一隻小貓和一隻母雞。母雞問：“你會生蛋嗎？”醜小鴨搖搖頭。母雞說：“這麼重要的事你都不會做！”

小貓問：“你會拱背嗎？會喵唔喵唔叫嗎？”醜小鴨又搖搖頭。 “那你會什麼呢？”小貓輕蔑地問。醜小鴨想了想，說：“我會在水裡遊泳。”

母雞和小貓哈哈大笑，他們都看不起醜小鴨。不久，醜小鴨離開了他們。

秋天來了，鳥兒們成群結隊地飛往溫暖的南方。一天，草叢中飛出一群白色的大鳥，細長的脖子，潔白的翅膀，他們是這樣美麗，醜小鴨看得呆了，他真羨慕這些美麗幸福的鳥兒。

冬天的天氣越來越冷，水結冰了，醜小鴨和冰塊凍在了一起。幸好有個農夫把他帶回了家。醜小鴨醒來後，有些害怕，他躲進廚房，可是不小心打翻了牛奶壺，牛奶潑了一地。農夫的妻子尖叫起來，醜小鴨吓壞了，看見大門敞開着，他趕緊逃出了農夫的家。

這個冬天寒冷又漫長，醜小鴨沒有東西吃，也沒有朋友，他艱難地捱着。當冬天過去，春天終于來臨的時候，醜小鴨忍不住想大哭一場。

他拍拍翅膀，發現翅膀比以前有力得多，他試了兩下，竟然可以飛起來了！他飛出沼澤，飛過森林，到了一個美麗的湖邊。這時，他又看見了那群美麗的天鵝，正在水面上遊來遊去。他自慚形穢，把頭低低地垂到水上，隻等待着死。但是他在這清澈的水面上看到了什麼呢？他看到了自己的倒影。但那不再是一隻粗笨的、深灰色的、又醜又令人讨厭的鴨子，而卻是——一隻天鵝！許多大天鵝在他周圍遊泳，用嘴來親他。他現在清楚地認識到幸福和美正在向他招手。

花園裡來了幾個小孩子，他們向水上抛來許多面包片和麥粒。最小的那個孩子喊道：“又來了一隻新天鵝！”大家都說新來的天鵝最年輕、最好看。聽到大家說他是美麗的鳥中最美麗的一隻鳥，醜小鴨感到又難為情又幸福，它從内心裡發出一個快樂的聲音：“當我還是一隻醜小鴨的時候，我做夢也沒有想到會有這麼多的幸福！”

醜小鴨不僅是一個故事，也是一個數學定理。

請問是倆隻天鵝之間的差距大還是一隻鴨子和一隻天鵝的差距大？

大家基本都會認為鴨子和天鵝的差距大，因為倆隻天鵝都是天鵝，種類是一樣的。

這麼想就隻考慮了他們的外形，就像人分成了高矮/顔值/經濟/性格/健康等等，每按一種标準考慮，人就被分類了。

天鵝和天鵝是相似的吧，比較差距主要看，您的标準是什麼，但标準，可能有無數個。

名詞解析

相似：所謂這倆個對象“相似”，就是在給所有對象分類的時候，這倆個對象能被分在同一個類裡面。在各自不同的分類之中，TA們倆個被分到一起的次數，就是相似度的大小。

對象：

喾哲~ (八月最佳)

舉個例子。

三個對象排成一排，分别是天鵝A、天鵝B 和醜小鴨。

我們來看看對這三隻鳥有多少種分類方法，具體做法是我們選擇一個屬性，符合這個屬性的就算是一類，不符合的就不算。

比如說，我們選擇的屬性是“白色”，那倆隻天鵝是白色，醜小鴨是灰色的，是以根據這個屬性，倆隻天鵝就被選中，而醜小鴨不在這一類。

這個分類結果可以用 (110) 表示 —— 對應三個對象的位置，1 代表在這個分類裡，0 代表不在這個分類裡。

而如果我選擇的屬性是 “排第一名”，那就隻有天鵝A 在這個分類裡面，分類結果就是(100)。

如果屬性是 “不是白色”，那倆隻天鵝都不算，隻有醜小鴨在這個分類裡面，結果就是(001)。

如果屬性是 “白色，但是不排第一名”，結果就是(010)。

以此類推......發現，對下面圖中表示的八種分類方法，其實都能找到一個對應的“屬性” ——

喾哲~ (八月最佳)

而且對于三個物體，一共也就隻有這 8 種分類方式。

那怎麼定義相似度呢？

就是看這 8 種分類之中，有多少種，這倆個對象被分到了同一類。比如說天鵝A 和醜小鴨，就在(101)、(111)、(000)、(010) 這四個分類中屬于同一類，那我們就可以說天鵝A 和醜小鴨的相似度 = 4。

同理，天鵝B 和醜小鴨的相似度也是 4。

而天鵝A 和天鵝B 的相似度？?

TA們同類的分組是(110)、(111)、(000)、(001)，也是 4。

也就是說，醜小鴨和天鵝之間的相似度，和倆隻天鵝之間的相似度，是一樣的。

這就是 “醜小鴨定理”。

一般來說，如果有 N 個對象，那麼您就一共有

喾哲~ (八月最佳)

次方種不同的分類方法，而結果還是這樣，各個對象之間的相似度是一樣的。

換一個說法，醜小鴨定理也可以表述成：“醜小鴨跟天鵝之間的差異，和兩隻天鵝之間的差異一樣大。”

正如世界上不是隻有長的帥的，也還有長的讓人放心的(即臉大或臉圓)，是以别人才會找您傾述自己的生活啊。

在計算機裡有一個模式識别，功能是讓算法自動的客觀分類給定的所有對象。

學過醜小鴨定理的您，是否覺得這是一個能實作的算法？？

這顯然是不可能的，因為人給出的分類标準都是主觀的，是以這個分類标準是不靠譜的。

應用這種分類，隻會激起海嘯、無盡的争論：

将人按照種族分，其實種族并不存在；
将人按照學曆分，其實學曆并不存在；
将人按照性别分，其實性别并不存在；

每一種分類都是主觀的，每一種分類也可能是天生就帶有偏見的，因為您先 “偏見” 了這個屬性，您才會以這個屬性來分類。

那麼，隻要分類就有偏見。

什麼時候，使用分類呢？

想到了一個價值，分類才是值得的。

那如果沒有價值，隻是随便分類，就很有可能限制自己的認知，還可能無形地傷害别人。

醜小鴨和任何一隻天鵝沒有本質差別。

多想想這個定理，您可能會變成一個心胸更寬廣的人。

從哲學角度來說：醜小鴨定理是說，一切分類都是主觀的；有分類就會有歧視，但不分類就沒那麼好的效率，此事古難全。

阿姆達爾法則

IT 行業為什麼發展是如此神速？

1999年，比爾·蓋茨在世界計算機展上講，如果汽車工業能夠有IT産業的發展速度，那麼一加侖（大約四升）汽油應該能讓汽車跑1000英裡，而且汽車的售價隻要25美元。

世界上真有一個法則和一個定律，能解釋這個現象。

阿姆達爾法則，是讓 IT 行業得以快速進步的戰術，和 TA 相對應的是摩爾定律，這是 IT 行業的戰略。

阿姆達爾在設計計算機系統時，充分認識到了計算機各部分的性能必須平衡比對，才能得到整體性能最佳的系統。

他将這種思想用一個簡單的公式描述出來：

喾哲~ (八月最佳)

需要國小或以上的數學造詣才能看懂

方程左邊的 S ：系統最後的性能提升

方程右邊的 s ：某一項名額的性能提升(如記憶體速度提高 1 倍，s 就是 1 倍)

方程右邊的 p ：這項提升被用到的比例/機率(如記憶體的讀寫通路，占程式運作時間的 20%)

假設記憶體的速度翻一番，即 s＝2，那整個計算機性能的提升是多少呢？

根據這個公式，可以算出是 11%，這個結果看起來還是不錯的，如果您有辦法将記憶體的速度提升到原來的 100 倍，那麼計算機整體速度隻能提升約 25%，這看上去就不大有效了。

在每一次設計新的一代計算機産品時，都會有各種各樣的技術突破，可供選用，但是考慮到成本的因素，以及設計的複雜度，都需要有所取舍，那麼該引入哪些新技術呢？

阿姆達爾法則是計算機行業作決定的鐵律。

假如記憶體讀寫占用程式運作時間的 20%，處理器運算占 60%。

現在有兩個技術，一個可以将記憶體讀寫速度提高 5 倍，另一個可以将處理器的速度提升 50%，由于成本的限制和研發時間的限制，下一個版本隻能采用一項改進，應該選用哪個？

20% 的 5 倍，好像效果顯著；而 60% 的 50%，也就 30%，是以當然應該采用新的記憶體技術。

阿姆達爾法則給出的結論，則恰恰相反 ---- 根據上述公式，提高記憶體的性能，計算機整體的性能隻能提高20%（ 1/［（1－0.2）＋0.2/6]≈120% ），如果提高處理器的性能，系統整體的性能能夠提高 25%（ 1/［（1－0.6）＋0.6/1.5] = 125% ）。

接下來，如果一年後還要再推出一個新的系統，假定處理器和記憶體的性能提升的可能性和成本跟上一次相當，這回該改進計算機處理器，還是記憶體呢？

還是該改進處理器，很遺憾，這一次該改進記憶體了。

因為上一次處理器改進後，處理器運算占用的時間比例，也就是公式中的 p，就從 60% 下降到 50% 了，再改進處理器，油水就沒有那麼大了。

事實上，如果繼續改進處理器，可以得到 20％左右的性能提升，而改進記憶體這回能獲得 25% 的性能提升。

不僅在計算機設計中阿姆達爾法則是鐵律，在軟體開發，調試軟體性能時，負責任的工程師都要用這個鐵律将能夠提升明顯性能的子產品都優化一遍。在大型的計算機軟體開發中，有一個叫做 Profile 的工具，可以模拟出軟體中每一個功能子產品占用資源的情況，這樣把最占用資源的子產品進行優化，很容易成倍提高性能。

阿姆達爾法則不僅是産品設計中選擇技術的準則，更是整個計算機行業裡決定研發投入依據的原則，也就是說，目前如果計算機系統中的哪個部分成為了拖後腿的瓶頸，就必須集中精力和經費解決相應的問題，這也就解釋了為什麼IT的關鍵技術似乎都在合适的時間獲得突破的原因。

從哲學角度來說：

很多時候，我們都面臨在限制要素中作選擇的問題。

很多時候，我們總想全方位改進自己，但是人的精力和資源有限，是以在某一時刻，可能隻能向一個方向努力。

很多人從直覺出發，覺得該補短闆，另一些人則覺得，該把長闆變得更長。

第一類人講木桶理論，第二類人講長闆理論，每一類都有很多成功的例子，也有很多失敗的教訓。

于是很多人就不知道該用哪一個理論了。

事實上您今天學了阿姆達爾法則後，就很容易作決斷了，那就是在任何時刻算出 S，而後選收益最大的路徑前進就好。

馬爾可夫模型

想要一次性地采取一個行動去改變某件事，結果徒勞無功，我該怎麼辦？

不管您付出了多少努力，事情總會回到老樣子，就好像冥冥之中有個無法擺脫的宿命一樣。

上學時，我沉迷小說。班主任就找我談話，要我戒掉；我也有決心......

比賽結束後，我跑步沒上榜，決心下一年的比賽跑步一定要有名次......

在某個時候，下定決心要一直健身，改變自己......

可是，後來小說還是看、跑步水準也沒高多少，健身也沒堅持下來。

事情總會回到老樣子，就好像冥冥之中有個無法擺脫的宿命一樣。

數學模型能告訴您其中的原理，這個數學模型就是馬爾可夫模型。

其實，這就是一個馬爾可夫過程，滿足馬爾可夫過程有四個條件。

第一，系統中存在有限多個狀态。

第二，狀态之間切換的機率是固定的。

第三，系統要具有周遊性，也就是從任何一個狀态出發，都能找到一條路線，切換到任何一個其他的狀态。

第四，其中沒有循環的情況，不能說幾個狀态形成閉環，把其他狀态排斥在外。

舉個例子，某位老師，發現課堂上總有學生無法集中注意力，會溜号。

所謂馬爾可夫過程，就是假設學生在 “認真” 和 “溜号” 這兩個狀态之間的切換機率，是固定的。

我們設定，今天認真聽講的學生，明天依舊認真的機率是 90%，還有 10% 的機率會溜号。

而今天溜号的學生，明天繼續溜号的可能性是 70%，剩下 30% 的可能性會變得認真。

咱們看看這個模型怎麼演化。假設總共有 100 個學生，第一天認真和溜号的各占一半。

第二天，根據機率的設定，50 個認真的學生中會有 5 人變成溜号；
而溜号的學生中，會有 15 人變成認真；

是以，第二天是有 60(50-5+15) 個人認真，剩下 40 個人溜号。

第三天，有 66 個認真的，34 個溜号的……

以此類推，最後有一天，您會發現有 75 個認真，25 個溜号的。

而到了這一步，模型就進入了一個穩定的狀态，數字就不變了。

因為下一天會有 7.5 個學生從認真變成溜号，同時恰好有 7.5 個學生從溜号變成認真！

喾哲~ (八月最佳)

而老師對這個穩定态很不滿意，為什麼隻有 75 個認真的呢？

TA 安排了一場無比精彩的公開課，還請了别的老師來幫 TA 監督學生。

這一天，100 個學生都是認真的。

但這樣的幹預對馬爾可夫過程是無效的。

第二天認真的學生就變成了 90 個，第三天就變成了 84 個，……直到某一天，還是 75 個認真和 25 個溜号。

馬爾可夫過程最重要的就是第二個過程，狀态之間切換的機率是固定的。

對應到人的身上，是人的習慣、環境、認知、本性等等影響的，隻要是馬爾可夫過程，不管初始值/狀态如何，也不管在這個過程中有什麼一次性的幹預，ta 終究會演化到一個統計的平衡态：其中每個狀态所占的比例是不變的。

就好像終究會有 75% 的學生認真，25% 的學生溜号。馬爾可夫過程，都有一個宿命般的結局。

從哲學角度來說：馬爾可夫模型就是：

如果您想改變一個人或一件事，授人以魚不如授人以漁(改變機率)。

學者存在性定理

奧數怎解？

曾在《數學聊齋》裡看到一個搶 15 的遊戲。

搶 15 是計算機科學家西蒙發明的，玩法是在桌子上擺上 1、2、3、4、5、6、7、8、9 這九張牌，倆人輪流取牌，誰先拿到相加等于 15 的三張牌就獲勝。

如果對方手裡已經有 2 和 9，而您有1和7，現在該您走，您一定要拿 4，否則下一把對方拿 4 就赢了。

我們(和同班同學)經常會玩一些遊戲：搶 15 、搶 30 、21 根火材、n 根火材、取石子等等。

無論是哪一種遊戲，如果您換個視角，遊戲就會變得非常簡單！

比如，搶 15 遊戲中，您隻要把這九個數字擺成一個九宮圖，如下圖所示：

喾哲~ (八月最佳)

搶 15 的遊戲就變成了井字棋，設法讓自己占的三個格子連成直線，同時避免讓對方連成。

隻要您心中有這幅圖，玩 15 遊戲就會立于不敗之地(當然，沒有粗心的情況啊)。

名詞解析：

視角：就是您怎麼看這個對象，您把這個對象看成什麼。

譬如，這裡有一大堆魚，其中各種各樣什麼樣的魚都有，請問您怎麼看這些魚。一個外行看這些魚，可能會看到有的魚大有的魚小，或者看到有的是死的有的是活的。漁民看這些魚，可能考慮 ta 們的巡遊地點，思考這些魚是怎麼捕撈來的。市場上賣魚的人看，他想的是哪個魚貴哪個魚便宜。而在您看來，可能想的就是哪個好吃哪個不好吃。

而數學定理中，恰好也有一個定理證明了：對任何一個問題，都存在一個能讓答案一目了然、脫穎而出的視角。

一道難題擺在面前，可能目前誰都不知道怎麼解決，但是您要相信，總有一個視角，會讓答案看上去那麼簡單，能夠脫穎而出。

這就好像以前的人認為光非常神秘，而牛頓一旦有了“光是不同顔色的混合”這個視角，光就不再神秘了。
以前的人覺得天體運作非常複雜，而牛頓一旦有了引力這個視角，他就能精準計算行星軌道。

視角，決定了問題的難度；也許普通人和大神差的隻是一個視角及尋找視角的方法。

世界的規律在形式上并不複雜，但沒有一個恰當的視角隻會看得很複雜，是以尋找這視角反而是一個複雜的事情了。

奧卡姆剃刀法則

C語言的設計哲學：簡單就是美。為何簡單就是美？

奧卡姆剃刀法則，又被稱為 “簡約之法則”。

文科、商科專業用奧卡姆剃刀法則解釋個人決策、社會現象、商業管理，理科、工科專業用奧卡姆剃刀法則來尋找理論模型......

從哲學角度來說：奧卡姆剃刀法則 --- 能簡單，就别複雜。

不知道您有沒有看過一部講述霍金生平的電影，叫《萬實體論》，ta 的英文名叫《The Theory of Everything》，字面意思就是 “能解釋一切的理論”。這個詞并不是憑空杜撰的，從牛頓時代開始，實體學界就設想有一個能把所有實體學領域全都納入其中，完整地統一起來的理論。 TA 相當于是實體學界的一座聖杯，包括霍金在内的幾代實體學家都為之傾盡了畢生的心血，可至今都沒有成功。

薩賓說(粒子實體學家)：“想要用一種理論解釋萬物，這不就是源自于科學家們對 “簡單性” 的追求嗎” ？

既然大家都這麼推崇這個法則，TA 是否有科學根據呢？

奧卡姆剃刀法則與資訊論的關系，因為資訊論就是建立在奧卡姆剃刀法則之上的。

在一個系統中，要消除不确定性，就要使用資訊。

這個大方向沒有錯，那使用什麼樣的資訊，使用多少資訊合适呢？？

我們不妨假定需要預測的目标是 Y，當然 TA 有不确定性，是以就有資訊熵，我們寫作 H(Y)，是大于零的。

我們現在有一大堆資訊，我們寫作

喾哲~ (八月最佳)

。

這些資訊可以幫助消除 Y 的不确定性。

我們不妨假定如果這些資訊都用上，那所有的不确定性就消除了，也就是說在

喾哲~ (八月最佳)
的條件下 Y 的不确定性降為了 0 (即 H(Y|

喾哲~ (八月最佳)

)=0 )。

現在問題來了：真的需要那麼多資訊麼？？

顯然不是，因為總有資訊不那麼有用，甚至是無效資訊，那就一定存在一個很小的集合，比如

喾哲~ (八月最佳)
和

喾哲~ (八月最佳)

，我們用了這一點點資訊就足夠了。

也就是說 Y 在給定

喾哲~ (八月最佳)
，

喾哲~ (八月最佳)

條件下的熵，等同于 TA 在給定所有條件下的熵。

又有一個問題就了：怎樣找到一個最小的集合？？

對于這個問題，其實數學上是有答案的，就是找到一組所謂的基函數，傅裡葉變換、正弦或者餘弦函數就是基函數。

在計算機科學中，對于一個複雜的聯絡圖，或者網絡來說，就是找到一個所謂的最小支撐樹。

大家不用記這些名詞，隻要記住在任何領域，都有這種成為支撐點的關鍵資訊，找到 TA們并且使用 TA們，一切問題就可以迎刃而解，掌握和利用這些支撐點，就如同用剃刀剔除樹的枝葉，把多餘的枝枝蔓蔓，使我們困惑的資訊去掉。

奧卡姆剃刀法則不僅有科學根據，在實踐中也被不斷地驗證。

從哲學角度來說：奧卡姆剃刀法則即 --- 能簡單，就别複雜。

柯爾莫哥洛夫複雜度

人的追求有意義嗎？

金庸的作品：《笑傲江湖》、《天龍八部》、《鹿鼎記》。

喾哲~ (八月最佳)

香農定義資訊的方法是看 ta “克服了多少不确定性”。

研究一部作品，香農的視角是基于機率論的，隻看單個字出現的機率，不關心整個作品是什麼“意思”。

而柯爾莫哥洛夫的視角，是您能用多短的語句去描寫這部作品，正如上文的書評。

如何用最少的書評，才能讓讀者充分領會這部作品呢。

......

因為如果找到了這部作品的概括，您也就找到了這部作品的意義。

一些作品可能一句話就能概括，而一些作品卻需要幾頁紙，對于如此不同的差距，我們也可以定義一個複雜度。

這個複雜度即 “柯爾莫哥洛夫複雜度”，複雜度是一個衡量一部作品概括難度系數的名額。

在計算機裡，複雜度也分好幾種情況，如最好、最壞、平均的；在概括一部作品裡，複雜度同樣也可分為最長、最短、平均的。

而柯爾莫哥洛夫複雜度是尋找概括這部作品最短的長度。

請問：“尋找某部作品的柯爾莫哥洛夫複雜度有什麼意義嗎” ？？

“複雜” 真是一個非常、非常、非常 ...... 複雜的話題。

當今的人們還沒找到一個公認的 “複雜” 的定義，但我們提出的柯爾莫哥洛夫複雜度卻可以作為一個參考标準。

我們專注于作品的主幹(抛開人物、對話、身外之物的具體細節)，大概可以說：“俗套的作品” 的柯爾莫哥洛夫複雜度會較低，“不俗套的作品” 的柯爾莫哥洛夫複雜度會較高，而 “低” 和 “高” 取決于您能用多短的書評來概括這部作品。

像數學家、哲學家、實體學家、社會學家等等寫的作品，如果隻是概括一下就很簡潔。

一個公式，如 1 + 1 = 2 ；
一句話，如大道至簡；
一句話，世界是能量的；
一句話，非零和遊戲；

可這樣的公式和話，本身就是一個作品，讀者也不會了解。

喾哲~ (八月最佳)

是以，如果要滿足讓讀者充分領會這部作品，那 TA 的柯爾莫哥洛夫複雜度會比一般的文學作品的柯爾莫哥洛夫複雜度高出許多，這樣人們就可以根據柯爾莫哥洛夫複雜度來挑選作品了。

那我們能不能開發一個算法，自動判斷每部作品的柯爾莫哥洛夫複雜度呢？？

我們知道算法是可計算的，能不能開發這樣的算法，隻需要讓計算機科學家來證明柯爾莫哥洛夫複雜度是可計算問題，還是不可計算問題，如果是可計算問題，這個算法就能實作。

後來，計算機科學家證明了這個定理哦，呃呃，TA 是不可計算的。

是以，這樣的算法是不能開發出來的。

這樣也恰恰說明了，不管我們對一系列事件的規律(書評)怎麼總結，我們提出了一個多麼深刻的解釋 --- 我們永遠都不知道還有沒有更好的總結和更深的解釋。

人的追求有意義嗎？

柯爾莫哥洛夫定理說，“越努力越幸運，自然幸福的機率也高了”。

從哲學角度來說：我們永遠都有可能從生活中發掘出新的意義！

推薦一個不錯的漫畫，在看似枯燥的職業生涯中，找到自己的價值、快樂和使命：《蔑視虛無人生指導手冊》。

哥德爾不完備定理

1. 自然語言(如漢語)能表達一切嗎？

2. 程式設計語言為什麼要弄那麼多(如，C、C++、python) ？

3. 真正的人工智能能不能實作(即超越人的人工智能) ？

在20世紀初的時候，有些數學家就有一個野心，說我們能不能找到一個機械化的方法，能夠從最基本的數學公理出發，自動證明所有的數學定理！！

當時數學家重點考慮的是有關自然數的理論體系，如哥德巴赫猜想就是有關自然數的一個論斷，那數學家說，有沒有一個機械化的方法，自動判斷哥德巴赫猜想到底正不正确(類似古人追求長生不老)。

如果這個方法找到了，那就沒有後來的陳景潤、也沒有其他數學家什麼事兒了，什麼漂亮的證明都會被機械化方法無情碾壓！

數學家們努力了一番，貌似也取得了一些進展，人們充滿雄心壯志。

可是在 1931 年的一次會議上，一個25歲的年輕人，哥德爾，做了一個報告，說他證明了一個有關自然數公理系統的定理。

據說當時馮·諾依曼就在報告現場，馮·諾依曼聽完哥德爾的報告之後說了一句話：“全完蛋啦（It’s all over）！”

哥德爾證明了，在自然數的公理系統中，不但數學家們想要的那種機械化的證明不存在 —— 而且對有些命題來說，連“證明”本身，都根本就不存在！

這就是 “哥德爾不完備性定理”。

這個定理說，隻要自然數的公理系統隻有有限條公理，那麼就一定存在一些命題，您既不能用這些公理證明 ta 是對的，也不能判斷 ta 是錯的。

舉個例子，假設您作為新員工入職了一家公司。老闆說我們是一家成熟的公司，一切行為都有章可循。這裡有一本手冊，您拿回去好好學習。以後不管遇到什麼情況都要對照手冊行動：手冊說該做的您就做，手冊說不該做的您就不做。

您一看這本手冊非常厚，上面密密麻麻寫了好幾千條規定。老闆非常得意。

要是哥德爾遇到這家公司，他馬上就會告訴老闆 —— 總會有一些行動是既屬于公司的活動範疇，又是您這本手冊無法判斷 TA 是對是錯的！

也就是自然數的公理系統是不完備的，在自然數這個領域，您真的不能從幾條有限的公理出發，推導出這個大廈，在自然數這個世界裡，永遠有新的東西等着我們。

也就是說，這種機械化的方法在自然數這個領域搞不成啊，頓時，數學家的整個世界觀都崩塌了。

另外，哥德爾不完備性定理除了對自然數公理系統有效之外，對所有可數系統都有效。

像上面的員工手冊、自然語言、計算機系統、算法，這些都在哥德爾不完備性定理的範圍内，因為像自然語言、程式設計語言甚至是計算機系統，都是可數的，因為語言有界限，像計算機系統的 0 和 1 啊，無論是二進制還是十進制(任何進制都是等價的)，所能表達的資訊一定是有限的，這是資訊編碼本身就決定的。

在這樣一個封閉系統中，總有一些語句是這個系統本身所無法判斷對錯的。

哥德爾不完備性定理答問題一：自然語言(如漢語)能表達一切嗎？

因為自然語言是一個可數的系統，自然語言(如漢語)是不能表達一切的，如果您會雙語就會感受到另一個語言的美麗，恰如西方的詩同樣很美呢。

喾哲~ (八月最佳)

多學一門語言，就能跳出之前語言的局限性，隻會一門語言局限就會比較大了。

哥德爾不完備性定理答問題二：程式設計語言為什麼要弄那麼多(如，C、C++、python) ？

雖然程式設計語言也是一個可數系統，但随着計算機行業的發展，創意十足。

為了通過開發效率，人們不再使用彙編語言，改為 C語言；為了滿足開發大型項目的需求，人們創造了面向對象的思想，改用 C++ 等面向對象的語言，為了實作跨平台，改用 java 語言，程式設計總會遇到無法用目前的條件解決，這時候就會開發出新的産品來應對......

哥德爾不完備性定理答問題三：真正的人工智能能不能實作(即超越人的人工智能) ？

這就要看倆點了：

人腦是可數系統，還是不可數系統呢？
未來發明的機器是否是開關網絡之外呢？

首先，人腦如果是可數的，那計算機很可能可以超越！！

如果我們的大腦都是計算機，那遲早有一天，我們會發現對這個系統我們能想明白的東西都已經想明白了，剩下的都是永遠都不可能想明白的。

現在也沒有人，能充分證明人腦不是圖靈機。額，您要知道哦，一個可數的系統是證明不了自己的。

如果我們的大腦不是可數的，那我們可以不斷地跳出舊系統，探索新知識、發明新語言，建立新系統。科學家永遠可以琢磨新的實體定律，藝術家永遠可以創造新的意境，工程師永遠可以發明新的模型。

如果人腦是可數的，而未來發明的機器不是開關網絡和圖靈機，超越人類，指日可待。

維特根斯坦的《邏輯哲學導論》說總會有一些語句，用這個語言系統本身是無法判斷其對錯的，對于這些東西，我們稱之為不可說的，那對于不可說的，我們保持沉默，但這裡的沉默其實是利用語言之外的東西讓 ta 自己顯現，也就是意會！

從哲學角度來說：哥德爾不完備性定理說的就是紙短情長。

二進制編碼的有效性

文言文為何如此簡潔？

舍友看我再學計算機，于是說了一個題目來考考我。

有 64 瓶藥，其中 63 瓶是無毒的，1 瓶是有毒的。

如果做實驗的小白鼠喝了有毒的藥，3天後會死掉，當然喝了其 ta 的藥，包括同時喝幾種就沒事。

現在隻剩下 3 天時間，請問最少需要多少隻小白鼠才能試出哪瓶藥有毒？？？

： 64 隻。

每一隻吃一種不同的藥，這個答案隻是在腦袋裡過了一下。

一舍友說：“64 隻太多了，對小白鼠不好”。

有 64 瓶藥，其中 63 瓶是無毒的，1 瓶是有毒的。即 64 選 1，也就是

喾哲~ (八月最佳)

答案是 6 隻，為啥這麼簡單，而且這麼少？？

這就歸功于資訊被度量化了，比如您用天平稱重，需要在另一邊擺放相應重量的砝碼，那衡量資訊的砝碼是什麼呢？？

香農最大的貢獻在于找到了這個“砝碼”，也就是将資訊的量化度量和不确定性聯系起來。他給出一個度量資訊量的基本機關，就是 “比特”。

具體參見：香農的論文《通訊中的數學原理》。

“比特” 是這樣定義的：如果一個黑盒子中有 A 和 B 倆種可能性，ta們出現的機率相同，那麼要搞清楚到底是 A 還是 B，所需要的資訊量就是一比特。

如果我們對這個黑盒子有一點知識，知道 A 的機率比 B 大，那麼解密 ta 們所需要的資訊就不到 1 比特。

如四選一的選擇題需要的資訊量是多少比特？？

四選一是需要 4 比特吧，NO ，其實是 2 比特。

順序的查找答案，A 、B 、C 、D，耗費最長的比特是 4 比特(答案要麼是最後一個，要麼都不是)。

事實上，我們完全可以采用二分法，計算機裡的二分法需要滿足順序條件，這裡改為圈地(用幾何表示出來就是一顆二叉樹哦)。

即 A 和 B 一組，C 和 D 一組，查找 AB組，看答案在不在，如果在就查是 A、B 的哪一個，直接查是 C、D 的哪一個即可，2 次就能知道答案。

從資訊編碼的角度來說，解決小白鼠的問題， 6 隻(比特) 就是理論上最少的。

用數字描述就是： 32 -> 16 -> 8 -> 4 -> 2 -> 1，如果用二叉樹畫出來會很清晰。

而資訊編碼包含所有進制，現在我們就思考一下，理論是最少的采用的是什麼進制？？

如果沒猜錯的話，應該是二進制，因為這種對半對半分一看就是和 2 有關呀。

那麼如何用二進制解決呢？

複習一下：

比特就是面臨二選一的時候，倆個可能性都一樣的時候。
N 選 1 ，消除不确定性需要的比特數是 log 以 2 為底的 N，即

喾哲~ (八月最佳)
。

我們将這些藥從 0～63 按照二進制編号，獲得64個六位數的二進制編号，也就是從 000000 (6個零) 到111111 (6個一)，每個二進制編号的最左邊是第一位，最右邊是第六位。

而後選六隻小白鼠從左到右排開，和二進制的六位，從左到右地依次對應。

喾哲~ (八月最佳)

您可以試着一位一位豎着看，每隻小白鼠負責一位。

從左邊數第一個小白鼠吃對應的二進制是 1 的藥，0 就不吃。

第一隻 ? 依次吃第 32，33，34，……，63 号藥。

第二隻 ? 吃 16，17，……，31，48，49，……，63号藥，等等。

最後一隻 ? 吃 1，3，5，……，63 号藥。

您可能注意到了，6 隻小白鼠都吃了 63 号，是因為 63 對應的二進制編号是 6個1，是以 6 隻都要吃。

吃完藥之後三天，某些小白鼠可能死了，我們假定第1，2，6這三隻小白鼠死了，剩下的活着。

這說明什麼呢？？

說明編号 110001 号藥有問題，也就是在第 1，第 2，第 6 位上分别是 3 個 1，因為這三隻小白鼠都吃了ta，而 3，4，5 這三隻沒死的小白鼠沒有吃 ta (對應的位置為0)。

而 110001 對應十進制的 49，也就是說第 49 瓶藥是毒藥。

對于其 ta 的組合也是同樣的，您可以自己随便假定哪幾隻小白鼠死了，看看哪瓶是毒藥。

當然，還有一種情況，就是所有的小白鼠都沒有死，那說明第 0 号藥是毒藥，因為其 ta 的藥都吃過了，就這一瓶沒有吃。

在編碼系統中，任何進制都是等價的。

為什麼呢，我們一起來證明。

假設我們要表達 100 個數字，按照現在進制的劃分可以分為倆種。

100 以内的進制和 100 以外的進制(含 100 進制)。

100 以外的進制是，想 100 個符号來代替 100 個數字；

100 以内的進制，以 10 進制舉例吧。隻需要 10 個數字即可( 0 - 9 )；

我們從 100 個數裡，挑一個，不确定性是 100 選 1，資訊量就是

喾哲~ (八月最佳)
，結果是 6.65 比特。

如果采用 100 以外的進制，也是一個 100 選 1 的問題，所需比特恰好也是 6.65，1 個符号資訊量是 6.65 ，是以編碼長度為 1 。

如果采用 100 以内的進制，如 10 進制，因為隻有 10 個符号，每個符号的資訊量是

喾哲~ (八月最佳)

，結果是 3.325 比特。

但 100 選 1 需要 6.65 比特，10 進制的一位是表示不了，诶，3.325 * 2 = 6.65 了。

也就是說，10 進制可以通過組合來達到消除不确定性所需的資訊量，神奇不。

再試一下二進制啦，二進制的每一個符号包含的資訊量即

喾哲~ (八月最佳)

，結果是 1 比特。

因為 1 * 7 >= 6.65，也就是需要 7 個符号才能表示 100。

可見，對數字的各種編碼其實是等價的，不同的隻是編碼的長度。

表示一百這個整數值：

十進制：100，就倆個符号而已。

二進制：1100100，共七個符号。

一百進制：©️，就一個符号，假設在一百進制中等于一百。

編碼長的(1100100)，如二進制隻有 0 和 1，很容易記，但編碼長度就長了，而 100 以外的進制(含 100 進制) 編碼長度[©️]較二進制很短[1100100]，但需要記住的符号太多了，這些符号可不是像 10 進制有規律的組合，完完全全沒有任何聯系。

從哲學角度來說：編碼的有效性即把話說清楚，讓最佳值理論落實到工程裡。

中心極限定理與三大分布模型

以模型的視角把三大分布(正态、對數正态、幂率)放在一起講。

正态分布

首先人具有多樣性，每個人都是不一樣的，有自己的想法、判斷和追求。這給對人的研究造成極大的困難，使得社會科學幾乎不可能是一門精确的科學。

不過别擔心。您的确很難預測一個人的行為，但是您可以在大體上判斷一群人的行為。

這是為啥呢？？

因為個體的差異可以互相抵消。比如您開個餐館，具體到一個特定的人今天來不來您這吃飯，您很難判斷 —— 但是您每天的顧客人數其實都差不多。有的人本來想來因為臨時有事來不了，有的人本來沒想來因為路過看到就來了，這種種的出入互相抵消了。

如果您的餐館事業已經比較穩定了，您不會太擔心顧客流量的波動。這種情況，就是正态分布。

假設您的餐館平均每天有 100 個顧客，比較好的時候能到 115 人，比較差的時候也有 85 人，那麼畫出圖來，就是下面這樣的一條鐘形曲線 ——

喾哲~ (八月最佳)

曲線的橫坐标代表每天來的人數，縱坐标代表在(比如說)一個季度之中，來這麼多人的時候有多少天。

圖中标記了正态分布的兩個重要概念：平均值(μ)，和标準差(σ)。

對您這個餐館來說，μ = 100，σ = 15，這意味着在 68% 的日子裡，您的顧客人數會在 85 和 115 之間 —— 這叫 “一個标準差之内”。

橫軸上距離平均值越遠的地方越是極端事件，而那些事件的縱坐标大小則代表TA們發生的機率。

隻要您知道餐館人數符合正态分布，平均值和标準差就都可以用平時的流量資料統計出來。

有了平均值和标準差您就可以大緻估算各種事件發生的機率：95%的事情都發生在兩個标準差之内，99.7% 的事情發生在三個标準差之内；黑客說要找個美貌程度在兩個标準差之外的女朋友，那就意味着她要比 97.5%的人都漂亮。

為什麼餐館人數滿足正态分布？

并不是所有随機事件都滿足正态分布。想要學會判斷什麼樣的事件滿足正态分布，您必須有一點數學感，您需要了解“中心極限定理”。

中心極限定理說，如果一個事件滿足下面這些條件，TA的分布就是正态分布 ——

第一，TA是由多個 —— 至少 20 個 —— 随機變量 *相加* 的結果；

第二，這衆多的随機變量是互相 “獨立” 的；

第三，每個随機變量的方差都隻有有限大；

第四，每個随機變量對結果都要有一定的貢獻，否則如果隻是其中幾個起到決定性的作用，那也不能算“多”。

簡單地說，關鍵要求有兩個：“相加”和“獨立” —— 凡是多個獨立随機變量相加的事件，結果就會是正态分布。

您的餐館顧客滿足這些條件。每個顧客來不來吃飯都是他自己的決定，是獨立的；而您計算的是今天總共來了多少人，是這些人的和。

直覺地說，中心極限定理說的是每個人來不來可能波動很大，但是因為人多，整體上來多少人，波動就不會有那麼大，是以滿足正态分布。

如果局面不滿足這兩個條件(相加和獨立)，結果會是怎樣的呢？？

那您就得做好準備迎接極端事件了。

對數正态分布

如果一個事件的結果不是由獨立随機事件相加、而是由相乘決定的，它的分布将是“對數正态分布”。這個分布的形狀就不是對稱的鐘形了，而是像下面這樣 ——

喾哲~ (八月最佳)

它有一個比較長的尾巴，這意味着其中發生極端事件的可能性比正态分布高很多。

比如說漲工資吧。有個公司，本來員工之間工資相差不大。有一天老闆宣布了一個漲工資計劃，說以後每年業績突出的員工，工資會增加 10%。您猜這個政策意味着什麼？

意味着員工之間的工資差距将會變得越來越大。可能老王工資本來就比小李高，這次業績又比小李好，那麼老王漲 10%，小李沒有，是以兩人的差距将會變大。換一種情況，老王表現沒有小李好，那麼小李漲 10%，兩人差距會縮小。但是，請注意，因為老王工資高，是以第一種情況導緻的工資差距拉大，會超過第二種情況導緻的工資差距縮小 —— 是以總體看來，全體員工的收入差距必然拉大。

這就是因為您使用了相乘的方法。換個方案，如果規定業績好的員工，不論之前的工資是多少，一律漲一萬塊錢，那麼員工之間的工資差距就不會拉大。

您喜歡讓員工的收入差距拉大還是縮小呢？不管您喜歡哪種局面，您需要這個數學感。否則是您自己設計的模型，含着淚也得接受它的結果。

請注意，對數正态分布仍然假設每個随機變量的作用是互相獨立的 —— 這意味着哪個員工今年能做出更好的業績，跟他去年的工資沒關系。而如果您認為員工工資代表了能力，那麼工資越高的人就越有可能做出好業績，那結果就不會是對數正态分布了，而是比這還要容易出極端事件的“幂率分布”。

幂率分布

幂率分布的“長尾”，比對數正态分布更長 ——

喾哲~ (八月最佳)
網頁連結的幂率分布

喾哲~ (八月最佳)

幂率分布(黑線)和正态分布(灰線)在對數坐标的比較

這意味着幂率分布中會有大量的極端事件。

幂率分布是不獨立的随機變量作用的結果。科學家找到了很多個能帶來幂率分布的模型，咱們這裡說其中最常見的兩個。

第一個模型是“馬太效應”。比如您去書店買書，那麼多本書選哪本呢？您會優先關注那些上了排行榜的“暢銷書”。這是人之常情，但是這對那些沒上榜的書是不公平的 —— 這等于說越暢銷的書就會越容易被關注，而越容易被關注就讓它進一步更暢銷。這就成了一個富者愈富的局面。

幂率分布使得圖書市場中會出現少量特别暢銷的書，而絕大多數書的銷售成績都很差。

而這一切都是因為您做決定的時候是在模仿别人。您看到别人都買這本書，是以您才關注它。您的買書行為不是獨立的。

明星的粉絲數量、公司的大小、城市的大小，都是幂率分布。比如一個城市越大，其中人與人的互動就越多，就業機會和創新機會也會越多，就越能吸引到新人的加入。這就是為什麼中國有那麼多的超大城市。當然每個幂率分布中的那個幂率參數不見得是一樣的，但是這一講我們不關心具體的數學，隻關心數學感。

如果一個局面中有很多極端事件，我們基本上可以猜測它滿足某種某種幂率分布。科學家做了個計算，說如果美國人的身高是幂率分布的，全美國就會至少有一個人比帝國大廈還要高，而且有一萬人會比長頸鹿高……這就是幂率分布的威力。

另一種幂率分布模型來自于複雜系統的“自組織”現象。一個系統在變大、變複雜的過程中，它的各個部分互相依賴的程度将會增加。到了一個臨界點，因為互相關聯實在太緊密了，一部分出個小問題就會導緻整個系統出大問題，那就是雪崩式的災難。

核電站的安全性、地震、森林大火，這些事情中包含自組織，各個部分之間會有複雜的關聯。而我們說過，所謂蝴蝶效應，罪過不在蝴蝶，恰恰就是因為系統中的複雜關聯。這些系統可能平時什麼事兒都沒有，但是其中蘊含着大災難的可能性。

可能一個地區每天都發生一萬次以上的小地震，影響微不足道，但是您考慮到地震是幂率分布的事件，就必須對大地震做好防災準備。

總而言之，

如果這個事件代表多個獨立随機變量之和，它就滿足正态分布，您不用擔心會有什麼極端的情況發生。

如果一個事件是獨立随機變量的乘積，那就是對數正态分布，其中會有一些比較極端、但不是那麼極端的事情發生。

如果一個事件中的随機變量不是互相獨立的，有互相模仿或者達成了緊密的關聯，那您就必須做好應對極端情況的準備。

數學期望、标準差、正态分布

費馬大定理、可證僞性、回歸平均

回歸平均

有這樣一個故事，有一次 A 給以色列空軍辦講座。

A 講到心理學，對教官說，你要想讓你的學員進步，一定要多正面鼓勵，不要去罵他們。

心理學家有充分的證據，正面鼓勵比打罵有效得多。

這時候有一個教官表示不同意，他跟 A 說，我的經驗可不是這樣的。

如果一個飛行員有一天飛得特别好，我當場表揚他、鼓勵他了，他第二天往往飛得沒有那麼好。

可是如果一個人飛的特别差，我罵他一頓，他第二天果然就飛得沒有那麼差了。

這不就說明，表揚沒用，打罵有用嗎？

A 一時語塞！他後來才想明白這個事兒，這其實是回歸平均。

飛得特别好這種事情并不容易發生，你表揚或者不表揚他，他下一次飛也會回歸平均，會沒有那麼好。

飛得特别不好也是一個小機率事件，你批評或者不批評他，他下一次飛也會回歸平均，會沒有那麼差。

在回歸平均這個大趨勢面前，表揚固然沒有立竿見影的作用，批評的作用其實也是錯覺。

有些事兒發生就發生了，并沒有緣故。

從哲學角度來說：勝不驕，敗不累就是這麼回事，一切都會回歸平均。

除了回歸平均之外，還有複利思維、網絡效應和馬太效應、金字塔效應。

費馬大定理

啟發式、沒有免費午餐定理、最小最大值定理

啟發式

我最早聽到“啟發式”，是學習 NP 問題時，如旅行商問題。

這是一種算法，叫“啟發式算法”。

啟發式的英文是 "heuristic"，啟發式可以說是借鑒于生活中的例子來啟發自己。

比如，您現在是大将軍，您現在遇到困難了，這時也許您會翻一翻兵書，看看裡面的三十六計。

最後，找到一個 “金蟬脫殼”，這個就是一個啟發式的例子。

是以，啟發式算法主要源于每個人的經驗、之前的算法思想，啟發法本質上就是向經驗學習，拆解經驗中的規律和套路為當下所用。

除此之外，啟發式還有四種通用的套路：

類比啟發式：通過聯想尋找事物之間的聯系和共同點，擷取啟發；

貪心啟發式：通過尋找目前局面最優解，擷取啟發；

退火啟發式：在貪心啟發的基礎上加上随機的探索，尋找到某個時刻時，停止探索，轉為貪心啟發式；

進化啟發式：随機模拟生物(适者生存法則)，留在最後的就是最優的；

喾哲~ (八月最佳)

數學的起源

大數定律

貝葉斯機率

傅立葉變換

哈夫曼編碼

最大熵原理

幸存者偏差

醜小鴨定理

阿姆達爾法則

馬爾可夫模型

學者存在性定理

奧卡姆剃刀法則

柯爾莫哥洛夫複雜度

哥德爾不完備定理

二進制編碼的有效性

中心極限定理與三大分布模型

數學期望、标準差、正态分布

費馬大定理、可證僞性、回歸平均

啟發式、沒有免費午餐定理、最小最大值定理

繼續閱讀

有限元軟體開發的基本要求，你還差幾條？

量子計算數學本質及金融應用研究

Open-Assistant是一個基于OpenAI技術的語言模型助手，可以通過文本或語音互動，為使用者提供各種服務和解答問

系統性學習

資料結構 | 從哪裡開始？

研究記事

計算機系統結構 1：圖靈機計算機系統結構【第一課摘要】

4. 計算機科學 (特别放送：人工智能)

1042 - Secret Origins （位運算好題）InputOutputSample InputOutput for Sample Input

COGS 137. [USACO Feb08] 連線遊戲 137. [USACO Feb08] 連線遊戲

【數學的學科體系】數學體系指的是數學中包含的各個學科和其基本的概念、定理、公式和方法等。一般來說，數學的主要分支包括以下

阿裡達摩院太變态了！我愣是連題目都沒讀懂！我看了半天題目，愣是連題目沒能了解，更别說做題了！我猜猜，該不會是團隊新Ai算

第一位國外用家将GPU顯示卡超頻突破到3930MHz，使用的是ColorfuliGameGeForceRTX4090LAB

light oj 1245(時間複雜度問題）

阿裡巴巴全球數學競賽品牌傳播分析（中）

51 nod 1486 大大走格子(容斥原理)