天天看點

薛定谔的佛與深度學習中的因果

《尋夢環遊記》看哭了許多人,小男孩米格踏過花瓣橋,也就踏入了既生又死的狀态,出現在他眼前的,是恢弘的亡靈世界。如果人世間沒有人再記得,骷髅人也将在亡靈世界煙消雲散,這是人存在的本來景象嗎?瑪雅人祭奠的聖井,真的是通往亡靈世界的入口嗎?瑪雅人是不是已然到達了傳說中的梵境?

緊跟着瑪雅人到達梵境的,是現在的一批90後。《第一批90後已經出家了》稱,辦公室的90後已經找到人生的新方向,宣布成佛,“有也行,沒有也行,不争不搶,不求輸赢”,這是真真正正的梵境,是物我兩忘、無生無死、無真無假的量子存在。這已經無限接近薛定谔心目中的生命體驗(life):“......‘我’這個人,如果有,那依照自然規律控制了‘原子運動’”;“我”的定義并非是經曆體驗的收集,而“在收集它們的畫布之上”;如果催眠師能成功遮閉所有早期記憶,就沒有個人存在性的損失——“也将不曾有是”。這也是印度教意義上的佛。

統計學家眼中的佛

這些表述出現在薛定谔1944年出版的書《What is Life?》,薛定谔說,生命是由負熵喂養大的,後來更正為,自由能才是生命的源泉。薛定谔眼裡的生命就是一團活生生的自由能,也是普裡高津世界裡,不斷擷取自由能的開放的耗散結構。他既是《人民日報》鼓勵年輕人做的、不屈不撓的“鬥戰勝佛”, 也是悲憫衆生、大慈大悲的觀世音菩薩。而統計學家眼裡的佛,卻應該是這條神秘的鐘形曲線。

薛定谔的佛與深度學習中的因果

沒錯,這個神秘的鐘形,就是偉大的高斯分布,她是佛的身姿,無時不有,又無處不在。中心極限定理(Central Limit Theorem)告訴我們,即使你不能描述單一的随機事件的發生,大量這些單一随機事件的群體行為卻服從高斯分布。高爾頓設計了一個釘闆實驗,切實驗證了這條曲線,并從統計的觀點解釋了生物遺傳現象;1994年美國暢銷書《鐘形曲線》(The Bell Curve)則根據大量測試資料,得出東亞人智商最高的客觀的結論;不一而足。這或許就是“一花一世界,一葉一如來”的統計學解釋。

薛定谔的佛與深度學習中的因果

高斯曲線有着優美的身形,無處不在的神秘感,還有着倔強的性格:打碎了,揉爛了,被傅裡葉變換了,仍然還堅持自我。兩個高斯分布的獨立變量 X,Y 的和 X+Y 或者差 X-Y,服從另一個高斯分布:

薛定谔的佛與深度學習中的因果

反之也成立,1936年 Cramer 證明了兩個獨立變量 X,Y 和(X+Y)如果服從高斯分布,則X,Y也分别服從高斯分布。

在傅裡葉分析中,人們觀察到,合适方差情況下,高斯分布是傅裡葉變換算子的特征向量,也就是說高斯分布代表着她自己的頻率分量。舉個例子,如下的方程式就完美地将高斯分布與她的傅裡葉變換關聯。佛都是頓悟了自身的覺悟者。

薛定谔的佛與深度學習中的因果

最大熵原理說:一個封閉的有固定内部能量的系統,平衡态時候熵最大;而最小能量原理則告訴我們:一個封閉的有固定熵的系統,平衡态時候能量最小。這其實是一件事情的兩種不同的說法。這引出了高斯曲線更奇妙之處,她可以在給定能量的前提下,最大化系統的熵。對一瓶給定溫度的氣體(能量固定),研究發現某個粒子按照某個速度運動的可能性服從高斯分布。

“事物由不同層次的随機變量展現出來的資訊來表達,不同層次上的随機變量攜帶不同的資訊,共同組合影響上一層的随機變量的資訊表達,而随機變量對外表達的資訊則取決于該随機變量的條件機率分布”。底層的多個獨立的随機變量,如果都服從高斯分布,根據上文描述的特性,可以推斷,一層層堆疊構成上層的随機變量之後,仍然服從高斯分布。而這個多個獨立的服從高斯分布的随機變量的堆疊過程,就是典型的高斯過程。高斯過程是高斯機率分布在随機函數空間的表現形式。

深度學習中的因果

菩薩畏因,衆生畏果。NIPS 2017上,Ali Rahimi開撕,現在的深度學習是重果不重因的煉金術,Yann LeCun則反駁說:如果你吃了一個雞蛋覺得味道不錯,何必知道是哪個母雞下的呢?!(原話不是這樣的,這是筆者蹩腳的翻譯)。Ali對于沒有理論依據的深度學習結論的憂慮,展現出其菩薩的一面:菩薩深知因果循環,是以主張從源頭上限制,也就是起心動念時都要看好,莫種惡因;LeCun與衆生不識因果,若種下惡因,果報來時悔之晚矣。

Bayesian學派的解決方案看起來是更接近因果的,他們從先知後覺的Bayes推理(Bayesian Inference)入手:

薛定谔的佛與深度學習中的因果

其中,p(⍬) 是在我們沒有看到資料之前,一個參數的先驗機率;而 p(D|⍬) 稱為似然(likelihood),它是資料 D 在給定 ⍬ 情況下的機率分布。如果将Bayesian推理應用到深度神經網絡中,人們就可以擷取在給定訓練資料集的情況下,神經網絡權重 W 的後驗機率分布 p(W|D) :

薛定谔的佛與深度學習中的因果

進一步,人們還可以得到神經網絡輸出的後驗機率、不同大小的神經網路,以及這些不同的神經網絡對應的輸出。

如果我們再假定:p(w) 先驗分布為高斯分布,訓練後的目标資料也遵循高斯分布,可以推導出 p(w|D)的形式,然後最大化 p(w|D),發現其損失函數是通過權值衰減(weight decay)最小化的, 這是現代神經網絡算法中優化最大似然的常見方式。于Bayesian推理而言,最大似然就是找到一組權重 w*,使得資料集 D 的出現的可能性最大:Max (p(D|w*)) 。而學習這個權重w,就是不斷看到訓練資料後,持續改變我們原來對權重參數的認知。

Ali想要的因果,顯然不僅僅是其中的實體原理,這些人類已有的觀測結論。筆者對于讓機器真正了解因果的好奇,也是遠遠勝過發明永動機或者統一相對論與量子力學。随機變量互相獨立且遵循高斯分布是很強的假設,What if p(w) 不是高斯分布呢? What if 這些随機變量不是獨立的呢?目前,神經網絡還不會主動問“What if”這樣的問題,會問的,隻有人和佛。

從煉金術走向科學:強人工智能,需要深谙因果

同一個論壇上,圖靈獎得主、貝葉斯之父 Judea Pearl 的報告《機器學習的理論障礙》(Theoretical impediments to machine learning),澄清了這個問題,同時也抛出了老人家對于讓機器了解因果的深刻見解:看到(Seeing)是相關(Association P(y|x) ),而做到(Doing)是介入(Intervention P(y|do(x),z) ),想象(Imagining)是反設事實(Counterfactuals P(yx|x',y') )。針對因果關系的不對稱性,Judea提出可以豐富機率論的數學語言,将Bayesian Network 發展為 Causal Network,進而也可以将基于歸納的煉金術,發展成基于演繹的因果推理。

薛定谔的佛與深度學習中的因果

正如Judea在大會上總結的:缺乏現實模型的資料科學可能是統計學,但幾乎不是科學;人類級别的強人工智能不可能從 model-blind 的學習機器中出現。也就是說,想要強人工智能,深谙因果是繞不過去的門檻。這裡提一下,所有現在的 Chat-Bot 聊天機器人或智能客服,都還沒有跨過這個門檻。Judea講座是NIPS上的一股清流,無奈曲高和寡。何時才能“曲高”不“和寡”?

誇張一點說:世界上的萬事萬物都隻有兩種狀态:高斯分布或去往高斯分布的路上,除非……,除非有一種神秘的力量、自由的能量,阻止這個趨勢。這種神秘的力量,是地球的太陽,是普利高津眼裡的耗散結構,是釋迦牟尼身邊的菩提樹,是世人應該有的修行。Judea在兒子Daniel被恐怖分子斬首後,為緩解各民族之間的仇恨多番奔走,成了他晚年的修行。每個人都在做自己的人生修行,修行就是去高斯的過程,其中應有儒家的入世,道家的淡然,佛家的悲憫。To be,or not to be? Remember me!? Fine, Anyway.

參考資料:

http://www.science4all.org/article/shannons-information-theory/

http://dlab.clemson.edu/11._Erwin_Schrodinger_-_What_is_Life__1944_.pdf

https://en.wikipedia.org/wiki/Principle_of_minimum_energy

https://www.cs.cmu.edu/afs/cs/academic/class/15782-f06/slides/bayesian.pdf

http://www.askamathematician.com/2010/02/q-whats-so-special-about-the-gaussian-distribution-a-k-a-a-normal-distribution-or-bell-curve/

https://www.zhihu.com/question/263886044/answer/274543455

http://web.cs.ucla.edu/~kaoru/theoretical-impediments.pdf

作者簡介

王慶法,中國東信CTO,首席資料官聯盟專家組成員,曾就職于斯倫貝謝、IBM、微軟、陽光保險等知名企業的研發部門16年,在傳統企業資料、大資料、機器學習、深度學習以及雲計算等領域積累了豐富的軟體開發、架構設計、技術管理、産品創新以及孵化落地的經驗。

原文釋出時間為:2017-12-18

本文作者:王慶法

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀