天天看點

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

聯合編譯:blake、高斐

編者注:michael i. jordan教授是加州大學伯克利分校(university of california, berkeley)電子工程系、計算機科學系以及統計系的傑出教授。他在亞利桑那州立大學(arizona state university)獲得了數學碩士學位,并且在1985年從加利福尼亞大學聖地亞哥分校(university of california, san diego)獲得了認知科學博士學位。自1988年到1998年,michael i. jordan在麻省理工學院(mit)任教授,他的研究方向包括了計算學、統計學、認知及生物科學,最近幾年集中在貝葉斯非參數分析、機率圖模型,譜方法、分布式計算系統中核心機及其應用問題、自然語言處理、信号處理和統計遺傳學等問題上(幾乎涵蓋了大部分機器學習中的内容)。

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

michael i. jordan教授是美國科學院院士(national academyof sciences)、美國工程院(national academy of engineering)院士和美國藝術和科學學院(american academy of arts and sciences)院士。他被數理統計研究所任命為neyman lecturer 和medallion lecturer。在2016年,他獲得了ijcai卓越研究獎。之前的2015年,他獲得了david e. rumelhart獎;在2009年,他獲得了acm/aaai的allen newell獎。同時,他是aaai、acm、asa、css、ieee、ims、isba和siam的成員。

學術明星Michael Jordan解讀:思維層與資料科學革命的關系
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

michael i jordan

加州大學伯克利分校(university of california, berkeley)

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

如果你是一名來自伯克利的畢業生,當你畢業之後去矽谷可能會遇到的需求。

老闆:“我需要一個大資料系統,使用個性化的服務來替換原來的經典服務。”

“這個系統對于任何一個人來說都要良好運作,我可以接受一點點錯誤但是不能有那些會讓我們尴尬的愚蠢錯誤。”

michael i jordan:這意味着要将你的錯誤率降到特别低的程度,如果正确率有99%,那另外1%的使用者遇到那些錯誤也是相當龐大的一個數字。

“它應該和原來的經典服務運作的一樣快。”

michael i jordan:不能比原來的服務慢,而且還要在适當的預算中。

“當我們收集到更多的資料時它隻能變快,特别是不能變慢。”

michael i jordan:當資料量增加時,錯誤率也會相應的增大,不一定資料越多速度會越快。

“在這個方面會有很多人關注嚴隐私層面的問題,這些人裡面包含很多不同的客戶。”

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

資料科學十分要求計算思維和推理思維的完全融合(推理思維出現才300年左右,已經開始擁抱各種思想,可以互相融合)

計算思維意味着什麼

抽象、子產品化、可擴充性、魯棒性等

推理思維意味着什麼

在資料背後考慮真實世界的現象問題 考慮到産生資料的采樣模式 開發程式将從資料“向後”反推到底層現象
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

計算科學與統計中的核心理論是分别發展的,存在一個油與水的問題(互不相容的因素) 

核心統計理論中沒有運作時間和其它計算資源的位置

核心計算理論中沒有統計風險的位置

學術明星Michael Jordan解讀:思維層與資料科學革命的關系
學術明星Michael Jordan解讀:思維層與資料科學革命的關系
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

人們一般不願意他們的個人資料在不受控制的情形下被使用,同時會擔心他們的隐私将會損失多少。

“隐私損失”能夠進行量化

我們想要将隐私損失與我們能從“資料分析”中所得的價值進行交易

問題就變成了将這些價值進行量化并将其與隐私損失并列在一起

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

疑問——資料庫——私人資料庫

計算思維,但不是推理思維(舉例:資料給出的是人們的年紀、身高、體重以及血壓,是否應該他們藥物治療,他們還能活多久?)
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

将兩者融合起來

隐私碰上推理問題
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

讓n來表示資料點的量,d來表示參數空間的次元,a表示不同的隐私參數

原理:如果我們将n替換成有效地樣本大小,隐私意識極大極小風險與經典的極大極小風險相同

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

舉例:患者上醫院的估計原因

藥物濫用入院治療的患者

對引發患病率不同的物質預估

學術明星Michael Jordan解讀:思維層與資料科學革命的關系
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

非隐私觀察:人們有時不想分享一些隐私資料,對此,我們應當通過什麼辦法進行隐私資料分析?

觀點1:增加重尾噪音,以獨立噪音(例如,拉普拉斯機制)為例,通過這種途徑,便能夠獲得一手資料

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

從集合{0,1}中統一提取随機向量v

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

統一從集合{0,1}中提取v

當機率為  時,其中α為微分隐私參數,選擇接近x的v和1-v

否則,選擇遠離x的v和1-v

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

額外資料為綠色曲線,對應對數刻度的藍色曲線反映了該優化機制。綠色曲線和藍色曲線的走勢顯示出額外資料與優化資料之間明顯的差異。

估計由于不同原因進出急診室的比例

資料源:濫用藥物預警網絡

學術明星Michael Jordan解讀:思維層與資料科學革命的關系
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

大資料現象使分布式存儲資料具有必要性(因而,michael在資料分析系統中對資料添加一定的限制,即壓縮(compression))。

獨立資料收集(例如,醫院)

隐私

設定:每一個m智能體的樣本數量為n 資訊傳輸到融合中心 問題:溝通與統計效用之間的權衡?
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

驗證模式的科學(例如,粒子實體學)

推理問題:存在大量幹擾性變量

解釋模式的科學(例如,天文學,基因組學)

推理問題:存在大量的假說

衡量人類活動,尤其是線上活動,将産生大型資料集,這些資料集可用于個性化或用于開拓市場

推理問題:許多不為人知的取樣架構(具有多樣性),複合式損失函數

 存在計算方面的問題

最為顯著的是,計算方面的問題與推理方面的問題互相影響。
學術明星Michael Jordan解讀:思維層與資料科學革命的關系

将be 限制在b比特範圍内

b限制範圍内溝通的最大最小風險如上圖所示。

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

在正态局部集θ中計算平均估計值

原理:當每一個智能體的樣本數量為n時,最大最小率如上圖所示。

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

 原理:當每一個智能體的樣本數量為n時,b限制範圍内溝通的最大最小率如上圖所示。

學術明星Michael Jordan解讀:思維層與資料科學革命的關系

在處理資料科學問題中出現了許多概念和數學上的挑戰

面臨這些挑戰要求在“計算思維”和“推理思維”中建立良好的聯系

在計算和推理領域的基礎層面建立聯系

相關閱讀

<a href="http://www.leiphone.com/news/201608/i9ibclvhcwzeethh.html" target="_blank">深度學習鼻祖geoffrey hinton幫你入門帶你飛</a>

<a href="http://www.leiphone.com/news/201608/1frzzkydmxd3ma52.html" target="_blank">深度學習大神yoshua bengio經典前瞻演講,幫你打通深度學習的任督二脈</a>

<a href="http://www.leiphone.com/news/201608/zab48acz1afm1tap.html" target="_blank">深度學習元老yann lecun詳解卷積神經網絡</a>

<a href="http://www.leiphone.com/news/201608/vhqwt5ewmuslbcnv.html" target="_blank">秒懂!何凱明的深度殘差網絡ppt是這樣的|icml2016 tutorial</a>

ps : 本文由雷鋒網(公衆号:雷鋒網)獨家編譯,未經許可拒絕轉載!

via michael i. jordan

本文作者:李尊

繼續閱讀