天天看點

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

作者 | 王灏

整理 | 維克多

人工智能(AI)的進展顯示,通過建構多層的深度網絡,利用大量資料進行學習,可以獲得性能的顯著提升。但這些進展基本上是發生在感覺任務中,對于認知任務,需要擴充傳統的AI範式。

4月9日,羅格斯大學計算機科學系助理教授王灏,在AI TIME青年科學家——AI 2000學者專場論壇上,分享了一種基于貝葉斯的機率架構,能夠統一深度學習和機率圖模型,以及統一AI感覺和推理任務。

據介紹,架構有兩個子產品:深度子產品,用機率型的深度模型表示;圖子產品,即機率圖模型。深度子產品處理高維信号,圖子產品處理偏推斷的任務。

以下是演講全文,AI科技評論做了不改變原意的整理:

今天和大家分享關于貝葉斯深度學習的工作,主題是我們一直研究的機率架構,希望用它統一深度學習和機率圖模型,以及統一AI感覺和推理任務。

衆所周知,深度學習加持下的AI技術已經擁有了一定的視覺能力,能夠識别物體;閱讀能力,能夠文本了解;聽覺能力,能夠語音識别。但還欠缺一些思考能力。

“思考”對應推理推斷任務,具體指它能夠處理複雜的關系,包括條件機率關系或者因果關系。

深度學習适合處理感覺任務,但“思考”涉及到高層次的智能,例如決策資料分析、邏輯推理。機率圖由于能非常自然的表示變量之間的複雜關系,是以處理推理任務具有優勢。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

如上圖,概覽圖示例。任務是:想通過目前草地上噴頭開或關,以及外面的天氣來推斷外面的草地被打濕的機率是多少,也可以通過草地被打濕反推天氣如何。機率圖的缺點是無法高效處理高維資料。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

總結一下,深度學習比較擅長感覺類的任務,不擅長推理、推斷任務,機率圖模型擅長推理任務,但不擅長感覺任務。

很不幸,現實生活中這兩類任務一般是同時出現、互相互動。是以,我們希望能夠把深度學習的機率圖統一成單一的架構,希望達到兩全其美。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

我們提出的架構是貝葉斯深度學習。有兩個子產品:深度子產品,用機率型的深度模型表示;圖子產品,即機率圖模型。深度子產品處理高維信号,圖子產品處理偏推斷的任務。

值得一提的是,圖子產品本質是機率型的模型,是以為了保證能夠融合,需要深度模型也是機率型。模型的訓練可以用經典算法,例如MAP、MCMC、VI。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

給具體的例子,在醫療診斷領域,深度子產品可以想象成是醫生在看病人的醫療圖像,圖子產品就是醫生根據圖像,在大腦中判斷、推理病症。從醫生的角度, 醫療圖像中的生理信号是推理的基礎,優秀的能力能夠加深他對醫療圖像的了解。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

引申一下,電影推薦系統裡,可以把深度子產品想象成是對電影的視訊情節、演員等内容的了解,而圖子產品需要對使用者喜好、電影偏愛之間的相似性進行模組化。進一步,視訊内容了解和“喜好”模組化也是相輔相成的。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

具體到模型細節,我們将機率圖模型的變量分為三類:深度變量,屬于深度子產品,假設産生于比較簡單的機率分布;圖變量,屬于圖子產品,和深度子產品沒有直接相連,假設它來自于相對比較複雜的分布;樞紐變量,屬于深度子產品和圖子產品中互相聯系的部分。

下面介紹該架構是如何在實際應用中效果。

推薦系統

推薦系統基本假設是:已知使用者對某些電影的喜好,然後希望預測使用者對其他電影的喜好。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

可以将使用者對電影的喜愛寫成評分矩陣(Rating Matrix),該矩陣非常稀疏,用來直接模組化,得到的準确性非常低。在推薦系統中,我們會依賴更多的資訊,例如電影情節、電影的導演、演員資訊進行輔助模組化。

為了對内容資訊進行模組化,并進行有效提純,有三種方式可供選擇:手動建立特征,深度學習全自動建立特征、采用深度學習自适應建立特征。顯然,自适應的方式能夠達到最好的效果。

不幸的是,深度學習固有的獨立同分布假設,對于推薦系統是緻命的。因為假設使用者和使用者之間沒有任何的關聯的,顯然是錯誤的。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

為了解決上述困難,我們推出協同深度學習,能夠将“獨立”推廣到“非獨立”。該模型有兩個挑戰:

1.如何找到有效的機率型的深度模型作為深度子產品。希望該模型能夠和圖子產品相容,且和非機率型子產品的效果相同。

2.如何把深度子產品連接配接到主子產品裡,進而進行有效模組化。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

來看第一個挑戰。自編碼器是很簡單的深度學習模型,一般會被用在非監督的情況下提取特征,中間層的輸出會被作為文本的表示。值得一提的是,中間層的表示它是确定性的,它不是機率型的,和圖子產品不相容,無法工作。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

我們提出機率型的自編碼器,差別在于将輸出由“确定的向量”變換成“高斯分布”。機率型的自編碼器可以退化成标準自編碼器,是以後者是前者的一個特例。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

如何将深度子產品與圖子產品相聯系?先從高斯分布中提出物品j的隐向量:

然後從高斯分布中,提取出使用者i的隐向量:

基于這兩個隐向量們就可以從另外高斯分布采樣出使用者i對物品j的分布,高斯分布的均值是兩個隐向量的内積。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

上圖藍框表示圖子產品。定義了物品、使用者、評分等等之間的條件機率關系。一旦有了條件機率關系,就能通過評分反推使用者、物品的隐向量,可以根據“内積”預測未知的背景。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

上圖是整個模型的圖解,其中λ是控制高斯分布方差的超參數。為了評測模型效果,我們用了三個資料集:citeulike-a、citeulike-t、Netflix。對于citeulike是用了每篇論文的标題和摘要,Netflix是用電影情節介紹作為内容資訊。

實驗結果如下圖所示,Recall@M名額表示,我們的方法大幅度超越基準模型。在評分矩陣更加稀疏的時候,我們模型性能提高幅度甚至可以更大。原因在于,矩陣越稀疏,模型會更加依賴内容資訊,以及從内容提取出來的表示。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

推薦系統性能提升能夠提升企業利潤,根據麥肯錫咨詢公司的調查,亞馬遜公司中35%的營業額是由推薦系統帶來的。這意味着推薦系統每提升1%個點,都會有6.2億美金的營業額提升。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

小結一下,到目前為止,我們提出了機率型的深度模型作為貝葉斯深度學習架構的深度子產品,非機率型的深度模型其實是機率型深度模型的特例。針對深度的推薦系統提出層級貝葉斯模型,實驗表明該系統可以大幅度推薦系統的效率。

其他應用設計

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

給定一個圖,我們知道邊,并了解節點的内容。此圖如果是社交網絡,其實就是表示着使用者之間的朋友關系,節點内容就是使用者貼在社交平台上的圖檔或者文本。這種圖關系,也可以表示論文的标題、摘要、引用等等聯系。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

我們的任務是希望模型能夠學習到節點的表達,即能夠捕獲内容資訊,又能夠捕獲圖的資訊。

解決方案是基于貝葉斯深度學習架構,設計關系型的機率自編碼器。深度子產品專門負責處理每個節點的内容,畢竟深度學習能夠在處理高維資訊是有優勢的;圖子產品處理節點節點之間的關系,例如引用網絡以及知識圖譜複雜的關系。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

在醫療領域,我們關注醫療監測。任務場景是:家裡有小型雷達,會發射信号,設計的模型希望能夠根據從病人身上反射的信号,發現病人是否按時用藥、用藥的次序是否正确。問題在于:用藥的步驟非常複雜,需要理清順序。

基于貝葉斯深度學習機率架構方法,用深度子產品處理非常高維的信号資訊,用圖子產品對在醫療專有知識進行模組化。

值得一提的是,即使對于不同應用的同一模型,裡面的參數具有不同的學學習方式,例如可以用MAP、貝葉斯方法直接學習參數分布。

對于深度的神經網絡來說,一旦有了參數分布,可以做很多事情,例如可以對預測進行不确定性的估計。另外,如果能夠拿到參數分布,即使資料不足,也能獲得非常魯棒的預測。同時,模型也會更加強大,畢竟貝葉斯模型等價于無數個模型的采樣。

下面給出輕量級的貝葉斯的學習方法,可以用在任何的深度學習的模型或者任何的深度神經網絡上面。

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

首先明确目标:方法足夠高效,可通過後向傳播進行學習,并“抛棄”采樣過程,同時模型能夠符合直覺。

我們的關鍵思路是:把神經網絡的神經元以及參數,看成分布,而不是簡單的在高維空間的點或者是向量。允許神經網絡在學習的過程中進行前向傳播、後向傳播。因為分布是用自然參數表示,該方法命名為NPN(natural-parameter networks)。

#參考文獻:

A survey on Bayesian deep learning. Hao Wang, Dit-Yan Yeung. ACM Computing Surveys (CSUR), 2020. Towards Bayesian deep learning: a framework and some existing methods. Hao Wang, Dit-Yan Yeung. IEEE Transactions on Knowledge and DataEngineering (TKDE), 2016.

Collaborative deep learning for recommender systems. Hao Wang, Naiyan Wang, Dit-Yan Yeung. Twenty-First ACM SIGKDD Conference on

Knowledge Discovery and Data Mining (KDD), 2015.

Collaborative recurrent autoencoder: recommend while learning to fill in the blanks. Hao Wang, Xingjian Shi, Dit-Yan Yeung. Thirtieth Annual

Conference on Neural Information Processing Systems (NIPS), 2016.:

Natural parameter networks: a class of probabilistic neural networks. Hao Wang, Xingjian Shi, Dit-Yan Yeung. Thirtieth Annual Conference on

Neural Information Processing Systems (NIPS), 2016.

Relational stacked denoising autoencoder for tag recommendation. Hao Wang, Xingjian Shi, Dit-Yan Yeung. Twenty-Ninth AAAI Conference on Artificial Intelligence (AAAI), 2015.

Relational deep learning: A deep latent variable model for link prediction.

Hao Wang, Xingjian Shi, Dit-Yan Yeung. Thirty-First AAAI Conference on Artificial Intelligence (AAAI), 2017.

Bidirectional inference networks: A class of deep Bayesian networks for health profiling.

Hao Wang, Chengzhi Mao, Hao He, Mingmin Zhao, Tommi S. Jaakkola, Dina Katabi. Thirty-Third AAAI Conference on Artificial Intelligence (AAAI),

2019.

Deep learning for precipitation nowcasting: A benchmark and a new model. Xingjian Shi, Zhihan Gao, Leonard Lausen, Hao Wang, Dit-Yan Yeung,

Wai-kin Wong, and Wang-chun Woo. Thirty-First Annual Conference on Neural Information Processing Systems (NIPS), 2017.

Convolutional LSTM network: A machine learning approach for precipitation nowcasting. Xingjian Shi, Zhourong Chen, Hao Wang, Dit-Yan Yeung,

Wai-kin Wong, Wang-chun Woo. Twenty-Ninth Annual Conference on Neural Information Processing Systems (NIPS), 2015.

Continuously indexed domain adaptation. Hao Wang*, Hao He*, Dina Katabi. Thirty-Seventh International Conference on Machine Learning (ICML),

2020.

Deep graph random process for relational-thinking-based speech recognition. Hengguan Huang, Fuzhao Xue, Hao Wang, Ye Wang. Thirty-

Seventh International Conference on Machine Learning (ICML), 2020.

STRODE: Stochastic boundary ordinary differential equation. Hengguan Huang, Hongfu Liu, Hao Wang, Chang Xiao, Ye Wang. Thirty-Eighth

International Conference on Machine Learning (ICML), 2021.

Delving into deep imbalanced regression. Yuzhe Yang, Kaiwen Zha, Yingcong Chen, Hao Wang, Dina Katabi. Thirty-Eighth International Conference

on Machine Learning (ICML), 2021.

Adversarial attacks are reversible with natural supervision. Chengzhi Mao, Mia Chiquier, Hao Wang, Junfeng Yang, Carl Vondrick. International

Conference on Computer Vision (ICCV), 2021.

Assessment of medication self-administration using artificial intelligence. Mingmin Zhao*, Kreshnik Hoti*, Hao Wang, Aniruddh, Raghu, Dina

Katabi. Nature Medicine, 2021.

貝葉斯深度學習:一個統一深度學習和機率圖模型的架構

雷峰網雷峰網

繼續閱讀