天天看點

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

5 月 27 日,機器之心主辦的為期兩天的全球機器智能峰會(GMIS 2017)在北京 898 創新空間順利開幕。中國科學院自動化研究所複雜系統管理與控制國家重點實驗室主任王飛躍為本次大會做了開幕式緻辭,他表示:「未來,人工智能将幫助人類戰勝各種困難」。大會第一天重要嘉賓「LSTM 之父」Jürgen Schmidhuber、Citadel 首席人工智能官鄧力、騰訊 AI Lab 副主任俞棟、英特爾 AIPG 資料科學部主任 Yinyin Liu、GE Transportation Digital Solutions CTO Wesly Mukai 等知名人工智能專家參與峰會,并在主題演講、圓桌論壇等互動形式下,從科學家、企業家、技術專家的視角,解讀人工智能的未來發展。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

上午,Citadel 首席人工智能官鄧力發表了主題為《無監督學習的最新進展》的演講,他探讨分享了無監督學習的優勢,并詳細介紹了随機原始-對偶梯度方法(SPDG)與其優良的性能,下面我們将一起浏覽鄧力老師的盛宴。

首先鄧力老師介紹了無監督學習的概念和強大之處,鄧力表明無監督的學習範式即是深度學習當中的一種範式。也就是我們不給系統提供一個非常具體的信号,你隻是告訴它一些資訊,讓它以無監督的方式自己學習,能夠很成功地學到你讓它學的東西。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

鄧力今天跟大家介紹的一個無監督學習主流的觀點就是,以預測為中心的無監督的學習的範式,在這個範式裡面我們能夠直接完成機器學習的目标,無論是預測還是其他的任務。因為,我們能夠直接把輸入放到系統裡面,然後利用無監督學習的機制(機器自己學習),而不需要人類給它一些标簽、辨別,利用這種範式就能做出一些非常優良的預測。

随後鄧力為我們描繪了監督學習如何使用分類器處理标注問題。我們知道監督學習的特點就是有大量的标注資料集,而最新的監督模型總是表現得比無監督預訓練模型更好。那是因為,監督會允許模型能夠更好的編碼資料集上的特征。隻不過當模型應用在其他的資料集上時,監督的效果會衰減。

如下圖所示,鄧力首先展示的就是從成對輸入-輸出資料(監督學習)的分類模型。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

鄧力老師表明監督學習,即給機器輸入、輸出一對資料,讓它自己去學習,這種情況下它肯定有一個映射了,一對輸入輸出就像一個老師,老師教給這個機器如何進行識别或預測。這個範式非常地成功,在人類已經将其應用到語言識别和機器翻譯等方面,最近由卷積神經網絡引起的高效圖像識别也是基于監督學習。這種範式十分成功,其算法都是用這種一對對映射的輸入輸出方式來訓練整個系統。

但是另一方面我們可以看到這種方法的成本十分巨大,我們需要給系統提供輸入和輸出成對的資料。語音識别還好一點,但是對于其他的應用(比如翻譯、醫療應用、圖像識别、視訊相關的任務和醫學影像方面的任務),那麼這種監督學習的訓練方法就太貴了,成本太高了。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展
在介紹了監督學習的解決方案後,鄧力老師緊接着帶我們概覽了一遍傳統的無監督學習算法。首先就是聚類這一大類,其又包含以下幾種方法:

  • K-均值聚類:該方法是一種通用目的的算法,聚類的度量基于樣本點之間的幾何距離(即在坐标平面中的距離)。叢集是圍繞在聚類中心的族群,而叢集呈現出類球狀并具有相似的大小。K-均值聚類是最流行的聚類算法,因為該算法足夠快速、簡單,并且如果你的預處理資料和特征工程十分有效,那麼該聚類算法将擁有令人驚歎的靈活性。
  • 層次聚類:層次聚類最開始由一個資料點作為一個叢集,随後對于每個叢集,基于相同的标準進行合并,重複這一過程直到隻留下一個叢集,是以就得到了叢集的層次結構。次聚類最主要的優點是叢集不再需要假設為類球形,另外其也可以擴充到大資料集。

其次主要介紹了密度估計類的模型,其中包括:

  • 主題模型:即在機器學習和自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直覺來講,如果一篇文章有一個中心思想,那麼一些特定詞語會更頻繁的出現。
  • 生成對抗網絡:GAN 由兩個彼此競争的深度神經網絡——生成器和判别器組成的。生成模型可以被看作是一隊僞造者,試圖僞造貨币,不被人發覺,然而辨識模型可被視作一隊警察,努力監察假的貨币。博弈中的競争使得這兩隊不斷的改善方法,直到無法從真實的物品中辨識出僞造的。
  • 變分自編碼器:VAE 是一類重要的生成模型,現在廣泛地用于生成圖像。與 GAN 不同的是,我們是知道圖像的密度函數(PDF)的,而 GAN 并不知道圖像的分布。

鄧力老師随後探讨了如果沒有輸入、沒有一個學習材料系統該怎樣學習,是以說機器還得需要一些學習材料,而又不需要人類提供那些成本非常昂貴的輸入輸出映射。那麼在這樣一個無監督學習裡,我們該怎樣訓練模型。

鄧力老師随後表明,在這個世界上有充分的、多元的一些知識,我們可以把它整合到一個整體的知識體系中,然後将其提供給系統和機器。這是一個非常大膽的想法,怎麼把世界上既有的多元化資訊分類到各個知識領域是一個有效而困難的問題。

無監督學習分類器

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

語言模型能從分離的語料庫中訓練,這樣就移除了成對資料(标注資料)的需求,也就不需要耗費大量人力進行标注。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

鄧力老師是這樣做的,因為我們在這個實驗裡面使用的是語言模式的資訊,既使是我們提供的序列作為輸入給這個機器,輸出還是不能給出一個明确的标簽,它隻能給出一個非常泛泛的人類語言的标簽。是以我們用真實的語言作為機器學習的指導。雖然自然語言的資料可以是一個很困難的東西,但是我們可以單獨拿出來使用,不把自然語言和任何的手寫圖象進行配對。為此我們就極大地降低了訓練機器的成本。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

上述問題可以形式化為以下最優化問題:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

原始問題的成本函數即:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

我們可以最優化這個目标函數,求出最優參數,然後就可以求出我們所需要的模型。是以鄧力老師跟大家來分享了一下這個成本函數,我們可以看到剛才已經講過了這個目标函數,最開始它是不好的,但是最後疊代以後它會越來越好。我們可以看到從網站裡面它跟你的資料訓練是不同的,是以這是很容易建造的,但是卻很難優化。

該成本函數存在的巨大問題,因為即使是線性模型也高度非凸性,是以我們很難對其優化,也不可能下降到全局最優解。

SPDG

在鄧力老師的演講中,非常重要的就是采用 SPDG 在沒有标注的情況下學習如何做預測。那麼我們一起來看看鄧力老師如何将前面我們形式化的原始問題轉化為極小極大對偶問題,并采用随機梯度下降來求得最優參數。(注:以下參考自鄧力等人今年發表的論文:An Unsupervised Learning Method Exploiting Sequential Output Statistics)

為了正确地将随機梯度下降應用到前面我們形式化問題所得到的損失函數,即最小化損失函數:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

我們需要轉換該損失函數以保證其随 t 的累和為對數損失。為此,我們首先需要引進凸共轭函數這一概念。給定一個凸函數 f(u),那麼其凸共轭函數 f * (ν) 就定義為:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

此外,也可以表示為:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

若有函數 f(u) = − ln u,其中标量 u>0,那麼其共轭函數為 f* (ν) = −1 − ln(−ν),其中标量 v<0。是以根據上式定義,我們的函數和共轭函數有以下關系:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

其中,sup 由 max 替代,因為上确界是可以用最大化達到的。随後我們可以将上面的函數代入最開始的損失函數中,而根據拉格朗日對偶性,原始問題的對偶問題是極大極小問題,是以求解原始問題就等價于求解以下極小極大問題(min-max problem):

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

其中

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

即 V 定義為所有對偶變量的集合

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

 Lt(θ, V ) 為第 t 個分量函數:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

極小極大問題方程的最優解 (θ*,V*) 即稱之為函數 L(θ,V ) 的鞍點。一旦求得最優點 (θ*,V*),我們就能保留原始變量θ*作為模型學到的參數。

随機原始-對偶梯度方法(Stochastic primal-dual gradient method /SPDG)

在上式極小極大問題等價優化式中,我們先關于θ極小化 L(θ, V ) 和關于 V 極大化 L(θ, V ) 以求得最優解 (θ*,V*)。這樣求得的參數θ即原始問題的最優化解。我們更進一步注意到原始問題的等價式極小極大問題現在是分量函數 Lt(θ, V ), t = 1, . . . , T 從 1 到 T 的累和。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

是以,關于θ的極小化和關于 V 的的極大化可以由随機梯度下降解出,即 L(θ, V ) 關于原始變量θ執行随機梯度下降、L(θ, V ) 關于對偶變量 V 執行随機梯度下降。這樣重複疊代的方式,即随機原始-對偶梯度(SPDG)方法。為了計算随機梯度,我們先将 L(θ, V ) 的全批量梯度表示為:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

為了計算随機梯度,我們将每個樣本

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

的平均值由各自的随機抽樣分量

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

(或其小批量均值)替代,如此疊代重複下去(其中 tm 為集合 {1, . . . , T} 中的均勻随機變量)。在上述算法一中,我們使用小批量梯度概述了 SPDG 方法,其中梯度可以在 TensorFlow 實作中自動計算。此外,對偶變量

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

的負限制(negative constraint)由于在極大極小問題中的内在 log-barrier

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

而能被自動執行。是以,我們不需要獨立的方法來實作限制條件。

随後,鄧力老師分析了對偶問題成本函數的損失表面,它表明對偶問題的損失表面具有更優良的性能,執行随機梯度下降也能得到一個很好的最優解。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

原始域具有崎岖的損失表面(tough loss surface)和高障礙(high barriers)

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

原始-對偶域擁有平滑得多的損失表面

最後,鄧力老師總結了本場演講的精要資訊點:

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

最後鄧力老師表明,無監督學習比監督學習更有趣,但是也更困難。我們可以使用更多的一些資料來進行學習,比如說像我剛才所說的 SPDG 方法,該方法不需要進行标記,但它可以直接進行學習來聽聲音的識别或者說做一些翻譯。這樣的一個線性的方式,我們也需要很多的發明來使無監督學習更加地有效。

鄧力說:「其實我們人類還是很有希望的,因為在未來有越來越多的技術以後,人類就可以有更多的價值。」他認為雖然監督學習很有希望,但未來的趨勢還是無監督學習。

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

點選閱讀原文,檢視機器之心 GMIS 2017 大會官網↓↓↓

GMIS 2017大會鄧力主題演講:無監督學習的最新進展

繼續閱讀