天天看點

Facebook這樣看“深度學習”技術

Facebook這樣看“深度學習”技術

本周早些時候,社交網絡巨頭 facebook 宣布聘請紐約大學教授揚•樂康(yann lecun)掌管其建立的人工智能實驗室,他将利用自己擅長的“深度學習”技術幫助facebook更好地“讀懂”使用者行為。這位法國裔科學家日前接受了《連線》(wired)雜志的獨家專訪,暢談了深度學習技術和人工智能的未來發展(原文來自 wired,搜狐 it 編譯)。

借助深度學習技術,facebook可以自動識别使用者上傳的照片中人物的身份、自動添加相應的人名标簽,以及讓使用者快速與親朋好友分享照片。此類技術還能分析使用者在facebook上的一舉一動,進而自動為使用者顯示他們想要看到的内容。facebook可以利用深度學習實作“無窮無盡”的可能性——“它每天都能搜集到人與人之間的關系、搜集到使用者在一天裡的所作所為,它知道你支援什麼黨派、買了什麼産品。”

wired:我們知道你将會加入facebook建立的人工智能實驗室,但是你和你的人工智能團隊具體将會研究什麼呢?

樂康:我們想做兩件事情——其一,是真正從科學角度和技術層面取得進展,這将包括參與學術界活動和發表論文;其二,從根本上講,是把一些技術變成能應用到facebook中的東西。但是我們目标是相當長遠的,比facebook現有的工作更加長遠,在某種程度上脫離了日常生産活動,這樣人們就有思考未來的餘地。

wired:那種技術會是什麼樣子?它能做些什麼呢?

樂康:我們将要研究的技術,其實就是一切能讓機器更加智能化的東西。說得更具體一些,就是基于機器學習的那些東西。如今,打造智能化機器的唯一途徑,就是讓它們消化大量資料并建立資料模型。近年來興起了一種叫做“深度學習”的方法。它在圖像識别、語音識别等領域得到了極其成功的應用,在自然語言處理領域也小有成就。哪怕我們隻研究這些東西,也能對facebook産生巨大影響——facebook的使用者每天都會上傳數以億計的圖檔和短視訊,而聊天與消息中也蘊藏着海量信号。facebook目前已經在網站上應用了大量機器學習技術,達到了能向使用者顯示相關新聞和相關廣告的水準。

wired:這種技術的核心科學其實已經頗有年頭了,不是嗎?早在20世紀80年代中葉,你和如今在 google 工作的傑夫•辛頓(geoff hinton)等人就率先開發了這些被稱為“反向傳播”(back-propogation)算法的深度學習方法。

樂康:這的确是技術根源,但是我們已經有了更大進展。反向傳播能讓我們進行“監督運作”——比如,你手頭有一組配有标簽的照片,你就可以訓練系統比對新的照片和标簽。google 和百度目前就是用這樣的方法給照片加标簽的。

我們都知道上述技術很有效,但是如果你手頭的東西是視訊或自然語言——它們的标簽資料非常少,我們不能隻是放一段視訊然後讓機器告訴我們視訊裡的内容是什麼。我們沒有足夠的标簽資料,而且即便花費大量時間讓使用者提供标簽,能否達到圖檔标簽那樣的效果也是個未知數。

wired:你提到了google、百度、微軟和ibm等其他網際網路公司也在研究深度學習。在外行看來,似乎這一領域的所有工作都興起于一個相對很小的深度學習學術圈,包括你和 google 的傑夫•辛頓等人。

樂康:你說得一點兒也沒錯——雖然深度學習發展得很快,但是你得知道這項技術其實可以說是我、傑夫•辛頓以及蒙特利爾大學的約書亞•本吉奧(yoshua bengio)三個人的“密謀”——希望你能原諒我這麼說。10年前,我們聚在一起,覺得我們應該着手解決視覺和語音方面的機器學習問題。一開始,這項技術是為了機器人控制等目的而開發的,但是我們後來得到了加拿大進階研究所(cifar)的資助。傑夫是主管,我是顧問委員會主席,我們每年碰頭兩次讨論一下進展。當時機器學習和計算機學術圈的大多數人都對這個“密謀”不怎麼感興趣。是以,在很多年裡,這項技術一直局限在我們的那些讨論會中。但是,我們開始發表論文之後,越來越多的人開始對我們的研究感興趣。然後人們開始看到切實的成效,于是産業界開始對此産生濃厚的興趣。

wired:在你看來,深度學習與普通的機器學習有何不同?很多人都對google使用了十幾年的那種機器學習算法耳熟能詳——那種算法能分析海量資料,進而實作自動識别網絡垃圾資訊等功能。

樂康:那是一種相對簡單的機器學習。創造這種機器學習系統需要付出巨大的努力,因為這種系統其實無法處理原始資料。是以,資料必須被轉化為系統能夠“消化”的形式。這個過程被叫做“特征抽象”。

以圖檔為例,你不能把原始像素資料扔給那種傳統的機器學習系統,而是必須把資料轉化為一種能被分類器消化的形式——以恰當的方式表述圖檔,正是很多計算機視覺學者在過去二三十年裡努力做的事情。

相比之下,深度學習能讓機器學習這一表述過程,進而不必由人工解決系統遇到的每一個新問題。如果我們擁有海量資料和強大的計算機,我們就可以建立能學會如何恰當表述資料的系統。

當今的人工智能技術存在的很多局限性,都是因為缺乏好的信号表述方式,或是因為我們現有的表述方式需要付出巨大努力去建構而造成的。深度學習能讓我們把這一過程變得更加自動化,也能收到更好的效果。

<b>原文釋出時間為:2013-12-15</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀