天天看點

機器之心獨家對話田淵棟:無監督學習具有超過人類的發展潛力一、寫小說的人工智能科學家二、從交大人工智能論壇版主到微軟研究院三、人工智能不該被過度炒作四、溝通和交流能力是研究的重要組成部分五、從 Google 到 Facebook 的身份轉變六、關于未來人工智能行業的一些思考七、關于國内人工智能的發展八、田淵棟的學習方法論

兩年前,知乎作者「謝熊貓君」将「waitbutwhy」上的 The AI Revolution 譯為中文。他巧妙引入「吓尿指數」,人工智能也被披上了「玄學」外衣。

半年前,AlphaGo 對陣李世乭。這場「人機大戰」讓「人工智能」這一并不新鮮的名詞,第一次獲得了大規模的主流關注。

興奮、懷疑與惶恐,比挑戰人類智力「試金石」更讓人不知所措的,是站在改變「臨界點」上的迷茫。

「比賽期間有一張讓人印象深刻的照片。照片中一邊是需要千台機器的 AlphaGo,另一邊是李世乭和一杯咖啡。大自然的鬼斧神工一直讓人肅然起敬,而這其中最傑出的造物,莫過于我們人類自己。」

說出這句話的人是田淵棟。在 AlphaGo 和李世乭人機大戰正酣之時,這位人工智能領域傑出的華人專家因其主導開發了 Facebook 的人工智能圍棋研究項目 DarkForest 以及在知乎上獨到而專業的比賽點評,迅速為大衆所熟知。

機器之心獨家對話田淵棟:無監督學習具有超過人類的發展潛力一、寫小說的人工智能科學家二、從交大人工智能論壇版主到微軟研究院三、人工智能不該被過度炒作四、溝通和交流能力是研究的重要組成部分五、從 Google 到 Facebook 的身份轉變六、關于未來人工智能行業的一些思考七、關于國内人工智能的發展八、田淵棟的學習方法論

卡耐基梅隆大學機器人系博士、前谷歌無人駕駛汽車項目組研究員、現 Facebook 人工智能組研究員,多重身份的加持和前沿、專業的研究為田淵棟吸引了相當多的目光。

「我們要做的,不是成為高談闊論的事前事後評論人,而是去當那一兩個先行者。他們才是明白事實真相,才是真正改變曆史軌迹的人。」

除了前沿研究與技術創新,他還保持了長期的寫作習慣。除了早期的個人部落格和現今的知乎專欄,田淵棟甚至還完成過一部超過 30 萬字的小說,這在以理工科為代表的前沿科技領域是極為罕見的。

近期,機器之心對田淵棟進行了一次獨家專訪。關于人工智能、個人經曆以及前沿技術研究的進展,田博士分享了諸多鮮為人知的故事和觀點。

本文目錄:

  1. 寫小說的人工智能科學家
  2. 從交大人工智能論壇版主到微軟研究院
  3. 人工智能不該被過度炒作
  4. 溝通和交流能力是研究的重要組成部分
  5. 從 Google 到 Facebook 的身份轉變
  6. 關于未來人工智能行業的一些思考
  7. 關于國内人工智能的發展
  8. 田淵棟的學習方法論

一、寫小說的人工智能科學家

機器之心:我們注意到您非常喜歡寫作,以前也寫過小說,這是您的業餘愛好嗎?

田淵棟:對,這個也算是我在碩士和博士期間的一個愛好,主要的成就是寫過一部大概 30 萬字的長篇小說,還有一些中篇和短篇。當然,長篇小說畢竟讀得人不多,後來就改成寫部落格,大家還是願意看的。

機器之心:那您對文字的愛好,是因為受家庭影響嗎?還是您從小就有偏向文科?

田淵棟:我以前受到高中班主任的影響,對曆史有興趣,願意看些東西,當然寫作還是聯考作文這種水準。大概 06、07 年的時候,網絡小說開始流行,和大家一樣我也喜歡看。看多了,我這個人就喜歡動手,自己寫寫試試。一開始寫的時候真的不好寫,擠不出幾個字來,寫的是全是大段對話。但是慢慢就知道怎麼寫了,時間長了,越寫越順。

機器之心:都是科技題材的内容嗎?

田淵棟:都有,玄幻加科技,就是大雜燴嘛。我不是商業寫作,是以主角不打怪更新。主要是摻雜了一些個人經曆,把自己想寫的人物和事情寫出來,小說嘛,題材其實無所謂,發生在火星上還是地球上都一樣,但人物很重要,是靈魂。這部長篇小說寫了五年,一開始是零零散散的寫,然後串起來,最後集中精力花三個禮拜把它全部寫完,現在回想起來,那段時間太有意思了。

機器之心:您這個領域跨度太大了。

田淵棟:沒有,這個也就是業餘興趣,現在比較忙,以寫博文和雜文為主。寫小說這個經曆對我的鍛煉很大,一方面在寫人物的時候,要站在人物角度見他所見想他所想,要讓人物活起來,這個對于習慣從自我出發的人來說是很好的曆練;另一方面語感有很大提高,有了之前的積累,現在寫雜文和博文,自然而然會覺得這個地方這麼寫,會讓讀者看得順眼。

機器之心:那您現在的狀态是以論文為主嗎?

田淵棟:是的,學生時代相對來說空閑一點,也是積累和摸索階段。現在是當打之年,當然是以論文為主,人生的好時光沒有多少的。

二、從交大人工智能論壇版主到微軟研究院

機器之心:您提到過您對數理化全有興趣,最後轉到計算機。那您在大學的時候讀什麼專業呢?

田淵棟:我是計算機專業的。當時我進了交大的聯讀班,一開始不分專業上基礎課,比如說數學實體化學課,還有通信的相關課程,到兩年之後再選專業。現在我相信很多學校也開始做這方面的嘗試了。比如說第一年不選專業,讓你自己去選什麼科。我覺得這樣對于一個人的發展來說,特别是對學術有喜愛的人來說,是比較好的。

機器之心:您當年大學讀完了,就到美國去讀博士了?

田淵棟:我當時在交大讀了研究所學生,然後再出國。那個時候我基本上花了一半時間在微軟亞洲研究院。

機器之心:那個時候已經在做了?

田淵棟:對,在做這方面的。一開始是做人臉嘛,然後做一些比較廣泛的圖像識别,圖像課程的一些問題,然後就申請了美國的博士。

機器之心:這個方向當時是您在交大的導師幫您選的,還是研究院的,還是您自己的興趣?

田淵棟:我覺得我真的要感謝我在交大的導師張麗清教授,他給了我自由的發展空間。我說我要去微軟亞研院實習半年,一般老師不會同意的。他說:「沒關系,去吧」,非常支援。我在交大時做計算機視覺,研究院那邊也是做圖像識别的,具體來說是人臉識别。當時我想着能去研究院很好了,非常向往,做什麼方向也無所謂。

機器之心:那個時候機器學習有重視,但是沒有現在這麼熱,是吧?

田淵棟:對,那個時候是這樣的,學術歸學術,系統歸系統,兩邊分開。機器學習的能力已經開始展現出來了,比如說在特定問題如人臉檢測上有很好的解決方案;但是更複雜的物體檢測則遠遠不及人的能力,大家都在讨論什麼才是好的視覺表示。那一波其實持續了很長時間,從 01 年開始一直持續到大概 07-08 年。那時我覺得機器學習有用,但沒有像現在這樣有廣泛的應用。那時基本上是人工設計特征,再讓計算機跑個線性模型就完事了。特征還是要人自己去找。現在就完全不一樣了,因為資料量大了,又有深度學習的架構,可以讓計算機自己去學到好的特征,效果也好。

除了去亞研院之外,碩士階段我主要在數學上打下了基礎。我當上了交大 BBS 數學版版主,經常去回答闆上提出的各種問題,不能回答的話就會去查資料。作為版主,回答不了問題是會有很遺憾的感覺的,這樣就産生一種壓力,通過這種方式,我強迫自己不斷地學習。時間長了之後就慢慢習慣。另一方面我還開讨論班,我說我主動來講機器學習和模式識别的一些數學模型,這樣大家來聽,我就得要準備,準備多了,基礎就紮實了。研究所學生階段還選了一些其它系的課,比如說廣義相對論還有随機過程,一般人不會這麼做,但我有興趣。這樣基礎就打下了,以後看别的文獻就會友善一點。

機器之心:聽上去,好像您在學生時代的時候,就已經應該是交大學生團體裡面的機器學習,人工智能的一個先鋒人物了。

田淵棟:可以算吧。我那時還是人工智能版的版主。版上那時有很多非常有趣的讨論。當然那時候的讨論,現在看起來可能比較幼稚。不過既然是出于興趣,也不怕人笑話。

機器之心:那個時候您比較确定自己會讀這個方向,是吧?

田淵棟:至少确定将來會做人工智能這一塊吧。有興趣的原因是,我覺得很多問題沒有解決。當時我在版裡說,人工智能感覺上就像化學史上「燃素說」和「氧化說」争鳴時的狀态,還沒有系統性的了解,還在黎明前夜。大家現在都在那邊低頭調參數加特征,隻知其然卻不知是以然。将來肯定有很多理論架構,但是哪個是對的,現在毫無頭緒。

這個就是機會。現在回過頭來看,我想的是對的。

三、人工智能不該被過度炒作

機器之心:那您覺得人工智能現在的狀态呢?

田淵棟:還是那樣,還是比較淺層的。當然我們現在有機器也有資料,效果肯定比以前好很多。但是理論這一塊,現在還沒有太大的突破。

機器之心:是以您專門寫文章呼籲不要對人工智能過度炒作,目前理論上的挑戰還是非常的艱巨。

田淵棟:對,還是有很多問題。當然了,還存在一種可能,現在機器多了資料多了,不用管理論,一路做應用做到底。在理論還沒有掌握之前,應用已經超過人的水準,都是有可能的。

機器之心:那對圍棋的研究,你還會繼續下去嗎?

田淵棟:這塊我們還會再做一點,但是現在主要是開一些其他的方向。

機器之心:那你現在最主要的興趣是在視覺和在語言處理這方面的這個方向嗎?

田淵棟:這些方向都會有涉及。但現在時代不同了,不應該把自己限制在視覺或者某個特定方向。

機器之心:不是一個專門的應用。

田淵棟:對,因為感覺上自然語言處理、圖像、語音,這些基本上都是應用了。是以說如果必要的話,其實可以在這個中間進行切換,或者做一些交叉的方向。以前做這三個方向,可能需要大量的領域知識,特别是做自然語言處理,要學以前語言學的文獻。要做分詞,比如說每個詞給一些詞性。要做一些文法的分析、語素的分析,有很多很多的步驟。但現在的趨勢是從頭到尾都讓機器學。

機器之心:就是他們說的 end-to-end。

田淵棟:是的,end-to-end 端對端的學習。比如說自然語言這一塊,并沒有比以前的效果好太多,但整個流程變得很簡單友善,将來進步的速度可能就會變快。比如機器翻譯裡面,你把一個句子,直接通過神經網絡翻譯成另外一個語言的句子,這樣就比以前快。以前可能要分詞呀,詞性标注呀,對每個詞找到另外一個語言對應的詞或者詞組,找到之後再重新排列一下,最後才産生一個句子。要通過幾個步驟,但是現在在概念上,隻要一步就算出來。【注:現在基于神經網絡的翻譯系統确實比以前好很多了 】。

為什麼會出現端對端呢?我覺得主要是因為神經網絡這個模型的優點。神經網絡模型是個非常靈活可擴充的模型,随便連一下,然後做後向傳遞就可以了。大家一開始沒有意識到它的厲害,覺得做這個系統得要分幾步吧,神經網絡隻是其中一步,前面和後面還是通過傳統方式來做比較安全。後來大家就慢慢意識到,為什麼不用神經網絡把整個系統打通?那樣的話,又省時效果也會更好。自然而然,大家都會思考端對端的思路。我覺得現在基本上端對端的效果,主要展現在整個疊代的速度上,從設計模型到訓練,到看到結果,到修改模型這樣一個循環的速度會很快,效果也通常會變得更好。人優化參數的時候,可能半小時優化一次,看看結果如何;機器優化參數,可能一秒就優化幾百次。是以這個時間的改進是數量級上的改進。

資料集的獲得,現在主要是在網上花錢,人工标注。比如說一張圖幾塊錢的,然後讓人去做。就發動群衆的力量嘛,看大家有沒有空。有空閑着無聊了,就标注兩張。這樣把力量彙集起來。

機器之心:像您在 Facebook 做的,Facebook 有那麼多的圖檔,然後底下還會有人可能對這個 pictures 做一個評論。

田淵棟:對。

機器之心:那這種東西,你們把它拿來用嗎?

田淵棟:這個是有用的,但是具體怎麼用,我們現在還在商讨中。

機器之心:因為它沒有那麼準确?

田淵棟:是的。而且大量的圖檔,下面的評論可能是雜的、亂的。比如說我們所有的話,下面都可以寫一個贊呀。這個評論,其實跟這張圖沒有關系。

機器之心:需要比如說去噪音這種方式去解決。

田淵棟:對,可能有多少話,一開始說得跟圖檔有關。但是後面說兩句,說到某個人身上,扯遠了,離題了,這句話就跟這張圖沒有關系了,是以這個其實都很難,現在還沒有辦法做,還需要好好研究。

機器之心:我記得前一陣華為他們那邊做了一個小對話的系統,然後進行了簡單的歸納。它用的資料其實在微網誌上取下來的,但是它那個資料像您說的也很亂,它會有一些規則。比如說第多少條回複以後,肯定就繞得不知道哪兒去了,肯定不能要了,還有常見的一些感歎的詞語。

田淵棟:對,肯定不一樣。相對來說,你可能需要把剩下的句子提關鍵詞。然後把關鍵詞作為這個圖的标注,這是一種方法。或者做一些簡單的語音分析。

機器之心:它還有一點,田博士您看到一張圖,我們人可以标注它。但是實際上這張圖有好多種标注方式而且都是準确的,因為看的角度不同。

機器之心:那在這種标注資料拿給你的時候,一個圖會給你多少種标注呢?

田淵棟:這個其實不同領域,有不同的方法。比如說問答系統,可能有一個問題有一個回答。問題不同,回答又不同。是以一張圖裡面有三個問題,那麼就有三個回答。或者一張圖有三個問題,有三十個回答。每十個回答對應于一個問題,這是可以的。然後你有這些資料之後,你想辦法找到一個比較好的模型去歸納這些資料,這是一種。

比如說還有一些,一張圖有幾千個标注。一張圖裡面你可以标注很多屬性,裡面有貓,有人,有天空,有大地,可能是外景,或者可能是晚上。像這種,每張圖上有很多屬性,這種也可以拿來的。這種不同的标注方法,目标是不一樣的。比如說你做問答系統的話,問題和回答必須成對出現的。

因為這個回答非常依賴問題,如果你沒看見圖,隻看到問題。然後回答的話,其實正确率挺高的,因為可以猜出來。是以你就會發現在不同的情況下,需要的标注是不一樣的。

機器之心:這種資料上的處理,不僅需要強有力的技術,還需要更多的思考。

田淵棟:對,是以這一塊的思考需要很大很大的力氣。有可能一個資料做得不好的話,它的标注出了問題,或者它的采集過程出了問題,就不能用了。現在有很多機構都在做資料集,想辦法通過資料來取得進步。做完資料處理之後,大家都會有一個客觀的标準來評判他的算法怎麼樣。然後在資料上提高自己的算法性能,進而達成整個領域的提升。通過衡量資料上的表現,來衡量整個領域的進展。

機器之心:那這個趨勢看來也是一種需要了,在學術圈,包括像公司這樣的級别,盡量去制造好的學習資料,可能會在深度學習這一塊取得極大的突破。

田淵棟:這是一個方面,另外一個方面在算法這一塊,我們希望深度學習用更少的資料達到相同的效果。這兩方面都在做的。

機器之心:小資料這件事,大家很關注。你覺得現在有什麼突破口,或者什麼思考方法?

田淵棟:現在主要做的是:你先在大資料上,訓練一個模型。然後在小資料集上做微調。這樣的話,你所要學習的權值數目就變少了。如果這兩個問題本身也有相關性,這樣就比較容易。或者你把少部分具有足夠的健壯性的資料,加上大量的弱标注的資料放在一起訓練,這樣也是可以的。或者把小資料通過增廣變成大資料,比如說旋轉縮放圖像,裡面的物體屬性标注保持不變。這樣的話,資料增加了對模型的訓練過程會有好處。

當然,這些都是權宜之計。真正要解決這個問題的話,需要對深度學習的機制要有很明白清晰的了解。這個很難,還沒有辦法做出來,大家還在做。之前我去清華做演講的時候,跟姚教授也在聊,他也覺得這是非常難的問題。

機器之心:他們現在也在關注?

田淵棟:對,他們現在也關注這個。神經網絡的訓練是一個非凸的優化問題,目前傳統的方法沒有辦法解決它。沒有對它的本質了解,可能沒有辦法真正解決神經網絡訓練過程中的疑難雜症。

機器之心:說到這個,有一個大家都在讨論的問題,就是神經網絡它的高效性,有一點像黑箱子,裡面真正的數學原理大家還不是很清楚。

機器之心:那您對這方面的研究感興趣嗎?

田淵棟:這方面跟我的博士論文是很有關系的。雖然說大家可能因為圍棋的工作認識了我,但是我在博士階段是做理論的,研究如何獲得非凸問題的最優解。一般情況下這個問題做不了,但在某些特定情況下是有可能的。我當時做的是如何對齊兩張扭曲的圖像。對齊是非凸的,局部最小值的分布和圖像内容有關,圖像裡有重複結構,比如說一棟建築物裡有很多窗,那麼就對應非常多的局部最小值。那麼這個怎麼辦呢?一種方法是說我們幹脆不優化了,就直接把圖像用各種已知的扭曲參數生成出來,存到資料庫裡。然後新的扭曲圖像拿進來之後,我就查那個資料庫,就可以得到我想要知道的參數。但是這個辦法的缺點是需要要非常多的資料,才能夠保證得到的參數是準确的。另外一個方法就是傳統優化算法,不管它是不是非凸的,我們用梯度下降疊代,但這樣可能會陷入局部最小值。我發現了一個折中的方案,結合疊代算法和資料,做一個資料驅動的疊代算法,這種情況下,可以證明用更少的樣本達到全局最優解。其中原因就是這個特定的非凸問題有一些特殊的群結構。這就是我博士畢業論文的主要工作。

我當然希望在深度學習上也能看到一些特殊結構,進而揭示它的秘密。但這個仍在探索中。

四、溝通和交流能力是研究的重要組成部分

機器之心:您的導師對您的影響好像很大,特别是在寫作方面。

田淵棟:他的寫作和演講的技巧是很好的。我覺得他對我在博士期間的成長是非常有幫助的。

機器之心:就是他的溝通、交流能力好像很強。

田淵棟:對,他是印度人嘛,大家都知道印度人這方面的能力比較強,他就是這樣的。其實我之前是比較内向的,可能大家都有這種刻闆印象,認為中國好學生比較安靜一點,不願意說話,比較内向。但是你出國了之後,你會覺得這兩個屬性不是連在一起的。你可以成為一個好學生,然後你也可以願意和别人聊天。這些都可以做到的,都可以培養的。比如說一開始上台演講的時候,有一種惡性循環,上台不知道怎麼說,不敢上台。你上台又不知道怎麼說,又不敢上台,那你到時候就不敢上台了。一開始要打破這個惡性循環,就要準備非常豐富的,非常好的演講。第一個演講說好了,覺得自己有信心了之後,再往上走,就一點點變得非常非常自然了。

機器之心:對,對交流還是有很多的思考。那我個人有一個感觸,不知道您是不是認同。就是中國的理科方面的學生,如果有一些追求的話,一定要對語言非常深的深鑽。尤其是英語,我覺得國内好像對這個重視不太夠。大家好像覺得,大家說論文的英語語言本身不是很複雜。但是我覺得真的,也提到您剛才一個話題。可能你整個思維方式的形成,不僅僅是通過讀論文,可能是通過讀專著呀,通過讀科普的著作呀,跟其他英語的 speaker 進行交流,學術溝通呀。這裡面實際上要求你非常強的語言能力,我感覺到您好像是咱們國内華裔學生裡面,對這個是有足夠重視的。好像有一些學者,尤其在國内沒有國外留學經驗的人,不知道這個東西價值有多大。

田淵棟:英語隻是特定語言,我指的是表達和交流能力,這個價值是非常非常大。中國有句老話叫「酒香不怕巷子深」,其實在現代社會不完全是這樣。越是好的東西,越是要說出來,一定要廣播,要想辦法讓大家都知道,才能讓别人欣賞你。每年投稿在各大雜志和會議上的文章,基本上以千為機關了,加在一起肯定要上萬了。你的文章能否脫穎而出,是一個很大的問題。當然了,如果你做了一個世界上沒有人做出來的問題,或者你的效果比别人好太多,那不必多言,大家都覺得你非常厲害對吧。但是很多情況下,你的工作并不能達到世界第一,也有很多工作是分析現有問題,或者表達一個新的思路或者觀點,不是硬拼性能的。像這種文章就要靠說了,要靠組織和表達清楚的語言,不然的話,别人看了一頭霧水不知道你說什麼。

國外有好多的教授,其實這方面的功底是非常深的。比如說咱們 CMU 有個教授,一篇文章開篇引了福爾摩斯的話。福爾摩斯說:「沒有資料支援的任何推理,都是不成立的。」然後他就舉例說明資料的重要性。這樣的文章,不一定有算法上的貢獻,但是他們對别人思維的改變,其實起很大的作用,讓别人覺得他這樣的思路可能是對的,進而改變自己整個的研究路線。我剛去的時候不适應,覺得這種軟文有什麼好看的,隻會用個最近鄰方法,一點技術含量也沒有;現在發現這不是吹牛,是對大方向的重要把握。現在深度學習來了,資料更多了,他在文章中提倡的,完全是符合潮流的。

機器之心:您現在做研究的時候思考,用英語在做嗎?

田淵棟:思考并不是依賴于某種語言。英語用得多些,因為這個領域中文有很多詞可能還是得翻成英語。

機器之心:甚至超越語言的一種。

田淵棟:對,圖像呀,或者一種内在的東西。然後你想到了之後,通過你内部的思考表達出來。

機器之心:可能這是一種,有點像神經網絡,它是跨越語言的。

田淵棟:對,拿神經網絡的術語來說,它們都映射到同樣一個内部表示,然後再翻譯過去。

五、從 Google 到 Facebook 的身份轉變

機器之心:當時田博士您在谷歌無人駕駛的項目裡面做過一段時間,後來轉到 Facebook。實際上在很多人眼裡,谷歌已經是天堂般研究這樣一個地方。您怎麼會轉到 Facebook?

田淵棟:我覺得主要還是因為谷歌是一個比較大的公司嘛。并不是說谷歌每個人都可以做你想做的事情。要看你在哪個組,你是什麼地位,你做什麼樣的方向。大公司有一個問題,去得晚的話,你可能隻能做螺絲釘。

機器之心:有一點排資論輩的感覺嗎?

田淵棟:其實谷歌已經非常不排資論輩了,已經很開放了,但是還是會存在這樣的問題。因為沒有辦法,無人車已經做了很多年了嘛。你進去之後,東西都做好了,隻要修補就行了,你想要搞些有趣的,條件不允許。一開始覺得挺有意思的,但是時間長了,你會覺得沒意思。而且還有一個問題,無人車比較保密,想要發表自己的工作就很難。

機器之心:有點受限制。

田淵棟:對,我又是一個比較喜歡寫部落格的人,你讓我這個話不能寫,那個話不能寫,那怎麼寫呢。我之前寫過一篇有關無人車的博文,不過那篇博文沒有涉及到任何細節。後來還是覺得 Facebook 相對來說更公開一點,是以就跳走了。

機器之心:您覺得 Facebook 的企業文化有哪些非常值得我們國内企業學習的地方?

田淵棟:我覺得它就比較扁平嘛,小紮就坐在我後面 6、7 米的地方,6、7 米都沒有,基本上我後面是一個很大的區域。就是 CEO、CTO 還有 COO 都在後面坐着嘛。去年我的實習生周博磊還被 COO 雪莉點到了,雪莉帶着通路者問他在做什麼工作,他回答得非常好。感覺上高層都對人工智能很感興趣。Facebook 總的來說就是比較開放的環境,很多時候比較随意吧,沒有那麼嚴格的上下級。在 Facebook 裡面,你也看不見别人的級别。相對來說人和人之間平等一點。

機器之心:那你們這個深度學習研究人員和公司的高層坐得這麼近,是不是因為高層也是把你們最重視的一個。

田淵棟:有可能是吧,但是這個我也不好說。我覺得這個是公司的安排嘛,是以我不會有什麼特别的評論。

機器之心:那他有沒有時候會主動地過來,問問你現在在忙什麼呀?

田淵棟:他還是比較忙的。每個人都有自己的職責嘛。

機器之心:LeCun 是這個領域的元老,離 Zuckerberg 比較近,就想說有沒有從他身上得到一些啟發。

田淵棟:LeCun 是一個非常開放的一個人。感覺我們整個組非常民主,你想做什麼都可以。如果你願意做的話,也沒有人管你。

機器之心:方向上給你很大的支援。

田淵棟:就像為什麼會做圍棋嘛,對吧,就是很奇怪的。

機器之心:這個是你自己選的嗎?

田淵棟:自己選的,圍棋是自己選的,然後一開始資料集呀,整個東西都是我和實習生自己弄的,然後 DarkForest 的名字也是我自己起的。這個名字比較酷。我們組也是比較開放的,都沒有管,說你這個名字一定要跟 Facebook 有關。當時也沒有多少人看好這個方向,隻是一個試驗。

機器之心:是以你們的研究不需要直接跟公司的業務産品相關嗎?

田淵棟:能有産品的話,那當然最好,但是還是以研究為主。而且這次我選圍棋也證明了眼光是對的。我當時對它有興趣,是因為看到了兩篇文章,當時大家都沒有引起重視,就隻有圈裡人知道。我看了一下覺得這個東西有點意思。

機器之心:就是你的文章可以引用的地方。

田淵棟:對,我覺得這個方向,将來會有一些突破。

機器之心:那當時你意識到他們進度會這麼快嗎?

田淵棟:當然沒有意識到那麼快,隻是覺得這個方向可能有前景。當時還做了還挺多項目的,沒有吊在一棵樹上。做研究的風險都很高,是以你必須分幾個不同的項目同時做,看哪個項目比較好。這個圍棋項目它的效果是不錯的,那麼就花時間在上面。

機器之心:那除了給你們很多的自由度之外,你覺得他(LeCun)給你最大的幫助是什麼呢?或者是收獲?

田淵棟:他會有一些比較大的想法和觀點分享給大家。比如說他覺得對抗式學習是一個比較重要的方向。他會經常說嘛,讓大家覺得這個東西挺重要,這麼做可能是有道理的。用這種方式來影響大家。不過他也沒有說一定要做這個,一定要做那個,沒有。他是個比較寬厚的長者,和大家聊聊。

機器之心:經常會跟你們溝通嗎?

田淵棟:還比較多。

機器之心:那你們内部有各種,像研究人員之間的交流,小組這種讨論嗎?

田淵棟:你想要研究,想交流很容易嘛,因為大家都坐很近。你可以發個資訊過去。或者說直接到他座位上随便聊聊,大家讨論一下。這個還挺重要的,特别是你要做别的方向自己不熟悉的話。你一個做圖像的人,突然去做自然語言這一塊,那麼你對自然語言了解這一塊的文獻,肯定不那麼熟悉。你問别人一個想法,别人會告訴你這個東西做過了。這樣的話,你可以慢慢知道這個方向,它的現狀怎麼樣,然後接下來要怎麼做,什麼地方做過,有哪些地方還沒有做過。通過這樣的交流方式,你會很快的知道什麼東西是應該做的。研究這一塊,對方向的确定是很重要的。

機器之心:我看您對研究的方法論,自己非常有成熟的一個看法。

田淵棟:這個也是慢慢總結出來的,碰過釘子嘛,很多時候你都知道了。

機器之心:我們看過一篇文章,就是 LeCun 接受采訪的時候,說了一個最不喜歡的對深度學習的描述,就是它像大腦一樣的過程。後來記者讓他能不能用 8 個單詞去描繪一下,然後就想說您能不能用簡單的一句話去描述一下深度學習?

田淵棟:我覺得就是神經網絡嘛,現在目前為止還是神經網絡為主。就是通過神經網絡的多層處理,把資料從一開始的紅藍綠這種非常簡單的特征,通過一點點的自組織,變成比較複雜的特征,就是這樣一個過程。當然這個想法老早老早就有了,隻是最近才在實際資料集上産生了很好的效果,受到了大家的關注。

另外,計算上的神經網絡和生物上的神經網絡其實沒有太大的關系,神經網絡裡的節點隻是對神經元做了最簡單的抽象。其實神經元結構太複雜了,一個含各種參數的微分方程,要能快速模拟上億的神經元,代價很大;另一方面,就算模拟出來效果好,也不知道是哪個原因導緻的,反而會拖累對本質的了解。

機器之心:我看您部落格裡面提到科技樹這樣一個概念。能不能以科技樹的形式給大家梳理一下人工智能,或者圖像識别這樣一個大體的架構。

田淵棟:我在部落格裡寫的科技樹,是一個比方。你看科技樹的發展,一開始枝繁葉茂,大家都覺得很有希望,可是發展一會兒就停下來了。等大家沒興趣的時候,過了幾年,在某個很不起眼的地方,突然就出現一個突破。是以做一個研究員嘛,最重要的是要于無聲處聽驚雷,就是不能人雲亦雲,要靜下心來找到别人沒看見的方向,然後把它挖深,證明這個方向是有效的。一旦大家都覺得這個方向對,大家沖過來接你的棒了,你就是成功的。

六、關于未來人工智能行業的一些思考

機器之心:未來深度學習,包括整個人工智能面臨的一個挑戰,就是非監督系統學習。現在做得最好的監督系統學習,有些人覺得稍微過度,您是認可的嗎?

田淵棟:對,這個話我覺得是有道理的。監督學習相對成熟些,但是需要大量的樣本,往往是樣本翻倍,性能才漲一點點。很多時候,對一個系統而言,光用樣本把它的性能提上去就很難。非監督學習要是效果好了,對樣本的需求就會少很多。比如說吧,我本來可以對圍棋的每一步做一個标簽,這步是好棋,這步是臭棋。但是也可以給最後輸赢的結果,把這個結果反向傳遞回去,讓算法自己發現哪一步是好棋,哪一步是臭棋。那這樣的話,你輸入信号變少了,就是一種半監督學習的方法;另一方面,機器也就有了超過人類的潛力。

機器之心:那這種東西也是你們在 Facebook 關注的嗎?

田淵棟:我還是比較關注的。

機器之心:那你會花一些時間專門攻這方面的研究嗎?

田淵棟:肯定會看一些文章嘛,然後看看有什麼東西可以做的。

機器之心:會有一些 paper 出來嗎?有一些計劃嗎?

田淵棟:現在在做,但是能不能出文章,這個不知道,肯定是要邊做邊看看有什麼有趣的。一開始你不熟悉這個領域,你肯定先看文章,然後再選題,然後再看有什麼東西可以做。你看多了之後,會慢慢的發現,噢,原來這個有問題。

機器之心:去年有一篇論文【Human-level concept learning through probabilistic program induction】講到小資料集做得比較好的,甚至它自己在個别的案例上已經超越了(深度學習)。您是怎麼評價他這種研究方式和思維方式?

田淵棟:他那篇文章用圖模型做 One-shot learning,和深度學習作了對比,在生成手寫字母這個任務上,在小資料集上比深度學習要好。圖模型在推理上比較自然,解釋性也比較強,這個是大家公認的。但是相伴地就有另一個問題,就是說設計的模型一定要對,像他寫字的模型可以設計得正确,但是對于複雜的真實世界,建一個包羅萬象的模型就很困難,未必有深度學習的能力強,計算機視覺這個領域,大家都做了二三十年的模型了,結果還是被卷積神經網絡超過了。是以說兩者現在各有所長,深度學習長于感覺,圖模型長于推理,如果我們能把它們連起來會是個很大的突破,是值得我們去發現的。

機器之心:是以您也比較看好這個方向,是吧?

田淵棟:圖模型和深度學習如果能夠很深地結合起來的話,會是一個很好的方向,現在還是比較淺。

機器之心:是以您自己在這方面願意做一些探索?

田淵棟:都會看,我肯定不會現在下定論。先了解一下,一點點了解完之後。發現這個有意思,然後再去做。很多時候研究員做的事情,是介于了解、探索、研究之間的。你不知道在看這篇文章的時候,是為了做這個方向呢,還是屬于好奇呢,還是審稿呢。是以很多時候你無法界定自己的工作。文章看多了,自然會有一些想法,如果想法有意思,就願意花時間在上面,然後你就變成從事這個研究方向的人。做研究不像通常的工作,有個老闆和你說具體要做什麼。可能今天看文章,明天推公式,後天寫程式,大後天發現全錯了從頭再來,自己得配置設定時間,得要找找準方向。是以啊,這個都不好說。

機器之心:之前有一些深度學習比較小的突破,像注意力模型呀,記憶模型呀,還有深度神經網絡簡單通俗地解釋一下,給一些對這個不太專業的讀者,或者做一個形象的比喻。

田淵棟:這個你看一些文章就可以了,很容易懂的。比如說注意力模型吧,看一張圖,先看左邊,再看右邊,最後得出圖裡有什麼的結論,和人的行為一樣。聽起來很有道理吧,但是實際上訓練完,往往計算機看一眼就知道圖裡有什麼,猜功太好,讓它多看幾眼沒什麼用,可有些情況下又是有用的。是以說實際機制未必和文章描述得一樣。

機器之心:剛才有一點涉及到,正好田博士對實體也非常的有了解。他剛才說很多非常非常多經典的東西,其實當時田博士您記得從經典實體過渡到量子實體,幾個地方都在開花。像波粒、活動方程呀,這些東西都在。然後促使了這個量子力學突飛猛進的進展。

機器之心:您覺得現在深度學習的狀态和當時從經典力學過度到量子力學那種,比較非常大的狀态,能是一種狀态嗎?還是您個人認為深度學習還是比較平穩,比較緩慢的發展。因為現在媒體對這個的炒作也很熱,好像有一點新的科技時代的降臨。

田淵棟:不好說吧。量子實體怎麼建立的呢?二十世紀初的時候,一個很大的問題是如何模組化黑體輻射,一個東西加熱到一定溫度,會發出什麼頻率的光。實體學家們提出兩種模型,各對了一半,就是拼不起來。然後大家深挖下去,作了誇張的假設,找到量子的方法去解釋。相對論也是一樣的,一開始大家用以太去解釋光速不變,被幹涉實驗推翻,後來找到狹義相對論,認識到洛倫茲變換是絕對的。這兩個都推翻了經典的直覺假設,重新整理了大家對世界的認知。對實體來說,從不承認這些假設,到承認這些假設,是一個大突破;認知重新整理,是一個大突破。

我們現在不一樣,是工科不是理科,更多是一種經驗的東西,也更看重經驗的結果。比如說吧,因為資料集不同,模型不同,經驗的結果往往是模糊的,漸近的,慢慢地大家意識到這樣是對的。這就不像實體學有個明确的分界線,控制完變量後,一個假設一個公式把現象闡述得很清楚,一個實驗對不對,改變整個認知,然後宣告勝利。另一方面,你可能對深度學習的認知有突破了,但那時系統性能已經超越人類了,沒有人在意。這兩點都會讓圈外人覺得發展相對平緩,沒有像實體學這樣的。當然,從人工設計特征到讓機器自動發現特征,這是一個比較大的認識上的突破。但是就算如此,大家好像也沒有把它當成是革命,而隻是默默地記下了繼續往前走。也許以後曆史學家們會記錄成突破吧,就像我們看二十世紀初那樣;但是目前看來,身在局中的我們,并不一定會感覺得到,是以大家也不要期望太高嘛。

機器之心:發生得太靜悄悄了。

田淵棟:對,有可能某個人某一天宣布,深度學習是這樣起作用的,認識上有了突破。然後圈外人覺得,我已經用上了,用上語音識别了,用上圖像了解了,用上問答系統了,沒有人管了。對他們來說,是一個很平穩的過渡嘛——軟體變得越來越牛了。是以這個不像是實體,這個不一樣的。實體那邊,非常看重對事物的深刻了解。實體是理科,它的目标是發現。為了更新的發現,全世界可以砸錢下去不求回報。而我們這邊,總的目标是做一個很好的系統給大家用,AlphaGo 戰勝了李世石,大家把它當大新聞,就算世界上沒人知道 AlphaGo 是如何算出好招的,也沒有關系,沒人管。當然,我個人非常喜歡好的理論,如果對深度學習有一個非常好的突破性了解的話,我會非常非常開心。雖然難,但我相信它遲早會發生的。

機器之心:明白,因為提到一個人工智能進展的問題。您之前寫文章,提出大家不要對人工智能有過度的熱捧。就是說您覺得現在發展的,它現在最大的瓶頸是什麼?

田淵棟:有很多,比如說小資料,非監督學習,比如說對整個深度學習的原理不了解,大家現在就是摸瞎調參數,看怎麼樣。沒有對這個模型有本質的了解,這個其實是一個比較大的問題,這個是需要突破的。我之前說了嘛,這個突破可能對大衆來說沒有太大的意義,大家都覺得用上了,就用上了。

機器之心:如果我們接下來要在這個無監督學習方面實作一些突破的話,有沒有哪些您認為比較好的路徑?比如說您剛才說的深度學習和圖模型的結合。

機器之心:我們有注意到您之前開發過圖像的大系統。

機器之心:我們可能把它看作是圖像和自然語言處理的結合,它們這個結合的時候,它的重點在哪個地方?怎麼給它結合在一起?

田淵棟:現在還是比較淺的結合,把兩邊的特征連在一起,或者放進模型裡面混合下,就完事了。更深的結合現在還在研究中。

機器之心:那您在這個圖像和自然語言處理結合的點,是不是有寫論文的計劃?

田淵棟:現在在做,但是還早,可以回答一些問題,剛用的人可能會覺得很驚豔,但是用多了就知道它弱在哪裡,離真正能用還早。

機器之心:您怎麼看待以對話引擎切入的工具,它是不是會取代我們的 App?

田淵棟:這個我也不好評論,我覺得挺好的,可能是一個很好的入口吧,通過更自然的方式來跟别人交流。

機器之心:我們之前看到一篇文章,是科技公司對人才的激烈争奪,您是如何看待這個現象?

田淵棟:我覺得這個對我們來說是好事,對吧,工資肯定會提高。另一方面,這也表明現在人才越來越重要了,以後人工智能能夠自動化很多事情,有這方面的人才,能把人工智能運用得好,幾個人的小公司能做到跟以前大公司一樣,甚至超越,這都是有可能的。技術越發達,可能最後的效果就越好,以一當千當萬,都不是天方夜譚。

機器之心:剛才我們聊的有監督學習、強化學習,最後到無監督學習。如果這個過程發展得很順利的話,我們能夠期待這個系統或者機器,能夠做一些那些我們現在還不到的事情?

田淵棟:如果這些階段都能做完的話,那基本上就差不多了。因為人也從無監督中學習,一個嬰兒通過有限的監督學習慢慢學到很多技能,對吧。這幾塊如果能做出來的話,确實會有很大的突破。人腦的核心技術肯定是大大領先現在人類掌握的核心技術,但是工程上仍然有很多可以改進的地方,你要相信進化出來的東西,它是會有很多缺陷的。我們現在就像是原始人去研究一輛二戰坦克,怎麼看都覺得科技逆天;但等到了我們會造坦克了,改進的路子馬上就會想到的。

七、關于國内人工智能的發展

機器之心:國内的研究水準,還有國内整個産業環境都不如美國,那您覺得中國有很大機會可以是人工智能存在的地方嗎?還是我們隻能做一個舶來品拿來應用,您是怎麼看待的?

田淵棟:這個問題太大了,說實在的,我也不是太了解國内的很多情況。是以我也不好說,首先第一肯定咱們中國人是非常聰明的。我覺得大家如果有信心,有恒心的話,确實能夠做到很好的水準。

機器之心:那像您在清華,還有在交大,您的同行在溝通的時候。您覺得他跟在美國這個領域同行溝通的時候,還是有明顯的差距嗎?

田淵棟:可能還有相當的差距。這次圍棋大熱,國内有一些像劉知青教授他們在做。但是除此之外,也沒有太多的人在做這個東西。另外圍棋本身有深厚的人文背景,兩個因素綜合起來,問一些比較寬泛的問題,也很正常。是以我想這次回來一方面是探親,另一方面做一些報告給大家科普一下。我覺得我有資格去說這個東西,因為我正在做。當然很多不一定說得對,隻是和大家探讨下。總得來說我覺得國内做得還挺好的。

機器之心:您在深度學習這個領域裡面,跟國内的學者溝通的時候,會覺得有什麼差異嗎?

田淵棟:國外可能更細一點。國外交流的時候,大家都對問題有了解,會談到很細的内容,會說「這個東西我沒有了解,我不知道,我回去查一下資料。我得做了實驗才告訴你答案」。但是國内問的問題就比較大一點。

機器之心:因為可能還沒有那麼深入地了解這個領域,是嗎?

田淵棟:可能是吧,特别是圍棋這一塊。當然也有可能國内大家都願意問比較大而寬泛的問題。

機器之心:那從論文的發表,現在的數目和品質來說,您覺得美國有多大的差距呢?

田淵棟:這個還沒有仔細的研究。原創性的,有大跳躍的文章相比還是國外多一點,但是國内跟進很快。大概是這樣。

機器之心:你有時候會有國内的某個研究機構出來的文章,讓你覺得寫得非常漂亮這種感覺嗎?

田淵棟:不錯的很多啊,何恺明的 ResNet 大家都在用,做得好管你國内國外,大家都會用的。如果鑽研某個方向,國内做到和國外差不多水準甚至更高,非常正常。國内這種工作的強度,國外是不可想像的。

機器之心:那國内如果有深度學習方面,有濃厚這個熱情和興趣的學生,他想讀一個大學。你推薦他哪些院校呢?首先您的母校交大,對吧?

田淵棟:對,是。

機器之心:如果出國留學,你推薦哪幾個學校?

田淵棟:我覺得 CMU 其實是很好的一個學校,我覺得卡耐基梅隆大學的一貫風格是做事做得很細,然後大家都很認真,願意把一些事情做好。

八、田淵棟的學習方法論

機器之心:之前您寫過一些科研的總結,還有博士的過程。我們發現那些文章的歸納能力特别強。有主線,有要點,非常注重系統性和方法論,這個東西是怎麼養成的,或者對于其他的研究人員或者技術人員怎麼幫他們更好地做到這一點。

田淵棟:這個其實我自己的經曆比較特殊嘛,我之前說過,我自己寫過小說的。

機器之心:和這個有關系?

田淵棟:有關系的。我寫過長篇小說,寫長了之後,會有一些問題,比如說角色的把握和劇情的走向。你寫下來發現這個角色和之前相比,性格走樣了,說的話做的事不像他/她應該做的了。這時候再寫下去就越來越糟糕,這時候就要多想想,有些段落雖然寫得精彩,但于全局無益的話就得要忍痛割愛。然後反複讀,再找到正确的路子寫下去。像這樣寫多了的話會有感覺,會避坑,然後會有一些自己在方法上的總結。寫博文也是一樣的,一開始一瀉千裡,東一點西一點,然後收束了,歸類了,有些大段大段的直接删掉,疊代幾次之後,發表出來的才讓人讀着舒服。是以這個對我來說是比較特殊的經曆。總的來說,我走過很多彎路,走彎路走多了,你才知道什麼地方是對的。

機器之心:靠經驗積累。

田淵棟:靠經驗積累,如果大家想讀博士的話,那還是要通過自己的經驗積累,别人說的話再多,都沒有自己的教訓深刻。不要怕犯錯。幾個比較簡單的經驗,動作要快,不要怕犯錯,多試幾個方向。然後從錯誤中慢慢總結,知道更多的東西。我覺得現在最重要的是一個人要很聰明,要很會學習,然後願意去嘗試,不要怕犯錯,就是這樣子。從統計學的角度來說,經驗越多,你獲得的資料就越多,那你的模型的疊代速度就越快,效果就越好。是以其實就是這樣一回事情。

機器之心:我看您對寫作的了解就别具一格,好像寫作對你來說不是簡單的對學習過程的記錄,甚至是您的一種思考方式了,對吧?

田淵棟:對,思考方式。

機器之心:您的文章裡提到過,有時候可能看起來很平庸的東西,通過寫作,可以産生非常好的效果。

田淵棟:寫下來之後呢,你會有不一樣的感覺。你腦子裡面的東西,可能沒有那麼系統,甚至有自相沖突的地方。當時沒覺得什麼,你寫下來之後,才發現這個寫下來不對,是不是要推倒重來呀,這個地方有問題呀?這就是疊代的過程。人的成長有時候得要抛棄成見,抛棄自己曾經認為十分正确的東西,再作總結,要有這個包容的意識,要知道自己可能全錯。寫作呢,就是提供了這樣一種管道。寫作擴大了記憶力,你可以拿來思考的記憶就那麼一點。你覺得你想到了所有的地方,思路很完美;但事實上是你拿了這個,把那個丢了,拿了那個,把這個丢了。隻有全部寫下來之後,才會發現有問題。才會去思考。我寫博文的時候,第一遍不會直接發到網上的,會反複讀幾遍,看一看有什麼問題。我自己覺得滿意了,才會發。很多時候,我會覺得這個地方不通。這個是這個意思,下一段是别的意思,這兩段沒有連起來。你就會覺得語句有問題,語句有問題,你會自己去調整。在寫作上會有這樣一個潔癖嘛,你覺得這個文章寫得不好,你不願意發出來。然後這樣的話,你可能對你的研究過程有思考,你把這個寫下來,會發現這裡做得不好,會有這個感覺,會檢討,下次會想着要改進。那時間長了以後,自然會有一個比較系統性的方法。

機器之心:那您發的那麼多的論文,背後是不是有特别大量的學習筆記?

田淵棟:有很多,其實我之前有寫日記。反正不時就會寫一點東西嘛。但說實在的,大部分論文都沒有學習筆記,那樣太花時間了,很多文章看兩眼就過去了。畢竟文章太多,把時間花在刀刃上才是最重要的。

機器之心:這些東西雖然不是特别的系統,或者有一些東西可能還有一些缺陷,您會跟人分享嗎?

田淵棟:這個還是不會分享,是以你看到的是冰山一角。能給大家分享的,都是寫得比較好的,我比較滿意的。你看到我寫得特别系統,可能是個幻覺,因為還有大量不系統的堆着,要整理出來太費力。

機器之心:對一些想進入學習機器學領域的年輕人,有沒有什麼建議?

田淵棟:動作快,然後多學習,多交流,多嘗試。不要怕犯錯,計算機這一塊犯錯沒有什麼問題嘛,犯錯就出 bug 嘛,計算機也不會爆炸。出了 bug 也沒有關系,就反複調試,對吧。我覺得我們 CS(編者注:計算機科學)這個領域其實非常好,實驗重複性很高。犯錯了,也沒有任何問題,整個周期非常短。是以我覺得特别适合年輕人學習,我覺得隻要你有能動性,你隻要抓住機會,多跟别人交流的話,我相信大家都能做得挺好的。

機器之心:最後一個問題,推薦幾本您覺得特别好的,技術性強的,或者是科普性強的書給我們的讀者。

田淵棟:說實在的,現在看書沒有什麼大用了。很多時候就是看論文,多了解一下,多跟别人交流,因為現在變化非常大。很多東西都不一樣了,是以你看這些書能夠知道以前的一些知識。其實你看論文也有同樣的目标,比如說看論文第一段,這段裡面其實就概括了以前的一些工作。然後你看多了,你自然而然就會對這個領域會有了解。看書當然也會看,比如說你特别想提高一下自己的數學能力的話,就要看一些經典的教材。最近我無聊去看群論,在看為什麼一進制五次方程得不到根式解。無聊嘛,你可以看看一些有趣的東西,并且深入思考。通過看和思考,你相當于磨煉自己的分析能力,長期不看的話感覺會變鈍的,就可能人雲亦雲了,别人說好,你也覺得好,你作為研究員的價值就沒有了。數學這些東西,經典的方法都是十年、百年的積累,不會過時的。是以好多都可以看。但是你要去追人工智能比較好的一些發展的話,其實看論文比較快。多看幾遍論文的話,也基本上能夠掌握這些方向的一些進展。然後多跟别人交流,我個人建議就是多交朋友。交流是很重要的,别人一句話就頂你看很多書了。你現在不可能看完所有的文章的。

機器之心:那導論性的教材需要看嗎?

田淵棟:我覺得像算法這些的,還是可以看一些。

機器之心:就是看一些比較經典的教材,像貝爾薩寫的書也是要看的,是吧?

田淵棟:要看,但也取決于你有沒有興趣。你可能沒有時間把所有推導都推一遍,這不可能的。但你你可以把整個方法和想法看一遍,把邏輯梳理出來。看論文的時候,往往跳躍和選擇性的看。因為每篇文章的目标是把這個文章賣出去,他會說自己的方法特别好,别人的方法特别差。但是其實不是這樣的,對吧。文章往往是有偏向性的,是以要選擇性的看。

機器之心:有沒有哪些書是你覺得比較值得看的?

田淵棟:這個沒有定規啊,每個人的需求都不一樣。另外,你可能當時看一下,到用的時候你再去翻,這樣可能會好一點,看一本書會花很多時間。沒有一個準則,到最後可能就是東看一點,西看一點,關鍵是把你的知識體系建立起來。比如說這塊你覺得不懂,你就看這塊不懂的文章。

機器之心:就是有針對性的。

田淵棟:有針對性的去學,可能會比較好。比如說這次做圍棋,我之前也沒有做過遊戲。那怎麼辦呢?你就看,看 David Silver 的博士論文,看以前增強學習的文獻。你如果要做遊戲的話,你看他的博士論文就得要看得比較仔細了。有一些關鍵的點,一定要搞清楚。相當于你要有選擇性的看某些章節,某些文字,某些公式。你如果覺得這個重要的話,你就花時間搞定。如果不重要的話,你可以略過地看。這個就看你的積累了,你的積累肯定會告訴你什麼重要,什麼不重要。

以最少代價去獲得到你的知識體系,沒有一定的準則。

搜尋能力是很重要的,想看什麼就去找。反正現在網上有的是資源,現在已經不是圖書館的時代了,對吧。基本上一搜都搜到,關鍵怎麼樣搜。然後你願意去搜什麼樣的東西。我覺得搜尋是現代人的一個必備技能,不是說去圖書館一本一本啃下來就可以成為專家了,不是這樣子的。

另外,科普隻是領進門的。我以前是比較喜歡化學,後來喜歡實體。再後面慢慢到數學去,再到做計算機去。是以說這樣一條軌迹,基本上化學的專業文獻,隻要是淺顯的我都能看懂。你有基礎之後,你再去看科普文,你可以猜出來科普文和專業文獻之間,是怎麼樣的對應關系,為了讓外行人看懂,作出了什麼樣的省略。但是如果一個沒有經驗的人,隻看科普的話是入不了門的,容易被各種名詞誤導。你需要花時間在專業文獻上,讓知識構成體系。

©本文由機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀