“我不認為存在通用人工智能這樣的概念,人工智能是非常專業的。”
近日,Meta首席人工智能科學家、2018年圖靈獎獲得者楊立昆(Yann LeCun)在麻省理工學院發表了他對AI大模型發展的最新看法。
楊立昆認為目前的機器學習能力比起人類還差得遠,機器學習并沒有人類學習的那種推理和計劃能力,這一缺失導緻我們無法做出和人類智力相當的人工智能。同時,他認為現在的LLMs(Large Language Models,大型語言模型)是兩年前的研究成果,已經過時了,現在更新的AI學習方式應該是自監督學習(self-supervised learning)。
最後,他還指出應該要打造目标驅動型人工智能,放棄那些生成式訓練方式,盡快研究出有推理能力,能進行複雜計劃分層規劃的人工智能。并提出不存在通用人工智能的概念,人工智能都是很專業的。
演講的精彩觀點:
1.自監督學習可以被看作是機器學習的一種“理想狀态”,模型直接從無标簽資料中自行學習,無需标注資料。
2.開放的創新讓我們在人工智能開發過程中獲益頗豐,為這些技術帶來可見性、審查和信任是我們努力的目标。
3.我認為未來人工智能和機器學習研究面臨着三個挑戰。第一是學習世界的表征和預測模型。解決這個問題的方法就是自監督學習。第二是學習推理。基本上與人類的潛意識相對應,可以做到下意識的反應,不需要過多地思考。第三是學會分層制定行動計劃。可以通過大量複雜的動作來實作目标。
4.大多數人類知識都是非語言的。我們在一歲之前學到的一切都與語言無關。除非擁有以視覺形式提供直接感官資訊的系統,否則我們将無法創造出達到人類智力水準的人工智能。
5.最終,我們想要做的是使用自監督學習和JEPA架構來建構之前提到的那種可以預測世界和進行計劃推理的系統,這些系統是分層的,可以預測世界上将要發生的事情。
6.我不認為存在通用人工智能這樣的概念,人工智能是非常專業的。
以下為楊立昆在麻省理工學院的演講(有删改):
比起人類,機器學習還差得遠
我們應該意識到,與人類、動物的學習行為相比,機器學習真的很糟糕。人類和動物能夠了解世界是如何運作的,可以對任務進行推理和計劃,他們的行為是由目标所驅動的,而機器學習卻做不到這一點。不過随着自監督學習的應用,生物世界和機器學習之間的差距正在縮小。自監督學習已經在文本、自然語言了解、圖像、視訊、3D模型、語音、蛋白質折疊等領域的機器學習中占據了主導地位。
自監督學習可以被看作是機器學習的一種“理想狀态”,模型直接從無标簽資料中自行學習,無需标注資料。它在自然語言了解中的使用方式是,擷取一段文本,通過删除一些單詞(例如用空白标記替換它們)來掩蓋它的一部分錯誤,然後訓練一些神經網絡來預測丢失的單詞,隻需測量缺失部分的重建誤差。在這個過程中,系統允許你存儲或表示文法、語義等内容,然後可以使用這些内容去進行下一步的任務,例如翻譯或主題分類等。
這種做法在文本訓練中效果非常好,因為文本的不确定性更高,無法準确預測文本中哪個單詞會出現在特定位置,但可以做到的是預測字典中所有單詞的某種機率分布,可以輕松計算該單詞分布的機率,并很好地處理預測中的不确定性。
自回歸語言模型是我們最近經常聽到的學習方式,它的運作方式與自監督學習類似。其實這是剛才提到的自監督學習方法的一個特例。将一系列标記、單詞轉化成向量,然後訓練一個系統來預測序列中的最後一個标記。一旦有了一個經過訓練就可以生成下一個标記的系統,基本上就可以用自回歸、遞歸的方式來預測下一個标記,這就是自回歸預測。這使得系統可以一個接一個地預測标記并生成文本,它們從文本中捕獲的知識量相當驚人,這些系統通常擁有數十億甚至千億個參數,需要使用1萬億~2萬億個token進行訓練,有時甚至更多。
此類模型的出現已有很長的曆史,比如Blenderbot、Galacica、Llama 1和Llama 2、Google的Lambda和Bard、DeepMind的Chinchilla,當然還有OpenAI的ChatGPT。這些模型都非常适合作為寫作的輔助工具,但它們對潛在表達的了解确實有限,因為它們純粹是從文本中接受訓練。
我們剛推出了一個Llama 2的開源大模型,目前有70億、130億和700億參數的三個版本,并且可以免費商用。目前這個模型已經用2萬億個token進行了預訓練,上下文長度為4096,某些版本已經針對對話内容進行了微調,在許多基準測試中,它與其他系統(無論是開源還是閉源)相比都具有優勢。它的本質特征是開放性,我們與模型一起釋出了一份多人簽名的文本。該文本記載了我們人工智能研究中的創新方法。開放的創新讓我們在人工智能開發過程中獲益頗豐,為這些技術帶來可見性、審查和信任是我們努力的目标。
人工智能很強大,以至于人們在猶豫是否需要嚴格的控制和監管它,還有對于選擇開源還是閉源的探讨也十分激烈。的确風險肯定是存在的,但大量證據表明開源軟體實際上比專有軟體更安全。而且AI和LLMs的好處如此之大,如果我們對此保密的話,無疑是搬起石頭砸自己的腳,Meta絕對站在開放研究這一邊。基于LLMs的教育訓練非常昂貴,是以我們不需要擁有25個不同的專有LLMs,我們需要一些開源的模型,以便人們可以在它們之上建構微調的産品。
未來我們與數字世界的所有互動都将通過人工智能系統中的虛拟助手來調節。它将成為人類知識的寶庫,我們不用再詢問谷歌或者進行文獻搜尋,隻需要與我們的人工智能助手去交談,或許還會參考一下原始材料,但總體還是會通過人工智能系統去獲得我們所需要的資訊。它将成為每一個人都可以使用的基礎設施,是以基礎設施必須是開源的。在網際網路發展的曆史中,微軟和微軟系統公司等供應商之間曾為提供網際網路的軟體基礎設施而展開過一場競争,所有供應商都失去了當今運作網際網路的Linux、Apache、Chrome、Firefox、JavaScript,這都是開源的。
人類的知識如此龐雜,這需要數百萬人以衆包的方式作出貢獻。這些系統是所有人類知識的存儲庫,類似于維基百科,維基百科不能由專有公司建立,它必須內建全世界人民的智慧,是以,基于AI的系統也會出現同樣的情況,開源人工智能是不可避免的,我們隻是邁出了第一步。
“今天看到的LLMs模型将在3~5年内消失”
對于人工智能領域的研究人員來說,LLMs革命發生在兩年前,其實已經有點過時了。不過對于最近幾個月才接觸ChatGPT的公衆來說,這還是很新鮮的。其實也能發現這個模型并沒有那麼好用,它們沒有真正給出與事實一緻的答案,還會産生幻覺甚至胡言亂語,并且無法考慮最近的資訊,因為它們是根據近兩年的資訊進行訓練的。是以需要通過RHF(一種量化方法)來調試它,但是RHF也沒辦法做到那麼完美。人工智能不會講道理,也不能做計劃,而人類是可以做到這些的。
我們很容易被它們的流暢性所蒙蔽,以為它們很聰明,其實智力非常有限,它們與物質現實沒有任何聯系,完全不知道這個世界是如何運轉的。還有它們基本上是通過建構來獲得答案的,即一個系統在自回歸後生成一個标記,如果生成的任何一個标記都有機率讓你偏離正确答案的範圍,這些機率就會累積。長度為n的标記串,P(正确的機率)=(1-e錯誤的機率)n,是以正确的機率随着生成的序列長度呈指數下降,如果不進行重新設計,這是無法修複的。這确實是自回歸預測的一個本質缺陷。
不久前,我們和雅各布·布朗尼(Jacob Browning)合著了一篇論文,發表在一本名為《Noema》的哲學雜志上,這篇文章從根本上指出了現有大模型技術的局限性。其中談到了這樣一個事實:大多數人類知識都是非語言的。我們在一歲之前學到的一切都與語言無關。除非擁有以視覺形式提供直接感官資訊的系統,否則我們将無法創造出達到人類智力水準的人工智能。其實無論是來自認知科學,還是經典人工智能子領域的研究論文,都指出了LLMs确實無法計劃的事實,它們沒有真正的思考能力,也沒有和人類一樣的推理和計劃能力。
是以我認為未來人工智能和機器學習研究面臨着三個挑戰。第一是學習世界的表征和預測模型。解決這個問題的方法就是自監督學習。第二是學習推理。基本上與人類的潛意識相對應,可以做到下意識的反應,不需要過多地思考。第三是學會分層制定行動計劃。可以通過大量複雜的動作來實作目标。
我之前寫了一篇願景論文,“A path towards autonomous machine intelligence”(《通往自主機器智能的道路》)現在我将這篇論文稱之為《目标驅動人工智能》。它是圍繞着所謂的認知架構的想法建構的,是一個不同子產品互相互動組成的體系結構,為系統提供了對世界狀态的感覺子產品。根據對世界狀态的感覺預測與已有的記憶相結合,可以對世界未來要發生的事情做出有效預測。
世界的狀态用來初始化你的世界模型,然後将初始配置與想象的動作序列結合起來,提供給世界模型,再将結果給予目标函數。這就是我為什麼稱之為目标驅動。你無法越過該系統,因為它是硬連線來優化這些目标的,除非你修改目标,否則無法讓它産生有效内容。
世界模型有多個操作步驟,例如,你采取兩個操作,然後在你的世界模型中運作它們兩次,以便你可以分兩步預測将要發生的情況。當然世界是不确定性的,當潛在變量在一組中變化,或從分布中對它們進行采樣時,會得到多個預測,當然這使得規劃過程變得複雜,最終我們真正想要的是某種分層操作的方法。
例如,假設我坐在紐約大學的辦公室裡,想要前往巴黎,我的第一步是乘坐交通工具前往機場,第二步是趕飛機去巴黎。我的第一個目标是去機場,該目标可以分解為兩個子目标,第一是到街上打出租去機場,我怎麼去街上呢?需要從椅子上站起來走出大樓,而在這之前,我需要調動我身體的肌肉從椅子上站起來,這樣我們一直在做分層規劃,甚至這種規劃是不假思索,下意識進行的。但是我們現在的AI系統是無法自發學做到這一點的。我們需要的是一個能夠學習世界狀态的系統,這将使它們能夠将複雜的任務分解成更簡單層次的任務。我認為這對于人工智能研究來說是一個巨大的挑戰。
我們今天看到的LLMs模型将在3~5年内消失,會出現新的可以做分層計劃,也能做推理的模型,使用指令讓答案轉換為流暢的文本。這樣我們就會得到既流暢又真實的東西。做這件事可能會失敗,但我認為這應該是要去努力的方向。
如果我們有這樣的系統,除了訓練成本模型之外,我們将不需要任何的RHF或人類回報,也不需要在全球範圍内對系統進行微調以確定安全,隻需要設定一個目标,使其産生的所有輸出都是安全的,我們不需要為此重新訓練整個編碼器和所有内容,這實際上會大大簡化訓練,降低訓練的成本。
當我們觀察嬰兒時,會發現嬰兒出生後的幾個月中主要是通過觀察來擷取對這個世界的背景認識,當他們可以實際對世界采取行動時,才會一點點通過互動擷取知識。他們學習的大多是直覺的實體知識,比如重力慣性、動量守恒等,嬰兒需要大約9個月的時間才能真正明白,不受支撐的物體會掉落。顯然他們不會像LLMs那樣需要1萬億token來訓練他們,人類不會接觸到那麼多的文本資訊。任何10歲的孩子都可以學會在幾分鐘内清理餐桌,但我們沒有可以做到這一點的機器人。有些事情對人類來說似乎很容易,但對于AI來說卻很困難,反之亦然,AI在許多專有任務上都比人類強得多。
我們還沒有找到機器能夠像人類那樣了解世界的機制。而解決這個問題的方法,就是自監督學習,通過這種方式來填補空白。如果我們訓練一個神經網絡來進行視訊預測,可以看到系統生成的預測非常模糊,這是因為系統經過訓練隻能進行一次預測,并且無法準确預測視訊中将要發生的情況。它預測了一種模糊的混亂,這是所有未來可能發生結果的平均值。如果你使用類似的系統來預測自然視訊,效果是一樣的,都是一些模糊的預測。是以我們的解決方案是聯合預測嵌入架構(JEPA),JEPA背後的主要思想是放棄預測需要生成的想法。現在最流行的就是生成式AI,但我認為應該放棄它,這已經不是一個很流行的解決方案了。
生成式模型是一種輸入x來假設視訊或者文本的初始片段,通過編碼器和預測器運作它,然後嘗試預測變量y。而衡量系統性能的誤差基本上是預測y和實際y之間的某種差異度量。聯合預測嵌入架構,不會嘗試預測y,而是預測y的表示,是以x和y都會通過計算表示的編碼器,然後你執行表示空間中的預測。這樣做的優點是y的編碼器可能具有不變的屬性,可以将多種方式映射到同一個結果中。是以如果有難以預測的事情,編碼器可能會消除這種難預測的點,進而使預測問題變得更容易。例如,假設你正在路上開着一輛自動駕駛汽車,這裡的預測模型想要預測道路上其他汽車将要做什麼。但路邊可能有樹,今天有風,是以樹上的葉子正在以某種混亂的方式移動。樹後面有一個池塘,池塘上也因為風的緣故泛起了漣漪。這些漣漪和樹葉的運動就很難預測,因為它們很混亂,但這些資訊也非常豐富,可能就蘊藏着我們想要的答案。是以如果你使用該生成模型預測的話,就不得不投入大量資源來嘗試所有與任務有關的細節預測,成本就比較高。而JEPA可以選擇從場景中消除這些細節,隻保留相對容易預測的y細節,例如其他汽車的運動,這樣對結果的預測就簡單多了。當然,如果你想使用生成式模型也是可以的,但如果你想要的是了解世界然後能夠進行規劃,就需要一個聯合預測嵌入架構了。
我們如何訓練這樣的系統
實驗證明,想在圖像而不是文本的上下文中使用自監督學習,唯一有效的就是聯合預測嵌入架構。如果你訓練一個系統,給它一對圖像,比方說x和y或視訊片段,然後告訴它計算x和y相同的表示,系統就會崩潰,它将産生恒定的sx和sy,然後完全忽略x和y。該如何糾正這個問題?必須将自己置于基于能量的模型背景下,基于能量的學習可以被看作是預測、分類或決策任務的機率估計的替代方法。基于能量的模型不需要根據機率模組化來解釋它們的作用,而是根據捕獲變量之間依賴性的能量函數來解釋。假設你的資料集有兩個變量x和y,基于能量的模型捕獲x和y之間的依賴關系的方式是計算一個能量函數,這是一個具有标量輸出的隐式函數,它将x和y作為輸入,并為其提供一個資料密度更高的區域。如果你具有這個能量景觀的函數,可以計算這個能量景觀,那麼該函數将捕獲x和y之間的依賴關系,你可以從y推斷x,在不是函數的x和y之間進行映射,有多個與單個x相容的y,是以它可捕獲多模态。
我們如何訓練這樣的系統?有兩類方法:
一是對比方法。更改能量函數的參數,以便能量在資料點上取較低的值,與在那些對比點上取較高的值進行比對。早在20世紀90年代初,我就為這個方法的誕生作出了貢獻,但我現在不喜歡它了,因為在高維空間中,為了使能量函數呈現正确的形狀,必須保證生成對比點的數量呈指數增長。
這可不是什麼好事,是以我更喜歡另一種方法,正則化方法,通過某種正則化器最小化可以吸收低能量的空間體積,以便系統可以通過改變能量函數的參數,使資料點的能量變低。這樣資料點會被收縮包裹在低能量區域,更有效率一些。問題是我們如何做到這一點,這就需要放棄生成式AI模型、機率模型、對比方法、強化學習,因為它們的效率都太低了。有一種新的方法是VICReg(Variance-Invariance-Covariance Regularization,一種自監督學習方式)。這是一種通用的方法,可以應用于圖像識别、分割等各種應用的聯合預測嵌入架構情況,效果非常好,不會讓你厭煩細節,可以使用自監督學習方法來預訓練卷積網絡,然後砍掉擴充器,粘上一個線性分類器,對其進行訓練、監督并測量性能。通過這種方式,可以在ImageNet上獲得非常好的性能,特别是對于分布外學習和遷移學習來說,性能尤其好。這種方法有一個修改版,名為VICRegL,去年在NeurIPS上釋出。
幾周前,我們在CVPR(IEEE國際計算機視覺與模式識别會議)上推出了一種名為Image JEPA(計算機視覺模型)的新方法,它使用掩蔽和轉換器架構來學習圖像中的特征。這種方法的優點除了屏蔽之外,不需要任何資料增強。是以,它不需要真正知道你正在操作的資料類型,效果非常好。我們巴黎的同僚提出了另一套方法,稱之為DINO(自監督學習方法之一),它在ImageNet上為人們提供了超過80%的結果,它完全受監督,沒有微調,也沒有任何資料增強,這是相當驚人的。
最終,我們想要做的是使用自監督學習和JEPA架構來建構之前提到的那種可以預測世界和進行計劃推理的系統,這些系統是分層的,可以預測世界上将要發生的事情。通過視訊訓練系統的一些早期結果,通過對視訊中的連續幀和扭曲圖像進行訓練來學習圖像和視訊的良好表示。
目标驅動是指我們将制定能夠驅動系統行為的目标,使其耐用且安全。為了讓它發揮作用,我們正在努力做一些事情,從視訊中進行自監督學習。我們正在使用這些JEPA架構,但我們還沒有最終的配方。我們可以用它來建構由目标驅動的推理和計劃的LLMs,希望可以建構出能夠分層規劃的學習系統,就像動物和人類一樣。我們還有很多問題需要解決,用正則化、潛變量來處理不确定性的JEPA、存在不确定性時的規劃算法、用逆強化學習來模拟的學習成本子產品……
我們仍然缺少達到人類水準人工智能的基本概念,我們缺少從視訊等複雜模式中學習感覺模型的基本技術。也許在未來,我們能夠建構可以規劃答案以滿足目标的系統。我不認為存在通用人工智能這樣的概念,人工智能是非常專業的。是以讓我們努力去嘗試創造達到人類水準的智能,建造具有與人類相同技能和學習能力的人工智能。毫無疑問,在未來某個時刻,機器将在人類智能的所有領域超越人類。我們可能不想受到這種威脅,但每個人都将得到比我們更智能的系統的幫助。不用擔心,人工智能不會脫離我們的控制,就像我們大腦的新皮質無法逃脫我們基底神經節的控制一樣。