
微軟刷屏論文"AGI的火花"的第一作者Sébastien Bubeck, 就在論文釋出到arxiv的三個小時前,做了一個校園演講"First Contact",講述了微軟研究院團隊對GPT-4的的早期研究成果。
這個演講的完整視訊最近在Sébastien Bubeck的YouTube上釋出出來, 其中最高贊的評論說:
"這次演講将載入史冊。生活在如此瘋狂的時代真是太不可思議了。"
以下對這次具有曆史意義的GPT-4 演講的完整内容進行了翻譯整理,和大夥兒分享。
你知道,我給出今天這樣的演講的可能性非常小,但事實就是這樣,世界在變化,我也在根據這一變化調整我的研究方向。
今天,我将向大家介紹一個非常神秘的主題,即“初次接觸”。實際上,這個故事是關于過去幾個月,在微軟,我有機會提前接觸到GPT-4,因為我們正在将它與新的Bing內建。
當然,在我研究它的過程中,我不僅僅是做産品部分的工作,這确實非常有趣,而且我們還圍繞它進行了一些科學研究,或者說嘗試進行一些科學研究。在這些大型模型上做科學研究是很困難的,我将告訴你們在過去幾個月裡,我們的科學研究部分和探索之旅。
是以,這個演講的真正标題是《人工通用智能的火花》。
在過去的幾個月裡,我們與GPT-4的合作評估表明,我們看到了一些類似于人工通用智能的東西。在這次演講中,我的目标是試圖說服你們,随着GPT-4的到來,事情确實發生了變化。
這項工作是與MSR的許多優秀同僚共同完成的,我想特别提到Varun Chandrasekharan,Ronaldo(我想在座的許多人都非常了解),他最近剛加入我們,還有Johannes Gerker、Ericovitz Eche、Camar Peter Lee、John和Julie等,他們也是我的團隊成員。我認為,如果GPT模型回答他們是否在研究這個問題,他們會給出類似的答案。與我一起工作的還有Scott Landberg、Hashanori、Hamid Palangi、Marco Tulio Ribeiro和Yi Zhang,他現在已經全職加入了我們。
首先,我要對一些事項表示感謝,并作出一些澄清。我認為這非常重要。
首先,我們所研究的GPT-4模型完全是OpenAI的創作,我與此無關。我們完全是黑箱地被允許使用它,OpenAI創造了這個真正了不起的工具,一個即将改變世界的工具,他們應該得到全部的榮譽。我想再次強調這一點。
其次重要的是,我們所做的實驗是基于模型的早期版本。這意味着他們釋出的論文和所做的聲明中的一個版本是多模态的,而我們接觸到的版本不是多模态的,它僅支援文本輸入和文本輸出。更重要的是,在我們進行實驗之後,他們對神經網絡進行了進一步的修改。由于這些進一步的修改,當你嘗試我将展示的一些提示時,你将得到的答案可能會有所不同。特别是,你可能得到的答案沒有我展示的那麼好。原因是他們為了安全性進一步進行了微調,他們在技術報告中非常清楚地解釋了這一點。他們調整了模型,以某種方式使其變得更安全。是以這是一個重要的澄清。
現在,對于在座的任何科學家,你可能會擔心我們無法複制你告訴我們的内容,是的,你将無法複制它。話雖如此,在這種特殊情況下,我認為可重複性并不是一個大問題,原因是我不會給你任何數量上的資料。在我的演講中不會有任何基準。這是關于質的飛躍,而不是在這個基準上增加10,那個基準上增加20。這是另一回事。
我想試圖說服你們的是,這個系統中存在着某種智能,我認為我們應該稱之為一個智能系統。我們将讨論我所說的智能是什麼意思,最後,在演講結束時,你會看到這是一個判斷問題,這并不是一個明确的界定,這是不是一種新型的智能,但無論如何,我還是會嘗試争論這一點。
現在,當我說這些話時,我想很多人可能會産生很多情緒,尤其是你可能會覺得不對,它絕對不具備智能,它甚至沒有表示法等等。是以關于這類觀點,我要提個醒。這就是你可能會在網上甚至是報紙上看到的東西,例如它隻是複制粘貼,沒有内部表示,隻是統計資料。它如何具有智能呢?它甚至沒有一個詞彙模型。
這個演講不是為了駁斥所有這些觀點,但我仍想說,我們要警惕這個高維空間。
對我們人類來說,這是非常非常難以了解的。你可以用一萬億個參數做很多事情。是以當人們說它沒有一個詞彙模型時,情況并不像那樣簡單。它完全可以建構一個内部的世界表示,并在處理過程中的各個層次和時間上進行操作。我在這裡說的,可能隻是兩句話來幫助你思考這個問題。
從我的角度來看,我們不應該把這些神經網絡看作是學習簡單的概念,比如巴黎是法國的首都。它在做更多的事情,比如學習操作符和算法。在它内部,它不僅僅是檢索資訊,而是建構了内部表示,使其能夠簡潔地重制所看到的資料。是以你真的不應該把它看作是模式比對,隻是試圖預測下一個詞。是的,它的訓練目的隻是為預測下一個詞,但從中産生的東西遠不止一個統計模式比對對象。
我認為我們真的需要把它看作是學習算法,而在我的看法裡,學習理論中并沒有這種類型的學習工具。這與我們習慣的東西有很大的不同,我認為這将是非常有趣的,但這并不是這次演講的重點。這不是我在這裡想要做的事情,而且我也不知道該如何做。
是以現在,你們中的很多人可能會心中疑問:等等,這些東西不可能有常識,它們不了解現實世界,它們隻是通過網際網路上的文本體驗現實,它們不知道喝一杯熱咖啡是什麼感覺。
好吧,那我們在這次演講中要做的就是看很多例子,看看會發生什麼。以下是一個例子,你會看到很多類似的例子,看起來有點愚蠢,但愚蠢的目的是要超越網絡上的内容,真正嘗試超越記憶。
這裡是一個我們向GPT提出的簡單謎題:我有一本書、9個雞蛋、一台筆記本電腦、一個瓶子和一根釘子,請告訴我如何把它們堆疊在一起。我不認為這個問題在網際網路上出現過,這是一個非常奇怪的問題。以下是ChatGPT的回答:将所有這些物品堆疊在一起将非常困難,首先将瓶子放在平坦的表面上,小心地在瓶子上平衡釘子。好吧,這個開始不太好,把雞蛋放在釘子上。好吧,這個方法行不通。是以ChatGPT在這裡并沒有表現出常識。任何懷疑者都會高興地說,看,我一直是對的,這些東西什麼都不懂,它們沒有對世界的表示,沒有常識,我赢了。
那麼,讓我們看看GPT-4會怎麼做。一個可能的堆疊方式是:首先将書放在平坦的表面上,将9個雞蛋以3x3的方形排列,留出一些空間,雞蛋将形成第二層,均勻分布重量,然後你可以放上筆記本電腦等等。至少在這個非常簡單的問題上,它表現出了一些常識。
當然,文獻中充滿了這些模型在常識問題上的戲劇性失敗的例子,我們嘗試了所有這些,GPT-4在所有這些問題上都表現得很好。那麼,讓我們暫時同意它具有一定的常識。
接下來的問題是:好吧,它了解雞蛋是易碎的,需要均勻分布重量,這一點我承認。但是關于心智理論呢?這需要更複雜的處理。
當然,它并不真正了解人類的動機、情感等等,這超出了它的能力範圍。這是一個熱門話題,關于大型語言模型是否自發地産生了心智理論的論文,還有一個後續論文表示,如果進行微小的改動,模型就會完全失敗。還有喬希·特南鮑姆(Josh Tenenbaum)團隊的一篇非常有趣的論文,認為語言和思想是兩個非常不同的事物。
你會注意到,我還提到了一個可解釋性和可解釋性方面的論文。我不會過多地讨論這個,但這是一個重要的觀點,現在我将試圖說服你們,當然,GPT-4具有心智理論,而且它不僅具有心智理論,而且我認為這将改變機器學習可解釋性的子領域,因為一旦這些模型了解了人類,它們也将能夠以你能了解的方式解釋決策。
當然,我知道每個人都在想,好吧,它會解釋自己,但這真的能解釋它的内部運作嗎?再次強調,我不想讓這次演講都圍繞這個話題展開,但我認為将會有很多關于這個話題的實驗。
另外,所有這些内容都将在今晚的一篇論文中出現在arXiv上。很巧合地,這篇論文與這次演講相吻合。你可以檢視所有詳細資訊,所有内容都将在三小時後出現。我為此感到非常興奮,是以你可以檢視所有内容并了解更多資訊。
好吧,讓我試着說服你接受我的這個理論。我會拿托馬斯論文中的一個例子。
“在一個房間裡,有約翰、馬克、一隻貓、一個盒子和一個籃子。約翰把貓放進籃子,然後離開房間。當約翰不在的時候,馬克把貓從籃子裡拿出來,放進盒子。最後,他們都回來了,他們在想什麼?”
我的理論很簡單,就是那個把貓放進籃子裡的人,如果不知道貓被挪走了,還是會認為貓在籃子裡。讓我們看看ChatGPT在這方面的表現。這裡有太多的資訊,你必須有一個内部表示,當你閱讀文本時,你必須改變對貓所在位置的表示。那麼讓我們看看GPT-4是怎麼做的。有趣的謎題。。。約翰認為貓仍在籃子裡,因為他把貓留在那裡。對,沒錯。馬克認為貓在盒子裡,因為他把貓挪到了那裡。對,沒錯。哦,它還知道貓的想法(觀衆笑),貓覺得這些人很奇怪,為什麼要把我挪來挪去。
好吧,是以這是我一次又一次感到驚訝的地方。我并不是說這個問題特别深奧,但請花一點時間去思考一下,這是挺有趣的。
好的,讓我們繼續,我不希望整個演講都圍繞着常識和心智理論,假設GPT-4已經做到了這兩點,但你還是不會輕易地認為它是智能的,對吧?
我的意思是,智能不僅僅是這些,而且你知道這裡的答案并不是那麼容易确定的。我想要非常明确地說,如果我們開始讨論智能,我們首先要做的就是找到一個可以參考的定義。在這裡,我不想給出我自己的定義。我的意思是,人們已經研究這個問題幾十年,甚至更久了。
你知道,你可以争論人類已經思考智力很長時間了,是以我要做的是采用一份由52位心理學家在1994年發表的共識性定義。在90年代,關于智商測試的意義存在激烈的争論,這群心理學家給出了一份關于智力是什麼的定義,我們可以就各種部分進行争論和不同意見,但這将是我參考的定義。
這個定義是:智力是一種非常普遍的心智能力,其中包括推理、計劃、解決問題、抽象思維、比較複雜的觀點以及快速學習和從經驗中學習等能力。好的,有六項,我們接下來要做的是嘗試用這六個方面來衡量GPT-4,看看它在哪些方面失敗,在哪些方面成功。我們的評估如下:
我非常自信地說,GPT-4具有推理能力;非常自信地說,GPT-4無法計劃。
這是一個非常微妙和複雜的問題,我們将在演講的最後讨論,因為它可能給你留下計劃的印象,而且有很多問題,你可能會天真地認為需要計劃,但實際上有線性解決方案。在算法設計方面,可以認為有些問題在初看時會讓你認為需要提前考慮10步等,但如果在算法設計上稍微聰明一點,那麼就有一個線性解決方案。
是以GPT-4能解決這些問題。它能解決很多問題,我們将看到它能夠抽象思維,當然可以了解複雜的想法。
最後一點是一個微妙的問題——快速學習和從經驗中學習,GPT-4是一個固定的語言模型,它不會随着時間的推移而更新。對于GPT-4來說,每一天都是新的一天,每一次會話都是新的一次會話,是以沒有實時學習。但在一次會話的時間範圍内,你可以教它從未見過的新概念,并且它可以了解它們,然後與它們一起工作。是以在實時學習方面有一定的能力,但當然沒有記憶。
現在讓我立即說一下,關于這個評估,你是否稱之為智力,有點取決于你。有些人可能會認為計劃是人類智力的本質,其他所有事情,動物也能做到。真正差別我們的是計劃能力。如果這是你的觀點,那麼GPT-4就不具備智力。另一個觀點可能是智力的全部意義在于能夠習得新技能。如果你對智力的看法是這樣的,那麼GPT-4也不具備智力。如果你關心的是解決問題、抽象思維、了解複雜觀念和對新元素進行推理等能力,那麼我認為你必須稱GPT-4具備智力。
那麼我們是如何得出這個評估的呢?
問題的關鍵在于,你無法通過基準來進行這種評估,這完全沒有意義。而且,我們不知道GPT-4接受了哪些訓練。我的工作假設是,它接受了人類産生的所有數字化資料。這是我的假設,我不是說這是正确的,但這是我的工作假設。
是以,我知道GPT-4可能已經看過所有線上的東西,特别是任何已經存在的基準測試。是以我們不能用基準測試它。相反,我們要采取的方法是植根于心理學的方法。與其遵循機器學習的方法,不如實際遵循心理學的方法。
我們要測試智力的方法是通過讓它完成富有創意的任務,這些任務超出了它所見過的範圍,真正需要用創新的方式思考問題,并在廣泛領域進行測試。
我們在論文中選擇的領域包括視覺、心智理論、程式設計、數學、使用工具的可供性以及隐私和有害性檢測,這些都非常重要。我們還可以選擇其他領域,如醫學、法律、實體和化學等。關鍵在于,GPT-4的智力是通用的,它可以在所有這些領域表現得同樣出色。
那麼,讓我們開始這個評估之旅,給你們展示一個富有創意的任務示例。當任何人第一次接觸到GPT時,他們會做的第一件事就是要求它創作一首詩,這也是我們第一次接觸到GPT-4時所做的。作為一名數學家,我要求它用押韻的方式證明質數的無窮性。讓我們先看看ChatGPT是怎麼做的。它給出了一個證明,但沒有押韻,沒有按要求。當然,你知道的,質數有無窮多這一論斷有很多很多證明。給出證明這當然是好事,但它并沒有完成任務。
讓我們看看GPT-4會做什麼。好的,那麼你能寫出這樣的證明嗎?
GPT-4: "是的,我認為我可以。這可能需要一個巧妙的計劃。我将從歐幾裡得的證明開始,表明質數并非如此孤立。我假設我們有一個有限的質數清單,并且沒有遺漏。将它們全部相乘,然後加一,以表現聰明...."
(作者注:GPT-4回答的證明英文原文确實是押韻的)
在這一點上,我記得九月底的時候,我想:“這到底是怎麼回事?”這真的是令人難以置信的。
但關鍵是,你不能就此止步。你不能通過提問、聽回答來測試智力,然後就這樣。你要繼續,不管你是對還是錯。當你試圖測試一個學生時,你需要與學生進行互動。有時學生也會犯錯誤,你不能就此說:“啊,你真的什麼都不懂,讓我停在這裡吧。”不,你要嘗試引導學生。是以,這就是我們要嘗試做的事情。在整個示範過程中,我們将不斷提問,如果GPT-4跑偏了,我們會稍微幫助它一下。
讓我們看看如何繼續。
再次說明,我們要做的是發揮創造力,跳出思維架構,提出問題。
我要求畫出這個證明的插圖。但這并不是一個視覺證明,是以如果我讓你畫出質數無窮多的證明,你可能會想出一些東西,但也不一定清楚該畫什麼。
然而,GPT-4也不應該輸出圖像,那它該如何繪畫呢?在這個問題中,我提到了SVG格式。我甚至可以不提SVG格式,隻是說:“你能畫一個插圖嗎?”然後它會回答:“嘿,這是一個SVG格式的圖檔。”
SVG(可縮放矢量圖形)格式是什麼并不重要,它是一堆代碼。GPT-4的回答就是這樣一堆代碼。如果你把它儲存成HTML,你會得到這樣一幅圖檔。
這幅畫雖然并不驚豔,但它确實傳達了這個證明的本質。你可以看到質數的有限清單,如2、3、5、7、11等等。這些都是質數。好的,現在我們把它們組合成一個新的數n,然後加一,就像它說的那樣,隻是為了顯得聰明。這個新的n+1就是我們要找的質數。
這隻是一個熱身。讓我們繼續深入挖掘GPT-4的視覺能力。在這裡,我想給大家講一個關于獨角獸的奇怪案例,這也是我最喜歡的一個例子。
讓我給你們展示一下這個問題:請用TikZ畫一個獨角獸。在這裡的觀衆中,許多人用TikZ在LaTeX中繪制圖像,我個人在讀博期間甚至之後,浪費了很多時間與TikZ抗争。用TikZ畫任何東西都很痛苦。當然,用TikZ畫一個獨角獸,我估計要花費兩天時間。此外,我敢肯定網際網路上沒有人問過這個問題,或者畫過一個獨角獸。誰會浪費時間去做這個呢?這根本沒有道理。
話雖如此,我們不能僅僅因為相信它不在網際網路上就信服。我們必須進行深入探究,我們将這樣做,不用擔心。但讓我先給大家看一下GPT-4畫出的獨角獸。這是GPT-4的獨角獸。當我看到這個時,我個人感到震驚,因為它真的了解了獨角獸的概念,知道獨角獸的關鍵元素,能夠畫出這個非常抽象的獨角獸。為了讓大家清楚地看到GPT-4與之前版本之間的差距,這是之前ChatGPT版本的獨角獸:
是以,這就是ChatGPT和GPT4兩者之間的差距。在這個例子中,我們可以看到GPT-4取得了很大的進步。如果你之前嘗試過早期版本而不滿意,我建議你不要止步,嘗試一下GPT-4,看看它能給你帶來什麼驚喜。
好的,是以當然你可能仍然會說,這并不是那麼了不起。但我們将要看到的一點是,GPT-4 足夠智能,也可以使用工具。是以,你可以回應它說,嘿,你知道嗎,我不太喜歡你的畫,你能試着改進一下嗎?我聽說過這些擴散模型(作者注:即Diffusion模型,現在AI繪畫普遍使用的核心模型),也許你可以使用其中之一。是以,它會說,好的,确定,請進入這個擴散模型網站,然後插入我的圖檔,要求它改進,你将得到這個。
好吧,這就是允許使用工具的 GPT-4 的獨角獸。是以,你可以看到這可能會走向何方。再次說明,我不想就此打住,我們将繼續探索。
在這種情況下,我們将如何進一步探索呢?
接下來我要做的是:拿到生成的 Tikz代碼,去掉所有 Tikz代碼中的注釋,因為 GPT-4 的一個特性是生成的代碼非常容易被人類閱讀,這對于一台機器來說有點有趣,但它添加了很多注釋,真的引導了你去了解它的思考。
是以我要删除所有這些資訊,以免它知道這個叫畫獨角獸,裡面沒有關于獨角獸的資訊。我還要確定誰知道它是否從網絡上複制這些内容,我要随機擾動所有坐标,這樣它就看不見了,然後我要删掉角。我要說,修複這段代碼,我要給回代碼,
這是一個新的GPT-4會話,我把代碼還給它,然後說這個 Tikz代碼應該畫一個獨角獸,但是角丢了,你能加回去嗎?是以,它必須真正了解這段代碼才能做到這一點,這就是發生的事情。好吧,它真的能夠找到頭部,你要明白這不是一個簡單的問題。我的意思是,你有這三個橢圓形,三個元素,順便說一下,頭部和鬃毛,它畫鬃毛的技巧不是很好。但它真的能夠定位它。
好,我不想過多地談論這個獨角獸的例子,但我想說的是,另一個非常引人注目的事情是,在我們9月份接觸GPT-4後的一個月裡,他們一直在訓練它。當他們不斷訓練它時,我也一直在詢問我的獨角獸在Tikz上的情況,看看會發生什麼。是以,它一直在進步。
當然,我留下了最好的例子在我的電腦上,也許以後會回顧一下。它在那之後還繼續進步,但最終在GPT-4開始訓練更多的安全性後,獨角獸的品質開始下降。是以今晚如果你回家問GPT-4讓它在Tikz上畫一隻獨角獸,你可能得到的效果不會很好,更接近于ChatGPT。
盡管這聽起來很愚蠢,但我們經常用這個獨角獸基準來衡量智能水準,看看你的獨角獸有多好。當我們在調整安全性時,我們确實關注獨角獸是否變得更好,或者如果安全性過高,它會覺得這個任務太危險了,不想去做。這非常有用。
接下來我會加快速度,因為我還有很多想告訴你們的。你可能仍然會說,這個視覺能力并沒有什麼用處。實際上,它非常非常有用。原因是GPT-4是智能的,它能了解你。
你可以把智能等同于了解。了解意味着它會遵循你的訓示。如果你讓它做某件事,它會按照你的要求去的方式去做。
讓我給你們示範一下這意味着什麼。人們還不确信這個擴散模型是智能的,我認為已經有足夠的證據證明這裡存在智能,但不管怎樣,人們還是不相信,因為它不能準确地了解物體的位置。例如,如果你讓它在一輛汽車旁邊放一個咖啡杯,它可能會随機放置。是以它并不能真正了解這張照片。例如,這張照片要求在一個杯子上方放一個勺子,你可以看到它把勺子放在了杯子裡。是以效果并不好。
讓我給大家展示一下了解力的威力。我會問一個很奇怪的問題,但這個問題在現實生活中可能會很有用。比如,我讓GPT-4畫一個3D建築遊戲的截圖,其中從左到右有一條河流,河流下方是一個有金字塔的沙漠,河流上方是一個有很多高樓大廈的城市,螢幕底部有四個按鈕,分别為綠色、藍色、棕色和紅色。這個問題很随意,但也許我在制作一個視訊遊戲,我想要這樣的效果。
如果我讓擴散模型去完成這個任務,我得到的結果如上:看起來很好,但根本不是我要求的。首先,左上角出現了一些我沒有要求的幻覺地圖,還有一些類似于生命符号的東西。四個按鈕變成了兩個多彩的按鈕。它确實做了一些工作,但并沒有完全了解我要求的内容。
如果你讓GPT-4來完成這個任務,你會得到這個結果,它完全符合你的要求,因為它了解了你的訓示,并且準确地執行了。
當然,你可能會說這個效果看起來并不好,但你不必就此止步,你可以将這個作為一個草圖,輸入到擴散模型中,這樣你就能得到這個效果。這個效果非常好,而且完全符合你的要求。是以我認為這為我們打開了很多可能性。
現在,讓我們繼續探讨這個繪畫能力,但實際上,這更像是編碼能力。因為畢竟,這個繪畫能力實際上隻是編碼的一個方面。
那麼,讓我們來看看編碼吧。讓我們看看當你用像GitHub Copilot這樣的協同編碼工具時,會發生什麼,尤其是現在你的Copilot已經具備了智能,可以了解你的意思。
讓我們看看如果我問一個相當棘手的問題,它會如何回答:“用HTML和JavaScript編寫一個3D遊戲,其中包括以下元素:有三個球形的角色,玩家可以通過按鍵控制其中一個角色移動,有一個敵人試圖抓住玩家,還有一個防禦者試圖保護玩家,站在敵人和玩家之間。”
你們可以了解,防禦者在某種程度上也是一種AI。此外,還有随機生成的障礙物。
我可以讓ChatGPT來完成這個任務,它給出了以上答案。
首先,這已經很令人驚訝了,它給我提供了大約50行可以編譯成遊戲的代碼。這是一個我可以玩的遊戲,玩家可以移動綠色球。當然,紅色球沒有動,我想藍色球應該是防禦者,但它也沒有動,而且并不是3D的。它做了一些工作,但并沒有真正了解我想要的,也沒有精确地遵循我的訓示。
GPT-4的做法如上:這是一個真正的遊戲,非常有趣。你可以移動深藍色的球,紅色球朝着深藍色球移動,而淺藍色球則是防禦者,試圖站在紅球和深藍球之間。這個視訊中,我正在操控深藍色的球。你可以看到,防禦者做得很好,擋住了紅色球。
是以,對我們來說,編碼已經進入了一個新的階段。實際上,Codex和GitHub Copilot能夠實作代碼自動補全,你可以把它看作是自動補全,提供短小的代碼片段。
ChatGPT已經更進一步,它可以為你編寫大約50行的代碼。
但GPT-4可以編寫500到1000行的代碼,并且完全可以立即使用,無需進行元提示或其他操作,這一切都是開箱即用的。是以,我認為這就是使用協同編碼工具所能實作的功能。
在這裡,我展示了兩個動畫,左邊是ChatGPT生成的代碼,右邊是GPT-4生成的代碼。仔細觀察,你會發現GPT-4生成的代碼更像是專家級别的。
然而,這個幻燈片的關鍵在于,這兩個視訊都是由GPT-4生成的。我所做的就是讓GPT-4生成一個Python腳本,該腳本将文本檔案作為輸入,并輸出一個帶有連續移動效果的視訊。對我來說,制作這些視訊肯定需要很長時間。問題是,在座的各位有誰能在幾個小時内編寫一個Python腳本來生成這樣的視訊呢?可能隻有少數幾個人。這正是GPT-4的強大之處,它解鎖了如此多的創造力。
我将快速介紹一下這張幻燈片。在過去的模拟面試中,GPT-4已經通過了亞馬遜和谷歌的面試,而不是微軟(觀衆大笑)。
事實上,它不僅通過了這些面試,而且在這個特定的面試中,它在短短3分鐘59秒内完成了兩小時的面試任務。之是以需要這麼長時間,是因為它在Playground和模拟面試網站之間複制粘貼。是以,我們可以說GPT-4在編碼方面已經達到了超人類水準。
現在讓我們談談GPT-4的可供性以及數學問題。盡管GPT-4非常強大,但它仍然存在很多弱點。例如,它沒有記憶,它會犯算術錯誤,它會在一些問題上回答錯誤。但是,GPT-4已經足夠智能,可以使用工具來解決這些問題。例如,你可以告訴GPT-4:“你可以使用搜尋引擎、電腦、API等工具。如果你需要它們,請使用它們。”這樣,當你向它提問時,它會選擇相應的工具來回答問題。
但關鍵是,GPT-4足夠智能,能夠使用工具。你可以告訴它:“嘿,你知道嗎?你可以使用搜尋引擎,你可以使用電腦,你可以使用這個API(我隻是說它是字元函數),你可以通路所有這些東西。如果你需要它們,請使用它們。”
是以,當有人問“美國總統是誰?”時,它不會直接回答,而是說:“搜尋”,告訴你它需要搜尋這個資訊。當問到這個數的平方根是什麼時,它會回答:“calc”。當問到這個詞的特定字母是什麼時,它會說:“字元,逗号13。”是以,盡管我沒有告訴它需要在逗号後面輸入字母的數量,但它會自動找到正确的答案。
現在可能并不那麼令人印象深刻,但它還可以做更多複雜的工具協同。
例如,你可以允許它通路你的月曆和電子郵件。是以,在這裡我要向你展示的這個幻燈片上是100%真實的,但我手動完成的,你可以很容易地想象自動化這個過程。
我說的是,請安排本周在Contoso餐廳和Joe和Luke共進晚餐。它回應說:“calendar.get_events.week”,這樣它就可以在我的月曆裡找到我這周的活動。
然後,它給Joe發一封電子郵件,問他哪個晚上有空。接着我把答案回報給它,Joe說周二和周三晚上有空,Luke說周一至周四的任何一天都可以。我的月曆顯示我周一和周二已經有安排了。
然後,它根據我給出的資訊進行推理,得出結論:周三是個合适的日子。于是,它給Joe發了一封電子郵件,把活動添加到月曆,并給餐廳發去預訂。這一切都是自動完成的。然後,它回複我說,已經在Contoso餐廳預定了6點的晚餐。
接下來,我将簡要總結一下數學問題,因為這對我們很多人來說都是一個非常感興趣的話題。
首先,我要說它并不擅長數學,是以别擔心,我們現在還有工作可以做。但它的表現是有趣的。我們可以像跟學生交流一樣跟它交流。
我們曾與它進行過大師級别的對話,它在這個水準上表現得還不錯。但我要給你展示的是一個國中水準的問題。這個問題是:一年内,兔子的數量首先乘以一個因子a,最後一天有b隻兔子被領養。假設第一年的第一天有x隻兔子,經過三年後,恰好有27x-26隻兔子。求a和b的值。這是一個典型的國中數學問題。
GPT4回答:"我們可以設第一年兔子的數量為y,那麼y=ax-b。經過兩年後,兔子的數量為ay-b,即a(ax-b)-b。經過三年後,兔子的數量為這個等式,我們已知這個等式等于27x-26,是以我們可以解出a=3,b=2,這就是我們要找的答案。"
到目前為止,一切都很好。
再次強調,你不能僅憑這些就判斷一個學生是否了解了問題。我們繼續進行讨論,并嘗試更抽象的方式來看看它是否真正了解了它所做的事情。
在這裡,我不僅想提出一個有明确答案的問題,還想看看它是否真正了解了這個概念,是否能夠修改問題本身。
假設我指出這個問題可以用關于組合的方式重新表述,你能給出這種組合表達式嗎?它回答說,“是的,我們可以說我們在尋找 A 和 B 的值,使得如果 f(x) = Ax - B,那麼 F(F(F(x))) = 27x - 26。”
這相當不錯,看起來它似乎了解了,讓我們繼續讨論。
“假設現在 f 将是一個二次多項式。那麼,一個具有非零 x 平方系數的多項式,在這種情況下,你能找到這樣一個函數 f 嗎?”
作為一個人類,你可能會想,好的,我希望這個組合等于一個線性函數,即一個一次多項式。但是,連續三次組合将得到一個八次多項式。八次多項式與一次多項式并不相等,是以不存在這樣的函數。這是一個非常簡單的問題,但讓我們看看 GPT-4 如何處理。
GPT-4:“如果 f 是一個二次多項式,那麼 f(x) 可以寫成這樣的形式。然後給出這個方程式。。。”
GPT-4 開始有點迷失方向,因為它開始嘗試寫下連續三次的組合,寫了很多東西,說需要這個方程、那個方程,開始寫下八個方程,但它沒有得出答案。但我們并沒有就此止步,我們說,“等等,也許在這裡你可以在不進行計算的情況下得出一些結論,也許你不需要把所有東西都寫下來,這不像以前那樣。”
然後,它說,“啊,好吧,我可以注意到的一件事是,如果 f 是一個二次多項式,那麼連續三次的組合将是一個八次多項式,是以不存在這樣的函數。”
是以在這裡,你可以看到問題很微妙,不确定它是否了解,或者它是否不了解。我不确定,我真的不确定。
現在還有一些奇怪的事情,比如算術仍然有些搖搖晃晃,我必須說我不完全了解,但是我在這個幻燈片上明白了一些東西。
讓我們看看這個,我給它一個提示:7乘4加8乘8。好吧,我不知道這個值是多少,但是8乘8是60多,7乘4是20多,是以至少這個值應該在100以下。
但是它給出的答案是120,這是錯誤的。關鍵是,它并沒有就此止步,而是繼續解釋為什麼它認為答案是120。它計算了7乘4加8乘8,然後得出了正确答案92。
“等一下,發生了什麼?你一開始說答案是120,到底是120還是92呢?”
GPT4: "哦,那是個打字錯誤,抱歉。"(觀衆大笑)
好吧...
這個幻燈片中有很多深刻的見解,從中我們可以真正了解發生的一切。
首先,關于120這個答案,你需要了解,它必須使用内部表示來完成這個加法,這比立即回答問題稍微困難一些。為什麼會立刻回答呢?因為當你提出這樣的問題時,你寫下等式,等号後最有可能出現的就是一個數字,是以它給出了這個數字。
它試圖給出在等号後最可能出現的東西,盡管失敗了。但在那之後第二個最有可能的事情是,人們解釋他們的理性、他們的答案。是以它試着解釋它的答案,關鍵的是,它得出了一個不同的答案。
你必須了解,這是很了不起的,因為據我所知,這是一個基于注意力的Transformer模型。當它第二次說7乘4加8乘8時,它的注意力非常強烈地引向120這個答案。你必須了解,120這個答案現在已經成為它的一部分了,對于它來說,它可能認為你告訴它,嘿,你知道嗎,7乘4加8乘8就是120,從現在開始就是這樣。這可能是我的提示的一部分。盡管一開始就犯了錯誤,但它能得出正确答案的事實表明,它已經經過足夠的訓練來克服提示中的錯誤,這是一個非常非常強大的屬性。
當然,當它說這是一個拼寫錯誤時,這也非常有趣,因為這顯然不是一個拼寫錯誤,這引出了幻覺等許多有趣的話題。我想留出時間回答問題,是以我不想再多解釋這個幻燈片了。但你真的要深入思考這個幻燈片,它包含了很多資訊。
在進入結論之前的最後一個幻燈片是關于它不能進行真正的規劃。
當然,我對它能完成許多我認為需要真正規劃的任務感到驚訝。但讓我舉個例子,我們繼續讨論7乘4加8乘8的問題。
"好的,現在你有一個等于92的等式,讓我問一個有趣的問題:你能否在等式左側修改一個整數,使答案變為106?"
作為一個人類,你的推理是這樣的:好的,我想要在右側得到106,是以我需要增加14。好的,我需要增加14,我可以在左側修改一個數字。我看着左邊,看到一個7,然後我有這種“頓悟”的時刻:“啊,14是7乘以2。”是以,如果是7乘以2,那麼我需要把這個4變成6。是以我說的就是這個,我們需要把這個4變成6。但是,盡管這個頓悟非常簡單,但它是通過某種規劃得出的,在考慮接下來需要做什麼。
然而,GPT-4不能做到這一點,因為它是一個“下一個詞預測”的裝置。
是以,它會說,有一些可能的方法來實作這個目标,然後它說:“我可以修改一個整數,我要把7修改成9,然後9乘以4,這等于106。”等等,如果我把7修改成9,再加8,那就是100,而不是106。然後它試圖解釋為什麼這樣做是對的:9乘4加8乘8等于36加64,這是正确的。但是,它再次說出了106。
是以你可以看到,在這裡,它沒有足夠強大的能力來克服最初的錯誤。這對我來說意味着,如果它接受了更多的訓練,它也許會糾正自己的錯誤。如果它接受了更多的訓練,也許它會了解,即使在提出這樣的問題時,最有可能的答案是一個數字,但如果它經過更多的訓練,可能最好的回答方式是首先進行推理。
是以我在這裡說的是,通過這個愚蠢的例子,我看到了更多的訓練可以讓我們獲得比現有更多的東西。我們目前擁有的已經很了不起了,但這離我們能通過這種技術所能做到的一切還很遙遠。在地平線上,還有更多的東西等着我們去發現。
那麼,讓我們總結一下:GPT-4是否具有智能?
這真的很重要嗎?這是一個非常重要的問題。
再次強調,GPT-4是否具有智能,這取決于你對智能的定義,我不做判斷。我認為它是智能的。至于我對智能的定義,是的,它是智能的。如果你認為它缺乏記憶,不能進行實時學習,那麼它就不具備智能。
它不能預先考慮幾次,不能進行真正的規劃。如果這是你對智能的定義,那麼它就不具備智能。但另一方面,我認為我給出的一些例子非常令人印象深刻,也許更重要的是,它們具有實用價值。
在我的團隊中,我們每天都在使用 GPT-4,它已經成為我們工作流程的一部分。這個事實本身就說明,無論你是否認為它具有智能,它都将改變世界。
另外,我想說,這也許是一個重新思考智能的機會。
雖然我們已經有數十年研究心理學和智能的曆史,但迄今為止我們隻有一個智能的例子,那就是自然演化帶給我們的自然智能。但現在,我們有了一個新的過程,它導緻了一些看似具有智能的東西。
現在我們有了不同的例子,也許我們可以更深入地研究智能的本質。研究的結果可能會是:“是的,這個新東西你不應該稱之為智能,因為它不具備某種特性。”這是一個非常可能的結論。但更重要的是,我認為我們可以從中提取更多的東西。
GPT-4絕對不是終點,而是一個開始。這是第一個展示出真正智能閃光點的模型,但地平線上還有更多東西等待我們去發現。
那麼,作為大學、社會和人類,我們應該從中得出什麼結論呢?
我的意思是,這是一個非常現實的問題,我們需要面對。在這裡,我真的想說,作為一個社會,要掌控這個問題,我們必須超越讨論它是否是複制粘貼或者統計。我們必須抛棄這個讨論,火車已經離開車站。如果我們繼續糾結于這個問題,我們将錯過真正重要的問題。是以,我認為繼續前進是很重要的。
最後,我還想說,GPT-4能做的遠不止我在這裡展示的内容。
它可以進行資料分析,你可以給它資料,它會為你進行分析。它可以用作隐私檢測器。它在醫學和法律領域的知識令人驚歎。
在這裡,我想推薦一本由微軟研究院出版的書,我在其中提供了幫助。這本書的主要作者是 Peter Lee,其他作者還包括在場的 Kerry Goldberg 和哈佛大學的 Zako。這本書關于如何在醫療保健領域使用 GPT-4,書名為《人工智能醫學革命》。這是一個非常複雜的主題,我甚至不想多說一句,因為在一句話裡我無法做到公正地介紹這本書。但事實上,GPT-4 在醫療保健領域的知識将使其産生重大影響,希望這種影響是積極的。當然,我們需要深入思考這個問題。
此外,GPT-4 還可以玩遊戲,充當遊戲環境。它懂音樂——這再次令人驚訝,因為它從未聽過音樂,但它懂音樂。它還可以進行檔案管理等等。
好了,我就到這裡結束。謝謝大家。