天天看點

ChatGPT發瘋怎麼辦?小冰李笛:兩個關鍵,我可破之

蕭箫 衡宇 發自 凹非寺

量子位 | 公衆号 QbitAI

微軟必應接入GPT大模型後,效果并沒有大家想象中那麼好——它發瘋了。

如今官方緊急出面,更(砍)新(掉)了必應上面最受歡迎的功能,也就是發表觀點的能力。

大夥兒顯然很不買賬,認為新必應失去了最有意思的部分,現在版本的體驗感甚至不如siri 1.0。

有網友寄希望于必應背後的大模型更新:

說不定現在隻是GPT-3版本,GPT-4還沒釋出呢。

然而據《紐約時報》等爆料,必應背後的大模型很可能就已經是GPT-4了……

我們将這一現象抛給國内最熟悉AI Chat領域的人——李笛。

他上來就給熱得發燙的大模型澆了盆冷水:

新必應和ChatGPT目前表現出來的bug,反映出大模型不得不解決的一個關鍵問題。

這個問題可以一時無視,但做大模型、甚至是類ChatGPT産品,如果不解決它,終究會碰壁。

這個bug,就是大模型的邏輯能力。

大模型:成也邏輯,敗也邏輯

事情要從ChatGPT背後的GPT-3.5模型說起。

從GPT-3.5開始,大模型展現出一種突破性的能力——思維鍊(CoT,Chain of Thought),也就是邏輯思考能力。

舉個例子,在做數學題時,相比直接輸出答案,模型能一步步推理直至給出正确答案,展現的就是思維鍊能力:

但此前在中小模型、甚至一部分大模型上都沒有發現這種能力,學界便認為這是某些大模型獨有的“新特性”。

基于這一“新特性”,大火的ChatGPT橫空出世,在回答問題和發表看法時展現出了像人一樣思考的效果。

然而李笛認為,GPT-3.5表現出的這種邏輯能力,是不穩定、不可控甚至危險的。

第一,它的思考方式不透明;第二,它連引用來源都沒有。

這兩個問題看似被OpenAI用大量人工精細标注的資料、大量的模型參數掩蓋了起來,但一旦加入不可控因素(像必應一樣接入網際網路、或修改參數等),就随時可能導緻模型崩潰。

是以,如今邏輯思考能力正在成為大模型的雙刃劍——

使用效果好,大模型邁入新的時代;一旦失控,隻會讓大模型更難落地。

為了舉例說明大模型的邏輯能力存在問題,李笛提到了小冰公司最新釋出的産品小冰鍊。

小冰鍊(X-CoTA,X-Chain of Thought & Action)同樣是個大語言模型,通過對話的方式幫人們解答問題。

但它最典型的不同,在于僅僅用GPT-3參數量2%的模型就實作了思維鍊,而且思考過程還是透明的。

在模型大小上,它不僅不是GPT系列的千億參數大模型,背後參數隻有幾百億甚至最低能降到35億;

至于功能上,它拒絕像ChatGPT一樣生成綜述、作業和發言稿,但能實作的功能更多。除了不避諱對事件發表看法、主動聯網找答案以外,還能靈活調用各種模型或知識庫完成任務。

具體來說,小冰鍊的架構分為三個子產品。

子產品一負責運用思維鍊(CoT)能力處理語句。

這部分可以調用具備CoT能力的大模型來實作,但也可以調用上面說的35億參數左右的中模型,将輸入的語句轉換成具體行動的Action指令輸出。

子產品二負責執行指令(Action),這部分接收并處理子產品一輸出的Action指令,負責執行對應的任務。

根據處理的指令不同,子產品二調用的模型和資料也并不相同,至少有三大使用方式:

聯網或本地知識庫搜尋。既可以追蹤網際網路查找最新熱點、甚至網頁跳轉,也可以在特定知識庫中索引答案。

調用特定模型做某件事。如調用效果很好的擴散模型完成作畫、或調用語音模型合成聲音等。

控制實體世界特定行為。如開燈、買機票、打車等,不一定是特定指令,而是模型推斷後得出的結論。

子產品三負責自然語言生成,簡單來說就是将思考行動的結果用人話描述一遍,再彙報給使用者。

總結來看,小冰鍊可以說是把ChatGPT最火的“思考方式”拿出來單獨做成模型,并不斷降低模型大小。

李笛認為,即使小冰鍊的核心模型大小隻有中等水準,卻也能在一些問題的思考方式上展現出與大模型相近的效果。

△還能聯網,搶在吃瓜第一線

基于這樣的觀點,李笛在一衆主流“要做中國的ChatGPT”呼聲中反其道而行之,不僅不宣傳自家類ChatGPT産品,甚至推出了個強調“這不是ChatGPT”的小冰鍊。

看起來似乎有點非主流(手動狗頭)。

這麼做,真有理論依據嗎?

背後的技術依據CoT,确實在國外已有不少相關研究,包括前段時間爆火的“哄一哄讓GPT-3準确率暴漲”論文也在此列:

團隊在研究中發現,隻要對GPT-3說一句“讓我們一步一步地思考”,就能讓它正确回答出以前不會的邏輯推理題,比如下面這個來自MutiArith資料集的例子:

16個球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個藍色的高爾夫球?

這些例子專門考驗語言模型做數學題的能力,尤其是邏輯推理能力。

GPT-3本來在零樣本場景(之前完全沒見過類似體型)下準确率僅有17%,但在要求它一步步思考後,準确率最高能暴漲到78.7%。

這種名為CoT的方法,最早在去年1月由谷歌大腦團隊發現并提出。

其核心思路是基于提示(prompting)的方法,讓大模型學習一步步思考的過程,有邏輯地解決實際問題:

但上述思維鍊(CoT)論文基本都還停留在對大模型的研究上。

李笛卻認為,思維鍊所代表的邏輯能力不是專屬于大模型的産物。

在國内,“AI”或許已經是一個人盡皆知的詞語,也是進行得如火如荼的創新風潮。

如果李笛所述方法得以驗證,那麼AI産業化應用除了“堆參數”、“砸資金”這一條大模型路線以外,或許還有其他出路。

國内AI應用落地,勢力三分

ChatGPT的效果和熱度,讓走在大模型路線上的人們看到了一絲曙光,但并不意味着AI産業化路線隻剩下大模型這一種可能。

或者說,ChatGPT的熱度,反而能更鮮明地呈現出當下國内外AI應用落地的現狀和趨勢。

先提綱挈領地講,主要路徑可以分為三條。

第一種就是直接做底層大模型。

這是最直接、最容易了解,同時也是最難走的一條路。

一方面,大模型需要的訓練資料是海量的,而現實情況是可用作訓練的資料、尤其是中文資料較少。

以最近的熱點舉例說明,複旦邱錫鵬教授團隊推出的中國首個類ChatGPT産品MOSS,最大短闆是中文水準不夠高,重要原因之一就是背後大模型訓練時缺乏高品質的中文語料。

另一方面,大模型的參數是海量的。ChatGPT每一句看似簡短的回答,都把1750億參數調動了一次。

巨量參數首先給标注工程帶來了巨大的工作量,為了應對這個環節,OpenAI在肯亞以低于2美元的時薪雇傭大量勞工,夜以繼日地進行資料的篩選标注。放眼國内,能拿出如此多人力耗在标注工作的,大約隻有位元組跳動、百度等巨頭公司。

上述兩個方面,最後的箭頭都直指同一個問題:成本,無法估量的成本。

OpenAI CEO奧特曼曾在推特上透露,ChatGPT每次對話的計算成本為5美分,“讓人難以忍受”。5美分這個數字看似單薄,然而每個人每天與ChatGPT對話的數量、以及不斷增長的使用人數,疊加起來将會達到一個非常恐怖的量級。

谷歌母公司Alphabet的董事長ohn Hennessy在本周表示,大型語言模型等AI對話成本,可能是傳統搜尋引擎的10倍以上。此前摩根士丹利估計,2022年谷歌的3.3萬億次搜尋查詢,每次成本為0.2美分,如果接入Bard這類産品,根據AI文本生成的長度,這個數字還會增加。

類似ChatGPT的AI每次回答50字,來回答一般的查詢業務,那麼谷歌每年成本将增加60億美元。

值得注意的是,無論哪位國内玩家堆出了一個與GPT-3.5甚至GPT-4媲美的大模型,還須找到能夠落地跑起來的應用場景,唯有實作商業閉環,才不緻血本無歸。

第二條路,是從大模型中去粗取精。

展開來說,就是在盡可能保留、甚至提高大模型某一單項能力的前提下,縮小參數量級,緻力于用更小的模型實作大模型表現出來的功能。

如果把大模型看作一輛自行車,堆參數的過程就是在大模型上實作某個效果的過程,過程艱辛而緩慢。去粗取精之後,不用自行車緩慢前行就能達到效果,相當于在通往同一目标的路上造火箭。

亞馬遜在走這條路,方法是直接從小模型起手,不過這條路能走通,需要一個關鍵前提:中小模型可以接近、甚至達到大模型展現出來的實用能力。

砍掉不需要的枝葉,向下探索具有特定功能的模型規模最低下限,能夠一定程度上緩解大模型訓練帶來的成本壓力。

但這條路線亦有争議,一是因為ChatGPT大模型已經展現出應用可行性,堅持這種做法勢必在技術上逆流而行;二是即便成本更優,卻尚未有現實案例壓陣,證明這種路線就能在AI應用落地較量中取得最後的勝利。

第三條路與前兩者不同,并非技術差異,而是直接從商業化角度打出競争優勢。

這類玩家不需要在技術上多下文章,而更考驗商業創新能力,屬于想好場景應用後“拿釘找錘”的模式。

目前,國外已經有順着這條路發展的可參考案例,比如AI初創公司Jasper,就是基于GPT-3開放的API提供各式服務,利用AI為部落格文章、社交媒體文章及網頁等平台生成文字内容。

但凡産品體驗足夠好,或者場景資源足夠豐厚,就能積攢大量使用者,形成自己的核心競争力。

反向思考之,正因為核心競争力不是技術上的,走這條路的公司,頭頂永遠懸着一柄達摩克利斯之劍。把産品甚至公司的命運寄托在他人手中,随時有被卡脖子的風險,如何能不時刻提心吊膽?

三條路線擺在眼前,利弊也已經初步顯現。第一條路,意味着巨大的成本;第二條路,方案尚待驗證;第三條路,核心生産資料不可控。

哪一條才通向羅馬?又或者,這三條路之外,是否還會出現直通AI應用落地的潛在捷徑?

李笛說,他們選擇第二條路。小冰鍊也正是基于這條路徑之上探索出來的産物,本質上仍舊是從“可解釋人工智能”的角度,探索成本、風險可控的AI商業化落地應用。

至于方案驗證,或許也不用等太久,李笛說,未來小冰鍊會和必應合作,将這種方法應用到搜尋引擎上。

實際應用效果如何,我們拭目以待。

繼續閱讀