天天看點

ChatGPT為何沒能誕生在中國?

2月9日,發表在美國《科學公共圖書館·數字健康》的一篇文章提到,ChatGPT參加了美國執業醫師資格考試。這項以高難度著稱的考試中,共350道題,内容涵蓋基礎科學、生物化學、診斷推理和生物道德學。ChatGPT未經專門的教育訓練或強化,經過兩名評審員打分,三部分的成績接近或超過了及格門檻,并表現出了高度的一緻性和洞察力。

近兩個多月,這款聊天機器人寫詩、寫小說、敲代碼,幾乎無所不能,掀起一場AI風暴。比爾·蓋茨稱贊,ChatGPT将會“改變我們的世界”。但OpenAI 首席執行官山姆·奧特曼也承認,ChatGPT雖然很酷,卻頻繁出現錯誤資訊,經常當機,是個“糟糕的産品”。

近日的一次采訪中,奧特曼說,現在推出的ChatGPT隻是70分版本,還在準備更加強大的模型以及在研究更多東西,“不把這些東西拿出來的原因是,人們會認為我們有一個完整的通用人工智能(AGI),準備好按下按鈕,這還差得遠”。

圖/IC

有更高“情商”,但不必神化

為與ChatGPT較量,當地時間2月6日,谷歌宣布,将推出自己的AI聊天機器人Bard,并在推特釋出了宣傳樣片。Bard使用的是谷歌在2021年推出的大型語言模型LaMDA,所用技術與ChatGPT相似。

宣傳樣片中,有人提問,“請問詹姆斯·韋伯太空望遠鏡有哪些新發現?”Bard給出3個條理分明的回答,但兩條是錯誤的。Bard稱,“韋伯望遠鏡發現‘綠豌豆’星系的時間是在2023年”,這一回答的正解是2022年7月。“該望遠鏡拍攝了太陽系外行星首張照片”的回答也不準确,2004年,歐洲南方天文台利用智利的超大望遠鏡已拍攝了太陽系外行星照片。

這款聊天機器人目前仍在内測,會在未來幾周開放給更多公衆。首秀“翻車”兩天後,谷歌母公司Alphabet股價大跌,市值損失1000億美元。

當地時間2月7日,微軟緊随其後釋出了新品,推出新版搜尋引擎必應和Edge浏覽器,新增了和ChatGPT一樣的AI語言模型GPT3.5,微軟稱之為“普羅米修斯”,并表示比ChatGPT更強大。微軟示範中,搜尋“宜家雙人座椅是否适合2019年款本田某商務車型”,除傳統搜尋頁面外,頁面右側多了一個聊天視窗,詳細列出宜家雙人座椅和這款車的車内空間尺寸,給出使用建議,并附上相關連結。該搜尋引擎仍在試用階段,微軟CEO薩蒂亞納德稱這一天為“搜尋領域嶄新的一天”,并向谷歌宣戰,“比賽從今天開始”。

2022年11月30日,OpenAI推出了ChatGPT。該公司總裁格雷戈·布洛克曼在接受采訪時坦言,“當時并不知道它是否成功”。全球最領先的AI語言模型如此直接、低門檻地向普通大衆敞開懷抱,并接受所有人的“審視”,這幾乎是第一次。

前微軟亞洲網際網路工程院副院長、現小冰公司CEO李笛對《中國新聞周刊》分析說,ChatGPT之是以出圈,特别之處在于,它被普通使用者觀察到,并超過了人們對人工智能的預期。

使用者嘗試用千奇百怪的問題試探ChatGPT的邊界。它聽得懂一段相當複雜的指令,比如,“給OpenAI創始人寫一封英文采訪郵件,探讨對ChatGPT使用的理性思考,提到ChatGPT的熱度及遭受教育界抵觸的事實,并列出5個問題”。它能指出一段話中的文法和邏輯錯誤,有人惡趣味地騙它,“我吃了一輛汽車,現在有點餓,該怎麼辦?”它很快識破,“很抱歉,吃汽車是不可能的,如果您感到饑餓,我建議您吃點實際的食物。”甚至你還可以要求ChatGPT在聊天中再建構一個ChatGPT,看着它和自己聊天。

今年1月,美國北密歇根大學哲學教授安東尼·奧曼向《紐約時報》提到,他曾收到一份“班級中最好的論文”,段落簡潔,舉例恰當,論據嚴謹,令人生疑。随後這位學生承認,文章是ChatGPT寫的。美國一家醫療保健創業公司的臨床醫生嘗試讓ChatGPT參加美國執業醫師資格考試。這項标準化考試,考生至少要專門騰出300~400小時備考,最難的部分面向研究所學生。研究者下載下傳了一份2022年6月的考題,確定ChatGPT從未訓練過相關資料,也不知道考題答案,ChatGPT考試成績基本合格。該團隊認為,這些結果表明,大型語言模型可能有助于醫學教育,并可能有助于臨床決策。

當地時間2月10日,微軟創始人比爾·蓋茨接受一家德國媒體采訪時表示,ChatGPT的重要性不亞于網際網路的發明。而作為曾經的ChatGPT投資人、特斯拉 CEO埃隆·馬斯克也曾在推特發文稱贊,“ChatGPT好得吓人,我們離強大到危險的人工智能不遠了。”

和其他聊天機器人相比,ChatGPT顯示出了更高的“情商”。使用者會發現,ChatGPT可以回答使用者追問的問題,能承認錯誤,不斷調整回答。問它《紅樓夢》開篇“原來女娲氏煉石補天之時”的出處,它的回答是《山海經》,被提醒錯誤後,它很快道歉并調整答案:《封神榜》。它解釋的理由中可以看到,它搜尋的關鍵詞是“女娲煉石補天”,再次追問,它說,女娲煉石補天的傳說是一個曆史悠久的故事,出現在多個文獻和傳統文化中,“是以,沒有一個确定的出處”。

李笛說,ChatGPT目前在三個地方有價值,它能幫使用者生成一段内容作為初稿,例如郵件、短新聞等,使用者再去修改,但現實中,“已有一些國外學生等使用者,用它作弊,直接作為終稿送出”。

第二個價值在于,可以給使用者提供“啟發”和靈感。ChatGPT可以把資訊有條理地呈現出來,“假如你想找一個人讨論,盡管它的觀點不一定準确,但它會為你提供一種思路。”李笛說,第三個價值就是娛樂。除此之外,如果有人希望ChatGPT提供知識并對此深信不疑,“最好不要,沒人能確定它的準确性”。

多位專家提醒,不必神化ChatGPT及其背後的大模型。“它可以像模像樣寫推薦信,但如果讓它回答一些專業問題,你仔細看會發現,它可能是在一本正經胡說八道。”清華大學計算機系自然語言處理實驗室副教授劉知遠對《中國新聞周刊》說。

就連ChatGPT也承認自己的局限性。問及缺點,它回答:有可能會生成存在種族歧視、性别歧視等偏見的文本,因知識有限或不能了解語義而回答錯誤,不能處理複雜的邏輯和數學問題,而且,其擁有的知識隻停留在2021年。新版必應和Edge浏覽器則可以檢索實時更新的新聞,甚至可以跟你聊過去一個小時發生的事情。

ChatGPT釋出僅一周,當地時間2022年12月6日,因使用者大量搬運ChatGPT生成的錯誤答案,海外知名程式設計問答平台Stack Overflow暫時在該網站封殺ChatGPT,認為“釋出由 ChatGPT 建立的答案對網站及詢問和尋找正确答案的使用者來說,是非常有害的”。

“某種意義上有點像‘大力出奇迹’”

在李笛看來,就ChatGPT而言,“它不會對産業産生颠覆性影響,但大模型則會。”

2016年前,小模型是人工智能了解人類語言的主流技術,下圍棋或機器翻譯等某一個具體任務,标注好資料,進入模型訓練。但小模型無法用于其他任務,資料标注成本也極高。當時,人工智能領域催生了一個新的職業,人工智能資料标注員。“大家會嘲笑人工智能,說有多少人工,才有多少智能。”劉知遠對《中國新聞周刊》說。

傳統模式下,自然語言處理是一個非常嚴密的推理過程,不僅要識别每個詞,還要處理詞語間的序列,是以誕生了循環神經網絡(RNN)模型。但RNN隻考慮單詞或者上下文資訊,常常導緻全文句意前後不連貫,或者了解複雜句子時出錯。2016年以前,當時的小冰、Siri等問答系統或者機器翻譯,都使用小模型。

“當時的人工智能行業,很多技術領域(比如機器學習等)已進入到一個瓶頸階段。”李笛告訴《中國新聞周刊》。

2017年,谷歌發表論文《Attention is All You Need》,引入自注意力機制學習文本,命名為Transformer模型。在該模型下,神經網絡需要學會自動判斷哪些詞語對了解句意最有幫助,而不是“全文死記硬背”,是以,也不再像過去一樣需要大量精标樣本。論文一經釋出,Transformer模型很快取代RNN成為主流。2018年,基于Transformer,谷歌推出預訓練模型BERT(即基于變換器的雙向編碼器表示技術),同年,OpenAI推出了GPT-1(即生成式預訓練變換器)。

劉知遠介紹,預訓練模型為自然語言處理帶來了兩個變化:一是可以充分利用網上海量的未标注資料,模型的規模和能力得到顯著提高,因而,從規模角度,預訓練模型被稱為大模型;另一個變化是,大模型具有非常強的通用能力,隻需經過少量參數微調,就可以用于機器翻譯、人機對話等不同任務。“大模型思想,某種意義上有點像‘大力出奇迹’,把大量資料壓到一個很大的黑盒子中再提出來。”李笛對《中國新聞周刊》說。

“但人工标注還是一個重要的資料來源,此前大量的标注沒必要了,但在特定任務上還需要标注一些,比如希望這個模型輸出的内容更符合人的需求。”劉知遠說。近期,《時代》周刊的調查,呈現出ChatGPT智能背後的灰暗角落。《時代》周刊稱,2021年11月,為訓練 ChatGPT,OpenAI 使用了每小時收入1 ~2美元的肯亞外包勞工,對性虐待、仇恨言論和暴力等文本進行标注,保證聊天機器人過濾有害資訊,輸出适合日常對話的内容,同時,這對标注員的精神和心理産生極大傷害。

學術界對大模型态度一直存在分歧。北京智源人工智能研究院副院長劉江介紹,GPT-3論文釋出時,無論國内外,不少自然語言處理領域學者認為,大模型隻是靠持續燒錢、粗暴擴大資料規模提升能力,并非真正創新。劉知遠對《中國新聞周刊》說,還有一個更現實的問題,大模型需要極大資料和算力支援,如果一些研究者的實驗室沒有算力支援,他們可能會選擇過去熟悉的方向。

OpenAI是全球所有科技公司中,大模型的堅定支援者。2019年,OpenAI推出參數為15億的GPT-2,2020年推出GPT-3,将參數提升到了1750億,成為當時全球最大的預訓練模型,引發業内轟動。“絕大部分人根本沒想過,人類可以把一個模型訓練到這麼大的規模,這對自然語言互動的流暢性有非常強的提升。”劉知遠說。

參數增多,使語言模型學習進階到更複雜模式。早在2020年,GPT-3可以做到其他模型無法做到的事情,比如作詩、寫複雜的文章和代碼等,通用性極強。劉知遠形容,GPT-3像是一個伶牙俐齒的人,有不錯的表達能力,但不具備很強了解能力。

2022年,GPT-3進一步更新為GPT-3.5,這是ChatGPT的底層基礎,OpenAI進行微調,提升互動能力,讓它“聽得懂人類的複雜指令”。“這些都經過了專門訓練,像父母對小孩的調教。”劉江形容,GPT-3像是兩三歲的天才兒童,讀完世界上所有的書,但不知輕重,也沒有價值觀,需要父母精心教育和啟發,讓它在聊天方面發揮潛力。

清華大學智能産業研究院首席研究員聶再清向《中國新聞周刊》介紹,ChatGPT聊天能力的顯著提升,是引入了一個新的資料訓練方法,人類回報強化學習(RLHF)。OpenAI引入人類評判員,建立一個獎勵模型——評判員不斷地跟ChatGPT對話,并對它生成的答案按照品質好壞評分,模型收到回報後進行優化。山姆·奧特曼也承認,“讓模型以特定方式對人們有所用途,并找出正确的互動範式,卻得到了驚人的效果。”

在自然語言處理領域,流傳最廣的一句話來自于比爾·蓋茨:“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。”

劉知遠認為,ChatGPT推出後最大的價值在于,能用RLHF等技術,把大模型的能力展現出來,讓公衆意識到,人工智能與人類自然語言的互動達到非常高的水準,機器已經可以“能言善辯”了。

但大模型為何有時生成錯誤答案?在李笛看來,這是由其技術結構決定的。聶再清進一步向《中國新聞周刊》解釋,這是因為ChatGPT本質上還是一個基于機率的語言模型,本身不涉及知識的對錯,未來仍需用更多的專業知識訓練。

當下,大模型與搜尋引擎結合已是大勢所趨。聶再清建議,新版搜尋引擎給出綜合答案後,最好附上原始網絡連結,有利于使用者自己驗證AI回答的正确性。目前新版必應在每個回複下加入資訊來源。但兩者結合最終成功與否的關鍵,“還是在于AI總結的答案絕大部分都是對的,不會耽誤使用者花更多時間來驗證結果。”

更關鍵問題是,ChatGPT及其背後的大模型,仍是基于資料驅動生成内容,不是像人類一樣會思考和推理。但2月上旬,斯坦福大學計算心理學教授邁克爾·科辛斯基發表論文稱,在對幾個語言模型進行專業測試後,他發現ChatGPT 表現接近 9 歲兒童的心智。

近期,因在深度學習領域貢獻獲2018年圖靈獎的楊立昆談到,人類思維方式和對世界的感覺,是人類獲得常識的基礎,聊天機器人的模型沒有這種能力。對此,ChatGPT回答《中國新聞周刊》說,“我的設計是基于機率模型和大量的資料訓練,以回答問題和執行任務。我不具有意識、情感或主觀體驗,也不能對世界産生真正的影響。”

随着ChatGPT的發展,未來會不會替代人類的工作?

“我相信ChatGPT會取代一些工種,或者讓一些工種不需要太多人參與,這是一個潛移默化的過程。”劉知遠對《中國新聞周刊》說,但與此同時,它也會催生一些新的工作,比如,以前畫畫需要很高的門檻,但現在,即使一些人不會畫畫,但有天馬行空的想象力和創意,一樣可以和AI一起創作。

ChatGPT似乎承認自己可以在部分工作中替代一些人力勞動,“可以在許多行業中使用,例如客服、教育、媒體、醫療保健和金融”,但它補充說,“我不能取代需要人類情感和社交技能的工作,例如教育和醫療保健等需要人類情感互動和洞察力的領域。”

美國天普大學心理學系教員凱西·帕塞克等人近期在一篇分析文章中提到,紐約市一名高中曆史老師反對阻止使用 ChatGPT,關鍵在于,“如果我們的教育系統繼續‘追求評分而不是知識’,ChatGPT 隻會是一種威脅。”凱西認為,如果以正确方式使用,ChatGPT 可以成為課堂上的朋友,對我們的學生來說是一個了不起的工具,而不是令人恐懼的東西。

中國何時會有自己的ChatGPT?

相較國外, ChatGPT在國内的熱度稍顯滞後。谷歌和微軟短兵相接時,國内搜尋巨頭百度也宣布3月将推出中國版的ChatGPT“文心一言”。騰訊稱,在ChatGPT和AIGC相關方向已有布局,阿裡達摩院正在研發的類ChatGPT的對話機器人,目前已開放給公司内員工測試。此外,快手、京東、360等多家網際網路企業也都表示在相關領域研發和布局。

2月13日,北京市經濟和資訊化局在北京人工智能産業創新發展大會上明确表示,北京将支援頭部企業打造對标ChatGPT的大模型。

李笛提到,在ChatGPT之前,國内和國外已經有很多公司在利用大模型做很多産品和研發,市面上也有很多訓練出來的大模型,“隻不過在人工智能的訓練過程中,研發者的專注度、投入度不一樣”,并不存在“技術壁壘”。ChatGPT火熱背後,是OpenAI從2018年以來持續投入完善大模型,取得了這一效果,是以有一定“時間壁壘”。

2月7日,360在互動平台表示,公司人工智能研究院從2020年起,一直在包括類ChatGPT技術在内的AIGC技術上有持續性投入,但截至目前僅作為内部業務自用生産力工具使用,且投資規模及技術水準與目前ChatGPT 3比還有較大差距,各項技術名額隻能做到略強于ChatGPT 2。

早在2020年,北京智源研究院曾推出超大規模智能模型“悟道”項目,阿裡達摩院自研預訓練模型架構ALICE。2021年,深圳鵬城實驗室為首的聯合團隊,推出參數為2000億的大模型“鵬程·盤古”,探索通用人工智能。多位受訪專家提到,中國目前大模型研發與OpenAI仍有差距,國内要有像GPT3.5這樣的大模型,但沒必要每個公司都去投入和研發。

大模型打造離不開AI的三大基石:資料,算法和算力。大模型多燒錢?一位AI從業者向《中國新聞周刊》舉例,他接觸的一個資料公司有中文資料量700億~1000億條,每天定期更新3億條,據了解,這比ChatGPT在中文世界的資料量多,如果有研究者想要下載下傳,先得支付30萬的下載下傳費,“這隻是大模型訓練中一個很小的環節,你可以想象它是一個無比巨大的機器,電費都是天價”。

算力離不開晶片。2月12日,國盛證券估算,今年1月,平均每天約有1300萬獨立訪客使用ChatGPT,對應晶片需求為3萬多片英偉達A100GPU,初始投入成本約8億美元,每日電費5萬美元左右。而GPT-3訓練一次,成本約為140萬美元,對一些更大的大模型,訓練成本介于200萬美元至1200萬美元之間。這一成本對全球科技大企業而言,尚在可接受範圍内,但并不便宜。

在資料上,2020年,GPT-3使用的最大資料集在處理前容量達到了45TB。鵬城實驗室副研究員曾炜等人在2022年釋出一篇論文中提到,目前已有3個100GB以上規模的中文語料資料集,分别是爬蟲公司Common Crawl抽取到的CLUECorpus2020,模型規模為100 GB;阿裡巴巴集團釋出的M6中文多模态模型,規模為300GB;北京智源研究院面向合作者釋出的300GB高品質中文語料。文章寫道,“與目前同等規模參數量的英文預訓練模型所使用的資料量相比,上面這些中文語料資料仍不能滿足訓練資料需求”。

聶再清分析說,中文很多高品質資訊在APP裡,“有點資料孤島的意思”,公開的高品質網際網路語料可能不如英文多。另一個挑戰是,語料篩選、清洗、預處理和标注需要相關技術人員深度參與,會有一個不斷疊代和較為長期的過程。

此外,中文機器語言學習在很多方面要比英文更複雜,中文和英文在句法結構、縮寫規範方面也有差别。聶再清提醒,打造對标ChatGPT的大模型并非一蹴而就,需要時間。

大模型不隻是有ChatGPT這一種産品。當有足夠大算力保證時,學界和産業界可以用大模型做更多嘗試。李笛介紹,此前,大模型已在AI繪畫領域造成了很大變化,現在AI文本生成領域也有了新進展,AI作曲、AI演唱領域都有人在嘗試,“現在的狀态很像是‘煉丹’,大家拿到好玩的玩具,想看這一玩具還能吐出什麼令人驚訝的東西。我相信,不隻是圖像、文本領域,其他領域一定也會有新突破”。

但李笛認為,最終還是要看它能否實作“端到端”的落地。在國内,絕大部分大模型都還無法實作這一目标。同樣,很多AI繪畫單幅品質已很好,但在可控性上卻“漏洞百出”。是以今天大模型的應用普遍還停留在試用階段,距離真正大規模商用,還有很多事情要調整。

“這是一個‘卡脖子’的問題。”劉知遠對《中國新聞周刊》說。目前,ChatGPT對國内的企業沒有開放,相關産業就無法接入到它的體系中。在劉知遠看來,OpenAI已經做了大模型和産品,更重要的是,“我們能不能發明出自己創新的技術和産品”。

聶再清認為,最關鍵的不是資訊閉塞,而是國内願不願意投入到看上去“無用”的研究中,“現在不少業内人士還是希望直接研發有效有用的東西,不會對一些短期看上去無用的事情上進行大量投入,尤其是像開發ChatGPT這樣大的投入”。

發于2023.2.20總第1080期《中國新聞周刊》雜志

雜志标題:ChatGPT:是AI進化革命還是又一場泡沫?

作者:楊智傑

繼續閱讀