天天看點

“弱智吧”文章訓練AI效果遙遙領先?研究團隊回應

作者:科學網

文 |《中國科學報》記者 趙廣立

白嶽霖和他的小夥伴們實在想不到,他們最近做的中文指令微調資料集,會因為使用了百度貼吧“弱智吧”的文章相關資料而火爆“出圈”。

白嶽霖是中國科學院深圳先進技術研究院三年級碩士生。他的團隊在題為“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标題+GPT-4回答”微調後的大模型評估結果,超過了他們收集的其他有監督微調(SFT)指令集資料。後者來自包括知乎、百科、豆瓣、小紅書等社交平台。對此,業内人士表示“看論文看到哈哈大笑”。

網友紛紛跟帖評論:“這把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人類面對AI的最後一道堡壘”。

“沒想到這個工作‘出圈’了,但網上存在一些錯誤解讀,比如有人拿這個研究調侃‘知乎不如弱智吧’。”作為論文共同第一作者,白嶽霖告訴《中國科學報》,這篇文章的作者來自國内外多個頂尖機構,“考慮到團隊學術聲譽與社會影響,這些誤讀有必要澄清一下”。

“弱智吧”文章訓練AI效果遙遙領先?研究團隊回應

白嶽霖

“上大分”的不是“弱智吧”

“弱智吧”是百度貼吧的一個子論壇。在這個論壇中,使用者經常釋出包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰性的内容,很多内容設計有邏輯陷阱,即使對人類來說也頗具挑戰。

弱智吧文章标題的風格大概如下:

“一個半小時是幾個半小時?”

“隕石為什麼總是落在隕石坑裡?”

“人如果隻剩一個心髒還能活嗎?”

“藍牙耳機壞了,去醫院挂耳科還是牙科?”

還有一些幽默發言角度清奇:“生魚片是死魚片”“等紅燈是在等綠燈”“咖啡因來自咖啡果”“救火是在滅火”“指南針主要是指北”“小明打開水龍頭是因為開水龍頭燙到了小明的手”……

“弱智吧”文章訓練AI效果遙遙領先?研究團隊回應

“弱智吧”截圖

正因為“弱智吧”中許多提問腦洞大開,這些問題常被用來測試大模型的能力。

這樣的語料資料,自然也逃不過研究團隊的“法眼”。

此外,《中國科學報》了解到,這支研究團隊的平均年齡隻有20多歲,大多為在讀碩士生和博士生。他們經常光顧知乎、豆瓣、小紅書等平台,當然也少不了“弱智吧”。

當他們決定“手搓”一個高品質的中文指令微調資料集時,“弱智吧”相關語料自然地成為他們的一個選擇。

不過,并不像傳說的那樣——“弱智吧8項測試第一,遠超知乎豆瓣小紅書”“竟成最佳中文AI訓練資料”。實際上,在Yi-34B大模型上表現上佳的,不單純是“弱智吧”。具體來說,弱智吧隻貢獻了個标題。

論文提到,研究團隊收集了“弱智吧”上點贊數最多的500個文章,并使用這些文章的标題作為指令,使用GPT-4生成相應的回複。而對于由GPT-4生成的回複,研究團隊還進行了人工稽核、優化與篩選,并最終獲得了240對(指令,響應)樣本。使用這240對樣本訓練過的Yi-34B大模型,在Belle-Eval測試集上錄得高分。

“弱智吧”文章訓練AI效果遙遙領先?研究團隊回應

Ruozhiba來源的資料集訓練效果遙遙領先于其他資料源。圖檔截自論文

要指出的是,除“弱智吧”之外,知乎、小紅書、豆瓣、百科等來源的資料,研究團隊并沒有借助GPT-4去生成回答,而是采用嚴格的資料過濾,最大程度保留網絡中人類撰寫的高品質内容。

以擁有大量高品質使用者生産内容的知乎為例,研究團隊設定了“高贊回答”等篩選條件,經内容過濾、評分後,即采用得分較高的原内容。

相形之下,研究團隊僅使用弱智吧文章的标題作為訓練大模型的指令,完全沒有包含網友的回帖和評論,而是使用GPT4輔助人工構造了回複答案。

是以,面對網上“‘弱智吧’上大分”之類的言論,白嶽霖回應說:“網絡上的宣傳過分誇大事實。”

“許多讀者誤以為我們使用‘弱智吧’網友的評論訓練大模型就可以達到很好的效果,事實上,我們僅保留了弱智吧文章的标題。”白嶽霖說:“實驗結果并不能代表弱智吧,因為資料實際上相當于多方(網友、作者們和大模型系統)協同構造的。”

對各平台來源的資料“跑分”并非研究本意

研究團隊為何僅針對“弱智吧”作文章?

“因為我們的目标是建構符合大模型指令微調品質需求的資料,而貼吧中網友的評論通常不适合直接作為微調資料,是以我們并沒有将‘弱智吧’網友的評論納入我們的資料中。”白嶽霖告訴《中國科學報》。

論文通訊作者、加拿大滑鐵盧大學博士生張舸進一步向《中國科學報》解釋:“‘弱智吧’中網友們絞盡腦汁想出來的‘弱智問題’,的确為大模型提供了角度清奇的高品質指令。但是文章的回答,卻有很多冒犯性表述甚至事實性錯誤,許多回答就是抖機靈、玩梗的,而GPT-4的回答基本上都‘很正經’,經過人工篩選基本上能得到較為可靠的回答。”

“弱智吧”文章訓練AI效果遙遙領先?研究團隊回應

張舸

由于對“弱智吧”資料的“差別對待”在傳播中很難被關注到,吃瓜群衆很容易就對這項工作産生了誤讀,認為僅使用“弱智吧”的内容就能将大模型訓練出遠超其他平台的效果。

白嶽霖進一步談到:“我們的實驗結果也不能完全代表網際網路中的各個平台,任何關于平台對立的情緒都不是我們想要探讨或者希望看到的。”

不過,也正是研究團隊對“弱智吧”資料的特殊操作,在論文内容發酵後引發了相關人士對實驗結果的質疑。

有質疑者提出:來自知乎、豆瓣等平台的其它子資料集采樣了原内容和網友評論,隻有“弱智吧”的子資料集完全不包括網友的評論、而是采用了GPT-4合成的回答——這樣的回答明顯更完善、準确、多樣,且最終來評分的居然還是GPT-4。“既當運動員又當裁判員,Evaluation bias(評估偏見)不會爆炸嗎?用這種操作誤導公衆、擷取流量,是不是有點過于不嚴謹了?”

對于這一诘問,白嶽霖也給出了正面回應。

“擷取流量并不是我們的初衷,我們也無意嘩衆取寵,更沒有計劃或安排任何宣傳内容,我們的初衷隻是想默默為中文NLP(自然語言處理)社群貢獻些高品質資料集;對平台‘跑分’的實驗本意,是想觀察各平台資料對于測試集中各任務都有哪些影響。”白嶽霖解釋說。

至于為何隻有“弱智吧”子集不包括網友評論,正如前述所提到的,也是出于“弱智吧”部分網友評論經判斷達不到訓練語言模型的回答品質标準,是以決定重新構造回答。而使用GPT-4輔助構造回答,則主要是為了盡可能減少人力投入。白嶽霖同時表示,已經注意到有關評估偏見的問題,他們計劃在下一版論文更新中“補充人工評估實驗”。

張舸告訴《中國科學報》,“手搓”一個通用的、高品質的中文指令微調資料集,需要做大量篩選、檢查和調優的工作,“是個體力活兒”,能尋求機器幫忙的當然不會放過。

一切為了“更适合中國寶寶的AI”

張舸是這項研究的核心人物,他也是COIG(Chinese Open Instruction Generalist,中文開源指令資料集)系列工作的發起人之一。

談及發起這項研究的初衷,他告訴《中國科學報》,國内在有關中文指令微調資料集方面,目前還沒有品質特别好的開源項目,個别項目也隻是“勉強能用”,是以萌生了給業界提供一個完全開源的、包含中文社交媒體資料等在内各種來源的、可以直接微調大模型的資料集的想法。

通過篩選收集,建構出具有挑戰性的、真實的中文語料互動資料,對于訓練和評估大語言模型了解和執行中文指令的能力而言,無疑是極具價值的。最直接地,将有利于減少大模型在回答中出現“幻覺”(模型在輸出文本時出現的一些并不符合事實或常識的内容)。

在這項工作中,作者團隊建構了一個包含4萬多條高品質資料的中文指令微調資料集,并将其開源給研究機構、企業等各方,為中文NLP社群提供了寶貴的資源。

然而,這項工作繁瑣複雜,不僅要去各個平台“爬取”高品質的内容資料,還需要運用各種技術手段清洗、稽核,工作量非常大,需要群策群力。是以,該工作的作者團隊就達20人。

團隊中,除了來自中國科學院深圳先進技術研究院的白嶽霖外,還有來自中國科學院自動化研究所、中國科學技術大學、北京大學、加拿大滑鐵盧大學、曼徹斯特大學等頂尖機構的成員,是以這項工作被網友們戲稱為是國内外研究天團“為了開發出适合中國寶寶體質的AI”之作。

《中國科學報》進一步了解到,這群年輕人從2023年11月起着手該研究,僅用了不到4個月就完成了幾乎全部工作。如此高效率的表現,他們是怎樣組織協作的?

“我們建立了一個緻力于多模态AI的開源社群—— M-A-P(Multimodal Art Projection),沒有線下實體、沒有任何盈利目的,隻要能來一起做事情,我們就歡迎。”張舸介紹說,兩年多前,他和幾位小夥伴因一個音樂類大模型訓練項目走到了一起,共同創辦了M-A-P。之後,朋友、朋友的朋友、朋友的朋友的朋友……感興趣加入的小夥伴越來越多,就形成了一個有穩定貢獻的開源社群。

他告訴記者,在M-A-P社群,大家發起一個課題後,就尋求合作者一起做;如果涉及到一些資源需求,大家會和科技公司等洽談,公司若願意投入資源,可以一起合作、共同開發。但前提是,項目完成之後,公司除保留一些私有資源外,必須将項目成果共享給開源社群。

“我們所有項目的目标,都是能夠做出來一些好東西開源給大家用。”張舸說,開源社群具有高校院所和企業所不具備的靈活性和純粹性,此次中文指令微調資料集(CQIA)的工作,就是在M-A-P社群發起、逐漸彙聚了國内外科研力量完成的。

張舸坦言,這項工作從發起到完成,一些參與的小夥伴他甚至都沒見過面。

(中國科學院自動化研究所在讀博士生梁燚銘(論文共同第一作者)對本文亦有貢獻)

相關論文資訊:

https://arxiv.org/abs/2403.18058