“弱智吧”文章訓練AI效果遙遙領先？研究團隊回應

文 |《中國科學報》記者趙廣立

白嶽霖和他的小夥伴們實在想不到，他們最近做的中文指令微調資料集，會因為使用了百度貼吧“弱智吧”的文章相關資料而火爆“出圈”。

白嶽霖是中國科學院深圳先進技術研究院三年級碩士生。他的團隊在題為“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中，使用“弱智吧标題+GPT-4回答”微調後的大模型評估結果，超過了他們收集的其他有監督微調（SFT）指令集資料。後者來自包括知乎、百科、豆瓣、小紅書等社交平台。對此，業内人士表示“看論文看到哈哈大笑”。

網友紛紛跟帖評論：“這把‘弱智吧’上大分”“大智若愚”“‘弱智吧’才是人類面對AI的最後一道堡壘”。

“沒想到這個工作‘出圈’了，但網上存在一些錯誤解讀，比如有人拿這個研究調侃‘知乎不如弱智吧’。”作為論文共同第一作者，白嶽霖告訴《中國科學報》，這篇文章的作者來自國内外多個頂尖機構，“考慮到團隊學術聲譽與社會影響，這些誤讀有必要澄清一下”。

白嶽霖

“上大分”的不是“弱智吧”

“弱智吧”是百度貼吧的一個子論壇。在這個論壇中，使用者經常釋出包含雙關語、多義詞、因果倒置和諧音詞等具有挑戰性的内容，很多内容設計有邏輯陷阱，即使對人類來說也頗具挑戰。

弱智吧文章标題的風格大概如下：

“一個半小時是幾個半小時？”

“隕石為什麼總是落在隕石坑裡？”

“人如果隻剩一個心髒還能活嗎？”

“藍牙耳機壞了，去醫院挂耳科還是牙科？”

還有一些幽默發言角度清奇：“生魚片是死魚片”“等紅燈是在等綠燈”“咖啡因來自咖啡果”“救火是在滅火”“指南針主要是指北”“小明打開水龍頭是因為開水龍頭燙到了小明的手”……

“弱智吧”截圖

正因為“弱智吧”中許多提問腦洞大開，這些問題常被用來測試大模型的能力。

這樣的語料資料，自然也逃不過研究團隊的“法眼”。

此外，《中國科學報》了解到，這支研究團隊的平均年齡隻有20多歲，大多為在讀碩士生和博士生。他們經常光顧知乎、豆瓣、小紅書等平台，當然也少不了“弱智吧”。

當他們決定“手搓”一個高品質的中文指令微調資料集時，“弱智吧”相關語料自然地成為他們的一個選擇。

不過，并不像傳說的那樣——“弱智吧8項測試第一，遠超知乎豆瓣小紅書”“竟成最佳中文AI訓練資料”。實際上，在Yi-34B大模型上表現上佳的，不單純是“弱智吧”。具體來說，弱智吧隻貢獻了個标題。

論文提到，研究團隊收集了“弱智吧”上點贊數最多的500個文章，并使用這些文章的标題作為指令，使用GPT-4生成相應的回複。而對于由GPT-4生成的回複，研究團隊還進行了人工稽核、優化與篩選，并最終獲得了240對（指令，響應）樣本。使用這240對樣本訓練過的Yi-34B大模型，在Belle-Eval測試集上錄得高分。

Ruozhiba來源的資料集訓練效果遙遙領先于其他資料源。圖檔截自論文

要指出的是，除“弱智吧”之外，知乎、小紅書、豆瓣、百科等來源的資料，研究團隊并沒有借助GPT-4去生成回答，而是采用嚴格的資料過濾，最大程度保留網絡中人類撰寫的高品質内容。

以擁有大量高品質使用者生産内容的知乎為例，研究團隊設定了“高贊回答”等篩選條件，經内容過濾、評分後，即采用得分較高的原内容。

相形之下，研究團隊僅使用弱智吧文章的标題作為訓練大模型的指令，完全沒有包含網友的回帖和評論，而是使用GPT4輔助人工構造了回複答案。

是以，面對網上“‘弱智吧’上大分”之類的言論，白嶽霖回應說：“網絡上的宣傳過分誇大事實。”

“許多讀者誤以為我們使用‘弱智吧’網友的評論訓練大模型就可以達到很好的效果，事實上，我們僅保留了弱智吧文章的标題。”白嶽霖說：“實驗結果并不能代表弱智吧，因為資料實際上相當于多方（網友、作者們和大模型系統）協同構造的。”

對各平台來源的資料“跑分”并非研究本意

研究團隊為何僅針對“弱智吧”作文章？

“因為我們的目标是建構符合大模型指令微調品質需求的資料，而貼吧中網友的評論通常不适合直接作為微調資料，是以我們并沒有将‘弱智吧’網友的評論納入我們的資料中。”白嶽霖告訴《中國科學報》。

論文通訊作者、加拿大滑鐵盧大學博士生張舸進一步向《中國科學報》解釋：“‘弱智吧’中網友們絞盡腦汁想出來的‘弱智問題’，的确為大模型提供了角度清奇的高品質指令。但是文章的回答，卻有很多冒犯性表述甚至事實性錯誤，許多回答就是抖機靈、玩梗的，而GPT-4的回答基本上都‘很正經’，經過人工篩選基本上能得到較為可靠的回答。”

張舸

由于對“弱智吧”資料的“差別對待”在傳播中很難被關注到，吃瓜群衆很容易就對這項工作産生了誤讀，認為僅使用“弱智吧”的内容就能将大模型訓練出遠超其他平台的效果。

白嶽霖進一步談到：“我們的實驗結果也不能完全代表網際網路中的各個平台，任何關于平台對立的情緒都不是我們想要探讨或者希望看到的。”

不過，也正是研究團隊對“弱智吧”資料的特殊操作，在論文内容發酵後引發了相關人士對實驗結果的質疑。

有質疑者提出：來自知乎、豆瓣等平台的其它子資料集采樣了原内容和網友評論，隻有“弱智吧”的子資料集完全不包括網友的評論、而是采用了GPT-4合成的回答——這樣的回答明顯更完善、準确、多樣，且最終來評分的居然還是GPT-4。“既當運動員又當裁判員，Evaluation bias（評估偏見）不會爆炸嗎？用這種操作誤導公衆、擷取流量，是不是有點過于不嚴謹了？”

對于這一诘問，白嶽霖也給出了正面回應。

“擷取流量并不是我們的初衷，我們也無意嘩衆取寵，更沒有計劃或安排任何宣傳内容，我們的初衷隻是想默默為中文NLP（自然語言處理）社群貢獻些高品質資料集；對平台‘跑分’的實驗本意，是想觀察各平台資料對于測試集中各任務都有哪些影響。”白嶽霖解釋說。

至于為何隻有“弱智吧”子集不包括網友評論，正如前述所提到的，也是出于“弱智吧”部分網友評論經判斷達不到訓練語言模型的回答品質标準，是以決定重新構造回答。而使用GPT-4輔助構造回答，則主要是為了盡可能減少人力投入。白嶽霖同時表示，已經注意到有關評估偏見的問題，他們計劃在下一版論文更新中“補充人工評估實驗”。

張舸告訴《中國科學報》，“手搓”一個通用的、高品質的中文指令微調資料集，需要做大量篩選、檢查和調優的工作，“是個體力活兒”，能尋求機器幫忙的當然不會放過。

一切為了“更适合中國寶寶的AI”

張舸是這項研究的核心人物，他也是COIG（Chinese Open Instruction Generalist，中文開源指令資料集）系列工作的發起人之一。

談及發起這項研究的初衷，他告訴《中國科學報》，國内在有關中文指令微調資料集方面，目前還沒有品質特别好的開源項目，個别項目也隻是“勉強能用”，是以萌生了給業界提供一個完全開源的、包含中文社交媒體資料等在内各種來源的、可以直接微調大模型的資料集的想法。

通過篩選收集，建構出具有挑戰性的、真實的中文語料互動資料，對于訓練和評估大語言模型了解和執行中文指令的能力而言，無疑是極具價值的。最直接地，将有利于減少大模型在回答中出現“幻覺”（模型在輸出文本時出現的一些并不符合事實或常識的内容）。

在這項工作中，作者團隊建構了一個包含4萬多條高品質資料的中文指令微調資料集，并将其開源給研究機構、企業等各方，為中文NLP社群提供了寶貴的資源。

然而，這項工作繁瑣複雜，不僅要去各個平台“爬取”高品質的内容資料，還需要運用各種技術手段清洗、稽核，工作量非常大，需要群策群力。是以，該工作的作者團隊就達20人。

團隊中，除了來自中國科學院深圳先進技術研究院的白嶽霖外，還有來自中國科學院自動化研究所、中國科學技術大學、北京大學、加拿大滑鐵盧大學、曼徹斯特大學等頂尖機構的成員，是以這項工作被網友們戲稱為是國内外研究天團“為了開發出适合中國寶寶體質的AI”之作。

《中國科學報》進一步了解到，這群年輕人從2023年11月起着手該研究，僅用了不到4個月就完成了幾乎全部工作。如此高效率的表現，他們是怎樣組織協作的？

“我們建立了一個緻力于多模态AI的開源社群—— M-A-P（Multimodal Art Projection），沒有線下實體、沒有任何盈利目的，隻要能來一起做事情，我們就歡迎。”張舸介紹說，兩年多前，他和幾位小夥伴因一個音樂類大模型訓練項目走到了一起，共同創辦了M-A-P。之後，朋友、朋友的朋友、朋友的朋友的朋友……感興趣加入的小夥伴越來越多，就形成了一個有穩定貢獻的開源社群。

他告訴記者，在M-A-P社群，大家發起一個課題後，就尋求合作者一起做；如果涉及到一些資源需求，大家會和科技公司等洽談，公司若願意投入資源，可以一起合作、共同開發。但前提是，項目完成之後，公司除保留一些私有資源外，必須将項目成果共享給開源社群。

“我們所有項目的目标，都是能夠做出來一些好東西開源給大家用。”張舸說，開源社群具有高校院所和企業所不具備的靈活性和純粹性，此次中文指令微調資料集（CQIA）的工作，就是在M-A-P社群發起、逐漸彙聚了國内外科研力量完成的。

張舸坦言，這項工作從發起到完成，一些參與的小夥伴他甚至都沒見過面。

（中國科學院自動化研究所在讀博士生梁燚銘（論文共同第一作者）對本文亦有貢獻）

相關論文資訊：

https://arxiv.org/abs/2403.18058