天天看點

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

作者:好娛知時節

為了您更好的閱讀互動體驗,為了您及時看到更多内容,點個“關注”,每天為您分享各種好玩的好看的!

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

文案|摩登遊俠

編輯|靈筆行者

最近弱智吧又出了把名,不過這次和弱智吧的無厘頭畫風有點不搭噶,這次是在正兒八經的學術論文上大出風頭了,還是AI這種高新科技!

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這就讓人納悶了,那個無厘頭的弱智吧,還能有這麼大能量?

弱智吧,這個在網際網路浪潮中經久不衰的神奇存在,猶如一股清流在貼吧的海洋中獨自閃耀。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

當其他貼吧在網際網路的沖擊下逐漸呈現頹勢時,它卻越發火爆出圈,吸引着無數人的目光。

你可别以為這裡真收弱智,兩百六十多萬粉絲的吧友們統稱為“弱智病友”,自我标榜為搞笑類型的貼吧。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這裡有着嚴格的發帖管理規則,必須原創,内容要短,少發疑問句,吧友們的神回複可不僅僅停留在一問一答之間,那充滿思考上的沖擊,讓人捧腹大笑的同時也不禁陷入深思。

在這裡,大家互相稱呼為病友,隻有說出足夠“弱智”的段子才能被準許入院,若是認真發言,那可得“出院!”了。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

文章的内容豐富多樣,時而搞笑,讓人忍俊不禁;時而悲傷,觸動心底的柔軟;時而又充滿哲思,令人深思。

弱智吧這個地方,它可不簡單呐!好多你可能聽過的段子,那都是從“弱智吧”流傳出去的。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

那些話瞅着好像沒啥條理,傻乎乎的,實際上充滿了對各種事情的敏銳觀察。

以前呐,“弱智吧”那可真是金句滿天飛,随随便便挑一句出來,都能把人笑得肚子抽筋兒。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

就像一位吧友說的:“這世上或許根本沒有弱智,又或者人人都是被命運愚弄的弱智。”

這話聽起來還真是有點道理。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

有時候你覺得他們是一群傻子,可有時候呢,你又會覺得他們像一面鏡子,照着自己的荒唐和可笑。

這“弱智吧”裡的人啊,他們不按常理出牌,思維跳躍,總是能給我們帶來意想不到的歡樂。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

他們敢想敢說,不在乎别人的眼光,隻在乎自己的快樂。

要說起弱智吧的過往呀,那根本沒法兒去考證。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

它曾經有過一段亂糟糟的時期,幸虧有那麼一批核心吧友整出了些無厘頭的規矩,這才給這個貼吧帶來了新的生機。

這些吧友老是用“弱智風”說話,招呼大家一塊傻乎乎的,一塊享受這種單純又樸實的快樂。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

後來弱智吧火了起來,吸引了好多高水準的網友進吧。

他們搞起了新的花樣,借着“弱智”的樣子,讓有些話變得能引人深思了。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這種特别的格調跟氛圍,讓經典的梗越來越多,還整出了一套合集。現在弱智吧都成搞笑的代名詞咯。

現在的人們,搞笑都說要競選弱智吧吧主,仿佛這已經成為了一種潮流,弱智吧也從曾經的“精神病院”搖身一變,成為了網際網路的清流。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

或許有人會覺得這裡的内容太過“弱智”,但正是這種“弱智”讓我們重新審視生活,發現那些被我們忽略的簡單快樂。

弱智吧,就是這樣一個獨特而又神奇的存在。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

它不随波逐流,堅守着自己的風格和理念,成為了網際網路世界中一道亮麗的風景線。

咱就說啊,這弱智吧可真是深藏不露!你能想象嗎?用弱智吧資料訓練的大模型,那跑分居然超過了百科、知乎、豆瓣、小紅書等平台。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這可不是我随口亂說,而是有實打實的資料支撐的!

這研究呢是由中科院深圳先進技術研究院、中科院自動化研究所等好多高校、研究機構一起合作弄出來的。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

他們在中文網際網路的各種知識來源那兒收集資料,整出了那個品質高、還多樣化的中文指令微調資料集COIG-CQIA。

不過呢,這不是最牛的,這團隊從那個COIG-CQIA裡又抽出了一個超厲害的子集CQIA-Subset。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這裡面有500個點贊最多的文章标題,還有人工或者GPT-4的回複,組成了指令微調資料集,那可真是精華裡面的精華呀!

接下來,他們就分别用各種資料集去訓練開源大模型,然後在BELLE-Eval測試集上使用GPT-4評分得到結果。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

嘿,你猜怎麼着?其中那個Yi-34B的弱智吧版本表現得那叫一個突出啊!

這就讓研究人員猜測,弱智吧的問題可能增強了AI的邏輯推理能力,這可真是讓人想不到啊!誰能想到那些看似無厘頭的問題,居然還有這樣的效果。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

這事兒在網上可引起了軒然大波,網友們集體笑不活了,還認真讨論起弱智吧有如此奇效的原因。

有人說,弱智吧的題目“異質”,增加了指令的多樣性,還有人說,那裡的資料文本品質高,是以才能有這樣的效果。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

你說這弱智吧是不是挺神奇的?從ChatGPT誕生之初,它就深度參與了大模型的發展,簡直就是AI浪潮的重要見證者啊!

現在,弱智吧的問題都成了每個新釋出大模型必須要過的一關,這叫弱智吧Benchmark。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

想想當初,網友們為了調戲大模型還專門從弱智吧搜集了不少測試集呢,誰能想到,如今這些測試集都已經成訓練集啦!這世界變化快,真是讓人跟不上啊!

不過話說回來,這也說明了弱智吧的價值可不小。

弱智吧竟是最佳中文AI訓練資料?中科院:8項測試成績都是第一!

以後啊,說不定還會有更多這樣的驚喜呢!咱們就等着瞧吧!

(免責聲明)文章描述過程、圖檔都來源于網絡,此文章旨在倡導社會正能量,無低俗等不良引導,如涉及版權或者人物侵權問題,請及時聯系我們,我們将第一時間删除内容!如有事件存疑部分,聯系後即刻删除或作出更改。

繼續閱讀