ChatGPT，這台學習的永動機，何時“耗盡”人類的語言

ChatGPT是個通才，可以與各行各業的人們對話，因為它用來訓練的語言，來自整個網絡和人類所有的知識寶庫，并且建立在一個看似無所不包的知識體系之上。

無論是ChatGPT之類的聊天機器人，還是其他的内容生成技術與應用，背後都是日益強大的學習和訓練的計算系統，它們被稱為大型語言模型 (LLM) ，動辄設定成千上萬億個參數。機器很難像人類一樣通過推理來進行有效的學習，是以機器學習的能力很大程度上依賴于海量的資料。

但是，人類的語言是有限的，當計算機建立起越來越巨大的算力和強大的算法，自然語言作為“原料”供應，是不是終有一天像石油一樣，被人類開采枯竭？目前的機器學習模型依賴于不斷增長的巨大資料集，其發展趨勢是否可能會放緩？

是的，語言資料資源是有限的，高品質的語言資料更是有限的。

來自阿伯丁大學、麻省理工大學、圖賓根大學的Pablo Villalobos等6位計算機科學家，近日釋出了一篇論文，名為《我們會用完資料嗎？機器學習中資料集縮放的局限性分析》。他們開發的機率模型，估算了2022年至2100年之間可用的語言和視覺資料的總量，估計了語言和視覺模型訓練資料集規模的演變趨勢，試圖發現由于可用資料耗盡而導緻的趨勢的極限。

目前絕大多數存量資料是使用者生成的，存儲在社交媒體平台、部落格、論壇等。有三個因素決定了在一個給定的時間段内産生多少内容:人口數量、網際網路滲透率、每個網際網路使用者産生的平均資料量。

網際網路上的大部分文本資料對訓練大型語言模型（LLM）都沒有用，專業人士通常隻使用高品質的資料來訓練模型，因為這是他們希望模型學習和效仿的語言類型。常見的高品質資料的來源是書籍、新聞文章、科學論文、維基百科和過濾後的網頁内容。這些資料源的一個共同特性是，它們經過了品質和有用性的篩選。例如，在新聞、科學文章或開源代碼項目中，有用性必須由專業标準(如同行評議)的篩選産生。

他們發現，語言資料枯竭情況比視覺資料嚴峻得多。

語言和視覺模型的資料存量的增長速度比訓練資料集的大小慢得多，是以如果按照目前的趨勢繼續下去，資料集最終會因為資料枯竭而停止增長。

對于語言模型來說，資料耗盡的情況将在2030年到2040年之間發生。語言大模型的訓練資料主要來自網際網路，現在的模型越做越大，已經把網上能收集到的網頁資料用的差不多了，或者說随着算力投入的進一步增加，基本上能夠把網絡上收集到的資料全部用盡。

近在眼前的擔憂是，高品質語言資料在 2026 年之前耗盡。

高品質資料增長的放緩是不可避免的，對于高品質的語言資料來說尤其如此。高品質的資料集通常包括了50%的使用者生成内容，15-20%的書籍，10-20%的科學論文，近10%的代碼和近10%的新聞。研究人員估算了數字化書籍、公共GitHub和科學論文中可用文本的全部數量，并假設其占據高品質資料集的30%到50%之間，進而預測出目前高品質語言資料的總存量為9萬億（即9e12，上下限大概為4.6萬億到17萬億）個單詞，每年增長率為 4% 到 5%。以高品質語言資料庫作為上限來預測語言資料集的增長，放緩發生得更早，在2026年之前。

相比之下，低品質語言資料的存量在69萬億-7.1億億個單詞之間，目前增長率在6.41%至17.49%之間。其中，谷歌這樣資金雄厚的大公司可用的資料存量約為100萬億個單詞; 所有科技公司可用的約為1000萬億個單詞; 全人類擁有約1億億個單詞，也包括了所有的短信、電話和視訊會議等所産生的資料。低品質資料集先是随着時間推移會快速增長，達到2030年後，增長會大幅放緩，直到耗盡資料存量。

視覺資料的情況要複雜一些。

現在網際網路上的存量視覺資料數量在8.1萬億到23萬億之間，目前的年增長率在8%左右，視覺模型資料耗盡的情況将在2030年到2060年之間發生，相對于語言模型來說，目前看起來情況還沒有那麼嚴重。IDEA研究院計算機視覺與機器人研究中心講席科學家張磊博士認為，主要原因是視覺資料的次元和複雜度要更高，使得現有模型能夠使用的資料量和網上存在的資料量相比還有比較大的差距。

“視覺資料更複雜，視覺方面的問題也更多樣化。視覺大模型通常都是針對全圖（wholeimage）了解的預訓練，即模型隻是針對全圖做分類或圖文檢索類的學習，但是視覺還有很多細粒度的問題，比如物體檢測、視覺分割等，大模型學到的全圖表征用于細粒度問題也會性能遞減。這些困難使得視覺模型還不能簡單地用增加資料的方法來解決。”

張磊博士還強調，視覺模型繼續增加資料量，獲得的增益也會逐漸變小，這也需要視覺算法方面的進一步改進，是以，視覺大模型目前還沒有達到單純增加資料提高效果的階段，還有更多的問題需要研究。

但是，訓練資料枯竭是個活問題。如果未來資料效率提升，大模型用更少的資料就能實作相同的功能；如果證明縮放定律是錯誤的，即使資料效率沒有額外的提升，或許還有更好的方法來使用更少的資料；如果通過遷移學習，多模态模型可能被證明比單一模态的模型表現得更好，這将有效地增加資料存量，進而擴大所有資料模态存量的組合。

合成資料将來是一個重要的資料來源，這一點受到最近騰訊釋出的AIGC報告的極度看好。MIT科技評論将AI合成資料列為2022年10大突破性技術之一；Gartner也預測稱，到2030年合成資料将徹底取代真實資料，成為訓練AI的主要資料來源。

此外，一些非自然語言的資料也會大量産生。例如，如果大規模采用自動駕駛汽車将導緻空前數量的道路視訊記錄；如果擁有充足的預算(如有政府或大公司的參與)，也許能夠增加資料的産出，特别是在針對特定領域的高品質資料。

目前一個問題仍在擺在眼前：更多的資料難道一定就會“喂養”出更好的模型嗎？也不一定。正如前文張磊博士所說的，“目前視覺模型的相關困難還不能簡單地用通過增加資料的方法來解決。”

ChatGPT，這台學習的永動機，何時“耗盡”人類的語言

繼續閱讀

人工智能行業深度報告-“元年”之後-再看大模型應用商業化進展

人工智能疊代一切，文科生将是“最後幸存者”

最高170W的性能！聯想頂級移動圖站上新啦近日，聯想ThinkPadP系列終于更新——ThinkPadP16AI2024

一件純花錢的事連幹6年，阿裡還樂此不疲，背後野心藏不住了！就在6月13号，2024阿裡數學競賽決賽名單新鮮出爐，共有全球

2024:美國财富500強最多的州今年進入财富500強榜單的公司總部分布在37個州的226個城市，從俄亥俄州的小城鎮到洛

歡迎！德國科學院院士Gerhard P. Fettweis加入亞太人工智能學會

AI 資料模組化：人工智能如何重塑人類進步的未來（3/5）

大模型應用之路：從提示詞到通用人工智能（AGI）

什麼是人工智能，它與人工智能有何不同，它們的用途是什麼？

北約未來二十年：人工智能技術的戰略演進與前瞻

頂尖龍頭+算力+人工智能+存儲+機器人+半導體+短劇+預制菜

AIGC如何幫助數字内容的生産者降本增效在數字時代，内容生産者的效率和成本控制至關重要。AIGC（人工智能生成内容）技術

AI 資料模組化：人工智能如何重塑人類進步的未來（4/5）

人工智能概念股，今年以來漲跌幅排名：

拙文《與何祚庥院士讨論大型粒子對撞機問題》發表之後，何祚庥院士随即給我留言進一步強調“@劉長玉。最為關鍵的問題，是不是"

探索文字魅力：從初識到共鳴，人工智能助手的心路曆程