AI“資料荒”怎麼辦？微軟、谷歌等公司正使用“合成資料”訓練AI

人工智能聊天機器人的背後需要海量高品質資料作為支撐。傳統上，人工智能系統依賴于從各種網絡來源（如文章、書籍和線上評論）中提取的大量資料來了解使用者的查詢并生成響應。

長期以來，如何擷取更多的高品質資料成為人工智能公司的一大挑戰。由于資料在網際網路上的可用性是有限的，這促使人工智能公司正尋求一種替代解決方案——合成資料（Synthetic data）。

合成資料，即人工智能系統生成的人工資料。科技公司通過利用自己的人工智能模型，生成合成資料（這也被認為是虛假資料），然後将這些資料用以訓練其系統的未來疊代。

談及合成資料是如何生成的，其過程包括為人工智能模型設定特定參數和提示以建立内容，這種方法可以更精确地控制用于訓練人工智能系統的資料。

例如，微軟的研究人員向人工智能模型列出了四歲孩子能夠了解的3000個詞彙，然後，他們要求該模型使用詞彙表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。通過幾天時間内數百萬次的重複提示，模型最終産生了數百萬個短篇故事。

雖然計算中的合成資料并不是一個新概念，但生成式人工智能的興起促進了大規模建立更高品質的合成資料。

人工智能初創公司Anthropic首席執行官Dario Amodei将這種方法稱為“無限資料生成引擎”，旨在避免與傳統資料采集方法相關的一些版權、隐私等問題。

現有用例與分歧觀點

目前，Meta、谷歌和微軟等主要人工智能公司已經開始使用合成資料開發進階模型，包括聊天機器人和語言處理器。

例如，Anthropic使用合成資料為其聊天機器人Claude提供動力；谷歌DeepMind則使用這種方法來訓練能夠解決複雜幾何問題的模型；與此同時，微軟已經公開了使用合成資料開發的小型語言模型。

有支援者認為，如果适當實施，合成資料可以産生準确可靠的模型。

然而，一些人工智能專家對與合成資料相關的風險表示擔憂。著名大學的研究人員觀察到了“模型崩潰”的例子，即在合成資料上訓練的人工智能模型出現了不可逆轉的缺陷，并産生了荒謬的輸出。此外，有人擔心合成資料可能會加劇資料集的偏差和錯誤。

劍橋大學博士Zakhar Shumaylov在一封電子郵件中寫道，”如果處理得當，合成資料會很有用。然而，對于如何才能處理得當，目前還沒有明确的答案；有些偏見對于人類來說可能很難察覺。”

此外，圍繞對合成資料的依賴存在一場哲學辯論，人們對人工智能的本質提出了質疑——如若使用機器合成的資料，那麼人工智能是否還是模仿人類智能的機器？

斯坦福大學教授Percy Liang強調了将真正的人類智能融入資料生成過程的重要性，并強調了大規模建立合成資料的複雜性。他認為，“合成資料不是真實的資料，就像你做夢登上了珠穆朗瑪峰并不是真正登頂了一樣。”

目前對于生成合成資料的最佳做法尚未達成共識，這突出表明需要在這一領域進一步研究和發展。随着該領域的不斷發展，人工智能研究人員和領域專家之間的合作對于充分利用人工智能開發合成資料的潛力至關重要。

來源 | 财聯社

推薦閱讀——重磅！OpenAI機器人Figure 01的反應速度接近人類

AI再迎重大飛躍！“解碼”一夜刷屏的Sora

挑戰GPT-4,谷歌CEO皮查伊詳解最強大模型Gemini

IBM的新AI晶片，世界最強？工信部：大陸AI核心産業規模達5000億元北京印發《人工智能算力券實施方案（2023—2025年）》Gartner釋出2023年中國資料分析和人工智能技術成熟度曲線七部門：生成式人工智能服務管理暫行辦法

☞商務合作：☏ 請緻電 010-82306118 / ✐ 或緻件 [email protected]