天天看點

微軟、谷歌和Meta押注合成資料建構AI模型

作者:新浪财經

聊天機器人每一個巧妙的應答背後都有海量資料作為支撐——在某些情況下,需要從文章、書籍和網上評論中摘取數萬億個詞彙,以教會人工智能系統了解使用者的詢問。業界的傳統觀點是,建立下一代人工智能産品将會需要越來越多的資訊。

然而,這個計劃存在一個大問題:網絡上能夠提供的高品質資料是有限的。為了得到這些資料,人工智能公司通常的做法是,要麼向出版商支付數百萬美元以獲得内容許可,要麼從網站上下載下傳資料,使自己面臨版權糾紛的風險。越來越多的頂流人工智能公司正在探索另一種在業内引發分歧的辦法:使用合成資料,從本質上來說就是假資料。

這種辦法的工作原理是這樣的:科技公司可以利用自己的人工智能系統來産生文字和其他媒體。然後,可以用這些資料訓練同一個系統的未來版本,Anthropic的行政總裁達裡奧·阿莫代伊(Dario Amodei)稱之為潛在的”無限資料産生引擎”。這樣一來,人工智能公司就可以避免引發許多法律、道德和隐私方面的問題。

在計算中合成資料的想法并不新鮮——這項技術已經被使用了幾十年,涉及到從個人資訊的去匿名化到自動駕駛技術路況模拟的各個領域。但是,産生式人工智能的興起使人們可以更容易大規模建立品質更高的合成資料,而且也使這種做法有了新的緊迫性。

Anthropic表示,它使用合成資料來建構為其聊天機械人Claude提供支援的最新模型。Meta和Google已經使用這種資料來開發他們最近的開源模型。GoogleDeepMind最近表示,它依靠這種方法來幫助訓練一個可以解決奧林匹克競賽級别幾何問題的模型。很多人猜測,OpenAI是否正在使用此類資料來訓練其文字到影片影像産生器Sora。(OpenAI透露它正在探索使用合成資料,但不願證明進一步的細節。)

在微軟,産生式人工智能研究團隊在最近的一個項目中使用了合成資料。他們希望建構一個規模較小、資源密集程度較低的人工智能模型,但仍具有有效的語言和推理能力。為了做到這一點,他們試圖模仿孩子透過閱讀故事來學習語言的方式。

該團隊并沒有向這個人工智能模型提供大量兒童讀物,而是列出了四歲孩子能夠了解的3000個詞彙。然後,他們要求這個人工智能模型使用詞彙表中的一個名詞、一個動詞和一個形容詞來創造一個兒童故事。研究人員在幾天的時間内重複了數百萬次這個提示,産生了數百萬個短篇故事,最終幫助開發出了另一個更強大的語言模型。微軟已經将這個新的”小型”語言模型系列Phi-3開源并向公衆開放。

微軟産生式人工智能副總裁布貝克(Sébastien Bubeck)說:”突然之間,你擁有了遠多于過去的控制權。你可以在更精細的層面上決定你希望自己的模型學習哪些東西。”

布貝克說,利用合成資料,你還可以透過為資料新增更多解釋來更好地指導人工智能系統完成學習過程,不然的話,機器在處理過程中可能會感到困惑。

但是,一些人工智能專家對這種技術存在的風險感到擔憂。牛津、劍橋和其他幾所知名大學的一組研究人員去年發表了一篇論文,解釋了使用ChatGPT産生的合成資料來建構新的人工智能模型為何會導緻他們訴說的”模型崩潰”。

在他們的實驗中,基于ChatGPT的輸出内容建立的人工智能模型開始出現”不可逆轉的缺陷”,而且似乎失去了對最初訓練内容的記憶。舉例來說,研究人員用有關英國曆史建築的文字提示一種大型語言人工智能模型。當他們使用合成資料多次重新訓練這個模型後,這個模型開始産生有關長耳大野兔的毫無意義的胡言亂語。

研究人員還擔心,合成資料可能會放大資料集當中的偏見和毒性。合成資料的一些支援者則表示,透過采取适當的措施,用這種方式開發的模型可以和基于真實資料建構的模型一樣準确甚至更好。

劍橋大學(University of Cambridge)博士舒梅洛夫(Zakhar Shumaylov)在一封電子郵件中說道:”如果處理得當,合成資料會很有用。然而,對于如何才能處理得當,目前還沒有明确的答案;有些偏見對于人類來說可能很難察覺。”舒梅洛夫是上述關于模型崩潰論文的合著者之一。

還有一個更具哲學性的争論:如果大型語言模型陷入根據自身内容進行訓練的無休止循環中,那麼人工智能最終是否會變得不再是模仿人類智慧的機器,而更多的是模仿其他機器語言的機器?

斯坦福大學(Stanford University)計算機科學教授Percy Liang表示,為了産生有用的合成資料,公司仍然需要真正的人類智慧結晶,比如書籍、文章和程式代碼。梁在一封電子郵件中說道:”合成資料不是真實的資料,就像你做夢登上了珠穆朗瑪峰并不是真正登頂了一樣。”

合成資料和人工智能領域的先驅們一緻認為,你不能将人類排除在這個過程之外。我們仍然需要真人來建立和完善人工資料集。

布貝克說:”合成資料并不是簡單地按下一個按鈕然後對它說,“嘿,幫我産生一些資料。”這是一個非常複雜的過程。在大規模建立合成資料的過程中需要投入大量的人力。”

繼續閱讀