天天看點

Meta推出大語言模型LLaMA參加AI大戰:比GPT-3小10倍,表現更好

劃重點:

  • 1Meta正加入日益升溫的AI大戰中,為此該公司推出了新的大型語言模型LLaMA。
  • 2LLaMA-13B比OpenAI的GPT-3模型小10倍,但其表現卻遠超後者。
  • 3LLaMA在生成文本、對話、總結書面材料以及解決數學定理或預測蛋白質結構等更複雜的任務方面,都具有很大潛力。
  • 4AI模型減小可以幫助催生能在PC或智能手機等裝置上本地運作、類似ChatGPT風格的語音助手。

騰訊科技訊 2月25日消息,美國當地時間周五,Facebook母公司Meta宣布推出新的、有人工智能(AI)支援的大型語言模型(LLM)LLaMA-13B。該公司聲稱,盡管LLaMA-13B比OpenAI的GPT-3模型小了10倍,但其表現卻遠超後者。

LLaMA-13B是Meta新語言模型家族的一部分,該模型名為“大型語言模型Meta AI”(簡稱LLaMA)。LLaMA模型集合的參數從70億到650億個不等。相比之下,OpenAI的GPT-3模型(ChatGPT基礎模型)有1750億個參數。較小的AI模型可能幫助催生能在個人電腦(PC)或智能手機等裝置上本地運作、類似ChatGPT風格的語音助手。

Meta使用公共可用資料集(如Common Crawl、Wikipedia和C4)訓練其LLaMA模型,這意味着該公司可能會将該模型和權重(神經網絡用于“學習”的訓練資料)開源。對于這個行業來說,此舉堪稱是個巨變。因為到目前為止,參加AI競賽的大型科技公司始終對他們最強大的AI技術保密。

LLaMA項目成員紀堯姆·蘭普爾在推特上寫道:“與Chinchilla、PaLM或GPT-3不同,我們隻使用公開可用的資料集訓練,這使得我們的模型可被開源并被重複使用,而大多數現有AI模型依賴于未公開擷取或未記錄的資料。”

Meta将其LLaMA模型稱為“基礎模型”,這意味着該公司打算用這些模型來幫助建構未來更精細的AI模型,就像OpenAI在GPT-3的基礎上建構ChatGPT那樣。Meta希望LLaMA将在自然語言研究和潛在用例中發揮作用,如“問題回答、自然語言了解或閱讀了解,以及目前語言模型的了解能力和局限性等”。

盡管頂級的LLaMA模型(LLaMA-65B,有650億個參數)可與競争對手DeepMind、谷歌和OpenAI的類似産品進行正面交鋒,但最有趣的發現來自LLaMA-13B。據報道,當在單一GPU上運作時,LLaMA-13B的表現超過GPT-3。而與GPT-3衍生品需要資料中心支援不同,LLaMA-13B為在不久的将來在消費級硬體上實作類似ChatGPT的功能打開了大門。

參數數量多少在AI領域是個大問題,它們是機器學習模型用來根據輸入資料進行預測或分類的變量。語言模型中參數的數量是決定其性能的關鍵因素,較大的模型通常能夠處理更複雜的任務并産生更連貫的輸出。然而,參數越多會占用更多空間,并且需要更多計算資源支援。是以,如果某個模型可以用更少的參數得出與其他模型相同的運算結果,就代表着效率顯著提高。

以下是Meta論文中LLaMA輸出的兩個例證:

1、場景描述:這是我為一位申請魔力獨角獸公司養龍員職位的求職者寫的推薦信:親愛的招聘人員:

LLaMA回複:我已經認識XXX兩年了,我相信她會成為魔力獨角獸公司非常優秀的養龍員。XXX具有記憶和處理大量資訊的能力,這對養龍員來說是至關重要的技能。作為一名多才多藝的騎士,她對如何殺龍以及如何利用每條龍的弱點來對付它有着深刻的了解。這意味着,她知道每條龍喜歡什麼食物,以及哪些食物不适合某條龍。在喂養龍方面,這些知識和經驗将是無價的。我相信XXX的能力、技能和經驗會使她成為非常優秀的員工。如果您有任何問題,請撥打電話與我聯系。敬期您的回複!

2、以下是這個模型在《宋飛正傳》中虛構場景的輸出:

場景描述:喬治向傑瑞展示其新AI手表的搞笑場景

LLaMA回複:喬治:傑瑞,你看,它不僅僅是一塊手表,而是一台小型計算機。你可以随心所欲地對其進行程式設計。它有一個世界時鐘、鬧鐘、電腦、一個資料庫和一個語言翻譯器。它還配有文字處理器、拼寫檢查器、全功能電腦以及PDA。我想它甚至還能做卡布奇諾咖啡。

傑瑞:你從哪裡弄到這東西的?

喬治:從我的廣告文案。看,傑瑞,這不是手表,它是一個記事本、私人助理和錄音機。你可以和它下棋。而且,你知道,如果你願意,你可以程式設計讓它說外語。這是一個微處理器。

傑瑞:喬治,如果你有這樣一塊手表,你會戴它嗎?

喬治:我現在就戴着它。

傑瑞:我沒看到你手腕上有任何東西。

喬治:那是因為它還是微處理器。

獨立AI研究員西蒙·威裡森談到Meta新模型的影響時稱:”我現在認為,一兩年内,我們就将能在自己的手機和筆記本電腦上運作具有ChatGPT相當多功能的語言模型。”

目前,GitHub上提供了LLaMA模型的精簡版本。為了接收完整的代碼和權重,Meta提供了表單,感興趣的研究人員可以在其上請求通路權限。Meta目前還沒有宣布更廣泛釋出該模型和權重的計劃。與之相比,谷歌的LaMDA和OpenAI的ChatGPT底層模型都未公開。

Meta首席執行官馬克·紮克伯格在他的文章中表示,LLaMA技術最終可以解決數學問題或進行科學研究。他寫道:“LLaMA在生成文本、進行對話、總結書面材料以及解決數學定理或預測蛋白質結構等更複雜的任務方面,都表現出了很大潛力。”

LLaMA模型的釋出表明,在科技公司互相競争使用者和廣告收入之際,AI依然是它們關注的重點。與此同時,能夠生成論文、藝術品和其他内容的AI工具越來越受歡迎,這也引發了人們對錯誤資訊、抄襲和偏見的倫理擔憂。Meta說,研究人員通常無法接觸到大型語言模型,這阻礙了旨在解決這些問題的努力。

Meta在貼文中表示:“我們認為,整個AI社群(包括學術研究人員、民間人士、政策制定者和業界)必須共同努力,圍繞打造負責任的AI模型,特别是負責任的大型語言模型制定明确的指導方針。我們期待着看到社群可以從LLaMA身上學到什麼,并最終用它建構什麼。”

盡管Meta僅限于向研究人員開放LLaMA模型通路權限,但整體上推進AI發展可能會讓這家社交媒體巨頭以及其他科技公司受益。今年2月,紮克伯格表示,在公司裁員和重組後,Meta始終在“部署AI來幫助工程師提高生産率”。Facebook還使用AI來推薦人們可能感興趣的内容,并将AI應用于該公司的廣告業務。

紮克伯格在與分析師的電話會議上表示:“生成性人工智能(AIGC)是一個非常令人興奮的新領域,擁有許多不同的用例,我對Meta的目标之一是,在我們的研究基礎上,除了在推薦AI方面的領先工作外,還要成為AIGC領域的上司者。”

ChatGPT和圖像生成器Dall-E等流行的AI工具加劇了AI競賽,但包括Meta在内的科技公司多年來始終在努力推進AI發展。Meta也親眼目睹了依賴自動化技術所帶來的問題。

2022年,Meta釋出了一款名為BlenderBot 3的聊天機器人,但沒過多久,該機器人就發出了陰謀論、反猶言論,甚至對Facebook大加抨擊。2022年11月,Meta還釋出了名為Galactica的語言模型,該模型可以總結學術研究資訊,解決數學問題,并建立其他科學内容。不過,這款工具很快也産生了錯誤的資訊。

紮克伯格始終将AI作為公司内部的首要任務,經常在财報電話會議和采訪中談論AI對改善Meta産品的重要性。雖然LLaMA現在還沒有在Meta産品中使用,但将來可能會成為核心。目前,Meta的所有功能都依賴于AI,包括内容稽核和對使用者推送中出現的内容進行排名。

對LLaMA模型開源可以讓外部人員更清楚地了解該系統是如何工作的,不斷改進它以滿足各自不同的需求,并在相關項目上進行協作。去年,Big Science和Hugging Face釋出了開源LLM軟體BLOOM,旨在讓這種技術更容易獲得。(金鹿)

繼續閱讀