天天看點

谷歌Gemini技術報告出爐,作者多達900餘人

作者:機器之心Pro

機器之心報道

機器之心編輯部

從此以後,Google Scholar 資料該出問題了。

備受期待的谷歌 Gemini 技術報告完整版,今天終于出爐了。

谷歌Gemini技術報告出爐,作者多達900餘人

兩周前,人們興奮于谷歌提出的「原生多模态大模型」Gemini,其宣稱超越 GPT-4 的強大性能,以及對于圖像、視訊等領域的了解能力讓人們似乎看到了未來。不過由于谷歌示範的 demo 涉嫌誇大效果,Gemini 又很快陷入了争議。

但作為生成式 AI 領域最近的重要進展,人們對于 Gemini 的期待越來越高,有團隊很快進行研究發了測試論文。今天釋出的 64 頁技術報告,或許可以為我們的許多疑惑進行更加直覺的解釋。

這篇技術報告《Gemini: A Family of Highly Capable Multimodal Models》作者包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一衆谷歌研究大佬,另外還有謝爾蓋・布林這樣的公司聯合創始人。

論文連結:https://arxiv.org/abs/2312.11805

另外,該文章的作者數量也奪人眼球 ——941 個人,搞得 arXiv 網頁都有點卡:

谷歌Gemini技術報告出爐,作者多達900餘人

一頁顯示不過來。

從文章第 35 頁起,谷歌開始羅列所有「貢獻者」,從 Team Leader 到主要貢獻者,再到貢獻者分門别類寫到了第 45 頁,看起來之前各路媒體說谷歌在 Gemini 上投入了大量工程師,的确是沒說錯。

谷歌表示,在每個任務方向上,人們對 Gemini 所做的貢獻是同等重要的,名字按随機順序列出。Gemini 是一項跨谷歌内部多團隊的工作,成員來自 Google DeepMind、Google Research、Knowledge and Information、Core ML、Cloud、Labs 等部門。

此外還有提供了支援的團隊和人(比如公司 CEO 桑達爾・皮查伊),以及沒有列出的很多谷歌内部貢獻者。

對此有人吐槽道,論文作者比解釋技術寫的還長,你這怕不是在水字數?

谷歌Gemini技術報告出爐,作者多達900餘人

光是這些花費在這些工程師、科學家們身上的工資每年就有上億美元。

在技術報告中,谷歌表示 Gemini 是一個多模态大模型體系,它在圖像、音頻、視訊和文本了解方面表現出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三個版本,适用于從複雜推理任務到移動裝置的各種應用。

通過在大量基準的跑分表明,功能最強大的 Gemini Ultra 在 32 個基準中的 30 個中重新整理了 SOTA(業内最佳)水準。谷歌特别指出,Gemini 是第一個在經過充分研究的考試基準 MMLU 上實作人類專家表現的模型。谷歌相信,Gemini 在跨模态推理和語言了解方面的突出能力将支援各種用例。

以下圖所示的教育環境為例,老師畫了一個滑雪者從斜坡上滑下的實體問題,學生試圖進行解答。利用 Gemini 的多模态推理能力,該模型能夠了解淩亂的筆迹,正确了解問題的表述,将問題和解決方案都轉換為數學排版,識别學生在解決問題時出錯的具體推理步驟,然後給出問題的正确解法。

谷歌Gemini技術報告出爐,作者多達900餘人

圖 1,筆記識别,解答實體問題。

Gemini 的推理能力展示了建構能解決更複雜多步驟問題的通用智能體的前景,比如谷歌基于 Gemini 提出了 AlphaCode 2。在移動裝置上,Gemini Nano 在摘要、閱讀了解、文本填充任務等任務中表現出色,也展現了推理、STEM、編碼、多模态和多語言任務的能力。

在文章的技術解釋部分中,谷歌概述了 Gemini 的模型架構、訓練基礎設施和訓練資料集,對 Gemini 模型系列進行了詳細評估,涵蓋文本、代碼、圖像、音頻和視訊方面。谷歌讨論了模型稽核與部署方法,最後也讨論了 Gemini 的更廣泛影響、局限性及其潛在應用。

模型架構

Gemini 1.0 有三種尺寸 Ultra 、 Pro 以及 Nano ,如下所示:

谷歌Gemini技術報告出爐,作者多達900餘人
  • Ultra:可以在各種高度複雜的任務中提供SOTA性能,包括推理和多模态任務。它還可以在TPU加速器上有效地進行大規模服務;
  • Pro:是谷歌在成本和延遲方面進行性能優化的模型,可在各種任務中提供良好的性能,并表現出強大的推理性能和廣泛的多模态能力;
  • Nano:谷歌最高效的模型,專為在裝置上運作而設計。谷歌訓練了兩個版本的 Nano,參數分别為 1.8B (Nano-1) 和 3.25B (Nano-2),分别針對低記憶體和高記憶體裝置,采用 4 位量化進行部署,并提供一流的性能。

Gemini 的輸入有多種形式,如文本、音頻、圖檔、視訊等,如下圖2所示。值得一提的是,Gemini是原生多模态的。

谷歌Gemini技術報告出爐,作者多達900餘人

Gemini 的視訊了解能力是通過将視訊編碼為大上下文視窗中的幀序列來完成的。視訊幀或圖像可以自然地與文本或音頻交織,作為模型輸入的一部分。Gemini 模型可以處理可變的輸入分辨率,以便将更多的計算花費在需要細粒度了解的任務上。

此外,Gemini 可以直接從通用語音模型 (USM) 功能中攝取 16kHz 的音頻信号。這使得模型能夠捕獲當音頻被簡單地映射到文本輸入時通常會丢失的細微差别。

訓練基礎設施

谷歌使用 TPUv5e 和 TPUv4 訓練 Gemini 模型,具體取決于模型的大小和配置。其中,訓練 Gemini Ultra 使用跨多個資料中心的大量 TPUv4 加速器,相比于 PaLM-2,規模顯著增加,帶來了新的基礎設施挑戰。

增加加速器的數量會導緻整個系統中硬體的平均故障間隔時間成比例地減少。是以,谷歌最大限度地減少了計劃重新規劃和搶占的比率,但實際上機器故障在如此大規模的硬體加速器中很常見。

TPUv4 加速器部署在 4096 個晶片的「SuperPod」中,每個晶片連接配接到一個專用光開關,可以在大約 10 秒内将 4x4x4 晶片cube動态重新配置為任意 3D 環面拓撲。對于 Gemini Ultra,谷歌為每個超級容器保留少量cube,以實作熱備用和滾動維護。

TPU 加速器主要通過高速晶片間互連進行通信,但對于 Gemini Ultra,谷歌使用其叢集内和叢集間網絡在多個資料中心中組合 SuperPod。

使用定期檢查持久叢集存儲權重的傳統方法,在這種規模下維持高吞吐量是不可能的。是以谷歌為 Gemini 使用了模型狀态的備援記憶體副本,并且在任何計劃外的硬體故障中,Gemini 可以直接從完整的模型副本中快速恢複。與 PaLM 和 PaLM-2 相比,盡管使用的訓練資源要大得多,但恢複速度顯著加快。

最終,最大規模訓練 job 的整體吞吐量從 85% 增加到 97%。

Gemini 模型是在多模态和多語言資料集上進行訓練的,預訓練資料集使用來自網絡文檔、書籍和代碼的資料,包括圖像、音頻和視訊資料。谷歌使用了 SentencePiece tokenizer,并發現在整個訓練語料庫的大樣本上訓練 tokenizer 可以提高推斷詞彙量,進而提高模型性能。

此外,谷歌還使用啟發式規則和基于模型的 tokenizer 對所有資料集應用品質過濾器,并執行安全過濾以删除有害内容。

評估

Gemini 模型本質上是多模态模型,跨文本、圖像、音頻和視訊資料聯合訓練。一個懸而未決的問題是,這種聯合訓練是否能夠産生一種在每個領域都具有強大能力的模型 —— 即使與針對單個領域進行定制的模型相比也是如此。谷歌進行了一系列的評估實驗證明:Gemini 在廣泛的文本、圖像、音頻和視訊基準上實作了新的 SOTA 水準。

文本

谷歌将 Gemini Pro 和 Gemini Ultra 與多個外部 LLM 以及谷歌之前的最佳模型 PaLM 2 進行了一系列基于文本的學術基準比較,涵蓋推理、閱讀了解、STEM 和編碼。實驗結果如下表 2 所示:

谷歌Gemini技術報告出爐,作者多達900餘人

谷歌還通過在六種不同能力的 50 多個基準上進行評估,檢查了 Gemini 模型的能力趨勢,涵蓋:

  • 開卷 / 閉卷檢索和問答任務,要求「事實性」;
  • 長上下文摘要、檢索和問答任務;
  • 數學 / 科學問題解決、定理證明和考試;
  • 需要算術、科學和常識的「推理」任務;
  • 用多種語言進行翻譯、摘要和推理的「多語言」任務。

評估結果如下圖表所示:

谷歌Gemini技術報告出爐,作者多達900餘人
谷歌Gemini技術報告出爐,作者多達900餘人
谷歌Gemini技術報告出爐,作者多達900餘人

下表 3 更深入地探讨了 Gemini 在特定的事實、編碼、數學 / 科學和推理任務上的性能。其中,Gemini Nano-1 和 Gemini Nano-2 的模型大小分别為 1.8B 和 3.25B。

谷歌Gemini技術報告出爐,作者多達900餘人

值得一提的是,經過指令調整的 Gemini Pro 模型在一系列功能上表現出巨大的改進:

谷歌Gemini技術報告出爐,作者多達900餘人

多模态

Gemini 模型是從頭開始以多模态為目标建構的。它表現出了獨特的能力,可以将跨模态的功能(例如,從表格、圖表或圖形中提取資訊和空間布局)與語言模型的強大推理能力(如先進的推理能力)無縫地結合起來。

如圖 5 和圖 12 中的示例所示,這些模型在識别輸入内容中的細粒度細節、跨空間和時間聚合上下文,以及将這些功能應用于時間相關的視訊序列方面也表現出強大的能力。

谷歌Gemini技術報告出爐,作者多達900餘人

圖 5、Gemini 的多模态推理功能可生成用于重新排列子圖的 matplotlib 代碼。

谷歌Gemini技術報告出爐,作者多達900餘人

表 7、Gemini Ultra 在圖像了解基準上的能力。

谷歌發現,Gemini Ultra 在各種圖像了解基準測試中都是最先進的。

Gemini 模型還能夠同時跨模态和了解多種語言。

谷歌Gemini技術報告出爐,作者多達900餘人

表 9、多語言圖像了解。

Gemini Ultra 在各種 few-shot 視訊字幕任務以及 zero-shot 視訊問答任務上取得了最先進的結果。

谷歌Gemini技術報告出爐,作者多達900餘人

表 10、在標明的學術基準上跨任務和語言的 few-shot 視訊了解。

圖 6 顯示了 one-shot 情況下的圖像生成示例。

谷歌Gemini技術報告出爐,作者多達900餘人

圖 6、圖像生成。在給出由圖像和文本組成的提示的情況下,Gemini 可以輸出與文本交錯的多個圖像。

有關語音了解能力,表 11 表明,無論是在英語還是多語言測試集上,Gemini Pro 模型在所有 ASR(語音識别)和 AST(自動語音翻譯)任務中顯著優于 USM 和 Whisper 模型。

谷歌Gemini技術報告出爐,作者多達900餘人

表 11、ASR 和 AST 標明基準的語音評估結果。

安全性

谷歌表示,在 Gemini 模型的開發過程中遵循了結構化方法進行負責任的部署,以便識别、衡量和管理大模型的可預見社會影響,這與 Google 人工智能技術的先前版本一緻。

谷歌Gemini技術報告出爐,作者多達900餘人

結語

谷歌在技術報告中表示,目前有關 Gemini 大模型的各種測試和用例,可能隻涉及了其潛力的很小一部分。谷歌期待更多公司在更多場景上使用新的模型。

Gemini 為谷歌開發一個大規模、子產品化的系統,實作最大泛化能力的目标提供了堅實基礎。