谷歌DeepMind聯手！Jeff Dean、Hassabis萬字長文總結2023絕地反擊

編輯：Aeneas 好困

【新智元導讀】剛剛，谷歌DeepMind首席科學家Jeff Dean，首席執行官Demis Hassabis兩大佬聯手釋出了2023人工智能領域超權威的谷歌年度研究總結。

Google DeepMind，交卷！

剛剛，Jeff Dean和Hassabis聯手發文，一同回顧了Google Research和Google DeepMind在2023年的全部成果。

谷歌DeepMind聯手！Jeff Dean、Hassabis萬字長文總結2023絕地反擊

這一年開年，比起風靡全球的ChatGPT，谷歌看上去輸慘了。當時，數不清的資本熱錢向着OpenA流去，OpenAI的市值、知名度瞬間飙至前所未有的高度。

4月，陷入被動的谷歌放出終極大殺招：谷歌大腦和DeepMind正式合并！「王不見王」的兩大部門驚人合體，Jeff Dean和Hassabis終于聯手。

5月，谷歌在I/O大會上一雪前恥。全新的PaLM 2反超GPT-4，辦公全家桶炸裂更新，Bard直接史詩級進化。

12月，谷歌深夜放出了複仇殺器Gemini，最強原生多模态直接碾壓了GPT-4。雖然在産品demo上有加工制作的成分，但不可否認，谷歌已經把全世界的多模态研究推至前所未有的高度。

讓我們看一看，谷歌的諸位神人們是怎樣團結在一起，打響23年的複仇之戰的。

産品和技術的進步

這一年，生成式AI正式進入了大爆發。

2月，谷歌緊急推出了Bard，慢于OpenAI兩個月推出了自己的AI聊天機器人。

5月，谷歌在I/O大會上宣布了積累數月和數年的研究和成果，包括語言模型PaLM 2。它整合了計算優化擴充、改進的資料集組合和模型架構，即使在很進階的推理任務中，表現也很出色。

針對不同目的對PaLM 2進行微調和指令調整後，谷歌将其內建到了衆多Google産品和功能中，包括：

1. Bard

現在，Bard能支援40多種語言和230多個國家和地區，在日常使用的Google工具（如Gmail、Google地圖、YouTube）中，都可以使用Bard查找資訊。

2. 搜尋生成體驗（SGE）

它用LLM重新構想如何組織資訊以及如何幫使用者浏覽資訊，為谷歌的核心搜尋産品建立了更流暢的對話式互動模型。

3. MusicLM

這個由AudioLM和MuLAN提供支援的文本到音樂模型，可以從文本、哼唱、圖像或視訊、音樂伴奏、歌曲中制作音樂。

4. Duet AI

Google Workspace中的Duet AI可以幫助使用者創作文字、建立圖像、分析電子表格、起草和總結電子郵件和聊天消息，總結會議等。Google Cloud中的Duet AI可以幫助使用者編寫、部署、擴充和監控應用，以及識别和解決網絡安全威脅。

文章位址：https://blog.google/technology/developers/google-io-2023-100-announcements/

繼去年釋出文本到圖像生成模型Imagen之後，今年6月，谷歌又釋出了Imagen Editor，它提供了使用區域掩碼和自然語言提示編輯生成圖像的功能，進而對模型輸出進行更精确的控制。

随後，谷歌又釋出了Imagen 2，它通過專門的圖像美學模型改進了輸出，這個圖像美學模型參考了人類對良好照明、取景、曝光和清晰度的偏好。

10月，谷歌推出了Google搜尋的一項新功能，幫助使用者練習口語、提高語言技能。

實作這一功能的關鍵技術，就是和谷歌翻譯團隊合作開發的一種全新深度學習模型，名為Deep Aligner。

與基于隐馬爾可夫模型（HMM）的對齊方法相比，這個單一的新模型極大提高了所有測試語言對的對齊品質，将平均對齊錯誤率從25%降低到5%。

11月，谷歌與YouTube合作釋出了Lyria，這是谷歌迄今為止最先進的AI音樂生成模型。

12月，谷歌推出了Gemini，這是谷歌最強大、最通用的AI模型。

從一開始，Gemini就被建構為跨文本、音頻、圖像和視訊的多模态模型。

Gemini有三種不同尺寸，Nano、Pro和Ultra。Nano是最小、最高效的模型，用于為Pixel等産品提供裝置端體驗。Pro模型功能強大，最适合跨任務擴充。Ultra模型是最大、性能最強的模型，适用于高度複雜的任務。

根據Gemini模型的技術報告，Gemini Ultra的性能超過了32個廣泛使用的學術基準中的30個最新結果。

Gemini Ultra的得分為 90.04%，是第一款在MMLU上表現優于人類專家的模型，并在新的MMMU基準測試中獲得了59.4%的最高分。

在AlphaCode的基礎上，谷歌推出了由Gemini的專用版本支援的AlphaCode 2，這是第一個在程式設計競賽中取得中位數水準表現的AI系統。

跟原始AlphaCode相比，AlphaCode 2解決的問題為1.7倍以上，表現要優于85%的參賽者。

同時，Gemini Pro模型的加持讓Bard也獲得了大更新，了解、總結、推理、編碼和計劃能力都大大提高。

在八項基準測試中的六項中，Gemini Pro的表現都優于GPT-3.5，包括LLM的關鍵标準之一MMLU和衡量國小數學推理的GSM8K。

明年初，Gemini Ultra也會引入Bard，屆時必将引發全新的尖端AI體驗。

而且，Gemini Pro也可用于Vertex AI，這是Google Cloud的端到端 AI 平台，使開發人員能夠建構處理文本、代碼、圖像和視訊資訊的應用程式。

應用程式，可以處理文本、代碼、圖像和視訊資訊的應用程式。Gemini Pro 也于 12 月在 AI Studio 中推出。

可以看到，Gemini能夠做到的事情包括但不限于——

解鎖科學文獻中的見解。

擅長競争性程式設計。

處理和了解原始音頻。

Gemini可以回答為什麼這個菜還沒炒熟：因為雞蛋是生的

解釋數學和實體中的推理。

了解使用者意圖，提供定制體驗。

機器學習/人工智能

除了在産品和技術方面的進步外，這一年谷歌也在機器學習和AI研究的更廣泛領域，取得了許多重要進展。

如今最先進的機器學習模型，核心架構便是谷歌研究人員在2017年開發的Transformer架構。

起初，Transformer是為語言而開發的，但如今，它已被證明在計算機視覺、音頻、基因組學、蛋白質折疊等各種領域都有極大作用。

今年谷歌在擴充視覺Transformer方面的工作，在各種視覺任務中都達到了SOTA，還能用于建構功能更強大的機器人。

擴充模型的多功能性，需要執行更高層次和多步驟推理的能力。

今年，谷歌通過幾個研究接近了這個目标。

例如，算法提示（algorithmic prompting）的新方法，通過示範一系列算法步驟來教語言模型推理，然後模型可以将其應用于新的上下文中。

這種方法将中學數學基準的準确率從25.9%提高到了61.1%。

通過提供算法提示，我們可以通過上下文學習來教模型算術規則

在視覺問答領域，谷歌與UC伯克利的研究人員合作，通過将視覺模型與語言模型相結合，使其更好地回答複雜的視覺問題——「馬車在馬的右邊嗎？」

CodeVQA方法的圖示。首先，大語言模型生成一個Python程式，該程式調用表示問題的可視化函數。在此示例中，使用簡單的VQA方法來回答問題的一部分，并使用對象定位器來查找所提及對象的位置。然後，程式通過組合這些函數的輸出來生成原始問題的答案

其中語言模型被訓練為通過合成程式執行多步驟推理，來回答視覺問題。

為了訓練用于軟體開發的大型機器學習模型，谷歌開發了一個名為DIDACT的通用模型。

它了解軟體開發生命周期的方方面面，可以自動生成代碼審查注釋、響應代碼審查注釋、為代碼片段提出性能改進建議、修複代碼以響應編譯錯誤等等。

與谷歌地圖團隊的多年合作中，谷歌擴充了逆強化學習，并将其應用于為超過10億使用者改進路線建議的世界級問題。

使用RHIP逆強化學習政策時，Google地圖相對于現有基準的路線比對率有所改進

這項工作最終使全球路線比對率相對提高了16-24%，確定路線更好地符合使用者偏好。

谷歌也在繼續研究提高機器學習模型推理性能的技術。

在研究神經網絡中剪枝連接配接的計算友好方法時，團隊設計出一種近似算法，來解決計算上難以解決的最佳子集選擇問題，該算法能夠從圖像分類模型中修剪70%的邊緣，并且仍然保留原始模型的幾乎所有精度。

原始網絡與修剪後的網絡

在加速裝置端擴散模型的過程中，谷歌對注意力機制、卷積核和操作融合進行各種優化，以便在裝置上運作高品質的圖像生成模型。

現在隻需12秒，就能在智能手機上生成「被周圍花朵包圍的可愛小狗的逼真高分辨率圖像」。

移動GPU上的LDM的示例輸出，prompt：「一張可愛的小狗的照片逼真的高分辨率圖像，周圍有花朵」

語言和多模态模型的進步，也有利于機器人研究工作。

谷歌将單獨訓練的語言、視覺和機器人控制模型組合成PaLM-E（一種用于機器人的具身多模态模型）和Robotic Transformer 2（RT-2）。

這是一種新穎的視覺-語言-行動（VLA）模型，它從網絡和機器人資料中學習，并将這些知識轉化為機器人控制的通用指令。

RT-2架構和訓練：在機器人和網絡資料上共同微調預訓練的視覺語言模型。生成的模型接收機器人攝像頭圖像，并直接預測機器人要執行的動作

此外，谷歌還研究了使用語言來控制四足機器人的步态。

SayTap使用腳部接觸模式（例如，插圖中每隻腳的0和1序列，其中0表示空中的腳，1表示地面的腳）作為橋接自然語言使用者指令和低級控制指令的接口。通過基于強化學習的運動控制器，SayTap允許四足機器人接受簡單直接的指令（例如，「緩慢向前小跑」）以及模糊的使用者指令（例如，「好消息，我們這個周末要去野餐！」），并做出相應的反應

同時探索了通過使用語言來幫助制定更明确的獎勵函數，以彌合人類語言和機器人動作之間的差距。

語言到獎勵系統由兩個核心元件組成：（1）獎勵翻譯器和（2）運動控制器。Reward Translator将來自使用者的自然語言指令映射到表示為python代碼的獎勵函數。運動控制器使用後退水準優化來優化給定的獎勵函數，以找到最佳的低級機器人動作，例如應施加到每個機器人電機的扭矩量。

由于預訓練資料集中缺乏資料，LLM無法直接生成低級機器人動作。團隊建議使用獎勵函數來彌合語言和低級機器人動作之間的差距，并從自然語言指令中實作新穎的複雜機器人運動

在Barkour中，團隊對四足機器人的靈活性極限進行了基準測試。

幾位狗狗被邀請來參與障礙賽，結果顯示：小型犬能在約10秒内完成障礙賽，機器狗一般要花20秒左右

算法與優化

設計高效、穩健和可擴充的算法始終是谷歌研究的重點。

最為重磅的成果之一，便是打破了十年算法瓶頸的AlphaDev。

它的創新意義在于，AlphaDev并不是通過改進現有算法，而是利用強化學習完全從頭開始發現了更快的算法。

論文位址：https://www.nature.com/articles/s41586-023-06004-9

結果顯示，AlphaDev發現新的排序算法，為LLVM libc++排序庫帶來了明顯的改進。對于較短的序列，速度提高了70%，而對于超過250,000個元素的序列，速度提高了約1.7%。

現在，這個算法已經成為兩個标準C++編碼庫的一部分，每天都會被全球的程式員使用數萬億次。

為了更好地評估大型程式的執行性能，谷歌開發了可以用來預測大型圖（large graphs）特性的全新算法，并配合釋出了全新的資料集TPUGraphs。

TPUGraphs資料集包含4400萬個用于機器學習程式優化的圖

此外，谷歌還提出了一種新的負載均衡算法——Prequal，它能夠在配置設定伺服器查詢時，顯著節約CPU資源、減少響應時間和記憶體使用。

谷歌通過開發新的計算最小割、近似相關聚類和大規模并行圖聚類技術，改進了聚類和圖算法的SOTA。

其中包括，專為擁有萬億條邊的圖設計的新型分層聚類算法TeraHAC；可以同時實作高品質和高可擴充性的文本聚類算法KwikBucks；以及用于近似多嵌入模型标準相似函數Chamfer Distance的高效算法，與高度優化的精确算法相比，該算法的速度提高了50倍以上，并可擴充至數十億個點。

此外，谷歌還對大規模嵌入模型 (LEMs) 了進行優化。

其中包括，統一嵌入 (Unified Embedding)，它在大規模機器學習系統中提供了經過實戰測試的特征表示，以及序列注意力 (Sequential Attention) 機制，它在模型訓練過程中可以發現高效的稀疏模型結構。

科學與社會

在不遠的将來，AI在科學研究中的應用，有望将某些領域的發現速度提升10倍、100倍甚至更多。

進而推動生物工程、材料科學、天氣預測、氣候預報、神經科學、遺傳醫學和醫療保健等衆多領域取得重大突破。

氣候與可持續性

在對飛機尾流 (contrails) 的研究中，谷歌通過分析大量天氣資料、曆史衛星圖像和以往的飛行記錄，訓練了一個能夠預測飛機尾流的形成區域，并據此調整航線的AI模型。結果顯示，這一系統可以将飛機尾流減少54%。

為了幫助抵禦氣候變化帶來的種種挑戰，谷歌一直緻力于開發全新的技術方法。

舉例來說，谷歌的洪水預報服務目前已經覆寫了80個國家，能夠直接影響超過4.6億人口。

此外，谷歌在天氣預測模型的開發上也有了最新的進展。

在MetNet和MetNet-2的基礎上，谷歌打造了更強的MetNet-3，可以在長達24小時的時間範圍内，實作超越傳統數值天氣模拟的效果。

在中期天氣預報領域，全新AI模型GraphCast可在1分鐘内，精準預測10天全球天氣，甚至還可以預測極端天氣事件。

論文位址：https://www.science.org/doi/10.1126/science.adi2336

研究發現，與行業黃金标準天氣模拟系統——高分辨率預報（HRES）相比，GraphCast在1380個測試變量中準确預測超過90%。

而且，GraphCast還能比傳統預報模型更早地識别出惡劣天氣事件——提前3天預測出未來氣旋的潛在路徑。

值得一提的是，GraphCast模型的源代碼已經全部開放，進而讓世界各地的科學家和預報員可以造福全球數十億人。

健康與生命科學

在醫療健康領域，AI展現出了巨大的潛力。

初代Med-PaLM，是第一個通過美國醫學執照考試的AI模型。随後的Med-PaLM 2，又在此基礎上進一步提升了19%，達到了86.5%的專家級準确率。

而最近釋出的多模态Med-PaLM M，不僅可以處理自然語言輸入，而且還能夠解釋醫學圖像、文本資料以及其他多種資料類型。

Med-PaLM M是一個大規模多模态生成模型，它能用相同的模型權重靈活地編碼和解釋生物醫學資料，包括臨床語言、成像和基因組學資料

不僅如此，AI系統還能在現有醫療資料中探索出全新的信号和生物标記。

通過分析視網膜圖像，谷歌證明了可以從眼睛的照片中預測出多個與不同器官系統（如腎髒、血液、肝髒）相關的全新生物标記。

在另一項研究中，谷歌還發現，将視網膜圖像與基因資訊相結合有助于揭示一些與衰老相關的根本因素。

在基因組學領域，谷歌與60家機構的119位科學家合作，繪制出了新的人類基因組圖譜。

并且，在開創性的AlphaFold基礎上，為所有7100萬個可能的錯義變體中的89%，提供了預測目錄。

此外，谷歌還釋出了AlphaFold最新進展——「AlphaFold-latest」，它可以對蛋白質資料庫（PDB）中幾乎所有分子，進行原子級精确的結構預測。

這一進展不僅深化了我們對生物分子的了解，而且還大幅提升了在配體（小分子）、蛋白質、核酸（DNA和RNA）以及含有翻譯後修飾（PTMs）的生物大分子等多個重要領域的準确性。

量子計算

量子計算機具有解決科學和工業領域重大現實問題的潛力。

但要實作這一潛力，量子計算機的規模必須比現在大得多，而且必須能夠可靠地執行經典計算機無法執行的任務。

為了保證量子計算的可靠性，還需要将它的錯誤率從現在的10^3分之一降低到10^8分之一。

今年，谷歌在開發大型實用量子計算機的道路上邁出了重要一步——有史以來首次通過增加量子比特來降低計算錯誤率。

負責任的AI

生成式AI正在醫療、教育、安全、能源、交通、制造和娛樂等衆多領域帶來革命性的影響。

面對這些飛躍的發展，確定技術設計符合谷歌的AI原則依然是首要任務。

讓AI普及

在不斷推進機器學習和人工智能的最新技術的同時，谷歌也緻力于幫助人們了解并将AI應用于特定問題。

為此，谷歌推出了基于網頁的平台Google AI Studio，幫助開發者打造并疊代輕量級的AI應用。

同時，為了幫助AI工程師能夠更深入地了解和調試AI，谷歌還推出了最先進的開源機器學習模型調試工具——LIT 1.0。

作為谷歌最受歡迎的工具之一，Colab可以讓開發者和學生直接在浏覽器中通路強大的計算資源，目前已擁有超過1000萬使用者。

前段時間，谷歌又在Colab中加入了AI代碼輔助功能，讓所有的使用者都夠在資料分析和機器學習工作流中，擁有更加便捷和一體化的體驗。

就在最近，谷歌為了確定AI能夠在實際應用中提供正确無誤的資訊，創新性地推出了FunSearch方法。

通過進化算法和大語言模型的結合，FunSearch能夠在數學科學領域生成經過驗證的真實知識。

具體來說，FunSearch将預訓練的LLM與自動「評估器」配對使用。前者的目标是以計算機代碼的形式提供創造性的解決方案，後者則防止幻覺和錯誤的想法。在這兩個元件之間反複疊代之後，初始的解決方案便會「進化」為新知識。

論文位址：https://www.nature.com/articles/s41586-023-06924-6

社群參與

通過發表研究成果、參與群組織學術會議，谷歌正在持續推動AI和計算機科學的發展。

今年，谷歌已發表了500多篇論文。其中，有不少都被收錄在了包括ICML、ICLR、NeurIPS、ICCV、CVPR、ACL、CHI和Interspeech等衆多頂會之中。

此外，谷歌還聯合33個學術實驗室，通過彙總來自22種不同機器人類型的資料，建立了Open X-Embodiment資料集和RT-X模型。

谷歌在MLCommons标準組織的支援下，帶頭在行業内推動AI安全基準的建立，參與者包括 OpenAI、Anthropic、Microsoft、Meta、Hugging Face等在生成式AI領域舉足輕重的機構。

展望未來

随着多模态模型（multimodal models）的不斷進步，它們将助力人類在科學、教育乃全新的知識領域取得驚人的成就。

随着時間的推進，谷歌的産品和研究也不斷進步，而人們也将會找到更多富有創意的AI應用方式。

在這篇年終總結的最後，讓我們回到開頭的話題，正如谷歌在「Why We Focus on AI (and to what end)」中所言：

「如果大膽而負責地推進AI的發展，我們相信AI能夠成為一項基礎技術，徹底改變全世界人的生活——這正是我們追求的目标，也是我們的激情所在！」

參考資料：

https://blog.research.google/2023/12/2023-year-of-groundbreaking-advances-in.html