Jeff Dean長文展望：2021年之後，機器學習領域的五大潛力趨勢

機器之心報道

編輯：杜偉、蛋醬

2021 年之後，機器學習将會對哪些領域産生前所未有的影響？

在過去的數年，見證了機器學習（ML）和計算機科學領域的許多變化。按照這種長弧形的進步模式，人們或許将在接下來的幾年中看到許多令人興奮的進展，這些進步最終将造福數十億人的生活，并産生比以往更深遠的影響。

在一篇總結文章中，谷歌 AI 負責人、知名學者 Jeff Dean 重點介紹了 2021 年之後機器學習最具潛力的五個領域：

趨勢 1：能力、通用性更強的機器學習模型
趨勢 2：機器學習持續的效率提升
趨勢 3：機器學習變得更個性化，對社群也更有益
趨勢 4：機器學習對科學、健康和可持續發展的影響越來越大
趨勢 5：對機器學習更深入和更廣泛的了解

文章具體内容如下：

研究人員正在訓練比以往任何時候規模更大、能力更強的機器學習模型。過去幾年，語言領域已經從數百億 token 資料上訓練的數十億參數模型（如 110 億參數的 T5 模型），發展到了在數萬億 token 資料上訓練的數千億或萬億參數模型（如 OpenAI 1750 億參數的 GPT-3 和 DeepMind 2800 億參數的 Gopher 等密集模型和谷歌 6000 億參數的 GShard 和 1.2 萬億參數的 GLaM 等稀疏模型）。資料集和模型規模的增長帶來了多種語言任務上準确率的顯著提升，并通過标準 NLP 基準任務上的全面改進證明了這一點。

這些先進的模型中有很多都聚焦于單一但重要的書面語言形态上，并在語言了解基準和開放式會話能力中展現出了 SOTA 結果，即使跨同一領域多個任務也是如此。同時，這些模型在訓練資料相對較少時也有能力泛化至新的語言任務，在某些情況下，對于新任務需要極少甚至不需要訓練樣本。

與谷歌對話應用語言模型 LaMDA 模拟威德爾氏海豹（weddell seal）時的對話。

Transformer 模型也對圖像、視訊和語音模型産生了重大影響，所有這些都從規模中獲益頗多。用于圖像識别和視訊分類的 Transformer 模型在很多基準上實作了 SOTA，我們也證明了在圖像和視訊資料上協同訓練模型可以獲得較單獨在視訊資料上訓練模型更高的性能。

我們開發了用于圖像和視訊 Transformer 的稀疏、軸性注意力機制，為視覺 Transformer 模型找到了更好的标記化圖像方法，并通過檢查視覺 Transformer 方法相較于 CNN 的操作原理來提升對它們的了解。卷積操作與 Transformer 模型的結合也在視覺和語音識别任務中大有裨益。

生成模型的輸出也大幅提升。這在圖像生成模型中最為明顯，并在過去幾年取得了顯著進步。例如，最近的模型有能力在僅給出一個類别的情況下建立真實圖像，可以填充一個低分辨率圖像以建立看起來自然的高分辨率對應物，甚至還可以建立任意長度的空中自然景觀。

基于給定類生成全新圖像的 cascade 擴散模型示意圖。

除了先進的單模态模型之外，大規模多模态模型也在發展中。其中一些最先進的多模态模型可以接受語言、圖像、語言和視訊等多種不同的輸入模态，産生不同的輸出模态。這是一個令人興奮的方向，就像真實世界一樣，有些東西在多模态資料中更容易學習。

同樣地，圖像和文本配對有助于多語種檢索任務，并且更好地了解如何配對文本和圖像輸入可以提升圖像描述任務。視覺和文本資料上的協同訓練有助于提升視覺分類任務的準确率和穩健性，同時圖像、視訊和語音任務上的聯合訓練能夠提升所有模态的泛化性能。

谷歌機器人團隊（Robotics at Google）基于視覺的機器人作業系統的示意圖，該系統可以泛化至全新任務。

所有這些趨勢都指向了訓練能力更強的通用性模型，這些模型可以處理多種資料模态并解決數千甚至數萬個任務。在接下來的幾年，我們将通過下一代架構 Pathways 來追求這一願景，并期望在該領域看到實質性進展。

Pathways 我們正在努力建構能夠在數百萬個任務中實作泛化的單一模型。

效率的提升源自計算機硬體設計和機器學習算法、元學習研究的進步，并正在推動機器學習模型更強大的功能。機器學習 pipeline 的很多方面，從訓練和執行模型的硬體到機器學習架構的各個元件，這些都可以進行效率優化，同時保持或提升整體性能。更高的效率促成了大量關鍵性進步，這些進步将繼續顯著提升機器學習的效率，使更大、更高品質的機器學習模型能夠在保持成本效益的前提下開發，并進一步促進大衆化。

一是機器學習加速性能的持續提升。每一代機器學習加速器都較前代更強，實作了更快的每晶片性能，并常常增加整體系統的規模。2021 年，我們推出了谷歌第四代張量處理器 TPUv4，在 MLPerf 基準上顯示出較 TPUv3 2.7 倍的提升。移動裝置上的機器學習能力也在顯著提升。Pixel 6 手機配有全新的谷歌張量處理器（Google Tensor processor ），該處理器內建了一個強大的機器學習加速器，以支援重要的裝置上功能。

左：TPUv4 闆；中：TPUv4 艙；右：Pixel 6 手機采用的谷歌張量晶片。

二是機器學習編譯和機器學習工作負載優化的持續提升。即使當硬體無法改變時，編譯器的改進以及機器學習加速器的其他系統軟體優化也可以實作效率的顯著提升。

在 150 個機器學習模型上使用基于 ML 的編譯器進行自動調優，可以實作端到端模型加速。

三是人類創造力驅動的更高效模型架構的發現。模型架構的持續改進大幅度減少了在很多問題上實作一定準确率水準所需的計算量。例如，在使用計算量比 CNN 少 4 至 10 倍的情況下，Vision Transformer 能夠在大量不同的圖像分類任務上提升 SOTA 結果。

四是機器驅動的更高效模型架構的發現。神經架構搜尋（NAS）可以自動發現新的機器學習架構，這些架構對于給定的問題域更加高效。神經架構搜尋的主要優勢是可以顯著減少算法開發所需的努力，這是因為它對每個搜尋空間和問題域組合隻需要一次努力（one-time effort）。

此外，雖然執行神經架構搜尋的初始努力需要很高的計算成本，但生成的模型可以極大地減少下遊研究和生産設定中的計算量，進而減少整體資源需求。

神經架構搜尋發現的 Primer 架構，效率是 plain Transformer 模型的 4 倍。

五是稀疏性的使用。所謂稀疏性，即模型具有非常大的容量，但隻有一部分針對給定的任務、示例或 token 而被激活。稀疏性是另一個重大的算法進步，可以極大地提升效率。

2017 年，我們提出了稀疏門混合專家層（sparsely-gated mixture-of-experts layers），使用計算量比當時 SOTA 密集 LSTM 模型少 10 倍時在多個翻譯基準上實作更好結果。還有最近的 Swin Transformer，将混合專家風格的架構與 Transformer 模型架構結合，結果顯示訓練時間和效率均實作了較密集 T5-Base Transformer 模型 7 倍的加速。稀疏性概念還可以用來降低核心 Transformer 架構中注意力機制的成本。

谷歌研究院提出的 BigBird 稀疏注意力模型由處理輸入序列所有部分的全局 token、局部 token 和一系列随機 token 組成。

随着機器學習和矽硬體（如谷歌 Pixel 6 上的谷歌張量處理器）的創新，許多新體驗成為了可能，使移動裝置更有能力持續有效地感覺周圍的背景和環境。這些進步提升了可通路性和易用性，同時也增強了計算能力，對于移動攝影、實時翻譯等功能至關重要。值得注意的是，最近的技術進步還為使用者提供了更加個性化的體驗，同時加強了隐私保護。

可以看到，更多的人比以往任何時候都要依靠手機攝像頭來記錄他們的日常生活并進行藝術表達。機器學習在計算攝影中的巧妙應用不斷提升了手機攝像頭的功能，使其更易于使用、性能更強并生成更高品質的圖像。

例如，改進的 HDR+、在極低光下拍照的能力、更好地人像處理能力、以及适用于所有膚色的更具包容性的相機，所有這些進步都使使用者可以拍攝出更好的照片。使用 Google Photos 中現在提供的基于 ML 的強大工具，如電影照片（Cinematic Photo）等，進一步提高了照片拍攝效果。

HDR + 從一組全分辨率的原始圖像開始，每張都有相同的曝光度（圖左）；合并後的圖像減少了噪聲，增加了動态範圍，進而得到更高品質的最終圖像（圖右）。

除了使用手機進行創意表達外，許多人還依靠手機來與他人實時溝通，使用消息應用中的 Live Translate 和 Live Caption 進行電話通話。

得益于自監督學習和嘈雜學生訓練等技術，語音識别的準确性繼續提升，在重音、嘈雜條件或重疊語音的環境以及多語言任務中都有顯著改善。基于文本到語音合成的進步，人們可以在越來越多的平台上使用谷歌 Read Aloud 服務收聽網頁和文章，進而使資訊更容易跨越形态和語言的障礙。

最近一項研究表明，注視識别能力是精神疲勞的一個重要生物标記。（https://www.nature.com/articles/s41746-021-00415-6）

鑒于這些新功能背後的資料具有潛在的敏感性，是以必須将它們預設設計為私有的。它們中的許多都在安卓私有計算核心内（Private Compute Core）運作，這是一個與作業系統其餘部分隔離的開源安全環境。安卓確定私有計算核心中處理的資料不會在使用者未采取操作的情況下共享給任何應用。

安卓還阻止私有計算核心内的任何功能直接通路網絡。相反，功能通過一小組開源 API 與私有計算服務（Private Compute Services）進行通信，後者消除識别資訊并利用聯邦學習、聯邦分析和私有資訊檢索等隐私技術，在確定隐私的同時實作學習。

聯邦重構是一種全新的局部聯邦學習技術，它将模型劃分為全局和局部參數。

近年來，從實體學到生物學，機器學習在基礎科學中的影響越來越大，并在相關領域（例如可再生能源和醫學）實作了許多優秀的實際應用。例如，計算機視覺模型正在被用來解決個人和全球範圍内的問題，它們可以協助醫生展開日常工作，擴充人們對神經生理學的了解，還可以提供更精準的天氣預報，可以簡化救災工作。通過發現減少排放和提高替代能源輸出的方法，其他類型的機器學習模型被證明在應對氣候變化方面至關重要。随着機器學習變得更加穩健、成熟且可廣泛使用，這樣的模型甚至可以用作藝術家的創作工具。

計算機視覺的大規模應用以獲得新的洞察力

過去十年計算機視覺的進步使計算機能夠用于不同科學領域的各種任務。在神經科學中，自動重建技術可以從腦組織薄片的高分辨率電子顯微鏡圖像中恢複腦組織的神經結締結構。

前幾年，谷歌合作為果蠅、小鼠和鳴禽的大腦建立了此類資源；去年，谷歌與哈佛大學的 Lichtman 實驗室合作，分析了重建的最大腦組織樣本，以及任何物種中的這種細緻程度成像，并生成了跨越皮層所有層的多種細胞類型的人類皮層突觸連接配接的第一次大規模研究。這項工作的目标是生成一種新的資源，幫助神經科學家研究人類大腦的驚人複雜性。例如，下圖顯示了成人大腦中約 860 億個神經元中的 6 個神經元

來自谷歌人類皮層重建的單個人類枝形吊燈神經元，以及與該細胞連接配接的一些錐體神經元。

計算機視覺技術還提供了強大的工具來應對更大甚至全球範圍内的挑戰。一種基于深度學習的天氣預報方法使用衛星和雷達圖像作為輸入，并結合其他大氣資料，在長達 12 小時的預測時間内産生比傳統的基于實體的模型更準确的天氣和降水預測。與傳統方法相比，它們還可以更快地生成更新的預測，這在極端天氣出現時非常重要。

這些案例的一個共同主題是，機器學習模型能夠基于對可用視覺資料的分析，高效、準确地執行專門的任務，支援下遊任務。

自動化設計空間探索

另一種在許多領域産生出色結果的方法是允許機器學習算法以自動化方式探索和評估問題的設計空間，以尋找可能的解決方案。在一個應用程式中，基于 Transformer 的變分自動編碼器學習能夠建立美觀且有用的文檔布局，并且可以擴充相同的方法來探索可能的空間布局。

另一種機器學習驅動的方法能夠自動探索計算機遊戲規則調整的設計空間，提高遊戲的可玩性和其他屬性，使人類遊戲設計師能夠更快地建立更好的遊戲。

VTN 模型的可視化。它能夠提取布局元素（段落、表格、圖像等）之間的有意義的聯系，以生成逼真的合成文檔（例如，具有更好的對齊和邊距）。

還有其他機器學習算法已被用于評估機器學習加速器晶片本身的計算機架構決策的設計空間。機器學習可用于為 ASIC 設計快速建立晶片布局，這些布局優于人類專家生成的布局，并且可以在幾小時而不是幾周内生成。這降低了晶片的固定工程成本，并減少了為不同應用快速建立專用硬體的阻礙。谷歌在即将推出的 TPU-v5 晶片的設計中成功地使用了這種方法。

這種探索性的機器學習方法也已應用于材料發現。在谷歌研究院和加州理工學院的合作中，幾個機器學習模型與改進後的噴墨列印機和定制顯微鏡相結合，能夠快速搜尋數十萬種可能的材料。

這些自動化設計空間探索方法可以幫助加速許多科學領域，特别是當生成實驗和評估結果的整個實驗循環都能以自動化或大部分自動化的方式完成時。這種方法也許會在未來幾年在更多領域中發揮良好的效果。

健康應用

除了推進基礎科學，機器學習還可以更廣泛地推動醫學和人類健康的進步。利用計算機科學在健康方面的進步并不是什麼新鮮事，但是機器學習打開了新的大門，帶來了新的機會，也帶來了新的挑戰。

以基因組學領域為例。自基因組學問世以來，計算一直很重要，但機器學習增加了新功能并破壞了舊範式。當谷歌的研究人員開始在這一領域工作時，許多專家認為使用深度學習幫助從測序儀輸出推斷遺傳變異的想法是牽強附會的。而在今天，這種機器學習方法被認為是最先進的。

未來機器學習将扮演更重要的角色，基因組學公司正在開發更準确、更快的新測序儀器，但也帶來了新的推理挑戰。谷歌釋出了開源軟體 DeepConsensus，并與 UCSC 、PEPPER-DeepVariant 合作，支援這些前沿資訊學的新儀器，希望更快速的測序能夠帶來對患者産生影響的适用性。

除了處理測序儀資料之外，還有其他機會使用機器學習來加速将基因組資訊用于個性化健康的過程。廣泛表型和測序個體的大型生物庫可以徹底改變人類了解和管理疾病遺傳易感性的方式。谷歌基于機器學習的表型分析方法提高了将大型成像和文本資料集轉換為可用于遺傳關聯研究的表型的可擴充性，DeepNull 方法更好地利用大型表型資料進行遺傳發現。這兩種方法均已開源。

生成解剖和疾病特征的大規模量化以與生物庫中的基因組資料相結合的過程。

正如機器學習幫助我們看到基因組資料的隐藏特征一樣，它也可以幫助我們發現新資訊并從其他健康資料類型中收集新見解。疾病診斷通常是關于識别模式、量化相關性或識别更大類别的新執行個體，這些都是機器學習擅長的任務。

谷歌研究人員已經使用機器學習解決了廣泛的此類問題，但機器學習在醫學成像中的應用更進一步：谷歌 2016 年介紹深度學習在糖尿病性視網膜病變篩查中應用的論文，被美國醫學會雜志 (JAMA) 的編輯選為十年來最具影響力的 10 篇論文之一。

另一個雄心勃勃的醫療保健計劃 Care Studio 使用最先進的 ML 和先進的 NLP 技術來分析結構化資料和醫療記錄，在正确的時間向臨床醫生提供最相關的資訊——最終幫助他們提供更積極、更準确的護理。

盡管機器學習可能對擴大臨床環境的可及性和提高準确性很重要，但一個同樣重要的新趨勢正在出現：機器學習應用于幫助人們提高日常健康和福祉。人們日常裝置逐漸擁有強大的傳感器，幫助健康名額和資訊民主化，人們可以就自己的健康做出更明智的決定。我們已經看到了智能手機攝像頭已經能評估心率和呼吸頻率以幫助使用者，甚至無需額外硬體，以及支援非接觸式睡眠感應的 Nest Hub 裝置讓使用者更好地了解他們的夜間健康狀況。

我們已經看到，一方面，我們在自己的 ASR 系統中可以顯著提高無序語音的語音識别品質，另一方面，使用 ML 幫助重建有語言障礙的人的聲音，使他們能夠用自己的聲音進行交流。支援機器學習的智能手機，将幫助人們更好地研究新出現的皮膚狀況或幫助視力有限的人慢跑。這些機會提供了一個光明的未來，不容忽視。

用于非接觸式睡眠感應的自定義 ML 模型有效地處理連續的 3D 雷達張量流（總結一系列距離、頻率和時間的活動），以自動計算使用者存在和清醒（清醒或睡着）的可能性的機率。

氣候危機的機器學習應用

另一個最重要的領域是氣候變化，這對人類來說是一個極其緊迫的威脅。我們需要共同努力，扭轉有害排放的曲線，確定一個安全和繁榮的未來。關于不同選擇對氣候影響的資訊，可以幫助我們以多種不同方式應對這一挑戰。

借助環保路線，Google 地圖将顯示最快的路線和最省油的路線，使用者可以選擇最适合的路線。

Google 地圖中的野火層可在緊急情況下為人們提供重要的最新資訊。

随着 ML 在技術産品和社會中更廣泛地使用，我們必須繼續開發新技術以確定公平公正地應用它，造福于所有人，而不隻是其中一部分。

一個重點領域是基于線上産品中使用者活動的推薦系統。由于這些推薦系統通常由多個不同的元件組成，是以了解它們的公平性通常需要深入了解各個元件以及各個元件組合在一起時的行為方式。

與推薦系統一樣，上下文在機器翻譯中很重要。由于大多數機器翻譯系統都是孤立地翻譯單個句子，沒有額外的上下文，它們通常會加強與性别、年齡或其他領域相關的偏見。為了解決其中一些問題，谷歌在減少翻譯系統中的性别偏見方面進行了長期的研究。

部署機器學習模型的另一個常見問題是分布偏移：如果用于訓練模型的資料的統計分布與作為輸入的模型的資料的統計分布不同，則模型的行為有時可能是不可預測的。

資料收集和資料集管理也是一個重要的領域，因為用于訓練機器學習模型的資料可能是下遊應用程式中偏見和公平問題的潛在來源。分析機器學習中的此類資料級聯有助于識别機器學習項目生命周期中可能對結果産生重大影響的許多地方。這項關于資料級聯的研究在針對機器學習開發人員和設計人員的修訂版 PAIR Guidebook 中為資料收集和評估提供了證據支援的指南。

不同顔色的箭頭表示各種類型的資料級聯，每個級聯通常起源于上遊，在機器學習開發過程中複合，并在下遊表現出來。

建立更具包容性和更少偏見的公共資料集是幫助改善每個人的機器學習領域的重要方法。

2016 年，谷歌釋出了 Open Images 資料集，該資料集包含約 900 萬張圖像，标注了涵蓋數千個對象類别的圖像标簽和 600 個類别的邊界框注釋。去年，谷歌在 Open Images Extended 集合中引入了更具包容性的人物注釋 (MIAP) 資料集。該集合包含更完整的針對人類層次結構的邊界框注釋，并且每個注釋都标有與公平相關的屬性，包括感覺的性别表示和感覺的年齡範圍。

此外，随着機器學習模型變得更有能力并在許多領域産生影響，保護機器學習中使用的私人資訊仍然是研究的重點。沿着這些思路，我們最近的一些工作解決了大型模型中的隐私問題，既能從大型模型中提取訓練資料，又指出如何在大型模型中包含隐私。除了聯邦學習和分析方面的工作之外，谷歌還一直在使用其他有原則和實用的機器學習技術來強化工具箱。

Jeff Dean長文展望：2021年之後，機器學習領域的五大潛力趨勢

繼續閱讀

昨天開車回家，在一路口讓交警攔下，拿出個機器說:吹。于是我就吹:我家趁一個億，500多套房子，仨路虎，六個蘭博基尼，八個

這幾天話題“金粉社群”展現量就挺高，但是閱讀量不行。主要原因還是文字枯燥，乏味沒人閱讀。如果有人閱讀展現量和閱讀量都會上

20220211肉蠻多新聞【轉】【30隻股獲集中調研容百科技最受關注你看好誰？】今年以來，A股市場畫風突變，賽道股回調，

20220211肉蠻多新聞【轉】【撬動數萬億元！今年水利投資有望持續加碼帶來哪些A股機會？】記者從水利部獲悉，今年水利建

視訊剪輯課，一周700單，純利20萬。知識付費賽道，還大有可為。歡迎同領域個體戶，私聊報團！

物聯網的感覺能力，如何為智能機器人和無接觸測溫終端賦能

掃地機器人水位檢測介紹

旗艦掃拖洗烘機器人的對決，追覓W10 Pro與雲鲸J2如何選擇

聚焦機器人應用場景，iRobot Show智能機器人應用專區誠邀莅臨

機器學習獲得了量子加速

圖集｜“深圳藍”重制天際，“機器狗”也出來曬太陽了

此舉将進一步加強自身的實力！AMD預計将在下周之前完成對賽靈思（Xilinx）的收購！AMD宣布其收購可程式設計邏輯器件供應

有人說，頭條的作品稽核是機器人操作的，它不知道創作者釋出的作品是優質，讓人凝質？你認為呢？[祈禱]

新聞早知道丨工信部：推進廢舊動力電池在備電、充換電等領域安全

冬奧會上的智能機器人

楊瀾容姿曼妙，光彩照人，是一個氣質優雅、晶瑩剔透、睿智達觀、幾十年難一遇的知性大美女、大才女，相信這一點，大家有同感。楊