比人類算法快70%！谷歌DeepMind用AI改進資料排序，登上Nature

智東西

編譯 | 程茜

編輯 | 心緣

智東西6月8日消息，昨晚，人工智能研究實驗室Google DeepMind釋出三大AI工具AlphaZero、MuZero、AlphaDev，這些工具可以提高資料中心資源使用率、提升視訊壓縮效率、發現更快算法，進而優化整個計算生态系統。

昨天，AlphaDev的相關進展已經登上國際學術頂刊Nature。AlphaZero的專用版本AlphaDev還發現了新算法，可以将短元素序列的排序效率提高70%。

現在，AlphaDev的新排序算法已釋出到C++庫中。Google DeepMind的部落格稱，這是十多年來排序庫算法的第一次變化，也是第一次将通過強化學習設計的算法添加到該庫中。雜湊演算法也已經釋出到開源Abseil庫中。

C++庫開源連結：https://reviews.llvm.org/D118029

論文連結：https://www.nature.com/articles/s41586-023-06004-9

Google DeepMind正在努力建立對世界具有廣泛了解的AI工具來優化計算生态系統，作為建構更加強大和通用人工智能系統的一部分。

研究人員還在擴充基于強化學習的谷歌AI模型AlphaZero、MuZero的能力，用來幫助優化資料中心的視訊壓縮，使得資料中心未充分利用的硬體數量減少19%，以及在不損失視訊品質的同時，進一步降低比特率。

這些工具目前實作了整個計算生态系統中效率的提升，但這些結果也證明了未來更通用的人工智能工具具有變革的潛力。

一、AlphaDev：排序效率提升70%、檢索效率提升30%，數百萬開發人員已應用

此前，Google DeepMind開發了一個用于玩圍棋遊戲的AI系統AlphaZero，現在研究人員将這一系統應用到了建構算法排序中打造了AlphaDev，其結果顯示，AlphaDev建立的算法在轉換為标準程式設計語言C++時，排序資料的速度是人類生成版本的三倍。

“我們有點震驚。”上司這項工作的Google DeepMind計算機科學家Daniel Mankowitz說，“起初我們不相信（這個結果）。”

AlphaDev可以被用于快速排序（faster sorting）和雜湊演算法（hashing algorithms），這兩種算法每天會被使用數萬億次來對資料進行排序、存儲、檢索。

1、下象棋到找算法，短元素排序效率提高70%

排序算法會影響所有數字裝置處理和顯示資訊的方式，包括一些線上搜尋結果的呈現、社交媒體上文章的排名以及一些使用者推薦内容。

AlphaDev研發了一種可以提升排序效率的算法，并且該算法與C++庫中人類設計的算法相比可以将短元素序列的排序效率提高70%，将超過25萬個元素的序列排序效率提高約1.7%。這也使得當使用者送出搜尋查詢時，AlphaDev的算法可以快速對結果進行排序，以更快找到與使用者搜尋相關度高的答案。

剛開始，研究人員将AlphaDev應用于按大小對數字進行排序的任務，剛開始隻是讓其一次對3、4、5個數字進行排序，這對于後續讓其進行較多數字排序很重要。

對兩個數字進行排序

AlphaDev的工作方式與AlphaZero類似，後者結合了計算機版本的深思熟慮和直覺來選擇棋盤遊戲中的動作。AlphaDev則不會選擇動作，它會選擇指令添加到一個過程中。

AlphaDev通過從頭開始而不是改進現有算法來發現更快的算法，并且它會關注計算機的彙編指令。彙編指令用于為計算機建立二進制代碼以執行操作，Google DeepMind的研究人員認為，在這個較低層次上會有很多可以改進的地方。

在建構算法時，AlphaDev會通過将算法的輸出與預期結果進行比較來檢查它是否正确。對于排序算法，這意味着無序數字進入，正确排序的數字出來。研究人員會獎勵AlphaDev對數字的正确排序以及排序的速度和效率。

2、資料存儲節省近70%時間，算法已經開源

Google DeepMind團隊還将AlphaDev應用于非排序算法，它用于将特定格式存儲的資料轉換為位元組的算法版本比标準版本少用了67%的時間，用于資料存儲和檢索的雜湊演算法比标準算法花費的時間少30%。

散列資訊算法通常用于在資料庫中進行存儲和檢索。雜湊演算法通常使用一個關鍵詞來生成一個對應的唯一散列，這一散列就會對應于需要檢索的資料值，如輸入關鍵詞使用者名“Jane Doe”，會生成檢索對應的“訂單号164335-87”。

一個較為相似的場景是，圖書管理者通過分類系統來快速查找特定書籍，計算機借助雜湊演算法，就可以快速了解它要找什麼以及在哪裡能找到。

輸入關鍵詞檢索對應資料值

當應用于資料中心9-16位元組範圍的雜湊演算法時，AlphaDev的算法能将檢索效率提升30%。

去年1月，Google DeepMind的研究人員在LLVM項目的C++标準庫中釋出了基于機器學習的排序算法，在Abseil庫釋出了雜湊演算法，目前，已經有雲計算、線上購物、供應鍊管理等行業的數百萬開發人員和公司正在應用這些算法。

二、AlphaZero：優化資料中心資源，硬體充分使用率提高19%

資料中心需要管理從提供搜尋結果到處理資料集的一切任務。谷歌大規模叢集管理系統Borg管理着谷歌的數十億個任務，同時這一系統還要去配置設定工作負載來優化資料中心的内部基礎設施，并處理谷歌搜尋等使用者使用的服務，管理批處理。

配置設定工作負載這一過程就像Borg在玩俄羅斯方塊，如何在有限的空間内，最大程度地放置更多的方塊，把空餘的位置都利用起來。

将配置設定工作負載比喻為俄羅斯方塊遊戲

此前，Borg需要使用手動編碼的規則來安排任務，優化工作負載。但面對龐大如數十億個任務的規模時，這些手動編碼的規則無法考慮不斷變化的工作負載分布的多樣性，是以它們被設計為“最适合所有人的一種尺寸”，也就是選擇了一個中間值。

在這一場景下，AlphaZero就派上了用場，其建構的算法能夠自動建立單獨的最佳定制規則，這些規則使得Borg在配置設定工作負載時更加高效，能找到适合不同任務的規則。

研究人員在實驗期間發現，AlphaZero還能識别進入資料中心的任務的模式，以及預測管理容量的最佳方法，并做出具有最佳長期結果的決策。

當AlphaZero應用于Borg時，研究人員的實驗表明，這種方法可以将未充分利用的硬體數量減少多達19%，優化谷歌資料中心的資源使用率。

三、MuZero：編碼視訊圖檔組，壓縮比特率降低4%

在網際網路中，視訊流會占據其流量的相當大一部分，是以，如果能提升視訊傳輸的效率，将會對每天觀看視訊的數百萬人産生巨大影響。

去年，Google DeepMind與視訊網站YouTube合作，通過MuZero來壓縮和傳輸視訊，其結果顯示，這一工具能在不影響視訊品質的情況下将比特率降低4%。

早期，研究人員将MuZero應用于優化視訊中每個單獨幀的壓縮，現在，他們将其擴充至決定在編碼過程中如何對幀進行分組和引用。

最開始，MuZero會定義要壓縮的GOP（group of pictures，圖檔組）幀，然後根據圖檔的視覺相似性進行分組。MuZero會将其中一個圖檔組的關鍵幀進行壓縮，再參考關鍵幀去壓縮其它幀，在這一過程中，該算法會通過塊搜尋（block search）來查找圖檔中變化最小的區域，使得壓縮效果更好還能保證視訊品質。

MuZero壓縮圖檔組

最後，一組圖檔組壓縮完成後，MuZero再按照同樣的步驟完成視訊其它部分圖檔組的壓縮。

這些研究的早期結果表明MuZero有潛力成為一個更通用的工具，幫助研究人員在視訊壓縮過程中找到最佳解決方案。

結語：通用人工智能工具的變革潛力已經凸顯

當下，Google DeepMind的AI工具正在使得數十億使用者在使用計算機的過程中節省時間和精力，包括從玩遊戲到解決每台計算機裝置核心的複雜工程問題。研究人員認為，這僅僅是個開始。

未來，越來越多的通用人工智能工具或許可以優化為數字世界提供動力的整個計算生态系統，但與此同時，支援這些工具背後的數字基礎設施需要更快、更高效、更可持續。是以，這一願景的實作需要更多理論和技術上的突破。

不可否認的是，通用人工智能工具的變革潛力已經顯現出來，并且研究人員已經開始考慮将其應用于技術、科學和醫學等領域。