天天看點

在機器學習領域的華山論劍中,Google 打敗了英偉達

雷鋒網消息,2019 年 7 月 11 日,Google 宣布旗下的 Google Cloud Platform(GCP)在最新一輪的 MLPerf 基準競賽中創造了三個新的表現記錄,這三個記錄都是基于 Cloud TPU v3 Pod 實作的。

Google 表示,利用 Cloud TPU Pod 的強大速度,這三個記錄用了不到兩分鐘的計算時間就得以完成。

MLPerf:機器學習領域的華山論劍

MLPerf 是 2018 年 5 月由 Google、百度、Intel、AMD、哈佛大學和斯坦福大學等企業和學術機構聯合釋出的一款基準測試工具,它的用處是用來測量機器學習軟體和硬體的執行速度,獲得了吳恩達和 Google 機器學習負責人 Jeff Dean 的強烈推薦。

在機器學習領域的華山論劍中,Google 打敗了英偉達

針對 MLPerf 的釋出,吳恩達聲明稱:

AI 正在給各個行業帶來改變,但為了充分這項技術的真正潛力,我們仍然需要更快的硬體與軟體……我們當然希望獲得更強大的資源平台,而基準測試方案的标準化程序将幫助 AI 技術開發人員創造出此類産品,進而幫助采用者更明智地選擇适合需求的 AI 選項。

Jeff Dean 也在 Twitter 上表示,Google 很高興與衆多大學和企業一起,成為緻力于将 MLPerf 作為衡量機器學習性能的通用标準的組織之一。

MLPerf 項目的主要目标包括:

通過公平且實用的衡量标準加快機器學習發展程序。對各競争系統進行公平比較,同時鼓勵創新以改善業界領先的機器學習技術。保持基準測試的成本合理性,允許所有人參與其中。為商業及研究社群提供服務。提供可重複且可靠的測試結果。

在具體的測試項目上,MLPerf 覆寫了視覺、語言、商業和通用四大領域,包含七項基準測試方案。每個 MLPerf 訓練基準測試的度量标準是:在特定資料集上訓練一個模型使其達到特定性能的總體時間。衆所周知,機器學習任務的訓練時間有很大差異,是以,MLPerf 的最終訓練結果是由指定次數的基準測試時間平均得出的,其中會去掉最低和最高的數字。

MLPerf 的結果根據專區和給定的産品或平台進行分類,目前有兩種專區,即封閉專區(Closed Division)和開放專區(Open Division)。其中封閉專區會指定使用的模型,并限制批量大小或學習率等超參數的值,它對于對比硬體和軟體系統非常公平。

英偉達成為第一回合最大赢家

2018 年 12 月 12 日,支援 MLPerf 的研究者和工程師們公布了第一個回合的競賽結果,其中測量了多種機器學習任務在主流機器學習硬體平台上的訓練時間,包括 Google 的 TPU、英特爾的 CPU 和英偉達的 GPU。其測試基準如下:  

在機器學習領域的華山論劍中,Google 打敗了英偉達

通過這次競賽,MLPerf 産生了封閉專區 V0.5 版本,其結果如下:  

在機器學習領域的華山論劍中,Google 打敗了英偉達

從結果來看,英偉達在其送出的六個 MLPerf 基準測試結果中取得了最佳性能,其中包括圖像分類、目标執行個體分割、目标檢測、非循環翻譯、循環翻譯和推薦系統——進而成為最大赢家。

利用 Cloud TPU v3 Pod,Google 五局三勝

2019 年 7 月 10 日,MLPerf 第二回合的競賽結果公布,其測試标準如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

 基于這輪競賽結果的封閉專區 V0.6 版本如下:

在機器學習領域的華山論劍中,Google 打敗了英偉達

可以看到,根據 MLPerf 封閉專區 0.6 版本所呈現的結果,在基于 Transformer 和 SSD 模型的基準測試項目中,Google Cloud TPU 比英偉達預置 GPU 的最佳表現高出了超過 84%。另外,基于 ResNet-50 模型,Google Cloud TPU 也比英偉達預置 GPU 略微勝出。

在機器學習領域的華山論劍中,Google 打敗了英偉達

在本次競賽中,幫助 Google 勝出的,是 Cloud TPU v3 Pod。

Cloud TPU v3 Pod 是 Google 推出的第三代可擴充雲端超級計算機,其核心特征就是内置了 Google 自主打造的 TPU 處理器。2019 年 5 月,Google 在 I/O 開發者大會上宣布了它的測試版并進行了公開預覽。

在機器學習領域的華山論劍中,Google 打敗了英偉達

據雷鋒網了解,每一個 Cloud TPU 最高可包含 1024 個單獨的 TPU 晶片,這些晶片通過二維環形網狀網絡連接配接,TPU 軟體堆棧使用該網絡通過各種進階 API 将多個機架作為一台機器進行程式設計;使用者還可以利用 Cloud TPU Pod 的一小部分,稱為“切片”。

在機器學習領域的華山論劍中,Google 打敗了英偉達

Google 方面表示,最新一代 Cloud TPU v3 Pod 采用了液冷式設計,可實作最佳性能;每一個都提供超過 100 petaFLOP 的計算能力;Google 也号稱,就每秒原始數學運算而言 Cloud TPU v3 Pod 與全球五大超級計算機相當,盡管它的數值精度較低。

借着這次在 MLPerf 第二次結果中出風頭的機會,Google 也不忘在官網推介一下 Cloud TPU v3 Pod 的最新進展。比如說,Recursion Pharmaceuticals 是一家運用計算機視覺技術來處理細胞圖像,通過分析細胞特征來評估疾病細胞藥後反應結果的公司;以往該公司在通過本地 GPU 訓練模型時需要 24 小時,但利用 Cloud TPU Pod,隻需要 15 分鐘就可以完成。

當然,在雷鋒網(公衆号:雷鋒網)看來,作為一個典型的技術派,Google 之是以如此着力推進 Cloud TPU 的進展,當然也是希望有更多的開發者參與其中——畢竟雲計算是目前 Google 最為重視的業務之一。