天天看點

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

上周,RiseML 部落格對谷歌 TPUv2 與英偉達 V100 進行了比較。如今,英特爾公司釋出了另一篇博文,其中提到在利用 RNN 進行機器翻譯資料處理時,“英特爾 Xeon Scalable 處理器的 AWS Sockeye(https://github.com/awslabs/sockeye )神經機器翻譯模型性能可達英偉達 V100 的 4 倍。”

很長一段時間以來,業界對 AI 基準測試需求的現實意義展開了激烈的探讨與争論。支援者們認為,基準測試工具的缺失嚴重限制了 AI 技術的實際應用。

根據 AI 技術先驅吳恩達在 MLPerf 聲明中的說法,“AI 正在給各個行業帶來改變,但為了充分這項技術的真正潛力,我們仍然需要更快的硬體與軟體。”我們當然希望獲得更強大的資源平台,而基準測試方案的标準化程序将幫助 AI 技術開發人員創造出此類産品,進而幫助采用者更明智地選擇适合需求的 AI 選項。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

不止吳恩達,連谷歌機器學習大佬 Jeff Dean 也在推特上強烈推薦這款工具:

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

大意:谷歌很高興和斯坦福、伯克利、哈佛、百度、英特爾、AMD 等等企業一起,成為緻力于将 MLPerf 作為衡量機器學習性能的通用标準的組織之一。

MLPerf 項目的主要目标包括:

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

通過公平且實用的衡量标準加快機器學習發展程序。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

對各競争系統進行公平比較,同時鼓勵創新以改善業界領先的機器學習技術。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

保持基準測試的成本合理性,允許所有人參與其中。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

為商業及研究社群提供服務。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

提供可重複且可靠的測試結果。

對 AI 性能(包括 h/w 與 s/w 兩種方向)的比較此前一直由各既得利益方釋出,此次英特爾公司題為《利用英特爾至強 Scalable 處理器實作令人驚豔的推理性能》的博文正是最好的例子。

這裡我們并不針對英特爾——但必須承認,此類比較雖然包含重要見解,但通常也會通過故意設計確定某一供應商的方案表現優于其競争對手。是以,标準化基準測試的存在将徹底解決這種中立性缺失,進而提供公平且客觀的比較結果。

MLPerf 項目的定位參考了以往的類似方案,例如 SPEC(即标準性能評估集團)。MLPerf 項目聲明指出,“SPEC 基準測試的出現顯著推動了通用計算能力的改進。SPEC 由計算機公司聯盟于 1988 年推出,并在接下來的 15 年内實作了年均 1.6 倍的 CPU 性能提升。MLPerf 結合有原有基準測試領域的最佳實踐,包括 SPEC 使用的程式套件、SOR 使用的性能與創新性分别比較方法、DeepBench 的生産環境内軟體部署以及 DAWNBench 的時間精确性度量标準等等。”

Intersect360 Research 公司 CEO Addison Snell 指出,“AI 已經成為目前衆多企業不可忽視的技術力量,是以任何中立性質的基準指導結論都非常重要——特别是在挑選競争性技術方案的場景之内。然而,AI 同時也是一類多元化領域,是以随着時間的推移,任何基準都有可能發展成惟一的主導性選項。五年之前,大資料與分析技術鼓動了整個科技業界的熱情 ; 然而時至今日,這一領域仍未出現一種統一的通用基準。我認為 AI 領域可能也會發生同樣的情況。”

Hyperion Research 公司進階研究副總裁 Steve Conway 表示,MLPerf 代表着“積極且實用的”一步,“因為多年以來買賣雙方一直缺少必要的基準方案,用以證明不同 AI 産品與解決方案之間的差異。

原有基準的存在僅僅是為了解決早期 AI 發展階段中的有界類實際問題。而随着無界類 AI 問題數量的快速增加,我們顯然需要額外的基準工具對其進行評估,這一點在經濟層面極為重要。所謂有限問題通常比較簡單,例如語音與圖像識别或遊戲 AI 等等。而無界類問題則包括診斷癌症與閱讀醫學影像内容等,其目标在于真正為複雜的問題提供建議與決策。”

MLPerf 目前已在 GitHub 上釋出,但仍處于早期開發階段。正如 MLPerf 聲明當中所強調,“目前的版本尚屬于‘前 apha’階段,是以在很多方面仍然有待改進。基準測試套件仍在開發與完善當中,請參閱以下建議部分以了解如何參與項目貢獻。根據使用者的回報,我們預計 5 月底将會對項目進行一輪重大更新。”

目前,MLPerf 套件中的七項基準測試皆已提供參考實作方案(摘自 GitHub):

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

圖像分類– Resnet-50 v1,适用于 ImageNet。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

對象檢測– Mask R-CNN,适用于 COCO。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

語音識别– DeepSpeech2,适用于 Librispeech。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

翻譯– Transformer,适用于 WMT English-German。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

推薦– Neural Collaborative Filtering,适用于 MovieLens 20 Million (簡稱 ml-20m)。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

情緒分析– Seq-CNN,适用于 IMDB 資料集。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

強化– Mini-go,适用于預測遊戲行動。

每套參考實作皆提供以下内容:在至少一套架構當中實作模型的相關代碼,一個可在容器内運作基準測試的 Dockerfile,一個用于下載下傳對應資料集的腳本,一個負責運作模型訓練并加以計時的腳本,外加關于資料集、模型以及機器設定的說明文檔。

根據 GitHub 頁面中的說明,此基準測試已經在以下裝置配置中完成驗證:

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

16 CPU,單個英偉達 P100。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

Ubuntu 16.04,包括支援英偉達硬體的 Docker。

機器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

600 GB 磁盤(實際上,大多數基準測試并不需要這麼大的存儲容量)。

我們期待看到 AI 行業最終會迎來怎樣的基準測試前景——少數壟斷,還是百家争鳴。在這樣一個年輕的市場當中,相信會有很多廠商提供基準測試工具與服務。斯坦福大學就是 MLPerf 項目成員,其最近剛剛釋出了首個 DAWNBench v1 深度學習測試結果。

斯坦福大學報告稱:“2018 年 4 月 20 日,第一個深度學習端到端基準測試與性能衡量競賽正式啟動,旨在記錄普通深度學習任務達到最高準确度水準所需的時間和成本,以及達到此最高推理準确度水準的延遲和成本。專注于端到端性能,意味着我們提供一種更為客觀的方法,可用于對不同計算架構、硬體、優化算法、超參數設定以及影響實際性能的其它因素進行标準化比較。”

作為參賽選手之一,fast.ai——一家年輕的人工智能訓練與人工智能軟體工具開發公司——取得了出色的成績。這些基準結果非常重要,斯坦福大學也确實在以嚴肅的态度對待此輪競賽。但除此之外,目前我們顯然還需要更多與之類似的客觀、公平的比較平台。在這方面,MLPerf 的出現應該能夠幫助我們早日突破困局,真正有理有據地選擇最适合實際需求的 AI 解決方案。

原文釋出時間為:2018-05-5

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:機

器學習基準大戰:谷歌、百度、斯坦福等聯手打造新基準MLPerf

繼續閱讀