天天看點

谷歌發論文披露TPU詳細資訊,比GPU、CPU快15-30倍

谷歌發論文披露TPU詳細資訊,比GPU、CPU快15-30倍

自從google去年透露自己開發了一款名為tpu的專用晶片,用于提高人工智能計算任務的執行效率,關于這種新晶片的猜測就從未停止。

今天,google終于披露了關于tpu的更多資訊。除了發表一篇有75位聯合作者的論文《in-datacenter performance analysis of a tensor processing unittm》外,文章的第四作者david patterson還在美國國家工程院的活動上發表了演講。

關于tpu的論文将正式發表于今年6月在多倫多召開的計算機體系結構國際研讨會(international symposium on computer architecture, isca),google目前已經在google drive上将其公開。

谷歌發論文披露TPU詳細資訊,比GPU、CPU快15-30倍

△ tpu的印刷電路闆

該公司從2015年開始就一直在内部使用tpu,并在去年5月的google i/o開發者大會上,對外公布了這種晶片的存在。

tpu是一種asic(專用內建電路),google将其用在神經網絡的第二個步驟。使用神經網絡首先要用大量資料進行訓練,通常在使用gpu加速的伺服器上進行。之後,該公司便會開始使用tpu加速新資料的推斷。谷歌表示,這比直接使用gpu或基本的x86晶片速度快很多。

他們在論文中寫道:“盡管某些應用的使用率較低,但tpu平均比gpu或cpu速度快15至30倍左右。”其中的gpu或cpu具體指的是英偉達的tesla k80 gpu和英特爾的至強e5-2699 v3晶片,後者可以成為tpu的底層平台。

過去5年,英偉達等公司的gpu已經成為經濟型深度學習系統的預設基礎架構,而谷歌也對此做出了貢獻。但谷歌和微軟等公司還在探索其他類型的人工智能晶片,包括fpga(現場可程式設計門陣列器件)。谷歌的項目因為其來源和使用範圍而受到關注,該公司工程師norm jouppi在部落格中寫道,這套系統已經應用于谷歌圖檔搜尋、google photos和谷歌雲視覺應用api等服務。

谷歌發論文披露TPU詳細資訊,比GPU、CPU快15-30倍

該論文稱,一個tpu的片上記憶體容量達到tesla k80的3.5倍,而且體積更小。每耗電1瓦的性能則高出30至80倍。谷歌目前可以将兩個tpu安裝到一台伺服器中,但這并不表示他們不會開發其他更強大或更經濟的硬體系統。

谷歌對人工智能網絡的重視高于很多科技公司,他們2013年就認定這項技術廣受歡迎,可以将其資料中心的計算需求擴大一倍。如果完全使用标準晶片,成本将十分高昂,難以承受。是以谷歌開始開發自己的技術,希望實作10倍于gpu的成本效益。

“我們沒有與cpu密切整合,為了減少延遲部署的幾率,tpu設計成了一個pcie i/o總線上的協處理器,使之可以像gpu一樣插到現有的伺服器上。”論文還寫道,“另外,為了簡化硬體設計和調試過程,主伺服器發送指令讓tpu來執行,而不會自主執行。是以,與tpu更加接近的是fpu(浮點單元)協處理器,而非gpu。目标是在tpu運作完整的推理模型,降低與主cpu的互動,并使之足以靈活地滿足2015年及之後的神經網絡需求,而不僅僅适用于2013年的神經網絡。”

論文稱,通常而言,在tpu上運作代碼跟使用谷歌上司的tsensorflow開源深度學習架構一樣簡單。

提示:google在論文中提到的測試結果,都是基于該公司自己的測試标準。

原文釋出時間為:2017-04-06

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀