天天看點

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

11月17日,在正在舉行的2015全球超級計算大會(sc15)上,浪潮聯合全球可程式設計邏輯晶片巨頭altera,以及中國最大的智能語音技術提供商科大訊飛,共同釋出了一套面向深度學習、基于alteraarria 10 fpga平台、采用opencl開發語言進行并行化設計和優化的深度學習dnn的語音識别方案。同時,此次釋出也标志着浪潮成為全球領先的具備gpu、mic和fpga三項hpc異構計算應用能力的hpc系統廠商。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

深度學習,需要hpc“提速”

讓計算機擁有接近人類的智能水準是it行業最偉大,也是最難實作的夢想,而深度學習則是通往人工智能的漫漫長路上一項重要的技術。深度學習的出發點是通過建構深層神經網絡,模拟人腦神經元和神經突觸的資訊和資料傳輸及計算,在抽象出來的規則限定下,逐漸讓機器像人一樣了解真實的世界。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

不過,由于人腦每天能接觸數以萬計的資訊并且在短短幾秒内給出判斷和反映,是以要實作讓機器能真正像人類一樣思考不僅依靠算法模型的精确,同時也需要媲美人腦計算效率的高性能計算技術。

可以說,深度學習對計算力資源的需求如同“黑洞”一般永無止境,這使得近幾年異構加速技術在該領域得到越加廣泛的應用,協處理器運算速度的快速提升讓深度學習技術得到了硬體層面的有力支援。

fpga,通用和專用之間的半定制化晶片

fpga(field-programmablegate array,現場可程式設計門陣列)介于專用晶片和通用晶片之間,具有一定的可程式設計性,可同時進行資料并行和任務并行計算,在處理特定應用時有更加明顯的效率。更重要的是,fpga具有明顯的性能功耗比優勢,其能耗比是cpu的10倍以上、gpu的3倍。此外,可定制化也是fpga的一大重要特性。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

正是因為具備極強的性能功耗比優勢和定制化特點,fpga在諸多領域得到應用,如邏輯控制,信号處理,圖像處理等方面,最近更是在深度學習中的線上識别系統中開始嘗試使用。

不過,傳統fpga開發采用verilog、vhdl等硬體描述語言,對開發者要求較高,開發周期也較長,是以在高性能計算應用受到限制。而采用opencl,利用軟體進階語言和模型程式設計,開發周期可大幅縮短,對于一些應用可以實作幾個人月完成,為fpga的應用發展提供了更為廣闊的平台。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

利用opencl實作基于fpga平台的語音識别系統

科大訊飛擁有中國最大的語音識别系統,在常用場景下準确率已達到98%,在業内領先。。為了進一步提升dnn算法的效率和性能,科大訊飛計劃在語音識别業務中啟用fpga平台,而若性能符合要求,則将在未來建造一個上萬規模的fpga語音識别系統。科大訊飛技術總監于振華表示,深度學習模型的軟體算法需要不斷地微調和優化,随着時間的推移,固定功能的伺服器加速器效率會變得越來越低,浪費空間和電力。相比之下,fpga可以更加靈活的定制化,并且功耗更低。這也是科大訊飛決定将dnn算法移植到fpga平台的重要原因。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

于是一項由浪潮、科大訊飛和altera公司共同發起的合作誕生了——由altera公司提供altera arria 10 fpga平台,科大訊飛提供dnn識别算法,浪潮則負責完成基于fpga 平台,采用opencl進行dnn的并行設計、遷移與優化。經過努力,三方最終完成了基于opencl的fpga線上深度學習語音識别加速方案。該方案硬體平台采用cpu+alteraarria 10 fpga異構架構,軟體完全采用進階程式設計模式opencl實作從cpu到fpga的遷移,具備四大特點:

高性能:處理100 bound資料,基于intelxeon e5-2650 v2 雙路cpu(啟動16個線程),dnn運作時間為242.027s,而基于altera arria 10 fpga,dnn運作時間為84.312s,性能加速2.871倍;

低功耗:altera arria 10fpga功耗為30w,intel xeon e5-2650 v2 雙路cpu功耗為190w,fpga功耗隻有cpu的15.7%,在dnn 實際運作測試中,fpga可實作30gflops/w的高性能功耗比,能大大節省應用功耗成本;

易程式設計:采用opencl程式設計模型,基于fpga的dnn并行程式開發完全由軟體工程師完成,僅僅耗費4個人月。若采用傳統的verilog、vhdl等底層語言,同樣的開發工作至少需要12個人月,并且需要軟體工程師和硬體工程師配合完成。

高适用性:fpga即可以采用dnrange模式實作資料并行,也可以采用pipeline模式實作任務并行,進而滿足了更多的應用場景,可以為更多的應用軟體帶來性能提升。

altera公司伺服器和存儲事業部總經理davidgamba表示,此次三方成功完成基于altera arria 10 fpga平台的opencl 并行化設計與開發,創造出極高的功耗性能比,進一步驗證了altera fpga平台的優勢。本次方案的開發成功将成為fpga在深度學習領域應用的重要參考。

浪潮科大訊飛Altera用OpenCL實作FPGA深度學習語音識别加速方案

談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直緻力于為使用者提供最适合其需求的計算系統解決方案。fpga具有極高的性能功耗比優勢,浪潮将進一步和科大訊飛、altera公司開展基于fpga的線上語音深度學習應用合作,同時浪潮還将研發基于fpga的通用系統方案,包括整機櫃計算、網絡、存儲fpga方案,并将方案推廣到其它應用領域和客戶。

談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直緻力于為使用者提供最适合其需求的計算系統解決方案。fpga具有極高的性能功耗比優勢,浪潮将進一步和科大訊飛、altera公司開展基于fpga的線上語音深度學習應用合作,bing研發基于fpga的通用系統方案,包括整機櫃計算、網絡、存儲fpga方案,并将方案推廣到其它應用領域和客戶。未來,cpu+fpga或許将作為hpc新的異構模式,被越來越多的hpc大應用、資料中心、網際網路深度學習等越來越多的應用領域采用。

浪潮、科大訊飛、altera簡介

浪潮依托高效能伺服器和存儲技術國家重點實驗室、國家資訊存儲技術工程中心、inspur-intel中國并行計算聯合實驗室、inspur-nivdia雲超算創新中心等全球領先的研發創新體系,浪潮擁有從萬億次到千萬億次的超級計算機産品研發、系統建設、運維服務能力,擁有完備的hpc軟硬體産品線,為中國高校科研、石油勘探、氣象預報、生命基因、航天航空、制造設計、動漫渲染、環保監測等衆多行業使用者提供了領先優質的超算系統與應用服務,并實作國産高性能計算機系統的海外出口産業化。

科大訊飛作為中國最大的智能語音技術提供商,在智能語音技術領域有着長期的研究積累,并在語音合成、語音識别、口語評測、自然語言處理等多項技術上擁有國際領先的成果。科大訊飛的語音識别技術在常用場景下準确率已達到98%,業内領先。

altera公司站在技術創新的最前沿,30 多年來一直為業界提供最新的可程式設計邏輯、工藝技術、ip 核心以及開發工具。公司的 fpga、soc和嵌入式處理器系統、cpld、asic,以及互補技術,例如,電源解決方案等,受到了全世界各類最終市場上 12,000 多名客戶的歡迎。

談及下一步合作,浪潮集團副總裁胡雷鈞表示,浪潮一直緻力于為使用者提供最适合其需求的計算系統解決方案。fpga具有極高的性能功耗比優勢,浪潮将進一步和科大訊飛、altera公司開展基于fpga的線上語音深度學習應用合作,并研發基于fpga的通用系統方案,包括整機櫃計算、網絡、存儲fpga方案,并将方案推廣到其它應用領域和客戶。

原文釋出時間為:2015年11月18日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。

繼續閱讀