CNCC 人物 | 深度學習處理器領軍人物 —— 陳雲霁

陳雲霁，男，1983 年生，江西南昌人，中國科學院計算技術研究所研究員，博士生導師，ccf 會員，曾獲 2014 年度“ccf青年科學家獎”。同時，他擔任了中國科學院腦科學卓越中心特聘研究員，以及中國科學院大學崗位教授。目前他帶領其實驗室，研制寒武紀系列深度學習處理器。他在包括 isca、hpca、micro、asplos、icse、isscc、hot chips、ijcai、fpga、spaa、ieee micro 以及 8 種 ieee/acm trans. 在内的學術會議及期刊上發表論文 60 餘篇。陳雲霁獲得了中國青年科技獎、首屆國家自然科學基金“優秀青年基金”、首屆國家萬人計劃“青年拔尖人才”和中國計算機學會青年科學家獎，入選 2015 年度《麻省理工科技評論》35 歲以下的全球最佳 35 名創新人士。他還作為負責人帶領科研團隊獲得了全國“青年文明号”和中央國家機關“青年文明号”的稱号。

《麻省理工科技評論》曾發文稱贊道：陳雲霁 14 歲進入大學，24 歲取得計算機博士學位，令人印象深刻。他正在設計能深度學習的處理器，以優化機器學習的基本子產品，這可能讓深度學習的功能未來在移動裝置或可穿戴裝置上實作。

陳雲霁教授畢業于中科大少年班，後師從龍芯首席科學家胡偉武，曾任龍芯 3 号總設計師。龍芯是中國科學院計算所自主研發的通用 cpu，采用簡單指令集，類似于 mips 指令集。龍芯 1 号的頻率為 266mhz，最早在 2002 年開始使用。龍芯 2 号的頻率最高為 1ghz。龍芯 3a 是首款國産商用 4 核處理器，其工作頻率為 900mhz ～ 1ghz。龍芯 3a 的峰值計算能力達到 16gflops。龍芯 3b 是首款國産商用 8 核處理器，主頻達到 1ghz，支援向量運算加速，峰值計算能力達到 128gflops，具有很高的性能功耗比。

10 月 22 日，陳雲霁教授将參加 2016 中國計算機大會，并作為本次 cncc 大會的特邀嘉賓發表主題報告《深度學習處理器 deep learning processor 》。

以深度學習為代表的人工神經網絡是機器學習最重要的方法之一，在雲端和終端都有非常廣泛的應用（例如廣告推薦、自動翻譯、語音識别、圖像識别等）。然而傳統的 cpu 和 gpu 晶片在進行神經網絡處理時遇到了嚴重的性能和能耗瓶頸。近年來，陳雲霁教授所在課題組和法國 inria 合作設計了國際上首個深度學習處理器及首個多核深度學習處理器，能将深度學習處理能耗降低多個數量級。相關工作獲得了 asplos'14 和 micro'14 的最佳論文獎（亞洲迄今僅有的兩次獲計算機體系結構頂級國際會議最佳論文），并入選了 cacm 評選的研究亮點，引起了國際同行的廣泛關注。

陳雲霁教授去年曾對《麻省理工科技評論》說：“5 年或更久以後，我認為每一部手機都可以像谷歌大腦一樣先進。”

今年 7 月，中科院計算所與寒武紀公司提出了國際上首個稀疏深度學習處理器 cambricon-x，相關工作被計算機體系結構領域頂級國際會議 micro 2016（international symposium on microarchitecture）接收。自 2014 年中科院計算所的陳雲霁博士（寒武紀公司首席科學家）、陳天石博士（寒武紀公司創始人和 ceo）與法國 inria 的 olivier temam 博士（現供職于 google）在 asplos 2014 共同開創了深度學習處理器方向之後，深度學習處理器已經成為 micro、isca、asplos 和 hpca 最關注的研究方向之一。

micro與 isca、asplos 和 hpca 并稱計算機體系結構領域最頂級的四大國際學術會議。micro 2016上有超過 1/7 的論文引用寒武紀團隊成員的工作來進行智能處理器的探索（分别來自包括 intel、nvidia、佐治亞理工、ucsb 等頂尖研究機構）。

深度學習是一類借鑒生物的多層神經網絡處理模式所發展起來的智能處理技術。基于深度學習的圍棋程式alphago 甚至已經達到了職業棋手的水準。稀疏深度學習可大幅度削減神經網絡中連接配接數量，是以被業界廣泛采用。但其計算和訪存模式非常不規則，給相應的晶片設計帶來了巨大的挑戰。寒武紀團隊針對稀疏深度神經網絡特殊的計算模式和訪存特性，提出采用一維稀疏表示、專用的資料通路引擎和動态計算排程政策來實作稀疏深度學習的專用處理器 cambricon-x，能高效處理各種類型的稀疏深度神經網絡（包括卷積神經網絡和遞歸神經網絡等）。在 tsmc 65nm 工藝下，cambricon-x 峰值性能可達 0.5 tops/s，面積開銷僅為 6.38 平方毫米，稀疏深度學習速度相較于主流高端 gpu 提升性能 10 倍，能耗僅為其 3.4%。相關工作已于 2016 年 1 月申請國内和 pct 專利，此後 ucsb 也參與了 cambricon-x 的進一步學術探索。

此前，陳教授所在的中科院計算所還提出了國際上首個深度學習處理器結構（與法國 inria 合作完成）、國際上首個多核深度學習處理器結構（與法國 inria 合作完成），研制了國際上首個深度學習處理器晶片，提出了國際上首個深度學習指令集，多次獲得計算機體系結構頂級會議最佳論文獎。cambricon-x 的工作進一步夯實了中科院與寒武紀在深度學習處理器領域的國際上司性地位，也證明了陳教授在該領域的探索非常具有開創性。

（文章中部分資料援引中科院計算所官方新聞、陳雲霁教授個人首頁）

福利放送：我們會随機向贈送價值 2300 元的非 ccf 會員票，憑此票可以參加 19 - 22 日包括陳教授在内的 16 位嘉賓精彩的特邀報告、30 個論壇及 50 場活動（除晚宴外）。報名請掃描下面的二維碼在公衆号背景發送“cncc”報名，我們會每天從報名者中選出一名送出門票~~

CNCC 人物 | 深度學習處理器領軍人物 —— 陳雲霁

繼續閱讀

從AFDS 2012看異構計算無處不在的應用zz

CUDA最佳實踐（二）5. 得到正解6. 性能度量（Performance Metrics）

複雜場景挑戰下，晶片制造商解決企業算力難題的新姿勢

果然，這個馬雲身後最神秘之人回歸後，阿裡雲傳出炸裂消息！科技界傳出重磅消息，中國高校最大的雲上科研智算平台CFFF在複旦

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

咱們是不是該感謝老美卡[奸笑]脖子？它這一卡，硬是将OpenEuler逼進了伺服器作業系統全球第一陣營，也把OpenEu

中科馭數正式加入openEuler社群，共建多樣性計算生态

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

并行計算系統的異構并行有多少種呢？異構計算中引擎并行計算系統的異構并行有多少種呢？GPU、FPGA、DSA、ASIC等引

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用