騰訊戰略投資，燧原科技首款AI訓練晶片出爐：性能超越V100

12 月 11 日，燧原科技在上海舉辦了成立以來的首場釋出會，推出了完全自主研發的首款 AI 訓練晶片「邃思 DTU」，以及搭載該晶片的 AI 加速卡雲燧 T10。燧原科技的新産品，被認為是目前業内性能最為強大的 AI 訓練晶片。

在釋出會上，燧原科技創始人、CEO 趙立東展望了燧原投身 AI 晶片研發的願景：「燧原科技希望能做大晶片、拼硬科技，對标世界最頂級的技術和公司。」

燧原科技 CEO 趙立東手持雲燧 T10。

雖然人工智能的概念很早就已被提出，但從內建電路、半導體晶片的角度來看，AI 計算有着自己的特點，基于機器學習算法，硬體架構需要進行創新。

燧原希望在 AI 訓練晶片這一高端市場上首先發力。目前在這一方向上，GPU 幾乎處于壟斷地位。今年 11 月，OpenAI 釋出了最新 AI 算力報告，其中提出 AI 算力的需求每年提升 10 倍——即使在摩爾定律沒有放緩的情況下，現有晶片也無法滿足這樣的需求。這意味着人工智能晶片需要新的架構，進而為晶片公司創造了機會。

最強量産 AI 訓練晶片

邃思 DTU 被認為是目前最為強大的量産 AI 訓練晶片，其采用格羅方德（GlobalFoundries）12nm FinFET 工藝打造，面積高達 480mm²，主晶片包含 141 億個半導體，同時還采用了先進的 2.5D 立體封裝技術，進一步提高了晶片的信号傳輸速度和帶寬。

燧原科技創始人兼 COO 張亞林展示邃思 DTU。

與之一同釋出的首款人工智能訓練卡「雲燧 T10」，是一塊面向雲端資料中心的 AI 加速卡。它采用标準雙槽位，率先支援 PCIe 4.0，功耗為 225W。其獨特的 25GB 雙向背闆互聯方案有别于業内常見的 InfiniBand 并聯方式，能在相同的互聯帶寬下，較大幅度地降低組網的複雜度和成本。

燧原表示，T10 的單卡單精度（FP32）算力達到了 20TFLOPS，且支援單精度 FP32 和半精度 BF16 的混合精度計算。相比之下，英偉達最新的 Tesla V100S 的單精度算力為 16.4TFLOPS，而另一方面，雲邃 T10 的功耗更低，這意味着它要比 V100 具有更高的效率。

雲燧 T10 支援半精度 BF16 運算，并且達到了 80TFLOPS 的算力，這也讓它成為了谷歌 TPU 以外，業界首款支援這種運算方式的 AI 加速卡。「這款晶片是燧原科技完全自主設計完成的，完全支援所有已有的、及未來即将出現的 AI 算法。」燧原科技創始人兼 COO 張亞林說道。

在釋出會上，燧原科技表示 T10 已經實作量産，并将于 2020 年第一季度上市。

與目前很多初創公司釋出的 AI 晶片相比，基于資料中心的人工智能訓練晶片相比推理晶片難度更高，通常要求晶片具有高算力、低功耗、強互聯等特性，并支援多種訓練算法，以滿足通用性和能耗的要求。邃思晶片基于可重構晶片的設計理念，其計算核心包含 32 個通用可擴充神經元處理器（SIP），每 8 個 SIP 組合成 4 個可擴充智能計算群（SIC）。SIC 之間通過 HBM 實作高速互聯，通過片上排程算法，資料在遷移中完成計算，實作了 SIP 使用率最大化。

在 AI 晶片的大規模應用中，并聯效率至關重要，燧原在釋出會上特别介紹了晶片中使用的高速互聯技術。為實作大規模訓練叢集的高效訓練，燧原科技提出了 200GB 雙向 ESL 互聯技術，大幅降低了系統複雜度和成本。

在釋出會上，燧原還介紹了雲燧 T10 的擴充效率：在并聯多達 1024 張卡時，燧原的闆卡仍可以達到超過 70% 的效率（理論最高可以達的效率為 86%）。

8 卡互聯的雲邃 T10 伺服器（左），以及基于雲邃 T11 的伺服器（右）。

除此以外，燧原還計劃推出基于 OCP 加速模組（OAM）的「雲燧 T11」。它是 T10 的更強大版本，功耗 300W，将于明年 5-6 月正式推出，直接對标 Tesla V100 的 NVLink 版。

模型遷移零成本

在硬體之外，燧原同時釋出了計算及程式設計平台「馭算」，支援主流深度學習架構，提供完整的編譯、調試、調優工具鍊，并在硬體層開放 SDK，為深度開發者提供細粒度算力程式設計接口。針對大規模模型叢集訓練，如目前流行的 BERT 等，提供分布式排程系統，并針對 ESL 并聯進行優化。

「我們的軟體平台支援 C/C++語言算子程式設計。可向開發者針對特定場景提供算子級、指令級優化。在未來，我們還會開放更為底層的硬體驅動。」張亞林表示。

目前，燧原的程式設計平台已經完全支援 TensorFlow，公司還計劃在明年上半年對 PyTorch、MXNet、ONNX 等主流深度學習架構提供支援。在軟體方面，燧原希望做到對開發者來說「遷移零成本」。

接受騰訊戰略投資

燧原科技成立于 2018 年 3 月，這家公司已在上海和北京設立了研發中心，公司創始人趙立東、張亞林等人此前均任職于 AMD。目前這家公司已有 207 名員工。

迄今為止，燧原科技已經曆了三輪融資，其中去年 8 月 7 日由騰訊領投的 Pre A 輪最為引人關注，其時融資額高達 3.4 億元，也讓燧原成為了首家和唯一一家被騰訊戰略投資的國内 AI 晶片初創公司。今年 6 月，燧原科技又獲得了 3 億元人民币的 A 輪融資，紅點中國領投，海松資本、雲和資本、騰訊投資、陽光融彙資本、信中利資本跟投。

「我們選擇接受來自騰訊的戰略投資，是因為騰訊在資料、業務場景、算法團隊等方面具備優勢，」趙立東在釋出會上表示。「為了實作業務落地零的突破，我們必須尋求合作，隻有這樣才能讓落地的第一步走成功。」

相比打造出成型晶片再尋找客戶，燧原科技與騰訊展開全面合作的行動減少了數個月的研發時間。

「騰訊提出的『産品熱啟動』概念與我們不謀而合。在邃思晶片落地的過程中，我們與騰訊的開發者們進行了技術交流，這使得我們可以在軟體優化過程中有的放矢了解需求和改進。」趙立東說道。

強大完整的團隊，加上高效的合作，讓燧原科技的第一款晶片就超越了目前業界主流産品的性能，創造了研發到量産僅用 20 個月的新紀錄：

邃思晶片于 2018 年 4 月開始研發，内部代号獅子座，在今年 5 月 30 日流片成功。到 9 月 19 日，8 顆晶片全部點亮，完成實驗室測試，開始軟硬體聯調。所有時間節點全部在最初計劃的範圍之内。

下一階段，燧原将面向幾大業務領域推廣自己的産品：

雲服務公司（包括公有雲、私有雲、混合雲）
各傳統領域的行業服務公司（金融、保險、醫療、交通等）
AI 超算中心和智慧城市

「目前燧原科技已與騰訊針對通用人工智能應用場景的項目開展密切的合作，未來也将會擴充到更多 AI 應用場景，」趙立東表示。「以此次釋出的新産品作為開端，燧原将提供更多具有高成本效益、高能效比、開源開放的完整解決方案，也可以針對不同應用場景的差異化需求提供軟硬體定制化的支援和服務。」

燧原的晶片釋出引起了各界關注，清華大學微電子所所長魏少軍在釋出會上表示：「燧原晶片研發邁出第一步的成功，要歸功于團隊的完整性，足夠強大的實力，以及時機和方法的正确。中國今天的內建電路領域熱度很高，但要發展內建電路需要足夠的基礎條件。邃思 DTU 是近年來能夠在全球引起高度關注的晶片。」

随着訓練晶片的量産，燧原科技下一步研發計劃也已經浮出水面。這家公司計劃在未來推出自己的推斷晶片系列，建構雲端 AI 模型訓練和推理計算的完整解決方案。

騰訊戰略投資，燧原科技首款AI訓練晶片出爐：性能超越V100

最強量産 AI 訓練晶片

模型遷移零成本

接受騰訊戰略投資

繼續閱讀

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

C++實作簡單順序表

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希