浪潮吳韶華：為AI設計特定的HPC解決方案

今年4月初，浪潮正式對外公布成立人工智能部，并推出面向ai應用的創新計算平台，并表示未來浪潮将在人工智能計算的資料中心産品創新、深度學習算法架構優化、生态系統建設等方向全面發力。

三個月即将過去，正如浪潮所判斷，人工智能的火越燒越旺，ai＋正已空前的速度傳徹各個行業。以bat為代表的中國技術風向标企業也已全面布局，而在這段時間内，浪潮的人工智能轉型到底怎麼樣？釋出了哪些新技術？藉由此，雷鋒網關注了浪潮人工智能和高性能專家吳韶華近期在雷克大會上的的演講《designing

specific hpc solutions for ai》。

在本次報告中，吳韶華主要講了幾個點：

1、人工智能市場趨勢利好。

2、浪潮緻力于在計算硬體和深度學習領域做出努力。

3、海量資料及巨大計算量帶來的挑戰。

4、浪潮為ai特别設計了伺服器。

吳韶華還表示，浪潮從ai興盛開始，就緊跟着ai領域裡各種熱點做相關的工作，到現在為止已經形成了很完整的一條生态鍊。

以下是吳韶華的演講全文：

大家好，我是吳韶華，在過去的幾年裡，浪潮一直在緻力于為人工智能設計特定的解決方案，我們在這方面也取得了一些成績。今天在報告裡，我想主要講一下，我們在計算硬體和深度學習架構裡面所做出的努力。

首先，我們都知道人工智能現在是非常興盛的行業，從權威資料可以得知，2020年的市場預測規模是48億，在之前的五年間，ai市場投資額已經達到42億美金，是以我們非常看好ai這個行業，而且市場趨勢也是一直利好。

接下來，ai技術發展趨勢有以下幾點。

一、大資料

如今，資料量越來越大，對于語音識别來講，前幾年，我們如果能拿到一萬小時的标注後的語音識别資料，就會非常滿足。但是今天我們已經拿到十萬小時，甚至更多标注過的資料，在未來我們肯定可以獲得更大量的資料，資料的增加是不斷完善、向上的過程。

二、大模型

這些模型有能力通過這些資料獲得精确的結果。對于模型，如果大家關注雲、圖象識别、語音識别等技術就會知道，模型精度會越來越高、越來越深、需求也會越來越大，最後大資料大模型，兩方面疊加，對計算量的需求也會提到很高的高度。

目前，對于獲得廉價的、可标注的資料非常困難，同時在獲得這些資料之後如何快速的進行資料處理将變得非常棘手。比如如何在語音識别裡汲取音頻資料的特征等等。

另外，模型的資料量會越來越大，待處理的計算量也會越來越大，這就需要我們有更為高效并行的計算方式，我們将其稱為分布式的計算方式；而這對計算平台的要求也會更為苛刻，是以，我們需要針對此設計專門ai，應用于特定的高性能計算平台。

在整個ai生态裡面，浪潮已經做了很多工作，從頂層架構到端對端的方案，今天主要講一下我們計算硬體和深度學習架構方面的工作。今年5月份，我們在矽谷大會上釋出了一款産品，這款産品目前是業界為ai特别設計的密度最高伺服器，它最多可以達到170個t，與傳統伺服器不一樣的是，它可以提供多達四個高速網絡的支援，如果每一條網絡，我們連接配接的話，可以多達四百tb的連接配接。

另外，基于這款伺服器，我們希望資料中心對于不同的應用要用不同的伺服器硬體，是以，在這其中，我們支援各種各樣的硬體以及gpu計算裝置，再者，這款伺服器設計有一個特别之處，它在機器後端提供了兩個16條線的pcre接口，這兩個接口連在一起，可以提供翻一番的計算能力。

對于我們現在gpu計算裝置來說，我們不可能指望一台伺服器就可以解決我們計算問題，通常情況下會搭建一個叢集，我們通過高速網絡來連接配接，在ags2這樣的裝置裡面，可以提供一百到四百gb的帶寬，因為這款伺服器面對的是資料中心，以及衆多使用者，是以我們有像這樣的四個高速網絡的連接配接，提供四倍這樣的速度。

另外，伺服器在資料中心或者機房裡面的時候，對環境溫度有一個要求，機器過熱會當機。對此，我們通過高效的、智能的設計，讓伺服器的可控溫度高達45度；同時我們也提供一種混合方式，還可以進一步的提升效率和性能。

這個伺服器内部包含了八塊gpu，gpu裡面可以用技術來做系統引導，通過這種方式極大的降低資料中心的花費。通過資料對比，我們得知這不僅僅是簡單的翻倍性能，直接是2.5倍，這就是高速的連接配接所帶來計算性能的好處。

再者是我們的架構，針對這樣一個模型，我們通過比較發現，最初賈俊博士開發的caffe-mpi（雷鋒網注：浪潮在第31屆國際超算大會(isc2016)上，全球首發基于最新knl平台的深度學習計算架構caffe-mpi，這标志着浪潮稱為全球第一個在英特爾最新的knl平台上完成caffe并行開發的公司。）模型隻能運作在單伺服器上，不支援多伺服器，我們做模型訓練，需要好幾周時間。為了解決這個需求，浪潮針對caffe架構，設立出一套并行版的caffe，我們可以給多個伺服器提供高速的，分布式的計算方案。

我接下來講一下針對并行版的開發，它做了針對性的優化。我們知道，單個伺服器内部，gpu個數會越來越多，在這種情況下，為了得到最好的性能，我們針對這種特定的硬體架構，改變設計思路。我們gpu伺服器之間的連接配接是通過高速網絡來連接配接的，但是gpu内的連接配接是通過pcie，pcie目前比高速網絡快很多。考慮到這個特點，我們在單個伺服器内部采用這種高速的通信方式，nccl。在伺服器之間，我們通過mpr來做，同時為了更進一步的降低伺服器之間的通信頻率，我們把伺服器的通信都控制在通信内部，在伺服器内部給他降到很低的程度，這裡也就是我們如何降低通信的一種方式。

在每個伺服器内部，我們給出四個gpu或是八個gpu，主gpu概念隻是一個虛拟的概念，他所做的工作和我們做的都是一緻的。因為我們知道，在深度學習模型，訓練過程中，反向傳播的時候，每一層的梯度值被計算出來之後，我們需要把這些梯度值發送到所有的裝置上，進而對梯度進行更新，我們在發送的過程中，如果我們不考慮這種方式的話，沒有一個主gpu，四個gpu情況下，網絡帶寬需要把四倍的模型做互動。在我們這種設計下，如果有主gpu，節點隻通過主gpu進行互動的話，網絡帶寬的壓力隻會到最初設計的四分之一，是以通過這種設計，報節點之間帶寬的需求直接降低下來。

我的講述到這就結束了，浪潮從ai興盛開始，就緊跟着ai領域裡各種熱點做相關的工作，到現在為止我們就形成了很完整的這樣一條生态，在這個生态我們也相信會做的越來越好，謝謝。

以上是吳韶華的演講全文，雷鋒網稍微做了不改變原意的修改。通過以上資訊，我們不難知道，幾個月以來，浪潮在布局人工智能業務上“樂此不疲”，通過其領先的伺服器技術儲備及市場洞悉力為ai的快速落地提供動力，2017年作為浪潮的戰略轉型關鍵之年，後續究竟發展的如何，我們持續關注。

本文作者：張棟

浪潮吳韶華：為AI設計特定的HPC解決方案

繼續閱讀

疾病研究：重症肌無力

Nacos 2.0 更新前後性能對比壓測

人工智能如何有效地運用于自然語言處理

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

無人機--飛控科普

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark