天天看點

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

新智元報道

編輯:好困 David

【新智元導讀】AI熱了這麼多年,但架構還是「二人轉」,國産架構真的一個能打的都沒有嗎?

2020年末,DeepMind開發的第二代深度學習神經網絡震驚了結構生物學界。

AlphaFold 2的問世解決了困擾科學家幾十年的蛋白質折疊問題。

就在上個月,來自國内的團隊也成功地完成了對蛋白質結構的預測。

經過優化後的模型在單步疊代性能上提升了40%,TM-score也達到85分,可媲美AlphaFold 2,更重要的是代碼也對外開源。

在此之前,另一組聯合團隊也曾針對AlphaFold 2進行了優化,讓模型的推理效率同比提升2-3倍。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

這些研究人員能夠在蛋白質結構預測上取得如此突破的一個重要因素,就是模型使用的AI架構——昇思MindSpore。

作為一個2020年3月才開源的昇思MindSpore,其熱度已經登上了Gitee排行榜第一名,而基于這個國産AI架構打造的開源模型也超過了300個。

AI架構是什麼?

想要搞清楚昇思MindSpore為什麼這麼受歡迎,首先需要了解「什麼是AI架構」。

衆所周知,人工智能的三大支柱分别是資料、算法、算力。

而AI架構正是算法模型在設計、訓練和驗證上的一套标準接口、特性庫和工具包。

在開發過程中,AI架構負責給開發者提供建構神經網絡模型的數學操作,把複雜的數學表達轉換成計算機可識别的計算圖,并自動對神經網絡進行訓練。

最後得到的模型,可以用于解決機器學習中分類、回歸的問題,實作目标分類、語音識别等應用場景。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

來源:中國資訊通信研究院

除了完成AI算法的工程實作外,AI架構還能極大提高人工智能學習效率、強化AI算法模型能力,并起到承上啟下的作用。

向下,可以調用底層硬體計算資源,能夠屏蔽底層差異并提供良好的執行性能;向上,可以支撐AI應用算法模型搭建,提供算法工程化實作的标準環境。

講了這麼多理論,其實用一個例子就能很好地了解了。

我們熟知的TensorFlow和PyTorch,就是最出名,也是現階段用得最多的AI架構。它們相繼在2015年和2016年開源。

1年之内,連發4個大模型

相比起來,在2020年3月才開源的昇思MindSpore,可以說是相當晚了。

不過,「後發優勢」也讓昇思MindSpore得到了原生支援大模型的能力。

在設計上,昇思MindSpore采用了函數式可微分程式設計架構,支援全場景協同,并提供Python程式設計範式,讓AI程式設計更加簡單。此外,昇思MindSpore還統一了動态圖和靜态圖的編碼方式、單機和分布式訓練的編碼方式。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

昇思MindSpore總體架構

對于大模型來說,并行訓練的效率以及模型結構的支援能力是極為重要的名額。

昇思MindSpore提供了豐富的并行政策:資料切片預處理、資料并行、 算子級并行、優化器并行、 pipeline并行、 MoE并行和多副本并行。其自動并行的能力更是使并行代碼量下降了80%,調優時間也下降了60%。

相比起來,PyTorch/Megatron架構的并行能力目前隻能支援Transformer模型結構 , 而TensorFlow支援的并行政策不夠豐富且用的開發者也相對較少。

模型結構的泛化方面,昇思MindSpore為稠密Transformer、稀疏MoE+Transformer、卷積、卷積+Transformer、高維稀疏等提供了全方位的支援。相比業界其他架構支援模型結構可謂最全。

憑借着原生支援大模型的能力,基于昇思MindSpore的大模型現在已釋出了4個,并且其中有2個已開始進行産業化推廣。

2021年5月,以鵬城實驗室為首的技術團隊釋出了全球首個兩千億稠密參數中文NLP大模型「鵬程.盤古」通過昇思MindSpore的混合自動并行模式,實作了在2048卡算力叢集上的大規模分布式訓練。

「鵬程.盤古」在16個下遊任務中大部分名額優于SOTA模型,其中零樣本學習任務11個任務領先,單樣本學習任務12個任務領先,小樣本學習任務13個任務領先。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

2021年9月,鵬城實驗室釋出了向生物醫學領域的人工智能平台「鵬程.神農」,其包含蛋白質結構預測、小分子生成、靶點與小分子互相作用預測以及新抗菌多肽設計與效果評價等。

同樣在2021年9月,中科院自動化所與昇思MindSpore社群聯合釋出了全球首個圖、文、音三模态千億參數大模型「紫東.太初」。

其兼具跨模态了解和生成能力,在圖文跨模态了解與生成性能上都能領先目前業界的SOTA模型,高效完成跨模态檢測、視覺問答、語義描述等下遊任務。

在2021年的兩個國際大賽——ACM Multimedia和ICCV上,「紫東.太初」都獲得了第一名的成績。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

此外,2021年12月釋出的全球首個遙感影像智能解譯深度學習專用架構「武漢.LuojiaNet」,也是基于昇思MindSpore架構。

華為昇騰計算業務産品總監田昆陽表示,除了已經釋出的這4個大模型以外,還有十多個正在研發當中。昇思MindSpore通過大模型收編小模型的方法,将泛化性做大,并且能夠覆寫更多的場景。

從0到國内領先,僅用了2年

不過,一個AI架構能否成為主流,除了這些「雄偉壯觀」的模型之外,很大程度上也需要依靠豐富的開源項目和龐大的開發者群體。

在這一點上,昇思MindSpore的成績還算亮眼。

在中國本土化的代碼托管服務平台Gitee上,已經建立了22個倉庫,總Star數達到近1.6萬,其中主倉Gitee指數89分,領跑同類項目,在人工智能項目中排名第一。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

在新智元的專訪中田昆陽表示,為了建設開發者社群,昇思MindSpore除了始終緻力于特性優化和易用性之外,也在着力打造一個學習成長型環境,讓社群和開發者能夠共同成長。

首先,社群為不同的開發者設計了完善的學習路徑,通過社群活動、社群文檔及案例、技術認證、獎項等提供豐富的學習成長資源。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

其次,社群始終堅持開發者第一,開發流程公開透明,凡是為版本貢獻過的開發者為其頒發證書,讓開發者能深入參與到社群的成長中。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

最後,社群建立了不同技術方向的豐富社群,并有組織者、布道師、開發者多種角色,讓加入社群的每一個成員都能找到最适合的切入點。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

現在來看,這個理念還是很受歡迎的。截至2022年3月,昇思MindSpore的累計下載下傳量已經超過142萬,開發者數量也突破了64萬,社群貢獻者超過4000人。

頂會論文數量,一度超越TensorFlow

不僅如此,學界也非常歡迎這個國産的AI架構。目前已經超過120家科研院所和高校用上了昇思MindSpore。

根據Paper With Code的統計,2021年第四季度,基于昇思MindSpore的論文就有220篇,占到了總數的6%,排名第三。2021年10月更是在所有AI架構中占到了11%,位列第二,僅次于PyTorch。

而去年一年以昇思MindSpore為AI架構的論文總數,則超過了300篇。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

來源:Paper With Code

據田昆陽介紹,目前,武漢理工大學計算機學院大學生畢業論文都已開始用昇思MindSpore架構實作。學生還回報說,随着版本更新疊代,昇思MindSpore軟體的易用性産生了質的飛躍。

在各大頂會的競賽中,昇思MindSpore的出鏡率也非常高。

西安電子科大焦李成教授團隊以昇思MindSpore作為架構獲得了2021 IEEE GRSS Data Fusion Contest Track DSE冠軍,并在ICCV 2021的競賽中共計獲得11項冠亞季軍獎項。

此外,南京理工大學楊楊教授團隊獲得了SIGSPATIAL 2021 GISCUP國際冠軍,武漢大學杜博教授和葉茫教授帶領的MARS_WHU團隊獲得了ICCV 2021 MMVRAC賽道冠軍。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

然而,相比于在各大頂會占比都超過70%的PyTorch,昇思MindSpore還有很長的一段路要走。

為了幫助開發者和研究人員更好地解決在開發過程中遇到的困難或者疑問,昇思MindSpore建立了一種「快速響應機制」,針對社群中的問題成立對應的小組,明确SLA之後,在1小時之内做出響應。

近日,在由昇思MindSpore開源社群發起的「我與MindSpore共成長」兩周年慶典征集活動中,就有100多位開發者講述了自己的小故事。

從這些分享中,其實也能看到,大家還是非常喜歡這個正在不斷進步中的昇思MindSpore架構的。

大模型“進廠”有多難?這個源自中國的AI架構整整用了2年

著名開源運動先驅人物Eric Steven Raymond曾經說過:「隻要有足夠多的眼睛,所有bug都會浮現」(Given enough eyeballs, all bugs are shallow)。

開源兩年,就已驚豔不斷的昇思MindSpore AI架構,未來還會吸引多少來自産、學、研三界開發者的「眼睛」?又會誕生多少颠覆産業趨勢、改變未來計算格局的大模型?

開源兩年,昇思MindSpore從零起步做到了「國内領先」,未來,伴着更多開發者熱切關注的「眼睛」,這些大模型又會為在實驗室和工廠之間架起多少「數字橋」?

希望在未來答案揭曉的那一刻,所有的眼睛裡都有光。

這個答案,相信昇思MindSpore不會讓我們等太久。

繼續閱讀