天天看點

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

2020 年,是不平凡的一年:這一年,人工智能全面進入落地期,與各行業深度融合,也更加深刻地改變了人類社會。

數以千萬計的開發者,正扮演着越來越重要的角色。像百度飛槳這樣的産業級深度學習平台,也為産業智能化貢獻着更多的力量。

本屆峰會,百度飛槳帶來八大全新釋出與更新,有支援前沿技術探索和應用的生物計算平台 PaddleHelix 螺旋槳,開發更加便捷的飛槳開源架構 2.0 RC 版,端雲協同的 AI 內建開發環境 BML CodeLab,支援更強大分布式訓練的業界首個通用異構參數伺服器架構,開源算法庫增至 200+,飛槳企業版 EasyDL 智能資料服務更新,飛槳硬體生态路線圖以及攜手全球開發者開啟「大航海」計劃。可見飛槳技術與生态發展的步調越來越快。

飛槳是一個開源的平台,既受益于開源,也反過來促進了開源社群的發展。在談到開源開放的重要性時,百度 CTO 王海峰表示,「開源開放對人類社會過去幾百年科學和技術的發展起到非常重要的作用,讓我們可以更快追蹤到最新的技術進展,并将改進意見以及創新思想迅速進行回報,形成一個正循環,進一步推動科技的創新疊代。當下,中國開源力量正在影響全球的科技創新。同時,在以深度學習為代表的人工智能發展浪潮中,産業界已經成為驅動開源開放的重要力量。而成熟的開源開放技術生态與開放平台,也正在推動社會各界加快融合發展。」

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單
重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

關于飛槳,王海峰分享了幾個重要的數字:從今年 5 月份的「WAVE SUMMIT 2020」深度學習開發者峰會到現在,飛槳平台的開發者數量實作了大幅度的增長,達到了 265 萬。基于 34 萬多個模型,飛槳平台已經服務了超過 10 萬家企業。

這是在飛槳平台與開發者的共同努力下,短短半年内取得的卓越成績,且它的未來更加可期。

接下來,讓我們打開百度飛槳這份 2020 年度成績單。

飛槳的跨界:生物計算平台「螺旋槳」釋出

人工智能是新一輪科技革命和産業變革的重要驅動力量,飛槳在這場時代變革中成為了承載體。作為 AI 開發的基礎設施,飛槳和人工智能一起在向更多的行業、地域和領域發揮着價值。在人工智能技術和生物計算領域的結合上,百度已經做出了一系列嘗試和探索。

在本次的 Wave Summit + 峰會上,百度正式釋出了生物計算平台「PaddleHelix 螺旋槳」。這個人工智能和生物計算領域結合的平台,是飛槳的一次「跨界」。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

該平台先期将開源螺旋槳生物計算開源工具集,提供包括 RNA 二級結構預測、大規模的分子預訓練、DTI 藥物靶點親和力預測以及 ADMET 成藥性預測等在内的新藥研發和疫苗設計環節的核心能力,幫助生物資訊學、計算機交叉學科背景的學習者、研究者和合作夥伴,更便利地建構 AI 算法模型。

程式設計一緻、動靜統一:飛槳開源架構迎來 2.0RC 版本

作為國内開源最早、技術領先、功能完備的産業級深度學習平台,飛槳一直在進行迅速地疊代。在本次的 Wave Summit + 峰會上,百度深度學習技術平台部進階總監馬豔軍宣布:飛槳開源架構 2.0RC 版本正式釋出。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單
重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

經過兩年的研發,新版本能夠給開發者帶來「程式設計一緻、動靜統一」的全新開發體驗。這一體驗的實作,離不開飛槳在以下幾個方向的重要創新和更新。

動态功能走向成熟,預設開發模式更新為動态圖模式

目前深度學習架構主要有聲明式程式設計和指令式程式設計兩種方式,對應靜态圖和動态圖兩種程式設計範式。靜态圖模式能夠對整體性做編譯優化,更有利于性能的提升,而動态圖則非常便于使用者對程式進行調試。

為了兼顧兩種程式設計範式的優勢,飛槳 2.0RC 将預設的開發模式正式更新為動态圖模式。開發者可以随時檢視變量的輸入、輸出,友善快捷地調試程式,還可以使用 Python 原生的控制流(如:if,for 等)靈活組網。

然而,動态圖的模型在使用 C++ 部署時會面臨巨大的挑戰。對此,新版飛槳提供了完備的動轉靜支援,在 Python 文法支援覆寫度上達到領先水準。在動态圖程式設計調試的過程中,開發者僅需添加一個小小的裝飾器,就可以無縫平滑地自動轉靜态圖訓練部署。同時,2.0RC 版本的飛槳還做到了模型存儲和加載的接口統一,保證動轉靜之後儲存的模型檔案能夠被純動态圖加載和使用。

全新更新的 API 體系

如果說深度學習架構是開發者們在 AI 海洋中乘風破浪的動力引擎,那麼 API 就是這個引擎的控制台上的按鈕,是深度學習架構威力發揮的直接入口。飛槳開源架構 2.0RC 版本更新了整個 API 體系,使其更加簡潔、系統,還能向前相容。

整體來看,新版飛槳包含 19 大類 API,功能上也進行了全面增強,尤其是分布式訓練相關的 API。常用的通信政策和啟動方式等操作,以及原先分散在各處的分布式優化政策相關的 API 被統一歸納到 paddle.distributed.fleet 之下,形成了 Fleet API。這樣的話,開發者隻需要通過這些接口去做簡單的配置,就能做分布式訓練。此外,新版飛槳還新增了 200 多個 API,提升了整體開發體驗。

在開發過程中,開發者往往需要以一種更加簡單、快捷的方式應用 API,完成資料增強、建立資料流水線等可以标準化的工作流程。針對這個需求,新版飛槳提供了更适合低代碼程式設計的高層 API,允許開發者用 10 行代碼編寫完成訓練部分的程式。而且,這些高層 API 和基礎 API 可以靈活地交叉使用,讓開發者在簡捷開發與精細化調優之間自由定制,改變了很多開源架構高層 API 和基礎 API 割裂的局面。

說到這裡,很多開發者可能會問,這個新的 API 體系遷移成本高不高?馬豔軍在會場強調,「我們是完全向前相容的」。此外,飛槳還提供了專門的遷移工具和新舊版本的 API 對照表,以降低開發者的遷移成本。

更好地支援深度機率程式設計等前沿學術研究

飛槳 2.0RC「程式設計一緻,動靜統一」的程式設計體驗對深度機率程式設計、量子機器學習開發等前沿技術研究也有巨大的支撐作用。

此次大會上,清華大學計算機系教授、深度學習技術及應用國家工程實驗室副主任朱軍介紹了珠算深度機率程式設計與百度飛槳的合作,依托飛槳架構成熟的底層功能和動靜統一的開發體驗,更好地支援深度機率程式設計工具開發和前沿技術探索。

在設計上,珠算底層複用了飛槳架構的核心能力,實作了動态圖程式設計。它還基于飛槳的全新 API 體系實作了進一步的豐富和擴充,增加了 BayesianNet、StochasticTensor 等特色元件,豐富了底層機率庫,讓開發者能夠輕松地完成深度生成模型模組化、變分推斷、蒙特卡洛采樣等應用,有力支援了深度機率程式設計領域的研究與探索。

在量子機器學習開發方面,飛槳架構新增了對複數計算方面的支援,成倍地提升了複數運算的效率,基礎複數運算速度最高可提升 22.3 倍。此外,飛槳還優化了複數 Tensor 運算的寫法,簡化了使用量槳開發模型的代碼實作規模,助力量槳進一步提升了性能和易用性。

業内首個通用異構參數伺服器架構

伴随着 2.0RC 版本的釋出,飛槳還宣布了大規模分布式訓練的更新,正式推出業内首個通用異構參數伺服器架構。

在搜尋推薦領域,模型通常具有大規模稀疏特征,訓練時是一個 IO 密集型任務。這種任務适合用 CPU 搭建的參數伺服器架構來完成。但為了追求更好的效果,開發者通常需要在推薦模型中增加越來越多的複雜網絡結構,使得訓練算力成為瓶頸。

算力不夠,加 GPU 行不行?首先,傳統伺服器架構往往要求硬體類型一緻,無法加入算力較強的 GPU 等硬體。其次,GPU 等硬體不擅長 IO 密集型任務,是以我們也不能用 GPU 完全取代原來的硬體。

在這種背景下,飛槳推出了首個異構伺服器訓練架構,實作了異構硬體的自由混布,能夠實作資料的獨立存取傳輸,大幅提高了資料吞吐量。此外,它還通過流水線機制提高了訓練速度,通過多種通信政策提高了帶寬的使用率。

測試結果表明,在相同的硬體條件下,飛槳的異構參數伺服器架構比單純的非異構參數伺服器架構性能提升了 65% 以上。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

開源算法庫全面更新

開源算法庫的更新也是新版飛槳的一個重大更新。新版飛槳官方支援的算法從 140 +個擴充到 200 + 個,涉及各個領域,而且都更新到了動态圖實作。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

飛槳企業版兩大新特性釋出

除了以上釋出的全新内容外,飛槳企業版還迎來了兩大新特性的釋出。

全新 AI 內建開發環境 BML CodeLab

很多 AI 開發者都遇到過「想做模型訓練,本地機器資源不夠用」、「租雲伺服器好貴,機型少不穩定」等問題。基于開發者的痛點,百度飛槳企業版推出了全新的端雲協同 AI 內建開發環境——BML CodeLab。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單
重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

BML CodeLab 在基于 JupyterLab 優秀功能的基礎上,引入了微軟 Monaco Editor-VSCode 的編碼體驗,支援任何程式設計語言的代碼補全、用法提示、多光标等 IDE 功能,實作了 50 多個體驗優化項。

為了達到開箱即用的效果,BML CodeLab 內建了許多高性能的 AI 工具元件,比如高性能單機引擎,相比開源 Pandas/Sklearn 加速性能平均高 6 倍以上;還有飛槳文心 (ERINE)NLP 開發套件,将資料标注、算力投入、開發時長等成本大幅降低。

另一個非常有特色的功能是端雲協同。BML CodeLab 可通過雲端倉庫把本地的代碼、資料、模型上傳到雲端,在大資料量和大計算量的情況下,将本地任務無縫擴充到雲端。

智能資料服務平台 EasyData

随後,百度 AI 平台研發部總監忻舟介紹了智能資料服務 EasyData 的更新。

在智能資料标注方面,EasyData 通過核心算法、算法流程、硬體的更新,将智能标注的時長平均減少了 74%,在物體檢測和圖像分割上的準确率分别提升了 6.4 和 3.2 個點。

EasyData 的多人标注功能能夠解決資料分發、标注結構稽核等問題,将資料集和标簽管理進行了拆分,讓開發者更加靈活地使用資料。

第三個新特性是進階智能清洗,可自動過濾無人臉、無人體的資料,廣泛應用于安全生産、視訊監控等場景。

此外,飛槳的生态建設離不開廣大的生态夥伴。為了加快生态建設,飛槳在 5 月份釋出了硬體生态圈共建計劃。在半年之後的今天,馬豔軍宣布:飛槳硬體生态路線圖正式釋出。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

從圖中可以看出,整個飛槳已經與 20 家硬體企業達成合作,目前正在适配和已經完成适配的晶片和 IP 的型号已經有 29 種,并且在國産硬體的支援方面遙遙領先,加速了國産 AI 産業鍊适配更新。

産業共進、人才共育、開源共建:AI 大咖共話未來發展

開源以來,飛槳一直秉持開源開放、技術創新,産學研用通力融合,從産業應用、人才培養、開源社群三個次元全面推進生态繁榮,助力産業智能化更新。在本次的 Wave Summit + 大會中,多位大咖圍繞「産業共進」、「人才共育」、「開源共建」探讨了深度學習的未來發展問題。

在「産業共進」環節,甯德時代智能制造部部長張偉和昆侖數智科技有限公司人工智能與物聯網技術總監衛乾分享了應用經驗,并與其他十個項目一起獲得了「飛槳産業應用創新獎」。

在「人才共育」環節,百度研究院大資料實驗室和商業智能實驗室主任窦德景主持了一場圓桌論壇,邀請北京大學資訊科學技術學院教授黃鐵軍、北京航空航天大學計算機學院教授王蘊紅、中國人民大學資訊學院院長文繼榮分享他們在 AI 人才培養方面的經驗和見解。深度學習領域頗受歡迎的「精靈寶可夢大師」李宏毅作為首批入駐 AI Studio 的名師,也加入現場連線與大家分享了如何「如何高效掌握深度學習」這一話題。

在「開源共建」環節的圓桌論壇上,百度飛槳總架構師于佃海邀請了複旦大學計算機科學技術學院教授邱錫鵬、北京大學資訊科學與技術學院前沿計算研究中心助理教授董豪、PreAngel 合夥人李卓桓、Zilliz 創始人兼首席執行官星爵等人共同探讨了 AI 開源項目的建立與維護經驗。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

從左到右:于佃海、董豪、邱錫鵬、星爵、李卓桓

如何打造一個成功的 AI 開源項目?嘉賓們認為,首先要保證實作「生态」和「技術」兩個閉環,做開源項目和創業十分相似,找到一個好的「選題」是重中之重,而項目成員的多樣性,能夠促使項目後期去探索無限的可能性,此外還需要一群優質的、多元化的開發貢獻者。

開源開放的飛槳促進了 AI 産學研社群的發展壯大。其實,這不僅是我們的主觀感受,還展現在飛槳平台的一些資料中。在大會上,百度集團副總裁吳甜為我們解讀了其中的一些資料。

在産業方面,飛槳平台上的應用品類明顯增加,非網際網路 IT 行業占比從 53.4% 增長至 67.9%;在社群方面,全國開發者 AI 熱情升溫,過去一年增速 TOP5 城市分别是佛山、東莞、重慶、福州和天津;在教學方面,越來越多的高校老師開始關注 AI 課程,非計算機專業高校教師占比從 2019 年的 35% 增長到 2020 年的 45%。

當然,AI 社群的持續壯大離不開人才培養。而在這方面,基于在産品、技術、生态各個方面的積累,飛槳已經準備就續,準備全面開啟大航海計劃。

大航海計劃包括領航、啟航和護航三個部分,領航計劃面向核心開發者群體,踐行開源布局理念,永當 AI 時代的先行者,領航前行。護航計劃面向産業界,通過企業教育訓練、技術咨詢、技術服務等方式護航企業智能化轉型,啟航計劃面向人才培養,通過校企合作、産教融合開啟 AI 人才培養的新篇章。在本次峰會上,飛槳正式釋出了啟航計劃,預計在未來三年投入總價值 5 億元的資金與資源,支援全國 500 所高校,聯合培養 50 萬關鍵 AI 人才。

在峰會上,百度、LF AI&DATA 基金會、深度學習技術及應用國家工程實驗室也聯合為 97 位飛槳社群核心開發者頒發了「PPDE 飛槳開發者技術專家」證書,作為對開源開放工作的鼓勵與支援。

百度副總裁徐菁現場為AI瀕危物種保護項目、AI 文物保護項目、AI 沙漠栽樹機器人項目三支團隊頒發了 2020 年度 AI 公益合作項目證書并授予星辰計劃基金。

重磅釋出開源架構2.0RC版 、生物計算平台「螺旋槳」,百度飛槳交了份年終成績單

左上:王愛華、吳甜為産業應用獎獲獎項目頒獎、右上:徐菁頒發星辰計劃基金;左下 & 右下:張偉民、朱軍為飛槳技術開發者技術專家頒發證書

時隔半年,人們再次見證了百度飛槳在開源開放之路上的巨大進步。驅動這種核心力量的正是每一位飛槳平台的開發者,265 萬飛槳開發者的每一步,都将推動中國人工智能領域走向全新的方向。

© THE END 

轉載請聯系本公衆号獲得授權

投稿或尋求報道:[email protected]