天天看點

從雲栖大會第一天看阿裡和圖計算

我是一名理工科碼農,想不出一些詩詞歌賦來形容本次雲栖大會聲勢的浩大、場館的漂亮、陣容的強大,以及人山人海,隻能用好大、好漂亮、好強、人好多來表達一下自己的感受,而且,這些感受的資料來源都是來自網上的直播、重播和照片分享。是的……由于項目進度上的一些原因,我沒能去杭州參加本次雲栖大會,但是,我依然收益良多。

先從25日上午的主論壇說起,回想起去年雲栖大會第一天上午的大會議程,主論壇與各分會論壇是同時進行的,這就造成了比較大的分流,導緻許多人無法把注意力集中到主論壇的分享上。今年的大會議程就修改了這個Bug,上午隻設定主論壇,引導大家把注意力都集中到主論壇分享的阿裡巴巴集團在很多領域中目前取得的技術應用進展以及對未來的規劃,讓大家在對技術、大資料、人工智能、IoT等領域的技術前沿及發展趨勢有一個總體的印象。這讓我回想起我08年碩士畢業後來到成都一家外企的研發中心工作時,當時中國區技術總監對我們說過的一句話,他說工程師不能總是一直低頭幹活,有時候還要擡頭望望天。我十分認同這一點,對技術及應用的發展動态和趨勢有一個總體的認識和把握,是十分有必要的。單從大會議程這個細節的Debug來看,阿裡真的很細心,也十分用心!

對于主論壇所分享的内容,作為一名理工科碼農,我更感興趣的是一些數字。今年是阿裡巴巴集團成立20周年,是阿裡巴巴開發者大會舉辦10周年,是雲栖大會舉辦5周年,是達摩院成立2周年,是平頭哥成立1周年;目前,淘寶上有1000多萬個賣家,釘釘上也有1000多萬個組織;浙江省省政府的移動化辦公平台有100萬日活,實作了100萬公務員的移動化辦公;東方希望集團在釘釘上花了90萬元,開發了47個小程式,實作了之前投入9000萬元都沒能實作的線上移動協同辦公;在主論壇現場,平頭哥正式釋出含光800晶片,在這款晶片上,使用ResNet50網絡進行測試時,晶片每秒可以處理78563張圖檔,而且每瓦每秒可以處理500張圖檔;一個含光800的算力等于10個GPU;如圖一和圖二所示,将含光800應用于杭州主城區交通視訊中的車輛與路況識别的場景中,對比之前使用GPU晶片處理此應用時需要使用40個GPU晶片,延時為300毫秒,單路視訊功耗為2.8瓦。當使用含光800晶片之後,處理此應用隻需要使用4個含光800晶片,是原來的十分之一,延時達到150毫秒,是原來的一半,單路功耗達到1瓦,節省了比原來一半還多的功耗。從這些簡單的數字,就可以窺見到阿裡巴巴集團成立20年來,對雲計算、大資料、物聯網等領域的技術發展、對中國社會、廣大技術工程師、中小企業、個體賣家、以及普通百姓做出了實實在在的貢獻!作為一個技術宅,我也為能在項目中使用阿裡雲的産品以及一些開源架構,而感到十分自豪!

從雲栖大會第一天看阿裡和圖計算

圖一

從雲栖大會第一天看阿裡和圖計算

圖二

當然,除了在主論壇分享的那些數字,我對開場視訊中的三段話也深有感觸(如圖三、圖四、圖五),就是“我們相信,資料是連接配接世界的血脈”,“我們相信,算力是建構夢想的動力”,“數字經濟時代的基礎設施,才是造風者尋找的未來價值”,我也相信,像我一樣,經曆過項目中資料量大、存儲和計算資源又十分有限的技術宅們,當看到這三段話時,都還感同身受,當看到平頭哥釋出的含光800時,也都會心馳神往,立即掃描申請試用。隻是,我的個人使用者申請,還在等待稽核……期待ing……

從雲栖大會第一天看阿裡和圖計算

圖三

從雲栖大會第一天看阿裡和圖計算

圖四

從雲栖大會第一天看阿裡和圖計算

圖五

收!把思緒拉回到下午的議程。當今年雲栖大會的議程公布之初,我就注意到25日下午的兩個跟圖計算有關的專場,【智能圖計算技術專場】和【基于圖神經網絡的認知智能計算專場】。在較大資料量的前提下,在分布式叢集上建立圖計算模型是我們項目目前遇到的一個痛點,是以我早早就盯上了這兩個專場,而且當我得知在【智能圖計算技術專場】上還将公開一款圖計算的開源架構時,我更是眼前一亮。我還記得當天我是在公司的大會上偷偷用手機看完這個Topic的,當我看到這個名為pygrape的分布式圖分析引擎可以跟阿裡已經開源的Mars無縫對接時,看到在單機版Python代碼的基礎上做少量代碼替換,即可實作對大規模圖資料進行分布式計算時,我終于有了一種柳暗花明又一村的暢快;當我看到可以使用graphT對關系圖進行互動式分析時,這種意外的驚喜,更是讓我激動不已,當時真想大聲的喊一句“我終于不用為內建Neo4j發愁了”;當于文淵說pygrape和graphT将會在明年開源時(如圖六),我真想明天就過年。

從雲栖大會第一天看阿裡和圖計算

圖六

雖說現在在機器學習、人工智能領域,Python這門程式設計語言已經是事實上的标準程式設計語句,可是在目前主流的開源大資料計算架構Spark和Flink中,Python都還不是一等公民。單就圖計算來說,要想在Spark中對離線資料進行圖計算,可以使用GraphX元件,隻是這個元件沒有Python的API,需要使用Scala或者Java來實作,而且GraphX的圖計算是把每個點和邊的屬性存儲在一個個RDD中進行計算,但并不提供可視化的互動式查詢或分析功能,想要實作互動式查詢或分析,就需要對接Neo4j這樣的圖資料庫軟體,這對建立圖計算模型和産品化是非常不友善的。而且沒有Python的API,在特征工程及模型訓練階段中的機器學習算法模組化,甚至建立圖神經網絡,都是很不友善的。

是以目前的現狀就是,缺少一個基于Python程式設計語言的大資料生态。在資料處理及分析階段,可以使用Python在分布式叢集上,對大規模批、流資料進行資料讀取、資料清洗、資料處理等操作,在特征工程及模型訓練階段,可以使用Python,将處理好的資料,對接主流的機器學習及深度學習架構,如scikit-learn,TensorFlow,Keras,PyTorch等,篩選出适當的特征,喂給算法模型或網絡進行模型訓練,再将訓練好的模型部署上線進行預測。而阿裡開源的Mars、pygrape和graphT這三個架構,就能夠很好的改善這一現狀,開始建立起Python的大資料生态。這三個開源架構的另一個好處,就是不僅可以在阿裡雲上幫助使用者使用Python統一資料處理及分析和特征工程及模型訓練的工作,還能夠幫助那些資料沒辦法上雲的使用者,在各自的分布式叢集上,友善快捷的對關系型資料和關系圖進行分布式計算,并無縫對接到機器學習和深度學習架構,進行模型和網絡的訓練,使機器學習和人工智能更好的深入到更多的應用場景中。真的是資料處理、分析模組化之必備良品。

當然,在阿裡雲上,就圖計算和圖神經網絡的應用來說,除了為我們這些碼農準備了上述那些很好很強大的開源架構外,本次雲栖大會【智能圖計算技術專場】還釋出了更為全面的一站式圖計算開發平台GraphCompute。在釋出會上,陳潔引用了DB-Engine網站的資料庫排名(如圖七右上角子圖),可以明顯的看到從2013年開始,綠色線所代表的圖資料庫技術一直在陡峭攀升,表示圖存儲及圖計算技術的技術突破和相關産品一直在不斷的湧現;她還引用了Gartner釋出的2019年跟資料相關産品魔力象限的分析報告(如圖七左下角子圖),并指出報告中分析師們預測在未來的2到5年内,在企業層面和實際的需求落地層面,圖相關的項目和需求都會有很大的發展,說明企業在業務中應用圖計算的需求也在不斷的湧現。同時,陳潔也列出了目前圖計算技術在如下4個常用場景的應用(如圖八),即社交關系、知識圖譜、金融風控和網絡安全。其中,圖計算技術在知識圖譜和網絡安全場景中的應用,都是目前我們産品和項目中的痛點,是以我也馬上送出了GraphCompute的公測申請,目前依然在等待稽核中……期待ing_2……

從雲栖大會第一天看阿裡和圖計算

圖七

從雲栖大會第一天看阿裡和圖計算

圖八

與此同時,【基于圖神經網絡的認知智能計算專場】着重介紹了以拖拽式訓練模型為特點的PAI平台(如圖九)為基礎,使用GNN算法倉庫為使用者快速搭建圖神經網絡的AliGraph平台(如圖十)、系統性能(如圖十一)以及實際場景應用案例(如圖十二)等。

從雲栖大會第一天看阿裡和圖計算

圖九

從雲栖大會第一天看阿裡和圖計算

圖十

從雲栖大會第一天看阿裡和圖計算

圖十一

從雲栖大會第一天看阿裡和圖計算

圖十二

再配上這次大會平頭哥釋出的含光800晶片,可見在圖計算的技術領域中,在資料處理及分析和特征工程及模型訓練階段,無論是軟體技術還是硬體設施,阿裡都已經為大規模分布式圖計算應用做好了充足的準備,為企業提供了性能良好的存儲和計算平台,功能強大的開源架構,以及性能卓越的晶片。正如【基于圖神經網絡的認知智能計算專場】中鴻俠所說,人工智能已經更新到2.0版本,我相信大規模圖計算技術即将在滿足企業各種大資料複雜業務場景的需求中大顯身手。

另外,之是以我的這篇部落格中能貼出這麼多畫質清晰、整潔的圖檔,還要感謝這次雲栖大會錄制并分享了全部的會議視訊,并在各分會的分享中采用了PPT與主講人分屏顯示的方式,這樣我才能對每頁PPT進行完美的截圖,貼在這篇部落格中。而且,這次大會還分享出73篇大會使用的PPT,如此的用心和開放,這次雲栖大會真稱得上是一場技術的盛宴了!明年,我一定争取去現場!

最後,随文附帶上這次雲栖大會視訊回放和PPT下載下傳的連結,希望能為看到這篇文章的小夥伴們節省一些查找連結的時間。

視訊回放:

https://yunqi.youku.com/2019/hangzhou/review?spm=a2c4e.11165380.1395223.1

PPT下載下傳:

https://developer.aliyun.com/article/719452?utm_content=g_1000078801