天天看點

企業級資料可視化應用有哪些機遇與挑戰?

在前不久的上海外灘大會上,螞蟻集團資深技術專家林峰分享了企業級資料可視化應用的機遇與挑戰,以及螞蟻是如何實踐的,我們将内容整理出來與大家分享。
企業級資料可視化應用有哪些機遇與挑戰?

大家好,很榮幸有機會能在這給大家做個分享,今天準備的主題叫做“企業級資料可視化應用的機遇與挑戰”,偏向于設計體驗和工程實作,主要來自于過去這些年自己在這個領域内的一些實踐體會和思考,希望作為引子能給大家帶來一點靈感或啟發。

AntV 是螞蟻集團的資料可視化解決方案,甚至可以說是整個阿裡資料可視化的基礎設施,從15年發起至今已經疊代了5年,支撐着集團内外2萬+企業級應用。在這些年裡我們也走過彎路,踩過很多坑,也逐漸看到些這個領域未來的趨勢,是以會有今天想跟大家分享一些我們的實踐和思考。

企業級應用為什麼需要資料可視化

對于這個問題,在我看來最主要是兩方面的原因,第一方面是因為企業級資料的特征,在當下,我們的身邊,IoT 裝置,雲上無時無刻不在高速的産生着海量的資料,不僅是數字、文本還有各種各樣的圖檔、音視訊,這些資料内還蘊含着複雜的多元交叉、時序關系、空間資訊等等,網際網路企業無一例外,都需要挖掘這些資料做經營決策分析,産品改進等等,但在這快速海量多樣價值稀疏的資料中萃取價值的難度不亞于淘金。

而另一方面,資料可視化對我們來說恰好是一個不錯的淘金工具。我想主要有三點:

第一點是圖形圖像識别是人類本能,我們知道阿拉伯數字在1200年前後才被廣泛使用,中國的甲骨文數字出現在公元前1600年,世界上最早的楔形文字大概出現在公元前3000年,而最早的洞穴壁畫在4萬年前就有了,人類習慣用圖形圖案去表達比用文本、數字早了4萬年,科學的實驗證明我們對圖形圖案的處理速度比文本、數字高出1到2個數量級。

而更重要的是人類花了370萬年的才習得這個技能,更别提30億年的生物進化,人類大腦有超過50%的組織用于視覺處理相關,眼睛是人類最快也是最主要的資訊輸入通道,我想人類基因再怎麼突變在我們有生之年都不會改變人類對于圖形圖案高效識别本能。

第二,在可視領域裡我們管這個特性叫隐喻,不管是從300年前發明的折柱餅還是當代的一些新型表達,大家會發現,能流行起來的一定都是那些跟我們生活、常識緊密相關的視覺表達,就像這些。原因很簡單,易了解,在可視化領域裡對認知效率的追求就像寫程式時對性能的追求一樣的原始、樸素。

最後一點是統計學加成,不管是簡單的加和、平均還是複雜的聚類、回歸,統計學是讓一組資料變成一個洞察的催化劑,而且随着計算機領域的算法、算力增強,會進一步放大資料可視化的優勢,因而也間接增強了人類的認知能力。

是以總結來說,資料可視化是資料淘金的必備工具,而且看起來會在未來很長很長的時間裡都還會是一個不錯的工具。

也正因為這些原因,我們可以看到在資料行業的版圖裡,有大量資料可視化強相關的産品、應用,特别是在資料分析、商業智能領域,資料可視化成為了這些産品的核心競争力,有着數千億美元的市場規模。

企業級資料可視化應用有哪些機遇與挑戰?

回到螞蟻集團,在我團隊參與的數百個企業級應用裡超過8成需要資料可視化的能力,占比遠遠高于toC類的産品,從最普遍的業務系統上的各類報表,到垂類的資料場景應用,比如像性能監控系統、流量分析應用,再到複雜的如算法搭建、資料加工等研發平台,以及重度依賴可視化的商業智能,螞蟻集團有着極其豐富的資料可視化土壤。

這就是為什麼我們需要資料可視化,為什麼我們會投入那麼多時間,人力去打造這樣一個資料可視化基礎設施。

資料可視化面臨的三大問題與挑戰

第二部分,想和大家分享一下在資料可視化産品設計,應用研發上我們面對哪些主要的問題與挑戰,以及我們是如何應對的一些思考。

第一個挑戰是設計陷阱,有過這方面系統研發的朋友應該都會深有體會,理想很豐滿,但現實很骨感,我們很多産品設計圖上都很好看,俨然一個指揮作戰中心一樣,總覽全局,洞察鮮明,但上線後卻發現各種别扭,常見的就像這兩個素材一樣,真實應用環境中的畸形的資料分布,類目過多等等都會讓原本看起來還不錯的設計變得一團糟。

一眼就能看出來的問題通常都比較好解的,為了避免研發上線後再返工,通常我們會要求在産品設計階段就盡可能拿到真實資料作為輸入,了解到真實的資料特征後再做設計,我稱這個要求叫“始為真”,真實資料,真實特征;

但更難或者說更不易被發現和解決的問題是那些看起來還行,但總覺得别扭的case,我們發現這圖沒啥用,但這圖所要展現的資料又十分重要不能沒有,比較常見的就像一些一年都非常平滑的性能名額、彙總資料,角色構成等等,這些線圖、餅圖你什麼時候來看都長得差不多,細微的變化差别你根本發現不了,而且更可怕的是就算能把變化展現出來,很多資料可視化産品設計上并沒考慮分析目标,用這樣一個圖去表達這份資料究竟想看到什麼,如果這條曲線上去了或下來了我們的使用者會進一步想知道什麼,會從哪些角度進一步分析,相關的決策動作是哪些?如果不往前再想一步,或者說不從終點倒推回來做設計,産出往往就會變成很多報表子產品的通病“so what?Useless”

比如在這個圖分析相關的項目中,使用者會從一個目标節點開始查詢,不斷檢視和展開與該節點直接或間接關聯的節點進行探索分析。一開始大家也不知道該如何展現這樣一個複雜的關系網絡,使用了最常見的力導向算法做布局,但不管如何調整布局參數,依然一片混亂,傳遞不了有效的資訊。但當我們反過來去探尋使用者的分析目的關鍵是要做團夥發現,關鍵擴散路徑,有了這個分析目标的輸入,很快就有了相對應的基于特定屬性的聚類布局去做團夥發現,用友善檢視一度二度鄰居關系的徑向布局去找尋關鍵擴散路徑。我稱這個要求叫“終為實”,實際分析意圖,實際決策依據。

甚至更進一步,單一的靜态設計已經不能滿足動态資料和分析意圖變化的需求,我們還會去做運作時的動态增強,比如我們發現餅圖出現大量長尾類目時會自動提醒做類目合并減少幹擾,條形圖自動排序,圖表類型切換建議等等。

始為真,終為實,運作時增強這是我們應對設計陷阱的三個主要對策。

第二個挑戰是研發困境,正如外灘大會的主題,支付寶希望推動全球金融普惠,背後所依靠的是我們的技術普惠,不僅僅是我們的産品能夠服務更多的人,同時也希望我們的基礎技術可以賦能給到更多的人使用。然而資料可視化這個方向本身還是有比較高的門檻,掌握各種資料分析、幾何計算、圖形文法等技能的專家們手裡有 D3、Highchart、Tableau等各種武器,他們懂得用什麼樣的可視表達能解決什麼樣的分析需求。然而對于更多并不需要成為這個方向專家的平民來說,他們用的是Excel、PowerPoint甚至Photoshop,大量的研發實作都是找到一個看起來跟需求差不多的demo,複制粘貼。但事實上很多看起來差不多的實作可能技術選型都是有問題的,比較常見的比如一個圖分析用了一個統計圖表庫,用離線的地理資料去做一個面對公衆的應用,移動應用上用了一個給大屏用的架構等等。

我們希望給大家提供一套完整的,面向各類細分應用場景,專業的企業級資料可視化解決方案,是以會有了 AntV 這個産品矩陣,這是一個按資料特征水準分域,按能力封裝垂直分層的開源産品矩陣。

企業級資料可視化應用有哪些機遇與挑戰?

正常統計資料域上我們有前端領域内最完備的圖形文法實作 G2,這就是剛才主持人介紹的那個獲得圖形文法創始者Wilkinson肯定的項目,這是最主要的資料域,而且為了滿足支付寶這種國民級的移動端應用對性能和體積的苛刻要求,我們定制了移動端的實作 F2,大家在支付寶上看到的很多财富收益變化、基金走勢等等背後都是 F2,今年的 11.22,AntV 品牌日上,F2 應該還會有一個驚喜給到大家。

第二個重要的資料域是關系資料,這是反映現實世界的特征資料,不管是我們人與人之間的關系,企業間的往來,點對點的物流通通都可以用關系資料表達,今天上午,就在咱們這個會場舉辦的正是“圖智能”的分論壇,講了很多實時圖計算,時序圖智能方面的技術,圖資料的應用對金融領域來說實在太重要了,不管是風控、推薦還是反洗錢等都需要用到圖資料,螞蟻不僅有圖資料庫 Geabase,有金融知識圖譜平台,還有大量的圖分析應用,這部分的需求我們用 G6 去支撐。與此同時,基于圖編輯的互動方式去做業務領域模組化,流程任務編排,機器學習的算法搭建近兩年成為了主流的互動方式,我們其實 4 年多前就有深度依賴圖編輯的應用存在,去年我們決定把這個子產品的核心抽取出來去應對這個越來越旺盛的需求,在今年 11.22,我們會正式開源這個項目 X6。

第三個重要的資料域是地理空間資料,可能大家對這個資料領域并不陌生,我們早已熟悉各類 LBS 應用,但我想說的是單從資料可視化角度來說,這是一個風險極高的領域,市面上大量離線地圖應用基本都是不合規的,不說滿足一圖一審的要求,一份完全合規的離線地理資料就已經有非常嚴苛的标準,AntV 的每一個産品都被成千上萬個的應用所依賴,這點我們不敢掉以輕心,這就是典型的看起來都差不多,但背後的專業度可能相差十萬八千裡的項目,在地理空間資料域上我們有 L7.

分層是平衡靈活性和易用性的常用手段,建構在這些基礎類庫上我們有更高度能力封裝的項目,像 G2Plot、Graphin 等等就不多介紹了,這些都可以在 AntV 官網上找到。

但有了一個比較完整的産品方案還遠遠不夠,我們希望研發門檻能夠進一步降低,在平衡靈活性和易用性上分層封裝能讓我們100行原始代碼變成50行,但我們仍需要通過學習大量使用文檔才寫得出這50行代碼,我們希望我們的使用者不需要看文檔,也不需要50行那麼多,是否可以就一行代碼,這不是什麼天荒夜談,我們已經在做了,半年多前的SEE Conf上我們示範過 AVA 的原型,感興趣的朋友可以線上找到 AntV 的這個分享。我希望 AntV 的産品矩陣和智能研發能解決掉大部分的研發實作上問題。

最後一個更大的挑戰,是解讀訴求的更新,過往企業級的資料可視化訴求更多都隻是簡單直接的叙述,描述性分析,但随着越來越多可視分析的人才和理念從學術界走到工業界,出現了大量靈活多變的探索需求,圈取、關聯、下鑽,探索性分析逐漸成為标配,這方面我們目前也沒有很成熟的解法,應對這挑戰,一方面我們會從業界,特别是學術界引進可視化方向的專業人才,另一方面結合業務訴求我們自己也做了大量創新嘗試,就像KPI名額的可視化拆解,波動分析等等,如果大家有這方面的想法歡迎更多的交流。

資料可視化未來趨勢

關于未來趨勢,我想和大家分享一個我對資料可視化發展的思考模型,過去的一些技術判斷以及對未來方向的預判其實都是從這個模型而來。

正如剛才所說,資料特征對資料可視化來說是一個很重要的次元,大家看到 AntV 目前的産品矩陣設計其實隻是這個模型的一個切面,跟資料特征同樣重要的還有兩個次元。

其中一個是時間,從時間的次元觀測資料可視化的能力你會發現,我們絕大部分的應用都在展現過去的資料,一個時刻的單一資料和一個時間段上的彙總資料,本質上并沒有差別,都是單點資料,比如用一個餅圖去看某個組成。而當多個這樣的點按照先後關系排列出來就會進入離順序列的階段,對離順序列的可視表達跟對單點資料的表達方式是很不一樣的,因為觀測點更多會落在變化上面,就像我們會常用折線圖去看趨勢,會用動畫去表達變化本身。離順序列再往前走會走到實時序列,這裡面很關鍵的一個技術推動力是 5G/IoT 時代的到來,他會讓實時計算成為主流,同樣也會對實時資料可視提出新的要求,特别是在性能上,對響應時間、算法處理都會有更高的要求,另外,我認為對實時序列觀測點更多會落在異動上,視覺呈現會有更多變化殘影的設計去展現實時的狀态。

第三個次元是分析,Gartner 給出了分析發展的幾個階段,描述性分析、診斷性分析,這包含剛才我們提到過的探索性分析,這是我們當下的主流階段,随着 AI 技術的發展,AI 跟可視化的結合我們會把我們帶入到預測性分析和規範性分析,這不僅會大大降低我們獲得資料洞察的成本,提高效率,而且還會帶來更具決策建議的洞察進而産生更大的價值。

是以從這幾個切面去看企業級資料可視化的未來發展,能看到幾個比較明朗的趨勢:

企業級資料可視化應用有哪些機遇與挑戰?

第一個趨勢是智能化,從設計、研發、展現到分析,每一個階段都有跟AI結合的地方,就像阿裡雲 DataV 從手繪設計稿自動生成代碼的功能已經在生産環境上投放,剛才提到過的 AVA 在研發階段的智能輔助,圖表推薦也驗證了可行性,我們内部的 BI 系統正在探索洞察的自動解讀,自然語言查詢和增強分析,今年初我寫過一篇文章,講的就是智能資料可視化時代的到來,相信接下來的幾年會有突破性的進展。

企業級資料可視化應用有哪些機遇與挑戰?

第二個趨勢是平民化,這是我手機裡的幾張照片,第一張是我支付寶上買的一個基金的走勢,第二張我家附近菜市場的門口的大屏,第三張是在杭州到千島湖路上某個高速公路服務區廁所門口的引導牌。有充分的理由相信,随着IoT裝置的增多,數字生活服務普及,資料可視化會在我們生活中無處不在,可視化不再隻是給資料科學家用的工具,我們要有更多讓老百姓一看就懂的設計。

企業級資料可視化應用有哪些機遇與挑戰?

第三個趨勢是決策內建,想想假如我們的資料能實時到來,決策建議能自動産生,需要我們做的就是判斷是否執行,就像一個陌生來電系統提醒你這是一個被200人标記為電話推銷号時一樣,你閑着沒事可以選擇聽聽賣啥,也可以果斷挂掉。是以以終為始的看,資料可視化的價值是決策執行後帶來的,他前置依賴輔助決策時給的行動建議,而能給出行動建議的一個很關鍵技術能力是增強分析。我想未來的資料可視化應用都會有決策內建,就像一個數字駕駛艙一樣,不僅隻是看,更重要的是連接配接起各個系統,下發行動指令。

這是今天分享的全部内容,可能隻是企業級資料可視化應用機遇與挑戰的冰山一角,歡迎大家補充,資料可視化是一個即古老又年輕的領域,期待有機會跟大家有更多的交流,謝謝大家。

- END -

企業級資料可視化應用有哪些機遇與挑戰?

繼續閱讀