雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
本文從大資料本身的特點及其應用需求出發,結合資料可視化的研究現狀,介紹了适用于大資料的資料可視化技術;分析在大資料條件下資料可視化所要解決的8個關鍵問題;讨論了針對大資料可視化應用需求自主研發的互動式可視化設計平台AutoVis及其應用。
圖靈獎獲得者JimGray曾說,資料密集型科學發現是繼實驗歸納、邏輯推演、仿真模拟之後的第4類科學方法,作為前3種科學範式的補充,這種方法進一步促進人類科技的進步。
資料推動着諸多科學領域與各行各業發展的同時,也帶來了前所未有的挑戰。有效地了解資料,避免“big data”成為“big rubbish”,需要開發更好的工具以支援整個研究過程,包括資料捕捉、資料治理、資料分析以及資料可視化。
在大資料時代,資料可視化技術在廣泛應用的同時,也面臨諸多新的挑戰。大資料可視化是一個面向應用的研究領域,本文重點從應用實踐的角度,讨論在大資料背景下大資料可視化内涵、研究進展、相關技術與産品以及所面臨的一系列挑戰。
大資料可視化内涵
資料可視化就是将抽象的“資料”以可見的形式表現出來,幫助人了解資料。大資料可視化相對傳統的資料可視化,處理的資料對象有了本質不同,在已有的小規模或适度規模的結構化資料基礎上,大資料可視化需要有效處理大規模、多類型、快速更新類型的資料。這給資料可視化研究與應用帶來一系列新的挑戰。
資料可視化這一概念自1987年正式提出,經過30餘年的發展,逐漸形成3個分支:科學計算可視化(scientific visualization)、資訊可視化(information visualization)和可視分析(visual analytics)。近些年來,這3 個子領域出現了逐漸融合的趨勢。本文統稱為“資料可視化”。
在傳統資料可視化基礎上,論文嘗試給出大資料可視化的内涵:大資料可視化是指有效處理大規模、多類型和快速變化資料的圖形化互動式探索與顯示技術。
其中,有效是指在合理時間和空間開銷範圍内;大規模、多類型和快速變化是所處理資料的主要特點;圖形化互動式探索是指支援通過圖形化的手段互動式分析資料;顯示技術是指對資料的直覺展示。
大資料可視化技術
首先從方法層面介紹基本滿足常用資料可視化需求的通用技術,根據可視化目标分類介紹,然後根據大資料的特點,重點介紹相關的大規模資料可視化、時序資料可視化、面向可視化的資料采樣方法和資料可視化生成技術。
常用的資料可視化技術
資料可視化技術在應用過程中,多數非技術驅動,而是目标驅動。如圖顯示了目前業界廣泛使用的根據目标分類的資料可視化方法,資料可視化目标抽象為對比、分布、組成以及關系。

按目标分類的常用資料可視化方法
1)對比。比較不同元素之間或不同時刻之間的值。
2)分布。檢視資料分布特征,是資料可視化最為常用的場景之一。
3)組成。檢視資料靜态或動态組成。
4)關系。檢視變量之間的相關性,這常常用于結合統計學相關性分析方法,通過視覺結合使用者專業知識與場景需求判斷多個因素之間的影響關系。
大規模資料可視化
大規模資料可視化一般認為是處理資料規模達到TB或PB級别的資料。經過數十年的發展,大規模資料可視化經過了大量研究,重點介紹其中的并行可視化和原位(in situ)可視化。
(1)并行可視化
并行可視化通常包括3種并行處理模式,分别是任務并行、流水線并行、資料并行。
- 任務并行将可視化過程分為獨立的子任務,同時運作的子任務之間不存在資料依賴。
- 流水線并行采用流式讀取資料片段,将可視化過程分為多個階段,計算機并行執行各個階段加速處理過程。
- 資料并行是一種“單程式多資料”方式,将資料劃分為多個子集,然後以子集為粒度并行執行程式處理不同的資料子集。
(2)原位可視化
數值模拟過程中生成可視化,用于緩解大規模數值模拟輸出瓶頸。根據輸出不同,原位可視化分為圖像、分布、壓縮與特征。
- 輸出為圖像的原位可視化,在數值模拟過程中,将資料映射為可視化,并儲存為圖像。
- 輸出為分布資料的原位可視化,根據使用者定義的統計名額,在數值模拟過程中計算統計名額并儲存,後續進行統計資料可視化;
- 輸出為壓縮資料的原位可視化采用壓縮算法降低數值模拟資料輸出規模,将壓縮資料作為後續可視化處理的輸入;
- 輸出為特征的原位可視化采用特征提取方法,在數值模拟過程中提取特征并儲存,将特征資料作為後續可視化處理的輸入。
時序資料可視化
時序資料可視化是幫助人類通過資料的視角觀察過去,預測未來,例如建立預測模型,進行預測性分析和使用者行為分析。
面積圖可顯示某時間段内量化數值的變化和發展,最常用來顯示趨勢。氣泡圖可以将其中一條軸的變量設定為時間,或者把資料變量随時間的變化制成動畫來顯示。蠟燭圖通常用作交易工具。
甘特圖通常用作項目管理的組織工具,熱圖通過色彩變化來顯示資料,直方圖适合用來顯示在連續間隔或特定時間段内的資料分布。
折線圖用于在連續間隔或時間跨度上顯示定量數值,最常用來顯示趨勢和關系。南丁格爾玫瑰圖繪制于極坐标系之上,适用于周期性時序資料。OHLC圖通常用作交易工具。
螺旋圖沿阿基米德螺旋線繪制基于時間的資料。堆疊式面積圖的原理與簡單面積圖相同,但它能同時顯示多個資料系列。量化波形圖可顯示不同類别的資料随着時間的變化。
另外,具有空間位置資訊的時序資料,常常将上述可視化方法地圖結合,例如軌迹圖。
面向可視化的資料采樣方法
面向可視化的時序資料采樣,主要針對時序資料的折線圖視覺效果進行優化。此類研究的主要目标為,從時序資料中選擇小部分時序資料,利用折線圖上的點與連線的視覺效果,使得選取資料的折線圖視覺效果與原始資料的可視化結果盡可能接近。
Steinarsson總結了一些基于折線圖的時序資料采樣算法,認為折線圖中的每個資料點都存在各自的視覺權重。Kehagias提出了M4aggregation時序資料采樣算法。Guo等總結了4種針對空間資料的可視化限制:代表性限制、可視性限制、平移一緻性與縮放一緻性,并基于可視化限制提出了貪心政策采樣算法。
資料可視化生成方式
經過數十年的發展,資料可視化形成了從底層程式設計到上層互動式定制的多層次生成方式。
資料可視化生産方式
程式設計方式根據語言類型可以分為函數式程式設計與聲明式程式設計。函數式程式設計可以根據圖表元素封裝層級分為更基礎的圖形程式設計接口,聲明式程式設計出現時間相對較晚,其中采用圖形文法思想的可視化文法。
互動式資料可視化生成方式通過互動接口,使得使用者不用程式設計即可定制可視化圖表。其中,Polaris與Tableau采用資料列拖選方式互動生成可視化圖表;Voyager和Data2Vis則提供了根據資料自動生成可視化圖表的能力;Lyra和Data Illustrator則提供了一種類似于Visio的互動方式,從圖表元素拼裝圖表的能力。VisFlow在提供多個可視化模闆的基礎上采用資料流的思想,将可視化圖表作為資料處理流的中間步驟,通過可視化的方式進行資料處理。
整體而言,程式設計方式的優點在于豐富的表現能力與個性化定制能力,缺點是缺乏直覺性,要求使用者具有程式設計能力,且相對需要更多的人力與時間成本;相對而言,互動方式的優點在于直覺,使用者無需程式設計即可定制圖表,使用更為廣泛,缺點是表達能力有限,系統功能和性能常常無法滿足使用者個性化需求。
大資料可視化産品
本節重點介紹介紹相關的大資料可視化産品,包括适用于一定大資料場景的傳統資料可視化産品及面向大資料的資料可視化産品。
傳統資料可視化産品
PowerBI作為微軟推出的資料可視化産品,在2019年的GartnerBI象限中排名首位。優點在于易用性,互動方式類似于Excel;缺點在于性能相對較弱,缺少資料準備于清洗工具。
Tableau基于關系型代數理論研發,是目前使用最為廣泛的資料可視化産品之一。優點在于基于拖放的互動方式,豐富的功能以及支援Hadoop和Google BigQuery等大資料平台;缺點是僅支援結構化資料,大資料實時響應較慢,權限限制有限。
QlikView為新興的資料可視化産品,使用越來越廣泛。優點在于資料關聯查詢與鑽取能力,圖表繪制快速;缺點在于易用性不足,作為記憶體型的資料可視化産品,資料處理速度依賴于記憶體大小,對硬體要求較高。
面向大資料的可視化産品
大資料背景下産生的資料可視化産品如下。
Apache Superset是基于Flask-Appbuilder建構的開源資料可視化系統,B/S架構,內建了地圖、折線圖、餅圖等可視化方法,提供了一種友善的看闆定制方法。優點是系統可擴充性與權限控制機制;缺點是系統穩定性和大資料處理能力不足。
Apache Zeppelin是面向大資料的互動式資料分析與協作記事本工具,開源項目,B/S架構。優點是與不同大資料架構的內建能力與系統可擴充性;缺點是需要程式設計,不支援異步,對于大規模資料,用戶端可能需要等待較長時間。
大資料可視化挑戰
資料可視化在大資料場景下面臨諸多新的挑戰,包括資料規模、資料融合、圖表繪制效率、圖表表達能力、系統可擴充性、快速建構能力、資料分析與資料互動等。
資料規模
大資料規模大、價值密度降低,受限于螢幕空間,所能顯示的資料量有限。是以為了有效顯示使用者所關注的資料和特征,需要采用有效的資料壓縮方法。目前已有的方法針對資料本身進行采樣或聚合,未考慮資料可視化的顯示特性。近期一些學者提出了針對特定可視化場景的資料壓縮方法。但是目前依然缺少通用的面向可視化的資料壓縮方法,也缺少實際應用的産品。
資料融合
大資料的另一個表現是資料類型多樣,常常分布于不同的資料庫。如何融合不同來源、不同類型的資料,為使用者提供統一的可視化視角,支援可視化的關聯探索與關系挖掘,是一個重要的問題。其中涉及資料關聯的自動發現、多類型資料可視化、知識圖譜建構等多個技術問題。
圖表繪制效率
随着資料規模的增加,圖表可視化的效率問題越來越凸顯。目前,有些可視化産品開始采用WebGL借助GPU實作平行繪制。越來越多的資料可視化産品采用B/S架構,其性能一定程度上優先于浏覽器;另外,由于跨終端需求越來越普遍,也對圖表繪制提出了更多挑戰。
圖表表達能力
随着産生資料的來源增加,資料類型不斷增加,資料使用者對于資料的互動需求越來越多,已有的資料可視化産品完全無法滿足使用者的可視化需求,時常出現需要的可視化形式産品不支援或支援不夠等問題。這就對于系統的圖表表達能力提出了更高的要求,同時對于系統支援使用者的個性化定制提出了新的要求。
系統可擴充性
大資料對于資料可視化系統的擴充能力提出了新的挑戰,系統的可擴充性将成為衡量一個大資料可視化系統的重要名額。
快速建構能力
大資料伴随着快速變化與增加的資料,如何幫助使用者及時了解資料,發現問題,離不開資料可視化的快速建構能力,即根據使用者資料驅動的圖表快速定制能力。資料在s級甚至ms級更新的情況下,有沒有可能實作圖表的秒級更新與快速定制。另外,圖表定制後的快速共享與響應功能也将成為必要的系統功能。
資料分析
傳統的BI工具主要集中在資料篩選、聚合及可視化功能,已經不能滿足大資料分析的需求,Gartner提出了“增強分析”,資料可視化隻有結合豐富的大資料分析方法,将資料的探索式分析形成一個閉環,才能實作完整的大資料可視化産品,有效幫助使用者了解資料。預測性分析是大資料的趨勢,資料可視化有效結合預測方法,将有助于使用者的決策。
資料互動
大資料可視化使用者需要通過可視化與圖表背後的資料和處理邏輯進行互動,由此反應使用者的個性化需求,幫助使用者用一種互動疊代的方式了解資料。在傳統的互動手段基礎上,更加自然的互動方式,将有助于使用者與資料更好的互動,也有助于拓展大資料可視化産品的使用範圍與應用場景。
大資料可視化技術與産品所面臨主要挑戰的同時也對其發展帶來了新機遇,例如Yu等提出的面向資料流式可視化的自然語言互動接口,通過自然語言與可視化常見操作的映射實作。微軟Excel軟體內建自然語言互動,其中的AnnaParser算法将資料表進行抽象并結合表格知識了解實作語義了解。
AutoVis
如前所述,大資料可視化面臨一系列挑戰。為此,課題組自主研發了資料感覺的互動式可視化設計平台AutoVis,目标是讓大資料的可視化過程更加簡單,核心是輔助使用者快速完成從資料到圖表的設計過程,包括資料定義、圖表設計、映射過程、圖表互動與看闆服務。
資料定義
AutoVis支援IoTDB、PostgreSQL、MySQL、SQLServer、SQLLite等常用資料庫類型,以及提供RESTfulAPI接口的資料服務。設計實作了抽象資料集建構與計算技術,支援不同資料的自由組合,通過抽象資料集歸一化,實作資料集的快速生成。
圖表設計
AutoVis采用模闆化思想,提供了百餘個覆寫常用可視化技術的圖表模闆,支援即時模闆擴充及拖拽即用,達到秒級圖表定義。另外,AutoVis提供了所見即所得的圖表組合定制看闆能力,實作了分鐘級看闆定義。
映射過程
為了達到圖表定制易用性的同時實作實時可擴充性,即融合程式設計方式的表達能力和互動方式的易用性,AutoVis設計實作了3種互補的資料至圖表的映射方式:互動選項、擴充選項、手工編碼。
圖表互動
圖表互動能力在大資料場景下愈發重要。AutoVis的圖表模闆提供了常用的互動功能,包括點選、懸浮、刷選等。另外,AutoVis還實作了看闆圖表的自動關聯,支援跨圖表跨資料的鑽取能力。
看闆服務
AutoVis在支援常用的看闆連結共享基礎上,提供了看闆服務能力,即使用者不僅可以将看闆共享,或內建到其他系統,還可以動态向看闆傳遞參數,動态調整看闆可視化内容。另外,AutoVis圍繞看闆提供了“數字會商室”功能,使用者可以圍繞數字看闆進行資料驅動的讨論與決策。
資料可視化已成為人了解資料的重要途徑,在大資料時代,人們更加需要有效的資料可視化工具直覺分析大規模資料,快速捕捉資料變化。
相對傳統的資料可視化,大資料也帶來了資料規模、資料融合、圖表繪制效率、圖表表達能力、系統可擴充性、快速建構能力、資料分析與資料互動等多個方面的挑戰。有效應對這些挑戰将有助于大資料可視化随着大資料和資料科學的普及,推動其應用到更多領域。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/live立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-04-13
本文作者:今日頭條
本文來自:“
51CTO”,了解相關資訊可以關注“
”