天天看點

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

阿裡妹導讀:在這個“人人都是資料分析師”的時代,阿裡的同學幾乎都在參與資料的采集、加工與消費。資料可視化作為連接配接“加工——消費”的重要一環,其品質至關重要。優秀的可視化能促成卓越洞見,糟糕的内容則讓所有的努力失去意義。今天,阿裡進階産品經理沉砂為我們詳細介紹資料可視化工具以及如何選擇有效圖表。

一、前言

我所在的阿裡企業資料化管理領域,資料可視化水準參差不齊,尤其是在彙報PPT和報表制作環節...今天,不深度探讨具體業務問題,僅給出一些可視化通用建議。

通過文章你可以獲得的建議:

  • 挑選順手的工具
  • 加工正确的資料
  • 選擇合适的圖表
  • 一個執行個體

二、資料可視化工具

在這裡首先我想說下資料可視化追求的三個目标:準确、清晰、優雅。符合這三項的圖表被稱為高效的資料可視化:

準确:精準地回報資料的特征資訊(既不遺漏也不備援,不造成讀者疏漏&誤讀細節)

清晰:擷取圖表特征資訊的時間越短越好

優雅:美觀(不是酷炫)、協調(相同場景的圖表遵循統一規範)。

除此之外,這三項的重要性也有相對次序:準确>清晰>優雅,原則上我們該盡量往這三個方面靠攏。

問題來了,如何挑選順手的工具幫助達成目标呢?

其實應當分情況來看,高效的資料可視化根據目的差異,大緻分為兩種類型(來自Cole Nussbaumer Knaflic的視訊采訪):

解釋型

  • 已知目标資料的特征資訊或者價值;
  • 最大目的是傳達解釋給其他人自身的洞察;
  • 追求極緻的細膩表達。

探索型

  • 未知目标資料的特征資訊或者價值;
  • 最大目的是自己分析探索資料;
  • 追求快速高效的資料互動。

大家在開始動手前,不妨先想一下自己是哪種意圖,通常情況下魚和熊掌不可兼得,資料的靈活變換和細膩表達雖然不沖突,但很難兼顧。這就促成了我們可用的工具都有一定的偏向性,簡單易上手的BI工具可以幫助我們快速完成可視化,但有可能内容差強人意。一些專業的圖表代碼庫理論上可以針對任何細節進行調整,但是效率和門檻存在明顯劣勢。

原則上工具沒有孰優孰劣(事實上很多工具兩方面都做得很好),隻是相對而言。筆者對常見種類的典型代表工具做了一個定性評估(個人意見):

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

這裡我将Excel與Tableau高亮了出來,Tableau作為業界最著名的BI軟體,容易上手,可視化效果也非常棒,有助于你分析探索資料。而Excel是一款被大多數人嚴重低估的産品,它可以很友善實作各類圖表微調,畫出漂亮的資料圖。

如果你沒什麼傾向性,Excel很适合作為你深入研究的第一款資料可視化工具。

三、選擇有效的圖表

3.1 可視化流程

抛開一些專業理論,簡單來講,我們制作圖表的步驟分為3步:

  1. 選擇要傳達的資料資訊
  2. 尋找可視化方法
  3. 實作方法并完善細節

對于步驟1,主要考慮資料本身的資訊與作者自身的洞察資訊,列清楚這些資訊,有助于你選擇合适的可視化方法。下文我會講述一些常用的方法論知識,但不是簡單給出你要選擇柱形圖or餅圖。至于具體的圖表選用指南可以Google一下。

3.2 視覺編碼

首先看兩張圖:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

由于使用了視覺編碼(顔色)傳達資訊,人們更容易了解原資料的特征了。

又比如普通的柱形圖,我們使用了柱子的“高度”和“相對位置”傳達了兩組資料資訊,而柱形圖往往比沒進行編碼的表格資料更容易了解。

我們要來熟悉兩個重要概念:“視覺編碼”&“視覺通道”。如果把人類大腦看做是一個資訊解碼系統,那麼可視化就是對資訊(資料)的編碼過程,資訊通過視覺編碼後,将内容通過眼睛傳達至大腦,大腦解碼資訊并擷取知識。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

那麼圖形的視覺通道有這麼多,該如何選擇合适的視覺通道映射資料呢?這裡需要通過資料的類型以及視覺通道的表現力進行綜合判斷,基礎的學術理論有詳細說明,這裡我做一下簡單介紹。

資料類型

一般我們資料分為“類别型”、“有序型“和“數值型”三類,蘋果、香蕉屬于類别,幾月幾号屬于有序,利潤5000屬于數值。在很多可視化商用工具的概念中,将”有序、類别型“的資料稱為次元,”數值型“的資料稱之為度量(名額)。

次元和度量所适用的視覺通道是有巨大差異的,例如顔色的色調适用于次元,但不适用于度量。選擇正确的視覺通道,令資訊傳達更有效率。

資料通道的表現力

在浙大教授陳為的著作《資料可視化》(陳為 沈則潛 陶煜波. 資料可視化[M]. 電子工業出版社, 2013)中,使用4個名額作為評判一個通道的表現力标準:

  • 精确性
  • 可辨認性
  • 可分離性
  • 視覺突出

深度了解這些标準,有助于我們明白一些可視化圖表修改建議背後的深層次原因。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

這組測量資料采用科學的方法反映了一些制作經驗的合理性,比如:

  • 一些專業設計師非常反對使用餅圖——面積&角度與人類的感覺聯系不是線性變化。
  • 使用長度映射資料的柱形圖通常是最佳可視化選擇——長度與感覺是線性變化。
  • 正常商業統計圖表永遠不要使用3D效果——體積嚴重影響人類感覺的精确性。
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

可分離性告訴我們不能無限制的使用多種視覺通道,每增加一種通道來映射資料,都需要考量對已有編碼方式的影響,尤其是尺寸(size)特别影響其他視覺通道的效果。

我們結合柱形圖做一個舉例,下圖的柱圖使用了寬度(size)映射了一個度量字段資料,寬度影響了長度的有效力,這兩個通道的同時使用,使得感覺上有趨近面積這一通道,進而影響了整體圖表的效果。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

有一次一位業務的同學問我為什麼不給柱圖的柱子加“圓角”功能,其實也是這個原因,過度的圓角會使長度損耗精确性,對于圖表的整體表現力是破壞。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

資料的視覺編碼在學術上有一個冗長的表現力優先級清單,我在這裡簡化這些概念,隻給出一份推薦使用的視覺通道,理論上這些通道之間都可以組合使用,請根據實際情況挑選最佳方案。

另外一個行之有效的實踐方式是:不要從頭建構可視化的方案,請在最基礎的統計圖類型之上選擇追加視覺通道,然後不斷嘗試效果。不是什麼圖表都可以用所有通道的,例如行政地圖就沒有長度通道。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

3.3 設計原則

設計圖表,好的視覺編碼是最重要的點,除此之外,對資料的篩選也是一項挑戰,過大的資訊量會使圖表顯得混亂,造成認知負荷。對于JavaScript建構的可視化内容,我們還需要關注資料互動。

認知負荷

一般的可視化文章會用墨水比這一項名額來衡量負荷的輕重。設計的不合理,會給閱聽人過度、備援或者毫無意義的資訊傳達。

首先我們要關注的是是否呈現了過多資料、濫用了視覺通道。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

其次,我們可以利用格式塔原理精簡或者優化我們的圖表元素,減輕認知負荷。

完整的原理一共有8項内容,這裡我主要介紹最為重要的臨近原則、相似原則&閉合原則。

臨近原則

人們傾向實體上相近的元素為一個整體。

我簡單打出一行點:

... ........ .......

你會很自然地認為這是三個群體。利用這個心理學現象,我們建構了典型的“分組柱形圖”

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

也可以用于引導使用者閱讀表格資料(來自Cole Nussbaumer Knaflic的blog):

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

相似原則

人們傾向将顔色、大小或者形狀等屬性類似的對象看作一個整體(或者具備關聯性)。

這種心理學現象,疊加顔色色調的處理,很容易促成視覺突出,使我們能夠快速注意到被處理的目标資料。上文視覺編碼數“5”的舉例,便是相似原則的一個案例。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

個人實踐感覺顔色是應用相似原理最好的視覺通道,我們能夠通過“圖例”将圖例标注資訊與畫圖區域的内容對應起來,簡單來說,也是這一心理學現象在起作用。

我們可以更進一步使用這一效應來幫助使用者解讀圖表

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

閉合原則

人們傾向實體上被包圍在一起的元素為一個群體。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

閉合原則經常被使用在标注注釋上,使用少量的“水墨”便能将目标區域的視覺突出起來,我們拿上面相似原則的案例做進一步加工,來說明閉合原則的功效。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

靈活利用格式塔原理與視覺編碼特性,是資料可視化在具體圖表之下的更為重要的知識技巧。篇幅原因,不再一一列舉。

當我們看到一副圖表,憑借自己樸素的美學經驗指出圖表缺陷時,不妨深入思考下,這個缺陷是違反了哪一條心理學原理,還是水墨比(信噪比)不平衡。

3.4 經驗之談

可視化的實踐經驗太多太多,我想再着重強調一下位置和顔色的巨大影響。

位置

位置是一個豐富的概念,圖表一切的元素都處于“位置”之中,你不得不謹慎對待元素的位置屬性。無論是軸标記位置、文本說明位置、标題位置、圖例位置還是圖形本身的相對位置。擺正它們,可以使圖表不顯得資訊雜亂,可以幫助使用者更容易了解你想傳達的資訊。

  • 對齊:心理學的“連續原則”使得對齊創造一條看不見的路徑,引導人們更容易解讀資訊,任何時候都要注意對齊的使用。
  • 排序:任何時候,我們都需要對資料排序。柱圖的柱子從來都不該是被随意擺放的,排序是對元素的位置屬性最重要的應用。沒有規律的資料表達會給使用者帶來額外的解讀負擔。
  • 參照:位置都是相對的,如果我們想準确解讀資料的位置,就一定需要一個參照系。這個參照系可以是X軸Y軸,也可以是兩個點或者柱子之間的相對參照,總之你得有一個。

顔色

顔色是最重要也是最容易被濫用的視覺編碼方式,顔色具有色調、飽和度、明度的三重變化,同時顔色的變化還牽引着人類的情緒,是以顔色的使用需要被資料可視化制作者認真考慮。在這裡再補充一些實踐上的心得:

  1. 盡量避免同時使用紅色&綠色,色盲的同學無法分辨他們,這也是為什麼大多數圖表庫和軟體的預設顔色的第一序列是藍色;
  2. 次元資料使用色調,度量(名額)資料使用飽和度和明度;
  3. 在保證資訊完整傳達的前提下,使用的顔色越少越好;
  4. 顔色在上下文需要保持統一步調,例如之前的圖用“綠色”代表香港,下面的圖就不應該使用“黃色”或者“紅色”,“預測資料”使用綠色,“實際資料”使用藍色,保持秩序,減輕使用者認知負荷;
  5. 顔色能比其他視覺通道更能引起注意,也就意味着更容易使人疲勞。確定你使用的顔色是“有序”的,五彩斑斓、明暗跳躍的色彩序列并不可取;
  6. 設計之前,可以參照一些品牌設計手冊,一般被叫做visual manual。阿裡幾乎每個BU都會有類似的材料,可以找你們的UED同學要。使用品牌色更容易獲得目标人群的青睐。但是也不是所有的品牌色都适用,使用前應當思考下效果。
  7. 注意你使用顔色的場合,事實上由于各國文化和宗教信仰的不同,相同色彩在不同人群中的情感性質很不一樣。比如中國人喜歡紅色,但是不見得西方國家喜歡。還有醫院和金融業,也是典型的顔色敏感行業,給炒股的老闆看圖表不要用綠色作為主色調......
  8. 放棄酷炫,我們看資料不是為了酷炫。

統計圖表選擇推薦

這個網上資料一抓一大把,選擇圖表前,其實更多的是要想清楚你的資料想傳達的目的。資料分析紛紛咋咋,總結起來,不外乎4個目的:對比、聚焦、歸納、演繹。基于這些初始目的出發,我們再選擇執行個體化它。

下圖是一張廣為流傳的圖表建議:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

英國的金融時報雜志也出過一版建議:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

下載下傳

技術人最不該忽視的資料可視化分析中,英國的金融時報雜志也出過的建議原圖下載下傳位址(放大再放大就能看清字啦[調皮]):

https://alitech-public.oss-cn-beijing.aliyuncs.com/1567064473032/shuju%20fenxi.png

四、準備資料

4.1 為可視化調整資料結構

一般來講,制作資料圖表前,或多或少有一系列資料的采集加工環節,以集團開發同學熟悉的ODPS為例,簡單來講如下圖流程所示:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

多數資料倉庫為了滿足一定的設計規範、維護能力與健壯性,不會允許數倉上層應用做定制化侵入設計,而各類應用所需要的資料格式不盡相同,在可視化領域,為最後的圖表制作,對資料進行一些調整非常常見,特别是使用BI軟體進行制圖,包括不僅限于以下調整:

1.行列轉換

比如為了進行資料對比分析的簇狀柱圖,不同工具配合互動時,有不同的設定方法。需要對表中的行列資料進行靈活轉換,以符合軟體要求。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

2.可讀性轉換

原表資料中,很可能隻有"ID"、"XXX編碼"、英文内容等特征資料,為了我們最後的可視化加工效果,為了圖表易于解讀,我們需要更多的額外資料進行關聯處理,比如:

  • 找到這張“事實表”的關聯“維表”,拿到ID背後的中文名稱、姓名等資訊;
  • 将英文翻譯成對應中文,比如将male與female轉換成“男”跟“女”;
  • 找到“短名稱”、“昵稱”等易于識别的資料;
  • 從時間資料字段中轉換出“季度”、“财年”、“周”、“交易日”等契合業務場景的時間類型字段。

3.針對業務場景的轉換

此類轉換需要結合一定的具體場景,一般來講,原始表隻提供原始資料,具體場景提供資料轉換規則,典型的例如:

  • 将“年齡”分段,原始表隻記錄使用者的生日,後期加工成“18~24歲”、“25~30歲”等範圍字段值,這類加工有助于使用者解讀和建構可視化内容。
  • 新顧客、老顧客。“新”與“老”都是随着時間推移的相對概念,不太會存儲在數倉的原始資料表中,使用者需要根據目前分析的時間視窗,自助加工出新老顧客的定義字段。

4.2 剔除異常資料

原始資料中,不免混入異常資料,我們把錯誤資料(髒資料、測試資料)和不合理資料統稱為異常資料。這些資料不剔除,會直接影響可視化最終的展現效果,進而影響分析效果和決策效能。我們在制作圖表前,一定要做這一環的處理。

不合理資料也是相對于具體的分析場景而言的,例如,我們為衡量電話營銷人員的表現設定了一個資料名額——平均每周成功3單推銷即為優秀員工,這裡就需要結合場景将“實習期員工”剔除,或者說,将工作年限過短的樣本資料剔除。

4.3 對特殊值做精細化處理

為了可視化效果,我們需要關注那些含義不明的資料和“極端資料”,這些資料的存在有時候會直接影響我們的内容展現。

空、null、0

這3個資料值是典型的“含義不明“資料,有些場景下,他們表達的意思相同,有些則代表了截然不同的資訊。我拿”考試“作為一個case來比喻這三者的差別:

  • 0:小明參加了國文考試,得了0分;
  • 空:小明沒參加國文考試;
  • null:小明沒有國文這門考試。

在進行可視化表達時,一定要注意對資料的準确表達。

極端資料

極端資料指一種樣本資料極端分布不均勻的情況,比如“100條某産品的銷量分布,1條記錄10W,其餘99條記錄在0~1000之間,“如實”反應資料的圖表将很難看出大部分樣本資料的特征資訊。需要結合業務場景,做應對處理(比如剔除&“矮化”極端資料,并做對應的文本解釋)

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

4.4 彙聚資料到合理程度

在使用BI工具進行可視化展示的時候,需要注意原始資料的資料量大小。通常軟體服務所在的伺服器性能不是無限的,合适大小的資料量有助于取得互動展示的最佳表現。

當原始資料過大,我們可以根據實際場景,剔除某些字段,對資料進行彙聚。

另外,大部分工具都支援“派生字段”,盡量在“物化”或者“實體表”階段固化這些派生資料,也有助于性能表現。對于BI軟體需要計算的派生資料而言,計算發生的環節決定其性能表現:

計算在加速資料環節 > 計算下放計算引擎 > 記憶體計算 > 發生内外存交換的計算

五、一個實踐案例

本文粗淺介紹了一些資料可視化的技巧,但是遠遠談不上完整。要做到“可視化最佳實踐”還需要大量知識補充,并且加以靈活應用。

在這裡介紹一個可視化圖表優化的優秀案例,原始材料來自Cole Nussbaumer的英文blog,有興趣的同學可以翻翻她的部落格,會獲益良多。同樣D3作者Mike Bostock也産出了大量高品質的可視化内容,非常值得借鑒。

案例:對資本預算資料的可視化改進

  1. 原始圖表
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

咋一看這圖也沒啥錯,但是部落格作者看到了一些改進點:

  • Y軸标簽的可讀性
  • X軸未區分過去與未來的差別

其實還有其他隐藏改進資訊未指出:

  • 上文講述過視覺通道會互相影響有效性,這裡圖例中的小正方形尺寸過小,影響了顔色的解讀,這就使得藍色的major projects和淺藍色的proposed allowance難以區分。(試想一下你在平常遇到的更極端的圖例解讀困境);
  • 軸的黑色标簽的顔色飽和度太高,影響了圖本身的視覺突出。(稍微淺色一點的label更容易将使用者引導至關注資料本身);
  • 缺少度量資料說明。
    1. 改進版本一
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

這裡作者取消了圖例的點标記,将文本着色,解決了圖例識别的問題。

此刻作者遇到了困境,不知該如何進一步改進。不過能夠顯而易見的是,改進版本一的水墨比過重,用了較多鮮豔的色調,并且同時使用了色調、圖案兩項視覺通道。着墨過多,但又沒有明顯傳達更多資料資訊。

于是作者在改進版本二中做了各項分析,下圖将圖表黑白化去除幹擾的做法非常值得學習,對于一些設計同學可能這種做法很熟悉,色彩會幹擾設計師的判斷(PD一般畫原型的時候是黑白的)

  1. 改進版本二

三個主要項目的預算從2018年到2019年顯着下降,然後随着時間的推移緩慢下降:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

其他項目也有下降的趨勢:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

新項目的預算則在顯著增加:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

其他兩項的分析類似:

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

作者在改進版本二中分析出了一些資料特征,顯然這些特征還沒有在可視化中表達出來,圖表還有改進空間。

  1. 改進版本三
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

在改進版本三種,作者使用了客戶的品牌色(這種手段通常很好用,除非客戶的品牌色“大紅大紫”)

并且将使用者的視角引導到了建議配合與現有配額上來。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

很明顯,我們看到了兩組資料的規律,那麼如何通過可視化将這個規律更加簡明易懂的傳達給使用者呢,作者改進了圖表的标記形式。

  1. 改進版本四
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

到了這一步,改進已經相當成功,仿佛我們把之前的資訊補全就大功告成,而作者進行了更多思考:使用者應該關注兩條線之間的相對變化,并更新了改進版本:

  1. 改進版本五
技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

接下來是最後加工:将自己的見解和洞察以合适的方式放入圖表中。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例
  1. 最終版本

将之前被忽略的資料重新以合适的方式放入圖表中,并且注解文字的使用也遵循了相似原則,來建立圖形與文字的關聯性。

技術人最不該忽視可視化資料分析!一、前言二、資料可視化工具三、選擇有效的圖表四、準備資料五、一個實踐案例

原文釋出時間為:2019-09-2

作者: 沉砂

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。

繼續閱讀