天天看點

Excel資料分析——資料可視化(三)

作者:資料分析師修煉手冊

本文共計約4000字(多圖),建議閱讀時間3分鐘

目錄

  • 如何選擇圖表
    • 對比類圖表
    • 構成類圖表
    • 分析類圖表
  • 如何制作圖表
    • 如何設計表格
    • 如何快速作圖(插件think-cell)
  • 如何優化圖表
    • 精簡無效資訊
    • 突出強化有效資訊

分析類圖表

我在Abela的經典圖表選擇指南的基礎上,把關聯、分布兩部分合并為“分析類”圖表了。這隻是從結果上來說,大緻是這樣。但我并不隻是簡單合并,底層的考慮是,前面講過的對比類和構成類圖表,主要是對外表達用的。是先有了觀點再去有方向地加工資料,是以最終用在圖中的資料是相對比較簡單的,哪怕沒有可視化,也能比較容易地從資料中看出想表達的内容。

但作為一名分析師,分析工作就是在尋找或者驗證觀點,觀點并非現成,而是要從一堆複雜資料當中去提煉。分析類圖表是能在這個探索過程中提供幫助的。分析階段的可視化是資料分析過程中非常重要的一環,它可以幫助我們更好地了解資料、發現資料中的規律和趨勢,進而做出更準确的決策。

分析類圖表表達的關鍵詞經常是“分布”、“相關性”、“分位數”等偏統計的術語。包含:散點圖/氣泡圖/散點矩陣圖、直方圖、箱型圖、地圖以及表格。

Excel資料分析——資料可視化(三)

分析階段的可視化 vs 呈現階段的可視化

呈現階段的可視化是指在資料分析和模組化之後,将分析結果以圖表的形式呈現出來,以便更好地向決策者、業務人員或其他利益相關者傳達資訊。資料通常較為簡單,前面提到的對比類和構成類圖表通常就是這一類。

但不代表對比類和構成類圖表就不能用在分析階段。比如,想看兩個名額之間相關性時,可以使用多條折線圖來檢視。

也不代表分析階段的可視化圖表就不能用在呈現階段。如果統計資料稍微多一些,那麼光看數字就很難看清楚其中的變化,這個過程哪怕還隻是中間的分析過程,畫圖分析也是非常有必要的。這時候圖表的選擇與前面講到的對比類和構成類圖表選擇并沒有什麼太大的差別。在分析構成和趨勢時,還是以柱形圖、條形圖、折線圖為主。此時的柱形圖、條形圖、曲線圖,同樣适用于最終結果呈現階段,并且常常是直接可以使用分析階段的圖。這也是非常建議分析階段要适當整理儲存分析結果的理由之一。

分析類圖表更多存在于資料的分析探索階段,因為分析類圖表可以基于非常明細的資料,涉及的資料次元一般較多,或者還因為涉及到統計學概念,給人的了解造成了更大的難度,是以一般很少用在結論呈現環節。此外分析類圖表還涉及到重新整理認知,本身在了解上就有一定的難度,但常常商業彙報不能僅僅停留于重新整理認知,還需回答下一步的so what的問題。是以分析類圖表在商業彙報上的應用不如前兩類圖表廣泛。

由于涉及到統計學基礎知識,在往下讀之前,建議先讀一下這篇文章。

資料分析必備五大思維(二)——統計思維

分析階段的可視化建議

在進行資料分析之前,首先需要對資料進行了解。如果資料源是明細資料,那麼我們應該先在微觀層面上,通過單名額或多名額的可視化方法來了解資料的分布情況。

例如,使用箱線圖或直方圖可以檢視單個名額的分布情況,看其是否左偏右偏或集中分散。如果有多個名額需要比較,可以使用散點圖(或折線圖)來觀察它們之間的相關性,或者使用散點圖來觀察兩個随機變量的分布情況,以便進行相關性分析和聚類分析。

有了統計資料之後,大家常常會忽視兩個動作,第一個就是排序、第二個就是條件格式。基于明細資料的統計彙總,一般都會用到透視表。透視表有可能很大,這時候就需要用到條件格式來進行輔助可視化分析。表格(尤其是透視表)可以将資料按照不同的次元進行分類和彙總,讓我們能夠更直覺地看到資料的分布情況和變化趨勢。條件格式可以根據不同的條件對資料進行着色或高亮顯示,以便更好地突出資料的重要特征或異常資訊。

在選擇圖表類型時,需要考慮資料的特點、目的和閱聽人的需求。一般來說,表格可以容納更多的資料,但傳遞資訊的速度較慢,一張表,可以呈現1-4個次元的資料資訊;而圖表則可以更快地傳遞資訊,但容量較小。表格在分析過程中使用最為頻繁,分析師們、喜歡看表多過看圖的老闆、有較高資料素養的業務三者之間的交流,也經常是通過表格的。它如此重要,我将會在後面第二部分中詳細講解,此處先繼續往下。

1、直方圖

直方圖是一種用來表示資料分布的統計圖表,通過将資料劃分為若幹間隔(bin),并統計落入每個間隔的資料數量,進而展現資料在不同區間上的分布情況。直方圖可以幫助我們了解資料的整體分布情況。通過繪制直方圖,我們可以觀察資料集中的峰值、分布形态(如對稱、偏态或多峰)等特征,進而對資料的分布有一個直覺的認識。

直方圖與柱形圖很像,但直方圖有其明顯區分于柱形圖的特征。

第一,直方圖是同一個數值變量的分組統計,且分組寬度是等寬的,比如0-5、5-10、10-15。而柱形圖是分組的統計,組别可以不是基于數值變量,哪怕基于數值變量的也可以是不等寬的,比如0-1、1-10、10-100。

第二,直方圖的柱子之間是沒有間距的。而柱形圖一般都需要有間距。

第三,直方圖的柱子一般都是等寬的,但也可以不是等寬的,而柱形圖的柱子一定等寬。直方圖的高度是表示X軸出現範圍的機率分布(面積表示機率),是以一般範圍越大時,取到其中某個值的機率就越低。

這隻是外形上的差別。其本質的差別是在于直方圖展示随機變量的分布,而柱狀圖比較分類資料的大小。

帕累托圖

帕累托圖是一種特殊的直方圖,不同點在于帕累托圖對柱形的高度進行排序(在Excel中叫排列圖),是“二八原則”的圖形化展現。

Excel資料分析——資料可視化(三)

二八原則,又稱帕累托法則,是經濟學家維爾弗雷多·帕累托提出的一種經濟配置設定規律。該原則認為,在許多情況下,大約80%的結果是由約20%的原因造成的,也就是說,少數重要的因素對于結果起到了主導作用。需要注意的是,二八原則是一種概括性的規律,并不是絕對的法則。在具體情況下,這個比例可能會有所不同。如下圖中的帕累托圖,10-15點這個時段大概占到全天24小時的20%,但其産生的PV量卻占到了全天PV量的65%。

Excel資料分析——資料可視化(三)

2、箱線圖

箱線圖是一種用統計學方法呈現資料分布特征的圖表。它可以用來展示資料的中位數、上下四分位數、異常值等資訊,進而幫助我們更好地了解資料集的概況。箱線圖可以幫助我們觀察和比較不同資料樣本的分布情況。箱線圖能夠顯示資料集中是否存在異常值。通過觀察箱線圖中的離群點(異常值),我們可以識别潛在的資料異常情況,有助于我們進一步分析異常原因并采取相應的措施。箱線圖也經常被用來比較不同組之間的差異。例如,我們可以将不同處理組的資料繪制成箱線圖,以了解它們的分布情況是否存在顯著差異,進而進行假設檢驗。如通過繪制多個箱線圖,我們可以對比不同組别的資料,如不同産品的銷售量或不同地區的收入水準,并發現其中的差異。

總而言之,箱線圖是一種簡潔而強大的工具,廣泛應用于資料分析、統計學和品質管理等領域,幫助我們更好地了解和解讀資料集的特征和趨勢。

如下圖所示的是,一個學校學生在英語、實體和資料三門課程上的考試成績。通過箱線圖可以看出,實體成績是相對比英語和數學更好的。平均分更高、并且第一分位數(25%學生可以達到)和第三分位數(75%學生可以達到)都更高。

Excel資料分析——資料可視化(三)

3、散點圖/氣泡圖

散點圖是一種将資料以二維平面的形式進行展示,用不同的顔色或标記來表示不同資料點之間的差異或相關性。通過散點圖,人們可以探索資料的分布情況,判斷兩個變量是正相關、負相關還是不存在明顯的相關關系。在機器學習和資料挖掘中,散點圖可用于分類和聚類分析。通過在散點圖上繪制不同類别或簇别的資料點,我們可以直覺地觀察它們的分布情況,輔助于模型選擇和特征提取等任務。散點圖有助于我們了解變量之間的趨勢和互相影響,對于預測和預測模組化很有幫助,進而指導進一步的資料分析和決策。

Excel資料分析——資料可視化(三)

在散點圖的基礎上通過增加顔色、面積等元素可繼續增加資料的度量。通過面積元素,就成了多一個度量次元的氣泡圖,通過增加顔色元素,可以表現多分類的散點聚類分布情況。

但資料次元的增加會降低讀者了解資訊的速度,一般情況不要超過4(1個類别3個度量或2個類别2個度量),因為一張4個以上資料次元的圖表很可能意味着讀者既要分辨圖形又要分辨顔色,單純的平面圖表(非互動式圖表)要謹慎使用。

機器學習研究中,有個非常著名的資料集——安德森鸢尾花卉資料集(Anderson`s Iris data set),共有150個樣本,每個樣本包含了花萼長度(sepal length (cm))、花萼寬度(sepal width (cm))、花瓣長度(petal length (cm))、花瓣寬度(petal width (cm))四個特征,山鸢尾(setosa)、變色鸢尾(versicolor)、維吉尼亞鸢尾(virginica)這三個品種。

基于這份資料集,隻需要把花萼長度和花瓣長度,以及鸢尾花品種三個資訊,利用散點圖畫出來,就可以很明顯看到,基于花萼長度和花瓣長度兩個資訊來做分類就已經相當有效了。

Excel資料分析——資料可視化(三)

4、地圖

地圖資料可視化主要分兩種,一種是把經緯度作為兩個度量,作為散點圖的X和Y軸,加上地圖資訊作為背景來展示,熱力圖就是屬于這一種。

Excel資料分析——資料可視化(三)

來源:http://www.nmc.cn/publish/observations/hourly-temperature.html

另一種是把區域作為拆分次元,但不像柱狀圖的一個個柱子那樣抽象展示,而是直接放到地圖邊界圍成的區塊上來展示,并且區塊可以不斷細拆,從國到省到市到區,甚至到街道都可以。分級統計地圖(Choropleth Map)是屬于這一種。

Excel資料分析——資料可視化(三)

來源:https://en.wikipedia.org/wiki/File:Choropleth_Map.png

熱力圖(Heatmap)和分級統計圖(Choropleth Map)是常見的用于地圖圖表類型,它們有以下幾個差別:

  • 資料類型:熱力圖通常用于表示數值型或連續型資料,每個資料點對應一個顔色強度,代表其數值大小。而分級統計圖則常用于表示分類型或離散型資料,每個地理區域根據所屬類别被配置設定不同的顔色或圖案,當然顔色一般是經過數值映射的。
  • 資料展示方式:熱力圖采用顔色強度來直覺展示資料的大小和分布情況,較暖的顔色通常表示較大的數值,較冷的顔色表示較小的數值。分級統計圖則通過不同的顔色或圖案來表示不同的類别或水準,可以直接比較各地區間的分類差異。
  • 資料呈現對象:熱力圖主要針對觀察單個資料點或資料集的整體分布趨勢,用于發現資料内部的關聯或規律。分級統計圖則主要用于展示地理空間上不同區域的差異和分布情況,以及地理區域間的相對大小或等級。
  • 使用場景:熱力圖适用于資料密度、熱點分析、趨勢識别等情況,常見的應用包括熱力地圖、氣象圖等。而分級統計圖更适合用于地理分析、區域統計、人口分布等情況,常見的應用包括行政區劃圖、人口密度圖、選舉結果圖等。

盡管熱力圖和分級統計圖在一些方面有所差別,但它們也存在一些相似之處。例如,它們都是用顔色或色彩變化來表示資料資訊,在資料可視化中都能提供直覺、易于了解的視覺效果。選擇使用哪種圖表類型取決于你要展示的資料類型和目标,以及你希望觀察什麼樣的關系或規律。

最後,友情提醒,在使用地圖可視化圖表時,需要注意國家的标注問題,前不久寶格麗地圖事件的類似案例時有發生,作為中國人就更加需要謹慎使用。Excel中的着色地圖中的中國是不完整的,千萬别掉坑裡了。

- END -

至此,Excel資料可視化的圖表選擇這部分已經完結了。下一篇将開始進入比較實操的作圖部分,大家要準備好動手了。

當然如果大家感興趣的話可以繼續深入學習,有任何問題或者還有啥想了解的,歡迎私信我。

往期推薦

  • Excel資料分析——資料輸入
  • Excel資料分析——資料處理
  • Excel資料分析——資料透視表
  • Excel資料分析——函數與公式(上)
  • Excel資料分析——函數與公式(中)
  • Excel資料分析——快捷鍵
  • Excel資料分析——模組化分析
  • Excel資料分析——模組化分析(二)
  • Excel資料分析——資料可視化(一)
  • Excel資料分析——資料可視化(二)
  • 資料分析必備五大思維(一)——結構化思維
  • 資料分析必備五大思維(二)——分類思維
  • 資料分析必備五大思維(三)——對比思維
  • 資料分析必備五大思維(四)——統計思維
  • 資料分析必備五大思維(五)——歸因思維

-如果喜歡這篇文章,請關注我

繼續閱讀