<b>2.6 一些最好的可視化實踐</b>
<b></b>
我們完成一個好的可視化的最首要一步是了解努力背後的目标。如何了解可視化是否有其意圖?同樣重要的是了解觀衆群以及這種方式是否有幫助。
一旦回答了這些問題并透徹了解可視化的目标,那麼下一個挑戰就是選擇正确的呈現方法。最常用的可視化類型可根據下述内容進一步分類:
比較和排名
相關性
分布
位置定位或地理資料
局部到整體的關系
随時間的變化趨勢
2.6.1 比較和排名
比較和排名的方法不止一種,傳統的方法使用條形圖。條形圖是在相同基線上以編碼數值為長度的圖形。但它并不總是比較和排名的最佳方法。例如,為了展示非洲gdp排名前12名的國家,下面是一種創造性的可視化方式(來源:stats legend,andrew gelman and antony unwin):
2.6.2 相關性
相關性不能保證一種關系,但一種簡單的相關性分析是識别不同測度間關系的良好開端。通常需要一種統計方法來確定關系的真實存在。下面的例子是通過建構一個簡單的散點圖來檢測兩個因子間關系,比如同一所大學中學生的gpa和tv,gpa和exercise:
我們也可以用其他方法展示相關矩陣。比如,可以用散點圖、熱力圖,或一些特定的案例來展示s&p 100中股票的影響力網。(下面兩個圖來自statistical tools for high throughput analysis,網址是:http://www.sthda.com。)需要進一步強調,一個相關矩陣包括資料的矩陣形式。如下面的例子所示,資料通過一個縮放後的顔色圖計算相關性。為了解更多細節,我們建議您參考下面的網站:http://www.sthda.com。
相關矩陣被用來研究同一時間多個變量間的依賴性。結果是一張表,包括每一個變量與其他變量的相關系數。熱力圖源于資料矩陣形式的二維展示。通過很多不同的顔色方案來說圖解熱力圖,每一種方案都有感覺優點和缺點。
2.6.3 分布
分布分析展示了數值在區間範圍内的分布,是以,在資料分析中非常有用。比如,比較同一個班的學生在家庭作業、期中考試、期末考試和全部課程成績的得分分布。在這個例子中,我們将讨論使用最普遍的兩種圖表類型來實作這個目的。一種是直方圖(如下圖所示),另一種是箱線圖或箱須圖。
直方圖的形狀非常依賴于箱子的大小和位置。箱須圖特别适用于多元分布。它們将所有資料點(在這個例子中是學生的得分)打包入箱須圖中。現在,你可以很容易識别出所有類别中的最小值、25%分位數、中位數、75%分位數和最大值,這些都能同時進行。
python中有一種便捷的畫圖方法plotly它是一種線上分析和可視化工具。plotly提供線上畫圖、分析和統計工具,還有python、r、julia和javascript的科學繪圖庫。直方圖和箱線圖的案例請見:https://plot.ly/python/histograms-and-box-plots-tutorial。
2.6.4 位置定位或地理資料
地圖是展示位置定位資料的最佳方法。地圖最适用于與另外一個圖配對的情況,該圖詳細說明了地圖的展示内容(比如條形圖按從大到小排序,線圖展示趨勢,等等)。比如,下面的地圖展示了不同大洲之間地震的強度:
2.6.5 局部到整體的關系
餅圖适用于展示局部到整體的關系,但還有其他方式。分組的條形圖适用于比較類别中每個元素與其他元素,以及所有類别的元素。然而,分組使區分每個組的整體差異變得更難。下圖是累積柱形圖。
累積柱形圖适用于展示整體差異,這是因為它們在視覺上聚集同一個組中的所有類别。不足之處是比較單個類别大小變得更難。這種累積方式也展示出一種局部到整體的關系。
2.6.6 随時間的變化趨勢
最常用類進行資料分析的可視化方法是展示一段時間的變化趨勢。在下面的例子中,2009~2015年穿戴式裝置的初創公司投資情況被畫成圖。該圖表明,該項投資在幾年中持續增長;而在2013年,隻有43起總價值$166百萬的交易,所有年份中最高點是2014年61起總價值$427百萬的交易,相比僅一年前。