Reddit 是美國的一個綜合性論壇網站,網友戲稱“美國貼吧”。我最近發現,
這真是個寶藏網站。
它上面有很多話題節點,很多話題下都有豐富的内容。比如
learnprogramming節點下,有很多人分享學習程式設計的資源和經驗讨論。我之前發過兩篇文章《Crossin:我是如何在自學程式設計9個月後找到工作的》、《Crossin:如何保持學習程式設計的動力》都是翻譯自此節點的文章。盡管國情不同,但在學程式設計這件事都是相通的。
除了這個節點,最近我又沉迷另一個
dataisbeautiful的節點,上面有大量資料可視化的作品。不過,由于網站是全英文,加上通路有些不穩定,估計大家看起來不大友善。是以我今天挑選最近看到的幾個不錯的可視化案例分享一下,都附了具體的連結供進一步了解。
這些案例大多兼具直覺和設計感,值得欣賞,同時也可以給想做資料可視化的同學一些啟發,學習别人的展示方式。除此之外,每個案例我都去找了相關的制作工具,如果你對其中某種效果感興趣,可以用其工具自行模仿練習。
1
Franchise Earnings Comparison Over 20 Years
20年系列電影票房收入這是一個動态展示,可以點選視訊觀看。漫威宇宙的增長勢頭一覽無餘。
資料:http://the-numbers.com、CPI電腦
工具:python: matplotlib
項目:https://github.com/itaidagan/FranchiseRevenueComparison
原文:https://www.reddit.com/r/dataisbeautiful/comments/bgf3ye/oc_franchise_earnings_comparison_over_20_years/
2
The average color of each frame of Game of Thrones season 8 episode 3
《權力的遊戲》第8季第3集每幀平均顔色權遊最後一季廣為吐槽,其中關鍵的第3集更是暗到看不清。于是有人做了這麼一個統計,告訴你這一集到底有多“黑”。
工具:ffmpeg, python: PIL
項目:https://github.com/lint/avg-color-bar
原文:https://www.reddit.com/r/dataisbeautiful/comments/bjw7ct/the_average_color_of_each_frame_of_game_of/
3
How my salary of $11k per month is used in Seattle, WA, USA
在西雅圖我每月1萬1的工資是如何花銷的這種圖叫做
桑基圖(Sankey diagram),常用來表示流程或流量分布。最近 Reddit 上很流行用此圖來可視化世界各地人民的工資消費情況。
工具:SankeyMATIC
原文:https://www.reddit.com/r/dataisbeautiful/comments/bpk5d7/how_my_salary_of_11k_per_month_is_used_in_seattle/
4
The Most Valuable Team
最有“價值”球隊在體育運動中經常會評選最有價值球員,但這裡的最有“價值”球隊指的是資産最高的球隊。Top5這幾年都是這五支,其中美國職業橄榄球大聯盟的達拉斯牛仔隊已經連續三年第一。
資料:福布斯球隊價值排行
工具:Tableau
原文:https://www.reddit.com/r/dataisbeautiful/comments/btkihh/the_most_valuable_teams_oc/
5
Rafael Nadal’s French Open dominance
納達爾在法網中的優勢對比有限幾項數值的不同常會用雷達圖。這裡展示了納達爾費德勒、德約科維奇在澳網、美網、法網、溫網中的互相戰績。
資料:維基百科
工具:D3.js
原文:https://www.reddit.com/r/dataisbeautiful/comments/bthez5/rafael_nadals_french_open_dominance_he_won_11_out/
6
30 Years of the Music Industry, Visualised
音樂産業30年以堆疊區域圖的形式展現唱片産業中不同媒介形式的興衰。從圖上可以看到CD曾經的輝煌和衰落。另外有意思的是黑膠唱片在近幾年有複興的趨勢。
資料:美國唱片業協會
工具:RAWGraphs、Excel
原文:https://www.reddit.com/r/dataisbeautiful/comments/ble5y7/30_years_of_the_music_industry_visualised_oc/
7
4 years of texts between me and my long distance girlfriend throughout college
4年大學期間和異地女友的短信資料分析一位異地戀的小哥,因為不認同女朋友說他總是發短信太少,居然做了一套短信分析系統,詳細分析了他們四年間互發短信的數量、時間、表情和用詞習慣等,并開放接口給大家使用。(前提是有個跟你互發消息的女朋友!)
工具:React(chart.js), Node/Express, Python
項目:https://leftonread.me
原文:https://www.reddit.com/r/dataisbeautiful/comments/biou3e/4_years_of_texts_between_me_and_my_long_distance/
8
Gaussian distribution
高斯分布高斯分布就是我們常說的“正态分布”。不過這裡的高斯分布,是作者把高斯的畫像中的像素顔色分布進行了動态可視化,類似PS等軟體中的顔色直方圖。
工具:http://anvaka.github.io/pixchart
項目:https://github.com/anvaka/gauss-distribution
原文:https://www.reddit.com/r/dataisbeautiful/comments/7ol3gy/gaussian_distribution_oc/
9
The City is Alive: The Population of Manhattan, Hour-by-Hour
城市是活的:紐約曼哈頓人口分時圖這是一個三維可視化,把人口數、時間和地點三個次元的資料,綜合在一起展現了曼哈頓地區一周七天的人流變化。
資料:美國人口普查網站+地鐵站人流資料
工具:Python + QGIS,網頁版 Mapbox GL JS + D3.js
項目:https://github.com/citrusvanilla/manhattanpopulationexplorer
原文:https://www.reddit.com/r/dataisbeautiful/comments/8hys9k/the_city_is_alive_the_population_of_manhattan/
10
Cause of Death - Reality vs. Google vs. Media
死亡原因統計 - 現實 vs. 谷歌 vs. 媒體這個圖表分三個部分,把對于同一個問題,不同管道的關注點不同進行了關聯對比。現實中,大多數死因是心髒疾病和癌症,而谷歌上的資料,癌症獨高,媒體上報道最多的則是兇殺和恐怖襲擊。
資料:美國疾病控制與預防中心、谷歌、衛報和紐約時報
工具:Python 3.6, numpy, pandas, matplotlib, imageio
項目:https://github.com/aaronpenne/data_visualization/tree/master/cause_of_death
原文:https://www.reddit.com/r/dataisbeautiful/comments/8cwcbu/cause_of_death_reality_vs_google_vs_media_oc/
11
Heatmap of numbers found at the end of Reddit usernames
Reddit使用者名結尾數字熱力圖這是對Reddit上的使用者名進行了統計,看看什麼樣的數字結尾被用的最多。一眼直覺就能看出:123、666、999,以及198~2017等數字都比較高。比較奇怪的是69、420也出奇的高,搜了下我才知道這和Reddit自身的黑話有關(具體就不便說了)。
資料:Kaggle: reddit-usernames
工具:python: matplotlib + seaborn
項目:https://github.com/colinmorris/reddit-username-suffixes
原文:https://www.reddit.com/r/dataisbeautiful/comments/7sewjx/heatmap_of_numbers_found_at_the_end_of_reddit/
以上僅僅是此節點上資料可視化案例的冰山一角,有興趣的同學也可以自己去挖掘。如果大家喜歡這些内容,下次我再抽空搜羅些更有意思的過來。
更多關于程式設計和資料的有趣且實用的内容,歡迎搜尋關注:
Crossin的程式設計教室