天天看點

Python資料可視化1.1 資料、資訊、知識和觀點

<b>摘要</b>

<b></b>

資料可視化概念架構

當代,網絡和社交媒體的興起,産生了大量資料,而且資料量的增長已超乎想象。這種現象是怎麼發生的?又是何時發生的?

十年前,一種處理問題的新方法演變為:跨企業的從資料源收集、整合大量資料,并進行運算的研究工作。他們這樣做的目标是用海量資料改善決策過程。在此期間,促使amazon、yahoo和google這樣的公司在處理大量資料方面取得了顯著進展。這些裡程碑式的成就促使一些大資料分析技術的誕生。當然,我們不會追究大資料的細節問題,但是我們将嘗試探索,為什麼很多機構改變了他們以往的模式,用類似的想法獲得更好的決策。

到底如何用這些海量資料做出更好的決策?這是我們的終極目标,但首先讓我們了解資料、資訊和知識間的差異,以及它們與資料可視化之間的關系。或許會有這樣一個疑問,為什麼要讨論資料、資訊和知識。我們将就下面的脈絡具體展開:怎樣開始、用什麼開始、這些内容如何有益于問題解決,以及可視化的作用。我們将通過簡要回顧涉及的程式步驟,确定資料可視化所需的概念架構。

本章将包括以下主題:

資料、資訊、知識和觀點之間的差異

資訊轉化為知識,進而轉化為觀點

收集、處理群組織資料

資料可視化的曆史

資料可視化如何幫助決策

可視化圖像

<b>1.1 資料、資訊、知識和觀點</b>

資料、資訊和知識被廣泛用于計算機科學領域。通常,這些術語有很多種充滿争議且不相一緻的定義。在深入研究這些定義之前,我們先了解這些術語與可視化之間的關系。資料可視化的主要目标是從資料或資訊中得出觀點(隐含的真理)。本書有關資料、知識和觀點的整個讨論屬于計算機科學的範疇,而非心理學或認知科學。認知科學方面的文獻請參見:https://www.ucsf.edu/news/2014/05/114321/converting-data-knowledge-insight-and-action。

1.1.1 資料

資料是得出結論的前提。盡管在一些特定的背景下,資料和資訊看起來相關聯。但實際上,資料是離散、客觀事實的數字表示。作為後續工作的基礎,資料會有不同的組織和安排形式,以友善得到回答實際問題的有用資訊。

資料可以是非常簡單卻龐大冗雜的。離散資料本身不能用于決策。這是因為它沒有意義,而且更重要的是,它們之間沒有結構或關系。資料收集、轉換和儲存的過程因資料類型和儲存方法的不同而有很多變化。資料有很多形式,一些常見形式如下:

csv檔案

資料庫表格

檔案格式(excel、pdf、word等)

html檔案

json檔案

文本檔案

xml檔案

1.1.2 資訊

資訊是處理後的資料,為實際問題提供答案。當我們增加一種關系或一個關聯時,資料就成為資訊。這種關聯通過提供資料背景來完成。這個背景有助于我們回答資料相關的問題。

比如,我們假定一名籃球員的資料包含身高、體重、位置、大學、出生日期、應招入隊,選拔輪數,nba-登場和新成員排名。問題“哪位球員是首位應征入隊、身高在6英尺以上且擔任控球後衛?”的回答是一條資訊。

類似地,每個球員的得分也是一條資料。問題“今年每次比賽得分最高的選手是誰?分數是多少?”的回答“lebron james,27.47”同樣也是一條資訊。

1.1.3 知識

當人類解釋群組織資訊,并用以決策時,知識便應運而生。知識是資料、資訊和通過經驗獲得的技能。知識包括做出适當決策的能力和執行時所需的技能。

作為必不可少的部分(連接配接資料)允許我們了解每條資訊的相對重要性。通過比較過去的結果和識别模式,我們不必從頭開始尋找問題的解決方法。下圖總結了資料、資訊和知識的概念。

知識以不斷增長的方式發生變化,特别是當資訊被重新安排或被重新組織,或在一些計算算法發生變化時。知識像箭一樣直擊算法的結果,該算法與來自資料的過去資訊有關。在許多情況下,可以通過與結果的視覺互動獲得知識。另一方面,觀點開啟了通向未來的途徑。

1.1.4 資料分析和觀點

在我們深入研究觀點的定義及其如何與實際問題相關聯之前,我們不妨先看看如何擷取觀點。十年間,組織機構已盡力弄懂他們擁有的所有資料和資訊,特别是探索資料量的大小。為了基于已有資料資訊得到最佳或現實的決策,他們發現了資料分析的重要性(也就是資料分析學或分析學)。

分析學依賴數學算法來确定産生觀點的資料間的關系。一種簡單的方式是通過打比方來了解觀點:當資料沒有結構且與實際問題相對應時,通過将資料結構化,使其更接近實際目标,這有助于人們更清晰、更深刻地了解資料。觀點是“我發現了”的那個時刻,得到突破性的結果。一個人不應該困惑于術語分析學和商務智能。當商務智能提供基于曆史資料的分析結果時,分析學就具備了預測能力。

分析學通常用于更廣泛的資料,為此,資料内外之間的協作時常發生。在一些實際問題的範式中,這種協作僅發生在海量資料的内部,但在大多數情況下,加入外界資訊有助于連結點或完成拼圖。最常見的兩個外部資料連結源是社交媒體和使用者群體。

在本章,我們應用分析法理論得出觀點、驅動商業價值,以及改善決策和更好地了解使用者,我們得出真實生活故事中有價值的結論。