天天看點

Data Science | 資料科學簡介

資料科學(Data Science)

資料科學是一個跨學科的領域,包含所有與結構化和非結構化資料相關的内容,從準備、清理、分析和源于有用的視角開始。它結合了數學、統計學、智能資料捕獲、程式設計、問題解決、資料清理、不同的觀察角度、準備和資料對齊。

簡而言之,它是對資料進行處理的幾種技術和流程的組合,以獲得有價值的業務視角。通過使用科學的方法、算法、流程和系統來有效地提取資訊,這些資訊可以被業務用來做出關鍵的業務決策。

大資料(Big Data)

大資料有幾個特性,最著名的是資料量(volume),速度(velocity),多樣性(variety)。除此以外,還有就是準确性(veracity),連通性(valence), 和價值(value) 。

Volume

這就是大資料本身的本質,有很多資料,很大資料量。而資料量本身并不使資料變得有用,是以我們需要對它進行再次的處理。

計算機的運作速度決定了沒法迅速處理如此大的資料規模,是以在大量資料領域,還有類似存儲,通路和處理相關的成本,可擴充性和性能等等挑戰。

Velocity

這個詞我有看到幾個解釋,類似的翻譯有很多,有人認為應該翻譯成時效性,我個人不這麼認為。大部分的英文解釋都是關于處理資料的速度。

當你處理這麼多的資料時,通路速度和得到所需結果的速度是至關重要的。

舉個例子,Google Flu Trends(雖然已經證明是失敗的了)能夠預測流感,通過實時收集資料進行運算,如果你的運算速度比較慢,處理不了那麼多資料,那麼在流感爆發的時候,你還沒有計算出這個區域有沒有流感潛伏,這就失去了時效性。是以處理速度很重要。

Variety

資料格式多樣性:包含文字、影音、網頁、串流等等結構性、非結構性的資料等等。

來源多樣性:從動車系統傳來的實時資料,從沃爾瑪系統每周統計的資料等。

媒體多樣性:随着多媒體的發展,用來傳播的媒體也越來越多,如音頻、視訊、圖檔等等。

語義多樣性:分為兩個方面。一方面,舉個最簡單的例子,我們可以用數字來表示年齡,我們也有用小孩,青年,老人來表示年齡。另一方面,在不同語義情況下,相同的詞會蘊含不用的意思。

Veracity

可疑性指的是當資料的來源變得更多元時,這些資料本身的可靠度、品質是否足夠,若資料本身就是有問題的,那分析後的結果也不會是正确的。

Valence

這是最不常見到和談到的屬性。

這個屬性的來源是化學裡的化合價,在這裡指的是資料的連接配接性,即連接配接的資料項與可能連接配接的總數的分數。

當兩個資料相關的時候,則稱這兩個資料互相連接配接。而連接配接性會随着時間越來越大,導緻資料關系越來越複雜,于是群體事件預測、關系變化的模組化與預測等等也會越來越複雜。

Value

前面說了這麼多,大資料的核心就是價值。所有的大資料的困難與問題都是如何将資料轉化為價值。包括大容量和各種資料的易于通路和提供高品質分析,進而做出明智決策的價值等等。

Data Science | 資料科學簡介

資料分析(Data Analysis)

 資料分析是指用适當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是品質管理體系的支援過程。在實用中,資料分析可幫助人們作出判斷,以便采取适當行動。

Data Science | 資料科學簡介

繼續閱讀