天天看點

《智能資料時代:企業大資料戰略與實戰》一1.2 大資料如何發掘價值

.本節書摘來自華章出版社《智能資料時代:企業大資料戰略與實戰》一書中的第1章,第1.2節,作者 talkingdata ,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

提取出有價值的資訊總是說起來容易,做起來難。從理念、技術到實踐操作,任何一個環節都對我們發掘大資料的内在價值提出了挑戰。

我們可以通過四個次元來思考大資料,這四個次元的内容如下:

1)體量(volume)。大資料的資料規模很大。企業裡處處充滿資料,很容易積累起兆級乃至pb級的資料資訊。

2)種類(variety)。除了結構化資料,大資料還包含各種各樣的非結構化資料,如文本、音頻、視訊、點選流量、日志檔案等。

3)真實(veracity)。從大資料整合而來的大量資料資訊會存在一定的統計誤差和對資訊的曲解。資訊的精确性對其價值至關重要。

4)速度(velocity)。大資料對于時間是很敏感的,因為在企業中資料是時時流動的,必須使用大資料才能最大化它的商業價值,但是從中得出的結論也必須要适合于企業的曆史資料才行。

4v從四個次元诠釋了大資料的價值。然而,大資料的複雜性并不僅限于以上四個次元。在大資料驅動過程中,還存在其他的影響要素。而這一過程是大資料技術和分析的混合物,它們被用于定義資料資源的價值,而這種價值又可以轉化成驅動商業進步的可操作元素。

這裡提及的許多技術和概念并不新奇,而是在大資料的理念下“重新”出現的。最好的辦法是劃分成類别再進行分析,這些技術和概念包括以下内容。

傳統的商務智能(bi)領域。它包括廣泛的商業應用程式以及對資料進行收集、存儲、分析和處理的技術。而且bi提供可操作的資訊,它們使用基于事實的支援系統來做出更好的商務決策。bi通過對來自資料庫、應用程式以及其他資料資源的資料進行深度分析而推動其運作。在一些領域中,bi能夠提供業務營運的曆史、目前和預測性視圖。

資料挖掘領域。這是一個從不同角度分析資料并從中挖掘有用資訊的過程。資料挖掘通常适用于靜态資料或曆史資料。它更關注于預測目的的模組化和知識發現,而不是單純的資料描述,其目的在于從大規模資料集中發現新模型。

統計應用程式。這些程式關注以統計原理為基礎的算法,而且通常應用于與民意調查、人口普查相關的資料集以及其他的靜态資料集。這些程式處理的資料理論上以樣本觀測值為主,用來進行評估、檢測和預測分析。經驗資料如調查和實驗報告的資料是可分析資訊的主要來源。

預測分析。預測分析是資料統計程式中的一類,它主要是對資料庫中的資訊和趨勢進行分析,進而得到預測結論。在金融和科學領域中預測分析尤為重要,一旦有外部因素加入資料集中,就需要進行新的預測。預測分析的一個主要目的在于識别商業運作、市場和制造業中的風險與機遇。

資料模組化。它是一種假設性的分析應用,其中嵌套着多重的“what-if”語句,通過算法被應用于多個資料集。理想條件下,模組化資訊的變動應基于對算法可用的資訊,提出對資料集變化的影響的分析。資料模組化與資料可視化緊密相依,資料可視化可以更直覺地展示資料。

資料管理(data management)。資料管理是指利用計算機硬體和軟體技術對資料進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發揮資料的作用,包括中繼資料管理、資料結構化、資料安全等内容。

資料工程(data engineering)。資料工程是關于資料生産和資料使用的資訊系統工程。資料工程建立在大資料背景之下,是對資料庫的建設與管理的工程,其主要内容包括資料資産積累、資料營運過程、資料處理結果和應用、資料時間和咨詢等。

資料科學(data science)是研究資料的科學。資料科學利用統計學知識和計算機技術對專業領域的對象實行大資料分析與挖掘以及其他方式的資料處理,以使組織擷取更大的經濟效益。資料科學是一個交叉學科,在思想方法上,資料科學研究繼承了統計學的一些思想,例如在大量資料上做統計性的搜尋、比較、聚類或分類等分析歸納,其結論是一種相關性,而并不一定是某種因果關系。雖然都依賴大量的計算,但資料科學與計算機模拟不同,它并非是基于一個已知的數學模型,而是用大量資料的相關性取代了因果關系以及嚴格的理論和模型,并基于這些相關性獲得新的“知識”。

以上分析僅僅是大資料先進性和商業價值的一部分。這種價值的存在有賴于人們對競争優勢的永無止境的追求,并鼓勵企業組織采用更大的資料存儲庫,容納組織内部和外部的資料,以更好地進行趨勢揭示、資料統計、行動決策。這有助于将大資料的概念、相關工具、平台和分析普及到技術專家和高管中。