天天看點

解讀大資料應用價值發現的三大方法

關于大資料的讨論,一方面人們需要理清大資料的概念,開發适用的大資料系統和工具,探索大資料的應用模式等,另一方面人們更關心如何将大資料的價值變現。這對于一個企業來說尤其重要,否則,收集和存儲了大量的資料,消耗了大量的錢财,如果大資料不能被很好地利用,從經濟上講就是不合算的,這樣的事情也不會長遠。

大資料價值的發現與其所處的應用場景密切相關。概括起來,大資料價值發現可以劃分為三大類:資料服務、資料分析和資料探索。資料服務是面向大規模使用者,提供高性能的資料查詢、檢索、預測等服務,通過直接滿足使用者需求而将資料價值變現的形式;資料分析是分析人員利用經驗,通過對大規模資料使用特定的計算模型進行較為複雜的運算,進而發現易于人們了解的資料模式或規律所進行的資料價值變現的一種運算形式;資料探索是一種利用資料分析和人機互動的結合,通過不斷揭示資料的規律和資料間的關聯,引導分析人員發現并認識其所未知的資料模式或規律,其價值更多地展現在對未知途徑的資料模式和規律的探索。

1. 資料服務

資料服務針對使用者非常明确的資料查詢和處理任務,以高性能和高吞吐量的方式實作大衆化的服務,是資料價值最重要也是最直接的發現方式。由于要處理大衆化的服務請求,每個服務任務必須能夠被快速地處理掉,是以,資料服務的單個任務負載不能過于複雜,單任務直接處理的資料不能太大,任務對應的使用者需求和采用的資料處理方法必須是明确的。一些典型的資料服務包括事務處理、資料查詢、資訊檢索、資料預測。

大資料應用價值發現的三大方法

解讀大資料應用價值發現的三大方法

事務處理是傳統資料庫範疇的價值發現形式,它針對的主要是任務關鍵型的資料服務,如銀行記賬、商業交易等; 資料查詢主要是面向快速查找或修改資料的服務需求,它比事務處理更簡單,對資料一緻性要求沒那麼強,但對服務的吞吐量要求非常高;資訊檢索是指從大規模的資料集中快速查找滿足使用者需求的資料或資料片段的過程;資料預測和資料分類被很多人認為是一種資料分析任務,其實,很多針對個體的資料預測和分類任務實際上是一種資料服務,它使用資料分析得來的預測模型,對個體資料執行個體進行預測,進而能夠高并發地為大規模使用者提供分類和預測服務,進而更好地展現出資料的價值。

2. 資料分析

資料分析是指用适當的統計分析方法對大量資料進行分析或模組化,提取有用資訊并形成結論,進而輔助人們決策的過程。在這個過程中,使用者會有一個明确的目标,通過“資料清理、轉換、模組化、統計”等一系列複雜的操作,獲得對資料的洞察,進而協助使用者進行決策。常見的資料分析任務又可以被進一步劃分為描述型分析、診斷型分析、預測型分析、政策型分析。

描述型分析的主要特點是對資料代表的含義進行描述性的揭示,通過資料統計分析揭示資料隐含的現象,進而幫助人們更好地進行決策。

診斷型分析主要用來揭示一些現象背後的成因,是以,它比描述型分析更深入。很多資料挖掘方法與診斷型分析密切相關。比如相關性分析和因果關系的分析等,都是想通過對資料的深度分析揭示描述型分析所發現的某些現象背後的成因。

預測型分析主要是使用機器學習技術,對現有的大資料進行深度分析,建構資料預測和分類的模型,進而更好地支援資料預測和分類服務。

政策型分析也稱指導型分析,是在分析過程中減少甚至排除人的參與,在給定目标的驅動下,直接幫助人們找到好的政策,作用于大資料應用,使得未來資料名額能夠按照設想的某些趨勢發展。它是資料分析的進階階段,更能發揮出大資料的價值。

總之,資料分析一般基于大量資料和較為複雜的運算模型,其結果資訊量通常很大,适用于宏觀決策。而對于細節層面資訊的擷取,資料分析缺乏如索引和通路控制等方面的技術支援。如何在一個平台上,既支援宏觀的分析,也支援細節的分析,是當今一個挑戰的技術難題。

3. 資料探索

資料探索是指針對目标可變、持續、多角度的搜尋或分析任務,其搜尋過程是有選擇、有政策和反複進行的。它将以找到資訊為目的的傳統資訊檢索模式變為以發現、學習和決策為目的的資訊搜尋模式。這樣的搜尋模式結合了大量的資料分析與人機互動過程,适合于人們從資料中發現和學習更多的内容和價值。

對于資料探索,使用者可以在微觀層面(資料搜尋)和宏觀層面(資料分析)之間進行自由切換,用互動式的方式探索并發現資料的價值。

目前,随着大資料研究的興起,探索式搜尋這種互動式分析和探索資料價值的方式,逐漸引起人們的重視,還有很多問題等待研究者們進行深入的研究。

資料服務強調從微觀層面擷取滿足使用者需求的精準資訊,資料分析強調從宏觀層面為使用者提供資料洞察,進而提供決策支援,而資料探索則需要在宏觀和微觀兩個層面進行自由切換。大資料蘊含大價值,資料服務、資料分析和資料探索是3個層次的資料價值發現方法。在很多應用下,這3類方法需要混合使用,才能更好地發現大資料的價值。

原文釋出時間為:2017年7月13日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。