天天看點

大資料時代的10個重大變革

大資料時代的到來正在改變人們的生活方式、思維模式和研究範式,我們可以總結出10個重大變革。

NO.1目标驅動型 資料驅動 決策方式

傳統科學思維中,決策制定往往是“目标”或“模型”驅動的——根據目标(或模型)進行決策。然而,大資料時代出現了另一種思維模式,即資料驅動型決策,資料成為決策制定的主要“觸發條件”和“重要依據”。例如,近年來,很多高新企業中的部門和崗位設定不再是“固化的”,而是根據所做項目與所處的資料環境,随時動态調整其部門和崗位設定。然而,部門和崗位設定的靈活性往往是基于資料驅動的,根據資料分析的結果靈活調整企業内部結構。

NO.2 基于知識的方法 基于資料的方法 方法論

我們傳統的方法論往往是“基于知識”的,即從 “大量實踐(資料)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之後,用知識去解決(或解釋)問題。是以,傳統的問題解決思路是“問題知識問題”,即根據問題找“知識”,并用“知識”解決“問題”。然而,資料科學中興起了另一種方法論——“問題資料問題”,即根據問題找“資料”,并直接用資料(不需要把“資料”轉換成“知識”的前提下)解決問題。

NO.3 複雜算法簡單算法 計算智能

“隻要擁有足夠多的資料,我們可以變得更聰明”是大資料時代的一個新認識。是以,在大資料時代,原本複雜的“智能問題”變成簡單的“資料問題”——隻要對大資料的進行簡單查詢就可以達到“基于複雜算法的智能計算的效果”。為此,很多學者曾讨論過一個重要話題——“大資料時代需要的是更多資料還是更好的模型(moredata or better model)?”。機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種“算法”,但應用效果并不理想。近年來,Google翻譯等工具改變了“實作政策”,不再僅靠複雜算法進行翻譯,而對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。

NO.4 業務資料化資料業務化 資料管理

在大資料時代,企業需要重視一個新的課題——資料業務化,即如何“基于資料”動态地定義、優化和重組業務及其流程,進而提升業務的靈活性,降低風險和成本。但是,在傳統資料管理中我們更加關注的是業務的資料化問題,即如何将業務活動以資料方式記錄下來,以便進行業務審計、分析與挖掘。可見,業務資料化是前提,而資料業務化是目标。

NO.5 第三範式 第四範式 研究範式

2007年,圖靈獎獲得者Jim Gray提出了科學研究的第四範式——資料密集型科學發現(Data-intensive ScientificDiscovery)。在他看來,人類科學研究活動已經曆過三中不同範式的演變過程(原始社會的“實驗科學範式”、以模型和歸納為特征的“理論科學範式”和以模拟仿真為特征的“計算科學範式”),目前正在從“計算科學範式”轉向“資料密集型科學發現範式”。第四範式,即“資料密集型科學發現範式”的主要特點是科學研究人員隻需要從大資料中查找和挖掘所需要的資訊和知識,無須直接面對所研究的實體對象。例如,在大資料時代,天文學家的研究方式發生了新的變化——其主要研究任務變為從海量資料庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。

NO.6 資料是資源資料是資産 資料的屬性

在大資料時代,資料不僅是一種“資源”,而更是一種重要的“資産”。是以,資料科學應把資料當做“一種資産來管理”,而不能僅僅當做“資源”來對待。也就是說,與其他類型的資産一樣,資料也具有财務價值,且需要作為獨立實體進行組織與管理。

NO.7 統計學 資料科學 資料分析

在傳統科學中,資料分析主要以數學和統計學為直接理論工具。但是,雲計算等計算模式的出現以及大資料時代的到來,提升了我們對資料的擷取、存儲、計算與管理能力,進而對統計學理論與方法産生了深遠影響,主要有:

(1)随着資料擷取、存儲與計算能力的提升,我們可以很容易獲得統計學中所指的“總體”中的全部資料,且可以在總體上直接進行計算——不再需要進行“抽樣操作”;

(2)在海量、動态、異構資料環境中,人們更加關注的是資料計算的“效率”而不再盲目追求其“精準度”。例如,在資料科學中,廣泛應用“基于資料的”思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關系”之後才解決問題。在大資料時代,人們開始重視相關分析,而不僅僅是因果分析。

NO.8 以戰略為中心 以資料為中心 産業競合關系

在大資料時代,企業之間的競合關系發生了變化,原本互相激烈競争,甚至不願合作的企業,不得不開始合作,形成新的業态和産業鍊。例如,近年來IBM公司和Apple公司“化敵為友”,并有報道稱他們正在從競争對手轉向合作夥伴——IBM的100多名員工前往Apple的加州庫比蒂諾總部,與Apple一起為IBM的客戶(例如花旗、Sprint和日本郵政)聯合開發iPhone和iPad應用。

NO.9 不接受 接受 資料複雜性

在傳統科學看來,資料需要徹底“清洗”和“內建”,計算目的是需要找出“精确答案”,而其背後的哲學是“不接受資料的複雜性”。然而,大資料中更加強調的是資料的動态性、異構性和跨域等複雜性——彈性計算、魯棒性、虛拟化和快速響應,開始把“複雜性”當作資料的一個固有特征來對待,組織資料生态系統的管理目标轉向将組織處于混沌邊緣狀态。

NO.10 小衆參與 大規模協同 資料處理模式

傳統科學中,資料的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和績效考核這些“核心員工”。但是,在大資料時代,基于“核心員工”的創新工作成本和風險越來越大,而基于“專家餘(Pro-Am)”的大規模協作日益受到重視,正成為解決資料規模與形式化之間沖突的重要手段。

來源:資料科學Data Science