大資料時代的到來改變了人們的生活方式、思維模式和研究範式,我們可以總結出 10 個重大變化,如圖 1 所示。

圖 1 大資料時代的 10 個重大變化
對研究範式的新認識:從第三範式到第四範式
2007 年 1 月,圖靈獎得主、關系型資料庫鼻祖 JimGray 發表演講,他憑着自己對于人類科學發展特征的深刻洞察,敏銳地指出科學的發展正在進入“資料密集型科學發現範式”——科學史上的“第四範式”。
在他看來,人類科學研究活動已經曆過三種不同範式的演變過程。
“第一範式”是指原始社會的“實驗科學範式”。18 世紀以前的科學進步均屬于此列,其核心特征是對有限的客觀對象進行觀察、總結、提煉,用歸納法找出其中的科學規律,如伽利略提出的實體學定律。
“第二範式”是指 19 世紀以來的理論科學階段,以模型和歸納為特征的“理論科學範式”。其核心特征是以演繹法為主,憑借科學家的智慧建構理論大廈,如愛因斯坦提出的相對論、麥克斯方程組、量子理論和機率論等。
“第三範式”是指 20 世紀中期以來的計算科學階段的“計算科學範式”。面對大量過于複雜的現象,歸納法和演繹法都難以滿足科學研究的需求,人類開始借助計算機的進階運算能力對複雜現象進行模組化和預測,如天氣、地震、核試驗、原子的運動等。
然而,随着近年來人類采集資料量的爆炸性增長,傳統的計算科學範式已經越來越無力駕馭海量的科研資料了。例如,歐洲的大型粒子對撞機、天文領域的 Pan-STARRS 望遠鏡每天産生的資料多達幾千萬億位元組(PB)。很明顯,這些資料已經突破了“第三範式”的處理極限,無法被科學家有效利用。
正因為如此,目前正在從“計算科學範式”轉向“資料密集型科學發現範式”。
“第四範式”的主要特點是科學研究人員隻需要從大資料中查找和挖掘所需要的資訊和知識,無須直接面對所研究的實體對象。例如,在大資料時代,天文學家的研究方式發生了新的變化,其主要研究任務變為從海量資料庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。
對資料重要性的新認識:從資料資源到資料資産
在大資料時代,資料不僅是一種“資源”,更是一種重要的“資産”。是以,資料科學應把資料當作一種“資産”來管理,而不能僅僅當作“資源”來對待。也就是說,與其他類型的資産相似,資料也具有财務價值,且需要作為獨立實體進行組織與管理。
大資料時代的到來,讓“資料即資産”成為最核心的産業趨勢。在這個“資料為王”的時代,回首資訊産業發展的起起伏伏,我們發現産業興衰的決定性因素,已不是土地、人力、技術、資本這些傳統意義上的生産要素,而是曾經被一度忽視的“資料資産”。
世界經濟論壇報告曾經預測稱,“未來的大資料将成為新的财富高地,其價值可能會堪比石油”,而大資料之父維克托也樂觀地表示,“資料列入企業資産負債表隻是時間問題”。
“資料成為資産”是網際網路泛在化的一種資本展現,它讓網際網路不僅具有應用和服務本身的價值,而且具有了内在的“金融”價值。資料不再隻是展現于“使用價值”方面的産品,而成為實實在在的“價值”。
目前,作為資料資産先行者的 IT 企業,如蘋果、谷歌、IBM、阿裡、騰訊、百度等,無不想盡各種方式,挖掘多種形态的裝置及軟體功能,收集各種類型的資料,發揮大資料的商業價值,将傳統意義上的 IT 企業,打造成為“終端+應用+平台+資料”四位一體的泛網際網路化企業,以期在大資料時代擷取更大的收益。
大資料資産的價值的衡量尺度主要有以下 3 個方面的标準。
1)獨立擁有及控制資料資産
目前,資料的所有權問題在業界還比較模糊。從擁有和控制的角度來看,資料可以分為 Ⅰ 型資料、Ⅱ 型資料和 Ⅲ 型資料。
Ⅰ 型資料主要是指資料的生産者自己生産出來的各種資料,例如,百度對使用其搜尋引擎的使用者的各種行為進行收集、整理和分析,這類資料雖然由使用者産生,但産權卻屬于生産者,并最大限度地發揮其商業價值。
Ⅱ 型資料又稱為入口資料,例如,各種電子商務營銷公司通過将自身的工具或插件植入電商平台,來為其提供統計分析服務,并從中擷取各類經營資料。雖然這些資料的所有權并不屬于這些公司,在使用時也有一些規則限制,但是它們卻有着對資料實際的控制權。
相比于前兩類資料,Ⅲ 型資料的産權情況比較複雜,它們主要依靠網絡爬蟲,如果你對大資料開發感興趣,想系統學習大資料的話,可以加入大資料技術學習交流扣群:458數字345數字782擷取學習資源,甚至是黑客手段擷取資料。與 Ⅰ 型和 Ⅱ 型資料不同的是,這些公司流出的内部資料放在網上供人付費下載下傳。這種資料在目前階段,還不能和資産完全畫等号。
2)計量規則與貨币資本類似
大資料要實作真正的資産化,用貨币對海量資料進行計量是一個大問題。盡管很多企業都意識到資料作為資産的可能性,但除了極少數專門以資料交易為主營業務的公司外,大多數公司都沒有為資料的貨币計量做出适當的賬務處理。
雖然資料作為資産尚未在企業财務中得到真正的引用,但将資料列入無形資産比較有利。
考慮到研發因素,很多高科技企業都具有較長的投入産出期,可以讓那些存儲在硬碟上的資料直接進入資産負債表。對于通過交易手段獲得的資料,可以按實際支付價款作為入賬價值計入無形資産,進而為企業形成有效稅盾,降低企業實際稅負。
3)具有資本一般的增值屬性
資本差別于一般産品的特征在于,它具有不斷增值的可能性。隻有能夠利用資料、組合資料、轉化資料的企業,他們手中的大資料資源才能成為資料資産。
目前,直接利用資料為企業帶來經濟利益的方法主要有資料租售、資訊租售、資料使能三種模式。
- 資料租售主要通過對業務資料進行收集、整理、過濾、校對、打包、釋出等一系列操作,實作資料內在的價值。
- 資訊租售則通過聚焦行業焦點,收集相關資料,深度整合、萃取及分析,形成完整資料鍊條,實作資料的資産轉化。
- 資料使能是指類似于阿裡這樣的網際網路公司通過提供大量的金融資料挖掘及分析服務,為傳統金融行業難以下手的小額貸款業務開創新的行業增長點。
總而言之,作為資訊時代核心的價值載體,大資料必然具有朝向價值本體轉化的趨勢,而它的“資産化”,或者未來更進一步的“資本化”蛻變,将為未來完全資訊化、泛網際網路化的商業模式打下基礎。
對方法論的新認識:從基于知識到基于資料
傳統的方法論往往是“基于知識”的,即從“大量實踐(資料)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之後,用知識去解決(或解釋)問題。是以,傳統的問題解決思路是“問題→知識→問題”,即根據問題找“知識”,并用“知識”解決“問題”。
然而,資料科學中興起了另一種方法論——“問題→資料→問題”,即根據“問題”找“資料”,并直接用“資料”(在不需要把“資料”轉換成“知識”的前提下)解決“問題”,如圖 2 所示。
圖 2 傳統思維與大資料思維的比較
對資料分析的新認識:從統計學到資料科學
在傳統科學中,資料分析主要以數學和統計學為直接理論工具。但是,雲計算等計算模式的出現及大資料時代的到來,提升了我們對資料的擷取、存儲、計算與管理能力,進而對統計學理論與方法産生了深遠影響。大資料帶給我們 4 個颠覆性的觀念轉變。
1)不是随機樣本,而是全體資料
在大資料時代,我們可以分析更多的資料,有時候甚至可以處理和某個特别現象相關的所有資料,而不再依賴于随機采樣。
以前我們通常把随機采樣看成是理所應當的限制,但是真正的大資料時代是指不用随機分析法這樣的捷徑,而采用對所有資料進行分析的方法,通過觀察所有資料,來尋找異常值進行分析。
例如,信用卡詐騙是通過異常情況來識别的,隻有掌握了所有資料才能做到這一點。在這種情況下,異常值是最有用的資訊,可以把它與正常交易情況作對比進而發現問題。
2)不是純淨性,而是混雜性
資料量的大幅增加會造成一些錯誤的資料混進資料集。但是,正因為我們掌握了幾乎所有的資料,是以我們不再擔心某個資料點對整套分析的不利影響。
我們要做的就是要接受這些紛繁的資料并從中受益,而不是以高昂的代價消除所有的不确定性。這就是由“小資料”到“大資料”的改變。
3)不是精确性,而是趨勢
研究資料如此之多,以至于我們不再熱衷于追求精确度。之前需要分析的資料很少,是以我們必須盡可能精确地量化我們的記錄,但随着規模的擴大,對精确度的癡迷将減弱。
擁有了大資料,我們不再需要對一個現象刨根問底,隻要掌握了大體的發展方向即可,适當忽略微觀層面上的精确度,會讓我們在宏觀層面擁有更好的洞察力。
例如,微信朋友圈中朋友發動态的時間,在一小時以内的會顯示多少分鐘之前,在一小時以外的就隻顯示幾小時前;微信公衆号中顯示的閱讀量,超過十萬以後顯示的就是 100000+,而不是具體資料,因為超過十萬的閱讀量已經讓我們覺得這篇文章很優秀了,沒必要精确。
4)不是因果關系,而是相關關系
在資料科學中,廣泛應用“基于資料”的思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關系”之後才解決問題。
在大資料時代,人們開始重視相關分析,而不僅僅是因果分析。我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系。相關關系也許不能準确地告訴我們某件事情為何會發生,但是它會告訴我們某件事情已經發生了。
在大資料時代,我們不必非得知道現象背後的原因,而是要讓資料自己發聲。知道是什麼就夠了,沒必要知道為什麼。例如,知道使用者對什麼感興趣即可,沒必要去研究使用者為什麼感興趣。
相關關系的核心是量化兩個資料值之間的資料關系。相關關系強是指當一個資料值增加時,其他資料值很有可能也會随之增加。相關關系是通過識别關聯物來幫助我們分析某一現象的,而不是揭示其内部的運作。
通過找到一個現象良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。例如,如果川和萬經常一起發生,我們隻需要注意方是否發生,就可以預測力是否也發生了。
對計算智能的新認識:從複雜算法到簡單算法
“隻要擁有足夠多的資料,我們可以變得更聰明”是大資料時代的一個新認識。是以,在大資料時代,原本複雜的“智能問題”變成簡單的“資料問題”。
隻要對大資料進行簡單查詢就可以達到“基于複雜算法的智能計算的效果”。為此,很多學者曾讨論過一個重要話題——“大資料時代需要的是更多的資料還是更好的模型?”
機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種算法,但應用效果并不理想。IBM 有能力将《人民日報》曆年的文本輸入電腦,試圖破譯中文的語言結構。
例如,實作中文的語音輸入或者中英互譯,這項技術在 20 世紀 90 年代就取得突破,但進展緩慢,在應用中還是有很多問題。近年來,Google 翻譯等工具改變了“實作政策”,不再依靠複雜算法進行翻譯,而是通過對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。
他們并不教給電腦所有的語言規則,而是讓電腦自己去發現這些規則。電腦通過分析經過人工翻譯的數以千萬計的檔案來發現其中的規則。這些翻譯結果源自圖書、各種機構(如聯合國)及世界各地的網站。
他們的電腦會掃描這些語篇,從中尋找在統計學上非常重要的模式,即翻譯結果和原文之間并非偶然産生的模式。一旦電腦找到了這些模式,今後它就能使用這些模式來翻譯其他類似的語篇。
通過數十億次重複使用,就會得出數十億種模式及一個異常聰明的電腦程式。但是對于某些語言來說,他們能夠使用到的已翻譯完成的語篇非常少,是以 Google 的軟體所探測到的模式就相對很少。這就是為什麼 Google 的翻譯品質會因語言對的不同而不同。
通過不斷向電腦提供新的翻譯語篇,Google 就能讓電腦更加聰明,翻譯結果更加準确。
對管理目标的新認識:從業務資料化到資料業務化
在傳統資料管理中,企業更加關注的是業務的資料化問題,即如何将業務活動以資料方式記錄下來,以便進行業務審計、分析與挖掘。
在大資料時代,企業需要重視一個新的課題——資料業務化,即如何“基于資料”動态地定義、優化和重組業務及其流程,進而提升業務的靈活性,降低風險和成本。業務資料化是前提,而資料業務化是目标。
電商的經營模式與實體店最本質的差別是,電商每賣出一件産品,都會留存一條詳盡的資料記錄。也正是因為可以用數字化的形式保留每一筆銷售的明細,電商可以清楚地掌握每一件商品到底賣給了誰。
此外,依托網際網路這個平台,電商還可以記錄每一個消費者的滑鼠單擊記錄、網上搜尋記錄。所有這些記錄形成了一個關于消費者行為的實時資料閉環,通過這個閉環中源源不斷産生的新鮮資料,電商可以更好地洞察消費者,更及時地預測其需求的變化,經營者和消費者之間是以産生了很強的黏性。
線下實體商店很難做到這一點,他們可能隻知道一個省、一個市或者一個地區賣了多少商品,但是,他們很難了解到所生産、經營的每一件商品究竟賣到了哪一個具體的地方、哪一個具體的人,這個人還買了其他什麼東西、檢視了哪些商品、可能會喜歡什麼樣的商品。
也就是說,線下實體店即使收集了一些資料,但其資料的粒度、寬度、廣度和深度都非常有限。由于缺乏足夠的資料,實體店對自己的經營行為,對消費者的洞察力,以及和消費者之間的黏性都十分有限。
就此而言,一家電商和一家線下實體店最本質的差別就是是否儲存了足夠的資料。其實,這正是網際網路化的核心和本質,即“資料化”。這并不是一個簡單的資料化,而是所有業務的過程都要資料化,即把所有的業務過程記錄下來,形成一個資料的閉環,這個閉環的實時性和效率是關鍵的名額。這個思想就是一切業務都要資料化。
在大資料時代,企業不僅僅是把業務資料化,更重要的是把資料業務化,也就是把資料作為直接生産力,将資料價值直接通過前台産品作用于消費者。
資料可以反映使用者過去的行為軌迹,也可以預測使用者将來的行為傾向。比較好了解的一個執行個體就是關聯推薦,當使用者買了一個商品之後,可以給使用者推薦一個最有可能再買的商品。個性化是資料作為直接生産力的一個具體展現。
随着資料分析工具與資料挖掘管道的日益豐富與多樣化,資料存量越來越大,資料對企業也越來越重要。資料業務化能夠給企業帶來的業務價值主要包括以下幾點:提高生産過程的資源使用率,降低生産成本;根據商業分析提高商業智能的準确率,降低傳統“憑感覺”做決策的業務風險;動态價格優化利潤和增長;擷取優質客戶。
目前,越來越多的企業級使用者已經考慮從批量分析向近實時分析發展,進而提高 IT 創造價值的能力。同時,資料分析在快速從商業智能向使用者智能發展。資料業務化可以讓資料給企業創造額外收益和價值。
對決策方式的新認識:從目标驅動型到資料驅動型
傳統科學思維中,決策制定往往是“目标”或“模型”驅動的,也就是根據目标(或模型)進行決策。然而,大資料時代出現了另一種思維模式,即資料驅動型決策,資料成為決策制定的主要“觸發條件”和“重要依據”。
小資料時代,企業讨論什麼事情該做不該做,許多時候是憑感覺來決策的,流程如圖 3 所示,由兩個環節組成:一個是拍腦袋,另一個是研發功能。
圖 3 産品疊代的錯誤流程
基本上就是産品經理通過一些調研,想了一個功能,做了設計。下一步就是把這個功能研發出來,然後看一下效果如何,再做下一步。
整個過程都是憑一些感覺來決策。這種方式總是會出現問題,很容易走一些彎路,很有可能做出錯誤的決定。
資料驅動型決策加入了資料分析環節,如圖 4 所示。
基本流程就是企業有一些點子,通過點子去研發這些功能,之後要進行資料收集,然後進行資料分析。基于資料分析得到一些結論,然後基于這些結論,再去進行下一步的研發。整個過程就形成了一個循環。在這種決策流程中,人為的因素影響越來越少,而主要是用一種科學的方法來進行産品的疊代。
圖 4 資料驅動的産品疊代流程
例如,一個産品的界面到底是綠色背景好還是藍色背景好,從設計的層面考慮,兩者是都有可能的。那麼就可以做一下 A/B 測試。
可以讓 50% 的人顯示綠色背景,50% 的人顯示藍色背景,然後看使用者點選量。哪個點選比較多,就選擇哪個。這就是資料驅動,這樣就轉變成不是憑感覺,而是通過資料去決策。
相比于基于本能、假設或認知偏見而做出的決策,基于證據的決策更可靠。通過資料驅動的方法,企業能夠判斷趨勢,進而展開有效行動,幫助自己發現問題,推動創新或解決方案的出現。
對産業競合關系的新認識:從以戰略為中心到以資料為中心
在大資料時代,企業之間的競合關系發生了變化,原本互相競争,甚至不願合作的企業,不得不開始合作,形成新的業态和産業鍊。
所謂競合關系,即在競争中合作,在合作中競争。它的核心思想主要展現在兩個方面:創造價值與争奪價值。創造價值是個體之間互相合作、共創價值的過程;争奪價值則是個體之間互相競争、分享價值的過程。
競合的思想就是要求所有參與者共同把蛋糕做大,每個參與者最終分得的部分都會相應增加。
傳統的競合關系以戰略為中心,德國寶馬汽車公司和戴姆勒公司旗下的奔馳品牌在整車制造領域存在着品牌競争,但雙方不僅共同開發、生産及采購汽車零部件,而且在混合動力技術——領域進行研究合作。
為了能夠在激烈的市場競争中擷取優勢,兩家公司通過競合戰略,互通有無、共享資源,進而在汽車業整體利潤下滑的趨勢下獲得相對較好的收益,最終取得雙赢。
在大資料時代,競合關系是以資料為中心的。資料産業就是從資訊化過程累積的資料資源中提取有用資訊進行創新,并将這些資料創新賦予商業模式。
這種由大資料創新所驅動的産業化過程具有“提升其他産業利潤”的特征,除了能探索新的價值發現、創造與擷取方式以謀求本身發展外,還能幫助傳統産業突破瓶頸、更新轉型,是一種新的競合關系,而非一般觀點的“新興科技催生的經濟業态與原有經濟業态存在競争關系”。
是以,資料産業培育圍繞傳統經濟更新轉型,依附傳統行業企業共生發展,是最好的發展政策。例如,近年來發展火熱的團購,就是資料産業幫助傳統餐飲業、旅遊業和交通行業的更新轉型。提供團購業務的企業在獲得收益的同時,也提高了其他傳統行業的效益。
但是,傳統企業與團購企業也存在着一定的競争關系。傳統企業在與團購企業合作的過程中,也盡力防止自己的線下業務全部轉為自己不能掌控的團購企業。
團購網站為了能獲得更廣的使用者群、更大的流量來提升自己的市場地位,除了自身擴充商戶和培養網民習慣之外,還紛紛采取了合縱連橫的發展戰略。
聚劃算、京東團購、當當團購、58 團購等紛紛開放平台,吸引了千品網、高朋、滿座、窩窩等團購網站的入駐,投奔平台正在成為行業共識。
對于獨立團購網站來說,入駐電商平台不僅能帶來流量,電商平台在實物銷售上的積累對其實物團購也有一定的促進作用。
對資料複雜性的新認識:從不接受到接受資料的複雜性
在傳統科學看來,資料需要徹底“淨化”和“內建”,計算目的是需要找出“精确答案”,而其背後的哲學是“不接受資料的複雜性”。
然而,大資料中更加強調的是資料的動态性、異構性和跨域等複雜性,開始把“複雜性”當作資料的一個固有特征來對待,組織資料生态系統的管理目标開始轉向将組織處于混沌邊緣狀态。
在小資料時代,對于資料的存儲與檢索一直依賴于分類法和索引法的機制,這種機制是以預設場域為前提的。這種結構化資料庫的預設場域能夠卓越地展示資料的整齊排列與準确存儲,與追求資料的精确性目标是完全一緻的。
在資料稀缺與問題清晰的年代,這種基于預設的結構化資料庫能夠有效地回答人們的問題,并且這種資料庫在不同的時間能夠提供一緻的結果。
面對大資料,資料的海量、混雜等特征會使預設的資料庫系統崩潰。其實,資料的紛繁雜亂才真正呈現出世界的複雜性和不确定性特征,想要獲得大資料的價值,承認混亂而不是避免混亂才是一種可行的路徑。
為此,伴随着大資料的湧現,出現了非關系型資料庫,它不需要預先設定記錄結構,而且允許處理各種各樣形形色色參差不齊的資料。
因為包容了結構的多樣性,這些無須預設的非關系型資料庫設計能夠處理和存儲更多的資料,成為大資料時代的重要應對手段。
在大資料時代,海量資料的湧現一定會增加資料的混亂性且會造成結果的不準确性,如果仍然依循準确性,那麼将無法應對這個新的時代。
大資料通常都用機率說話,與資料的混雜性可能帶來的結果錯誤性相比,資料量的擴張帶給我們的新洞察、新趨勢和新價值更有意義。
是以,與緻力于避免錯誤相比,對錯誤的包容将會帶給我們更多資訊。其實,允許資料的混雜性和容許結果的不精确性才是我們擁抱大資料的正确态度,未來我們應當習慣這種思維。
對資料處理模式的新認識:從小衆參與到大衆協同
在傳統科學中,資料的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和考核這些“核心員工”。
但是,在大資料時代,基于“核心員工”的創新工作成本和風險越來越大,而基于“專家餘(Pro-AmT 的大規模協作日益受到重視,正成為解決資料規模與形式化之間沖突的重要手段。
大規模生産讓數以百計的人買得起商品,但商品本身卻是一模一樣的。
企業面臨這樣一個沖突:定制化的産品更能滿足使用者的需求,但卻非常昂貴;與此同時,量産化的商品價格低廉,但無法完全滿足使用者的需求。
如果能夠做到大規模定制,為大量使用者定制産品和服務,則能使産品成本低,又兼具個性化,進而使企業有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔。
是以,在企業可以負擔得起大規模定制帶來的高成本的前提下,要真正做到個性化産品和服務,就必須對使用者需求有很好的了解,這就需要使用者提前參與到産品設計中。
在大資料時代,使用者不再僅僅熱衷于消費,他們更樂于參與到産品的創造過程中,大資料技術讓使用者參與創造與分享成果的需求得到實作。
市場上傳統的著名品牌越來越重視從使用者的回報中改進産品的後續設計和提高使用者體驗,例如,“小米”這樣的新興品牌建立了網際網路使用者粉絲論壇,讓使用者直接參與到新産品的設計過程之中,充分發揮使用者豐富的想象力,企業也能直接了解他們的需求。
大衆協同的另一個方面就是企業可以利用使用者完成資料的采集,如實時車輛交通資料采集商 Inrix。該公司目前有一億個手機端使用者,Inrix 的軟體可以幫助使用者避開堵車,為使用者呈現路的熱量圖。
提供資料并不是這個産品的特色,但值得一提的是,Inrix 并沒有用交警的資料,這個軟體的每位使用者在使用過程中會給伺服器發送實時資料,如速度和位置,這樣每個使用者都是探測器。使用該服務的使用者越多,Inrix 獲得的資料就越多,進而可以提供更好的服務。