随着網際網路在各行各業的不斷滲透,“大資料”這個名詞出現的頻率越來越高,無論是傳統行業還是網際網路仿佛都在被“大資料”這一抽象化的标簽支配着,不由得引起越來越多的人反問:
大資料具體是什麼?
大資料和曾經的小資料有什麼差別?
是否過譽了?
他到底能在行業上發揮什麼作用?
接下來我們一起來認識下大資料究竟是何方神聖~
為什麼覺得大資料華而不實?
因為媒體、廠商對大資料的解讀,都在給人們造成一種認知偏差,認為“大資料能分析我們身邊的一切,大資料是萬能的,抓住大資料可以獲得财富”。
但其實這是一種言過其實的說法。隻不過媒體需要吹捧新穎吸睛的概念;廠商需要誇大其應用市場、商業價值來吸引融資;企業需要将自己的改革和大資料挂鈎來確定成功的可能性,表明自己是在真創新。
大資料的應用和成功可能性還遠沒有這麼成熟。
大資料的本質
現在叫大資料,以前可以稱為資訊、情報等等名字。以前的資訊搜集技術沒有這樣發達,隻能以樣本資訊形式出現,而且由于結構類型不同,隻能分類處理,有些資料還不便于儲存和比較。為什麼現在叫大資料,是因為現代網際網路技術,可以把不同結構類型的所有資料都能搜集到,形成全資料,并且随着大資料技術的深度發展,這些複雜結構類型的全資料,會被自動分類比較統計,是以稱為大資料。

隻有量的積累的資料,通常并不能稱之為大資料。除了大量性,大資料常常還應該具有多元性和完備性。
大資料的多元性,可以了解為針對單一“個體”(人/物/事件等)不同角度的資料。比如之前提到的:收集全國所有人的出生年月,單收集這一項,資料單一缺乏意義;但如果再加入收入、所屬地區、受教育程度等等多元的資訊,那資料本身就變得鮮活了。我們可以從資料中分析人口的地域分布、經濟分布、教育分布等并在此基礎上給出宏觀的資源調控計劃。
大資料的完備性,則可以了解為資料的全面性。比如2012年一位名叫内德·斯威爾的年輕人,利用大資料成功預測了美國50+1個州的大選結果。他其實就是在投票前利用網際網路盡可能的搜集當年的大選資料(如地方媒體資料、社交網絡留言、朋友間評論等),進而近似的知道每個人對大選的态度,并按照州進行分類整理,最終成功預測了當年的大選結果。
缺少多元性的“大資料”會讓資料承載的資訊“片面”,進而導緻資料本身的利用價值大大下降;缺乏完備性的資料則會由于缺乏“完備樣本”的支撐,也會使得擷取的資訊“局限性”。
大資料最好還應具有“及時性”,但及時性卻并不是其必備條件,隻是有了“及時性”的大資料,會實作一些過去無法做到的事情。
大資料的及時性,可以了解為資料收集的時效性。一方面,要分析目前情況,就要盡可能使用與目前時間點較為接近的資料;另一方面,資料本身就在時刻産生(特别是今天的網際網路),新鮮的資料能更快速的反應目前社會的一些情況。比如使用百度地圖導航的時候,它能根據資料庫中人們目前的(及時的資料)車輛出行地點,和即将要去的地方大概估算出此人的行程規劃,并通過衆多資料的整合估算出某一路段可能的堵塞情況,進而在導航的時候給出“避免擁堵”的導航建議。
由此可見,所謂的大資料,一定要同時滿足大量、多元和完備(相對來說)的特點,并在此基礎上,最好具有“時效性”。
參考自:讀大資料 《智能時代》有感
大資料的意義在于驅動決策
大資料産生價值的鍊路是:資料驅動決策——決策實踐價值。
國内企業總是談資料變現實際是一種對大資料價值的歧義了解。企業面對的TO B或TO C不是個體單次元資料而是海量多元度資料,單一資料不能提供任何決策依據。然而企業決策者往往對大資料的了解不夠清晰透徹,片面的認為資料就是價值,花錢就要見效,把重點需求放在了所謂的上文說道的“有效資料上”當然效果在短期是非常顯而易見的。而在利益驅動下企業的方向就真的随着“資料”驅動決策了,如同你是正常人卻天天吸純氧,企業想的就不是産品緊貼市場需求、如何有效改進,增強市場競争優勢,而是圍繞相應“資料”下進行各種營銷。
第一步,找到核心資料。核心資料現在對很多企業來說實際上就是CRM,自己的使用者系統,這是最重要的。
第二步,外圍資料。比如企業經常會線上上線下舉辦一些活動,在做活動的時候,消費者的資訊隻是簡單地提供在表單裡面,還是進入了CRM的系統裡?
第三步,正常管道的資料。舉例來說一個銷售快銷品的企業,能不能夠得到沃爾瑪的資料,家樂福的資料?很多國外大資料的案例,說消費者買啤酒的時候也會購買刮胡刀之類,或者一個母嬰産品的消費者她今天在買這個産品,預示着她後面必然會買另一個産品。這就有一個前期的挖掘。這些價值怎麼來的,這就需要企業去找正常管道裡面的資料,跟自己的CRM結合起來,才能為自己下一步做市場營銷、做推廣、産品創新等建立基礎。
第四步,外部的社會化的或者非結構化的資料。即現在所謂的社會化媒體資料。這方面資訊的主要特征是非結構化,而且非常龐大。這對企業來說最大的價值是什麼?當你的使用者在社會化媒體上發言的時候,你有沒有跟他建立聯系?
大資料的核心在于大資料思維
網絡的誕生給世界帶來了大量的資料積累和資訊流通,并帶來了一次“大資料思維”的思想變革。
機械思維時代,由于資料收集的局限性,科學家們隻能在有限的樣本下“大膽假設小心求證”,然而受限于人類大腦的“創造力”,所謂的“大膽假設”也并不是真的“大膽”;随着網際網路時代的到來,“資料”不再成為問題,當大量資料堆積在一起時,就産生了“質”的變化。
網際網路時代的人們逐漸發現:世界其實是不确定的,一方面世界的本質就是不确定的(比如原子核中的電子時刻都在做着無規則的運動);另一方面影響世界本身的變量太多,我們沒辦法用簡單的公式将他們全部囊括進來,隻能盡可能的利用随機事件來處理,利用機率來解釋。
與此同時,伴随着資料的大量積累和統計數學的發展,人們驚喜的發現:在資料量達到一定程度的時候,資料和資料之間的關聯可以反映出某些意想不到的結果。于是大資料思維就誕生了:
世界本身是不确定的,利用大資料可以盡可能的消除這種不确定性,因果關系可以利用資料間的相關關系進行代替。
大資料思維,也有人将其成為“資訊論”,其本質就是:
1)利用不确定性看待世界,然後利用大資料來盡可能的消除這種不确定性;
2)利用具有多元度特征的大資料,資料之間的相關關系來代替機械思維時代的因果關系,幫助我們在“創造”難以掌控的情況下,發現意想不到的結論。
舉例來說:
我們在投放廣告時,機械思維要我們先有一個假設:目标人群可能的特征,并進行調研和證明;而大資料思維則是:我們不确定要投放給什麼樣的人群,緊接着我們利用已有使用者的資料特征發現了“使用者群體畫像”這就是消除不确定性的過程,最終我們直接根據資料給出的結論來制定計劃。
另外,我們利用機械思維制定投放廣告的政策時,會按照嚴謹的:“提出假設——實驗驗證——得出結論”的邏輯關系制定;但在大資料思維下,我們不需要知道“為什麼具有A特征的使用者應該是我們投放廣告的目标人群”或“為什麼C平台應該是我們選擇的投放管道”,我們隻需知道,“資料顯示A類人群購買此類産品最多”或“不同平台中C類平台的廣告産出比最高”僅此而已。這就是用“資料的相關性”取代“因果關系”。
大資料和小資料的差別
小資料分析方法,即傳統的資料分析,是指用适當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。
大資料的基本處理流程與傳統資料處理流程并無太大差異,主要差別在于:由于大資料要處理大量、非結構化的資料,是以在各處理環節中都可以采用并行處理。目前,Hadoop、MapReduce和Spark等分布式處理方式已經成為大資料處理各環節的通用處理方法