天天看點

大量資料≠大資料

intetix foundation(英明泰思基金會)由從事資料科學、非營利組織和公共政策研究的中國學者發起成立,緻力于通過資料科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的資料科學家和社會科學家,以及分布在全球的志願者,我們創造性地踐行着我們的使命:為美好生活洞見資料價值。

在大資料時代,人們很容易把一大堆資料定義為“大資料”,比如,大型制造企業和倉庫可能存有多年積累下來的存貨資料,或許高達幾兆兆位元組,但這并不能算大資料。同樣,1500個pos機的現金資料、一大份工作表中的資料也不是大資料。

企業需要行之有效的方法去儲存、分析、使用資料,如果管理的不是大資料問題,那就沒有必要建立資料池、雇傭資料科學家,也沒有必要買一堆hadoop産品去管理。說到底,辨識所管理的是大資料還是大量資料至關重要。以下推出五種辨識方法:

資料是否來源于多種不同管道?

如果資料來源單一,即使資料量很大,也不太可能是大資料。

職業資料人會考慮大資料的三v(或4v):數量,多樣性,速度,(精确性)。本文讨論的就是第二種:多樣性。一般來說,大資料往往不是來自于單一源頭或系統,而是來自于許多不同的地方,不同的形式,以及不同的變量。例如,pos資料盡管數量龐大但不是大資料,可是如果把從供應商處取得的資料與其整合以建構供應鍊,則它們就成了大資料。是以,問題在于是什麼形成了大資料,而不是僅僅考慮數量因素。

資料是否需要被實時分析使用?

并不是所有的大資料都一定來源于多種不同管道,當資料需要被實時分析使用,比如預防欺詐、股票交易,盡管資料缺乏多樣性,但仍可被定義為大資料。在信用服務業,用于預防欺詐的資料來源并不複雜,但需要實時分析技術(通常用spark,有時會同時使用hadoop和spark),這樣若真的存在欺詐,也會被馬上檢測出并予以阻止。同樣的,股票交易員所依賴的高頻交易資料也并不是特别複雜的資料,但需要連續處理以做出買入或賣出股票的決定,hadoop和spark是被經常使用的分析工具。

你是否需要詢問複雜問題?

當你開始針對資料詢問更加複雜的問題的時候,比如确定因果關系,則該資料就成了大資料。當然,在這種情況下,最好還是使用多方面來源的資料。比如,當你想知道女性紅色高跟鞋的四月份的市場情況的時候,你所要的資料就不僅僅是你自己的采購記錄了,你還要整合社交媒體和其他外部市場資料以得到最佳答案。

資料集是否代表了許多不同的變量?

如果資料代表了一系列不同的難以界定模式和關聯性的變量,那麼即使資料是由單一系統或小型系統搜集而來,也可認定為是大資料。例如,氣象資料僅從一些基礎的系統取得(氣溫,氣壓,風速等),但資料關系卻極為複雜,即使是最富經驗的氣象學家也不一定總能做出準确的氣象預測,是以,他們會使用高度專業化的資料分析方法以作出更準确的預測(盡管還是有人會說他們并不比有關節炎的老人更準确)。

資料是未架構的,半架構的,架構的還是以上的綜合?

諸如sql等關系明确的資料庫長時間以來成功的處理了組織良好的資料,但如今的多媒體世界為我們呈現了一系列未架構的和半架構的資料,這些資料在sql中無法得到良好的處理。這些資料包括圖像,視訊,文本檔案,電子郵件交流,社交媒體,音頻檔案以及其他。nosql資料庫正在變得更受歡迎,hadoop和其他大資料工具在處理這些多樣化的資料類型的時候顯得更為強大,特别是你所做的處理工作不僅僅是儲存和找回圖像等。

你的資料是大資料嗎?如果是,那麼就去找尋合适的工具處理你的資料,通過syncsort你可以找到大資料處理辦法;如果你需要處理主機上的大資料,現在hadoop也能幫你解決這個問題了。

====================================分割線================================

本文轉自d1net(轉載)