天天看點

大資料時代已來臨,分析成難點

截止到2011年底,全球網民數達22.67億;截止到2012年6月,中國網民達5.38億。龐大的網民每時每刻産生大量的資料,據統計:每一分鐘全球電子郵件使用者共計發出2.04億封電子郵件;谷歌會處理200萬次搜尋;Facebook使用者會共享68.4萬比特的内容……同時,目前使用者在網上不僅僅是資訊,同時使用者發微網誌、上傳照片、上傳視訊等,導緻資料類型呈現多樣性。使用者所産生的資料量還将呈現出爆炸式的增長态勢,大資料時代已經來臨。

大資料時代已來臨,分析成難點

   在使用者的資料量在成幾何級數增長的同時,無可否認海量使用者資料将會創造出巨大的價值,巨大的價值來源于對大資料的分析,但從目前來看,大資料處理和分析的能力遠遠沒有跟上,如何存儲、檢索、清理和分析大資料是難題。

   在大資料儲存和備份方面,許多網際網路企業單日資料量以出現數十、數百TB(1TB=1024GB)速度的增加,而總資料量已達PB(1024TB)等級,其資料量已讓傳統的資料庫難以儲存大資料。同時對企業來說,資料備份是至關重要的,缺乏資料備份可能會到導緻企業毀滅性打擊。目前大資料時代資料量爆炸式增長增加了備份和恢複的時間,儲存設備又是有限的,資料備份和恢複将越來越困難,同時得考慮資料儲存和備份如何節省電力、節約空間、節約成本等問題。

   在大資料分析之前,必須對資料進行清理,包括檢查資料一緻性、删除重複值、處理無效值和缺失值等,對大資料來說,也包括的海量資料“噪音”,利用傳統的資料分析軟體來清理這些“噪音”,難度較大。同時,需要快速把大資料中的核心資料抽取出來,高效分析這些核心資料,需要建立進階分析模型,隻有對核心資料進行複雜分析,發現趨勢和隐藏的資訊,才能使大資料真正發揮作用,才能讓企業洞察和發現商機。大資料挖掘需要軟硬體結合,這對軟體、硬體和人才提出了較高的挑戰。

   另外,大資料可視化也是難點。大資料可視化就是将大資料分析結果轉化為公司能夠使用的資訊。隻有大資料分析結果通過可視化處理後,非資料分析專業人士能夠充分了解語言、圖表等表述出大資料所蘊含的資訊,才會給公司帶來的價值。大資料所包含的資料量大,資料類型紛雜,資料模型複雜,資料結果抽象,可視化難度也較大。

   大資料分析專業人才缺乏。大資料時代對資料分析師的要求更高,甚至會産生新職位,例如資料科學家,CDO(首席資料執行官)、資料可視化人員和資料調整代理人等,目前來看,大資料分析職位沒有具體的從業标準。但是大資料分析師必須要涉足多個領域,至少需要下面四個方面的技能:技術(軟體和系統等)、數學(統計、模組化和算法等)、商業分析(從事領域的相關知識)和可視化(語言和圖表等),目前一般業務使用者分析師或傳統的資料分析師僅具備上面一個或兩個技能,并不具備開發預言分析應用程式模型的技能。

  “大資料”已經降臨,大資料所帶的難題也将在探索中得以解決。