院士觀點：我們需要國家大資料戰略

“不要被大資料(big data)的‘big’誤導，大資料更強調的不是資料大，而是資料挖掘。”在日前舉行的第十屆國家資訊化專家論壇上，中國工程院院士、中國網際網路協會理事長邬賀铨指出，大資料需要更強調資料挖掘利用，而針對目前存在的技術應用、人才、安全隐私等問題，最關鍵的是要有國家大資料戰略，使其成為轉變經濟增長方式的有效抓手。

大資料的價值好似沙裡淘金

nba從上世紀80年代開始将球員在賽場上的表現資料化，經過30多年的積累已經達到可辨識每一個球員在場上的弱點，友善教練進行針對性戰術安排。目前30家nba球隊俱樂部已有半數聘請了資料分析師，他們的平均勝率達到59.3%，而沒有進行資料分析的球隊僅有平均40.7%的勝率。這就是大資料的價值展現。

大資料的價值究竟從何而來？邬賀铨認為，資料大與價值大未必成正比。例如将一個人每分鐘的身體資料記錄下來，對了解該人的身體狀況是有用的，但如果将他的每毫秒的身體資料都記錄下來，資料量将較前者高6萬倍，與按每分鐘記錄的資料相比，其價值并不能增加。大資料的價值在于樣本數的普遍性。統計一個人每分鐘的身體狀況資料與統計60個人每小時的身體狀況資料相比，可能後者在統計上更有意義。大資料往往是低價值密度。大資料中多數資料可能是重複的，忽略其中一些資料并不影響對其挖掘的效果。是以可以說大資料的價值好似沙裡淘金和海底撈針。

微軟的研究發現，facebook 90%的hadoop任務資料集在100gb以下，yahoo平均為12.5gb。北京公交一卡通乘客每天刷卡4000萬次、地鐵1000萬人次，每天累計的資料是mb級，一年下來也不到tb級，充其量隻是中資料，但對這一資料量的挖掘顯然就能得出北京人群使用公交的出行規律，對于優化北京公交線路的設定有足夠的價值。是以邬賀铨指出，事實上小資料也值得重視，對未到tb級規模的資料的挖掘也有價值。

網絡的資料并非都可信

google的流感指數在2008年h7n1流感爆發時給出的預測比美國疾控中心早兩周釋出，與其資料相似度0.9。美國紐約州2013年1月流感流行狀況十分嚴峻，政府釋出了“公共健康緊急狀态”的通告，大衆媒體的廣泛報道，影響了谷歌使用者的搜尋因為，導緻google的流感指數估值出現了假陽性，遠高于疾控中心的統計數值。在谷歌流感指數的啟

發下，紐約羅切斯特大學利用twitter的資料進行了嘗試，可以提前8天預報流感對人體的侵襲狀況，而且準确率高達90%，不過twitter的使用者大部分是年輕人，而季節性流感的襲擾對象多為抵抗力較弱的老年人和兒童，是以基于twitter的微網誌判斷流感有片面性。

邬賀铨由此指出，網絡的資料并非都可信。網絡資料中真僞混雜，特别是微網誌傳播不實消息散布很快，而微信圈子内的消息不易監控，對資訊内容管理提出挑戰。過去往往認為“有圖有真相”，事實上圖檔可以移花接木、張冠李戴、時空錯亂，或者照片是對的，可是文字解釋是捏造的，這樣的事情已經屢見不鮮。鑒于“謠言轉發500次就是傳謠”，一些網站規定所有文章不論是否真實一律對轉發自動封頂不超過499次，從輿情收集效果看，人為的截尾導緻失去真實性。

他也指出，傳感器收集的資料并非都是可信的，特别是曆史上該傳感器的資料與同類的其他傳感器報出的資料差異很大時，該資料就應棄用。既然資料會有重複而且并非都是全部有用的，是以需要進行資料過濾，這對簡化存儲和提高可信性都是有意義的。還可以利用異構多源資料來提高可信性，收集多源異構的資料有利于對資料的了解。例如通過城市交通監控系統可以實時掌握交通流量，如果加上政府資料和網絡資料，就可能知道發生交通擁堵的原因。

要重視資料的挖掘利用

大資料的挖掘深化了資訊技術的應用，催生新的應用和新業态出現，大資料提升了管理和決策的智能化水準，邬賀铨提出要重視資料的挖掘利用，不僅是大資料，中小資料的挖掘也有意義。

大資料的量越大處理難度越大，但僅僅是需要更多的伺服器或者說需要更高速的伺服器。邬賀铨認為，大資料的主要挑戰是實時性資料變化快。對于靜态的資料，可以将資料帶程序式來處理，但對于動态的資料，需要帶程式進資料。大資料更大的挑戰是品種多，特别是非結構化。對于結構化資料可以使用關系資料庫技術來處理，對于非結構化資料則要用nosql來處理。針對結構化資料的虛拟存儲平台采用了動态分層技術，根據資料被調用的頻率，自動将常用的資料搬到最高層。針對非結構化資料使用内容歸檔平台，把結構化和非結構化資料內建到一個單一的動态歸檔架構中，設計一套軟體和中繼資料庫規則，通過給資料加标簽的方式，建立不同次元，進而具有模糊查詢功能。

邬賀铨指出，“大”僅僅是大資料的特征之一，大資料包括abc三個要素：大分析(analytic)、高帶寬(bandwidth)、大内容(content)。實時性是大資料挖掘的挑戰，而非結構化是大資料挖掘的主要挑戰。目前國際上大資料處理技術主要還是結構性資料，據說大資料中80%以上都是非結構性資料。2012年斯坦福大學與google合作建立深度學習網絡，對來自youtube的上千萬幅視訊幀自主學習，用10天學會了識别貓的臉孔，然後從2萬張未見過的照片中找貓，準确率僅達到15.8%。可見非結構性資料的挖掘技術到實用還有相當距離。目前國内外都有很多大資料應用成功例子，但基本上還是結構性資料，對結構性資料的挖掘是大資料應用的切入點。

大資料的挑戰最終是戰略問題

邬賀铨指出，目前大資料面臨的問題主要表現在技術和應用、人才、安全隐私、發展戰略等方面。

首先是技術和應用問題。中國人口居世界首位，但2010年中國新存儲的資料為250pb，僅為日本的60%和北美的7%。我國一些部門和機構擁有大量資料但以鄰為壑，甯願自己不用也不願提供給有關部門共享，導緻資訊不完整或重複投資。2012年中國的資料存儲量達到364eb，其中55%(200eb)的資料需要一定程度的保護，然而目前隻有不到一半(44%，即96eb)的資料得到保護。我國在自主可控的大資料分析技術與産品方面與發達國家相比有不少差距。國内企業在資料庫、資料倉庫、商業智能分析軟體等領域基礎薄弱，尤其是大資料方面已經遠遠落後于國外先進企業。

其次是人才問題。500年前達·芬奇可以同時是畫家、音樂家、工程師、科學家，100年前的醫生可以了解醫學領域的所有分支，今天一名初級醫生必須同時了解大約一萬種疾病和綜合征、3000種藥物和1100種檢驗方法。估計一個專業的醫生也需要每天學習21小時才能跟得上學科的發展。gartner咨詢公司預測大資料将為全球帶來440萬個it新崗位和上千萬個非it崗位，麥肯錫公司預計美國到2018年深度資料分析人才缺口達14萬～19萬人，還需要資料需求和技術及應用的管理者150萬人。中國能了解與應用大資料的創新人才更是稀缺資源。

然後是安全與隐私問題。大資料的利用首先要求政府資料原則上該公開的必須公開。大資料的挖掘與利用需要有法可依。我國需要盡快制定“資訊保護法”和“資訊公開法”，既要鼓勵面向群體而且服務于社會的資料挖掘，又要防止針對個體侵犯隐私的行為，提倡資料共享又要防止資料被濫用。安全與隐私保護的隐患仍大量存在，重要的資料存儲和應用不能過分依賴大資料分析技術與平台，需要重視資訊洩密的風險。

最後是發展戰略問題。資訊化要從重視硬體到重視軟體，再到重視資料的利用，不僅大資料，中小資料的挖掘也有意義。需要制定國家大資料發展戰略，大資料是一個應用驅動性很強的服務，其标準和産業格局尚未形成，這是我國跨越發展的機會，但切忌一哄而起在目的不明情況下到處建設大資料中心，到處搞“資料房地産”，而是需要從戰略上重視大資料的開發利用，将它作為轉變經濟增長方式的有效抓手。

原文釋出時間為：2013-12-22

本文來自雲栖社群合作夥伴“大資料文摘”，了解相關資訊可以關注“bigdatadigest”微信公衆号

院士觀點：我們需要國家大資料戰略

繼續閱讀

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

在weka中內建自己的算法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark