天天看點

《大資料管理概論》一1.3 大資料應用

人類曆史上從未有哪個時代同今天一樣産生如此海量的資料。資料的産生已經完全不受時間、地點的限制。從采用資料庫作為資料管理的主要方式開始,人類社會的資料産生方式大緻經曆了3個階段,而正是資料産生方式的巨大變化才最終導緻大資料的産生。

1)營運式系統階段:資料庫的出現使得資料管理的複雜度大大降低,實際中資料庫大都為營運系統所采用,作為營運系統的資料管理子系統。比如超市的銷售記錄系統、銀行的交易記錄系統、醫院病人的醫療記錄系統等。人類社會資料量第一次大的飛躍正是從營運式系統廣泛使用資料庫開始的。這個階段最主要的特點是資料往往伴随着一定的營運活動而産生并記錄在資料庫中,比如超市每銷售一件商品就會在資料庫中産生一條相應的銷售記錄。這種資料的産生方式是被動的。

2)網際網路系統階段:網際網路的誕生促使人類社會資料量出現第二次大的飛躍。但是真正的資料爆發産生于web 2.0時代,而web 2.0的最重要标志就是使用者原創内容(user generated content,ugc)。這類資料近幾年一直呈現爆炸性增長,主要有兩個方面的原因。首先是以部落格、微網誌為代表的新型社交網絡的出現和快速發展,使得使用者産生資料的意願更加強烈。其次就是以智能手機、平闆電腦為代表的新型移動裝置的出現,這些易攜帶、全天候接入網絡的移動裝置使得人們在網上發表自己意見的途徑更為便捷。這種資料的産生方式是主動的。

3)感覺式系統階段:人類社會資料量第三次大的飛躍最終導緻了大資料的産生,今天我們正處于這個階段。這次飛躍的根本原因在于感覺式系統的廣泛使用。随着技術的發展,人們已經有能力制造極其微小的帶有處理功能的傳感器,并開始将這些裝置廣泛地布置于社會的各個角落,通過這些裝置來對整個社會的運轉進行監控。這些裝置會源源不斷地産生新資料,這種資料的産生方式是自動的。

簡單來說,資料産生經曆了被動、主動和自動三個階段。這些被動、主動和自動産生的資料共同構成了大資料的資料來源,但其中自動式資料才是大資料産生的最根本原因。

正如谷歌公司的首席經濟學家hal varian所說,資料是廣泛可用的,所缺乏的是從中提取出知識的能力。資料收集的根本目的是根據需求從資料中提取有用的知識,并将其應用到具體的領域之中。不同領域的大資料應用有不同的特點,表1-2列舉了若幹具有代表性的大資料應用及其特征。

表1-2 典型大資料應用的比較

應用類型 典型用例 使用者數 響應時間 資料規模 可靠性要求 資料精度

科學計算 生物資訊學 少 慢 tb級 普通 極高

金融資料 高頻交易 多 極快 gb級 極高 高

社交網絡 facebook等 極多 快 pb級 較高 較高

移動資料 gps資料 多 快 tb級 較高 較高

物聯網 傳感器網絡 極多 快 tb級 較高 高

web資料 新聞網頁等 極多 快 pb級 較高 較高

多媒體資料 視訊網站 多 較快 pb級 較高 普通

正是由于大資料的廣泛存在,才使得大資料問題的解決極具挑戰性。而它的廣泛應用,則促使越來越多的人開始關注和研究大資料問題。

《大資料管理概論》一1.3 大資料應用

如圖1-1所示,大資料應用的三要素包括大資料(big data)、大知識(big knowledge)和大應用(big application)。“大資料”關聯和融合凝聚成“大知識”,促使開發“大應用”。