天天看點

大資料導論之為何需要引入大資料

一、引言

  最近各種客戶咨詢項目中,往往涉及大資料引入必要性和價值意義的深層次挖掘,客戶有資料,有平台,但是不知到底要不要上大資料,為何要上大資料和大資料可以帶來哪些價值和意義。本文關于大資料的必要性進行闡述,來源實際項目,算是分享吧。

二、突破技術瓶頸

  

大資料導論之為何需要引入大資料

  網際網路技術催生了大資料時代的來臨,大資料時代的資料形态有四大特點:首先資料體量巨大,非結構化資料的超大規模和增長占總資料量的80%至90%,比結構化資料增長快10到50倍;其次、大資料的異構和多樣性,比如圖檔、新聞、部落格、微網誌、微信等,比大更重要的是資料的複雜性,有時甚至大資料中的小資料如一條微網誌就具有颠覆性的價值;第三,價值密度低,大量的不相關資訊,需要沙裡淘金;第四,傳播速度快,是以,需要實時分析而非批量式分析。

  在大資料時代,面對如此海量快速的資訊,純人工監測網際網路已經不可行了。自動化輿情軟體成為大資料環境下輿情監測和分析的引擎。監測輿情可以設立一些關鍵詞,首先要與自己機構相關,可以包括競争者或者是合作夥伴,然後要放在特定網絡媒體進行搜集。所有“資訊碎片”搜集完之後,我們開始聚合資訊,判斷哪些和産品相關,哪些跟區域相關,哪些跟自己相關。把這些資訊進行精确地采集和過濾、煉化分析,包括傳播統計和分析(媒介分析、主體傳播分布、傳播路徑分析、傳播源頭追蹤)、敏感(負面)輿情、輿情資訊傳播趨勢分析,預判所收集到輿情資訊的未來走勢。在此基礎上生成輿情簡報,輿情簡報由系統自動生成,以日或周為機關,對本階段監測到的輿情進行統計和分析,包括輿情分布、熱點輿情排行、負面輿情分析、正面輿情排行等情況。

  大資料時代自身的特點決定了我們既面臨資料體量巨大的存儲壓力,同時面臨海量資料資訊過濾,資料加工、資料分析和平台運算瓶頸。要想突破傳統技術瓶頸的限制,我們必須引入大資料技術。

三、擺脫成本枷鎖

大資料導論之為何需要引入大資料

  基于傳統模式的輿情分析和曆史資料存儲,是建立在高性能伺服器硬體和昂貴的關系型資料基礎之上的。一方面硬體技術掌握在幾大IT巨頭手中,伺服器的性能是以高昂的成本為支撐的;另外一方面硬體基礎之上作業系統、應用軟體和關系型資料庫同樣掌握在幾大巨頭手中,其價格同樣不菲。此外規模的擴充、軟體的更新和每年的服務費用也是非常昂貴。

  基于網際網路技術發展起來的大資料,以開源架構Hadoop、HBase為基礎,以Hive、Sqoop、Pig、Flume等軟體為工具,建立在X86-PC伺服器和開源Linux作業系統之上。一方面硬體成本得以降低、另外一方面再無須為作業系統和應用軟體支付高昂的Licence費用。可以說大資料技術将使我所在很大程度上擺脫傳統IT廠商巨額的成本依賴。

四、促進業務創新

大資料導論之為何需要引入大資料

  這部分涉及具體應用,視行業而定。在此制作一個方向說明:大資料的應用可以衍生新的服務,新的産品。

  大資料實施方案咨詢和技術交流群:293503507,敬請關注。

本文版權歸作者所有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接配接,否則保留追究法律責任的權利。

繼續閱讀