天天看點

世界因大資料而 改變

不管你信也好,不信也好,大資料時代真的來臨了。随着Hadoop技術的普及,其生态圈發展的越來越壯大,Hive、HBase、Spark、Storm等的一系列新名詞不斷的湧現在我們的眼裡。似乎NoSQL一夜間,攻陷了全部的大資料陣地。

一、世界因大資料而 改變

1.有哪些我們所熟知的大資料?

世界因大資料而 改變

l物聯網(IOT)

       “物聯網”(Internet of Things)指的是将各種資訊傳感裝置,如射頻識别裝置、紅外感應器、全球定位系統、雷射掃描器等種種裝置與網際網路結合起來而形成的一個巨大網絡。其目的是讓所有的物品都與網絡連接配接在一起,友善識别和管理。

l使用者生産内容(UGC)

指使用者原創内容,代表平台有YouTube、MySpace、社群網絡、視訊分享、部落格等,這些都是UGC的主要應用形式。

l事務性日志(Transactions)

如銀行的流水,訂單資料,交易記錄,浏覽日志,系統LOG等

2.關于大資料應用的一個通俗 小故事

      (該段内容摘自網上“什麼叫大資料?”讓我們通過這個小故事了解下大資料。)

某必勝客店的電話鈴響了,客服人員拿起電話。

客服:必勝客。您好,請問有什麼需要我為您服務?

顧客:你好,我想要一份……

客服:先生,煩請先把您的會員卡号告訴我。

顧客:16846146***。

客服:陳先生,您好!您是住在泉州路一号12樓1205室,您家電話是2646****,您公司電話是4666****,您的手機是1391234****。請問您想用哪一個電話付費?

顧客:你為什麼知道我所有的電話号碼?

客服:陳先生,因為我們聯機到CRM系統。

顧客:我想要一個海鮮比薩……

客服:陳先生,海鮮比薩不适合您。

顧客:為什麼?

客服:根據您的醫療記錄,你的血壓和膽固醇都偏高。

顧客:那你們有什麼可以推薦的?

客服:您可以試試我們的低脂健康比薩。

顧客:你怎麼知道我會喜歡吃這種的?

客服:您上星期一在國家圖書館借了一本《低脂健康食譜》。

顧客:好。那我要一個家庭特大号比薩,要付多少錢?

客服:99元,這個足夠您一家六口吃了。但您母親應該少吃,她上個月剛剛做了心髒搭橋手術,還處在恢複期。

顧客:那可以刷卡嗎?

客服:陳先生,對不起。請您付現款,因為您的信用卡已經刷爆了,您現在還欠銀行4807元,而且還不包括房貸利息。

顧客:那我先去附近的提款機提款。

客服:陳先生,根據您的記錄,您已經超過今日提款限額。

顧客:算了,你們直接把比薩送我家吧,家裡有現金。你們多久會送到?

客服:大約30分鐘。如果您不想等,可以自己騎車來。

顧客:為什麼?

客服:根據我們CRM全球定位系統的車輛行駛自動跟蹤系統記錄。您登記有一輛車号為SB-748的機車,而目前您正在解放路東段華聯商場右側騎着這輛機車。

顧客:當即暈倒......

3.大資料大價值

國内BAT算是大資料應用的先驅,以阿裡為例,談談我個人對大資料價值的了解。

l全網資料 整合

      阿裡 資料一個最為重要的特點是全部資料是共享的,而不是以一個一個的小部門的形式存在的。對于一個小部門的資料來說,他們的資料隻能是一個資訊孤島,資料不夠全面。

   是以阿裡對全網的資料進行了整合,這些資料包括:

   淘寶内:淘寶、天貓、一淘、阿裡媽媽、支付寶等的支付資料

   站外有:微網誌、友盟、高德地圖、優酷等合作夥伴,以及一些跟阿裡有關聯有合作的公司。

      在我的印象中,我們部門有很多這樣的資料分析師,他們每天都會對這些來自不同部門、不同公司的資料進行加工整合與處理,對人群進行劃分,對一類人進行打标簽,将多個業務的資料進行管理,将商品進行分類,最終整理出很多個角度、不同方位的各種資料

    整合後的資料

1)不再是資訊孤島,相比那種單股資料會全面很多。PC、移動、站内、站外資料應有盡有,對小部門來說由原先的互相牽制排擠的狀态到了互相合作,資料共赢的一種場面。

2)發揮大平台優勢,提供統一的資料平台,改變了傳統的小作坊式的各自為戰、獨立開發的浪費局面。

3)360度全方位的資料,打造完美的資料閉環不再像之前跨越部門那麼難,資料易于跟蹤,也更易于衡量與考核。

4)整合後的資料非常豐富,一個人喜歡什麼東西,愛看什麼電影,經常在什麼位置出現,釋出了那些言論,一個月花了多少錢,多大年齡,單身否,買了什麼機票等,應有盡有。通過對這些資料的分析為電商以及小微金融提供了很多的商業機會。

l資料開放、平台化,打造完美生态系統

   阿裡的這些資料好比是一個金礦,金子隻有被挖掘出來才有 價值。這些僅僅靠阿裡内部的幾個分析師是不夠的,是以阿裡轉變了一種思路。

1)統一平台化,完善平台工具,降低門檻,讓普通人也能使用這些高大上的資料。這些平台包括:

                   統一的資料接入(類似我們的TDBank);

                   上萬台機器的雲1和雲2的叢集,進行離線 處理;

                   發展類似Storm的流計算 技術,提高報表的時效性;

                   提供強大的即席查詢 工具來補充離線模式的不足。

2)資料開放,打造完美生态系統

      這麼全方位的資料,僅僅被阿裡内部的小二們使用是遠遠不夠的,阿裡還會将這些資料開放出來,交給更為專業的行業專家來使用,比如說淘寶 賣家,社會上的一些商業分析公司,通過一個生态系統來達到共赢。

      由此也引發了很多人專門去創業。

      阿裡内部也構造了相關的開放性的産品, 比如說資料開放平台,以及資料市場DMP。

3)端戰略,讓阿裡的資料更豐富

 任何有眼球的地方(端,終端),都要有阿裡。

     幾乎每個上規模的網站,幾乎沒有不打阿裡 廣告的

     阿裡收購了或入股了很多不同領域的明星公司,比如說高德、微網誌、友盟、文化中國、以及很多實體的店鋪,如恒大足球

其實我的了解就是,有眼球的地方都有資料,有人的地方就有資料。通過個個行業資料的整合,阿裡會有一個完美的、全屬性的社會資料系統,這可要比一個銀行、一個零售企業的資料全面的多的多。也意味着阿裡可以滲透到個個領域。

4)利用大資料改變線下,滲透到每個行業

   O2O這個名詞已經不再新鮮,但online有什麼,憑什麼他能改變線下。

我個人的了解是,online必須在比offline “更懂你”的前提下才能成為可能

隻有“更懂你”才能對你提供更好的服務

隻有“更懂你”才知道你将來需要什麼

隻有“更懂你”才知道怎樣的照顧好你

   但怎樣才能“更懂你”?那就是我比你自己都更了解你,我知道你平時買什麼,看什麼,吃什麼,穿什麼,玩什麼,去哪裡,跟誰,幾點上班,幾點下班,讀什麼書,老家是哪裡,你有多少錢,結婚沒有,最近心情如何...... 你的吃喝拉撒的一切,你還能說我不了解你麼?

      阿裡的這種資料會開放給線下的賣家使用,賣家也就更了解你

   在你餓的時候,我給你發條短信,讓你光臨我的餐館吃放。  

   在你困的時候,我告訴你,我這裡有3折的大床房。

   在你高興的時候,我告訴你,麥樂迪你現在過來我給你5折唱到通宵。

   在你想回家的時候,我告訴你,我得計程車已經拼滿了3個人,可以一起送你們回家。

4.千行萬業“皆”大資料,大資料下無秘密

l網絡營運商

知道你每天看了哪些網站

使用了哪些APP

搜尋了哪些關鍵詞

登入了哪些郵箱

發了那些文章,跨越幾個網站比對了那些件商品。

郵箱與各大網站的登入賬号與密碼(明文傳輸)。

l聯通、移動

你都給誰打了電話、幾點打的、打了多久

通過基站與GPS,準确的知道你的位置,你每天都去了哪裡

根據位置關系可以知道你每天經常跟随在一起,跟誰一起出入。

l機動車稽查布控

一個城市的每個十字路口設定的卡口,可以采集到你的車牌号,車輛顔色,是否違規,車速等,根絕這些資訊可以有效的查處機動車違規駕駛,套牌車,假牌照,年檢報廢車輛,盯梢車輛,電子圍欄等。

5.這些資料的特點

l超大規模

資料規模在幾百G到幾百T、PB級别。

            據總量達到數十億到數萬億條,日均産生數千萬到千億條資料

l超多元度

字段數達到數百個,數千個,甚至數十幾萬個

l無法預計算

即使分析人員從100個字段中任取5個字段做組合分析,組合數能達到75287520

每次查詢耗時500毫秒,預處理也要430多天

二、大資料技術的發展的三個階段

1.存起來-等待機遇

      2009年開始BAT大力發展Hadoop技術,這個期間主要解決海量資料的存儲與簡單分析問題。

      既然大資料有價值,那麼就先将資料存起來。要發揮資料的價值,我們先要有資料。

n網站浏覽點選行為日志存儲

n簡單的PV與UV統計,滿足基本需求

n更注重存儲能力、叢集規模、擴充能力

2.用起來-市場化

開始注重對大資料的整合,構成全角度的資料。

Hive技術的興起,目前阿裡騰訊的萬台規模以上的叢集80%以上的都是類HIVE任務。

n先将内部将資料用起來,發揮資料的價值。

n内部員工畢竟挖掘手段比較片面,進一步的将資料開放出去,讓外部的使用者參與進來,幫忙挖掘資料,雙方均得利。

3.天下資料-唯快不破

資料的時效性與響應時間,變得越來越重要,誰的快,誰就能争奪商業上的先機。

Hadoop生态圈裡的新技術 Spark、Impala、Kylin、Druid、Storm等技術,無不在快上下功夫。

n支付寶黃金策海量多元資料2秒即席分析

n騰訊廣告系統,海量人群即席建立、即席廣告推送

繼續閱讀