天天看點

大資料阿裡雲産品的簡單介紹了解

   很多人問,大資料是什麼。一個時尚的技術名詞,一個網際網路時代的标志。給人高端大氣上檔次的感覺,很多公司不說自己有大資料都不好意思跟别人談業務。那我就談談我的一些看法來結合阿裡雲的數加大資料産品比較粗俗的介紹下大資料到底是什麼。

    首先,從字面意思”大資料”,那可以感受到,資料量要大,這是一個必須的條件。舉一個例子,比方說我要根據一些銷售資料做一個報表給老闆看,那麼幾千條資料甚至幾萬條,我用excel可以很友善的做出來,資料可以儲存在自己電腦上。

那麼,當資料幾十萬到幾百萬,excel就不能做了,就需要把資料放在資料庫,比如常見的mysql等關系型資料庫,來計算存儲等,但是當資料量幾千萬幾億幾十億以上呢,怎麼辦?那就需要大量的伺服器和更高的配置機器來存儲,計算,做出來報表,這其中就需要大資料技術來實作。是以,大資料的根本條件是資料量要足夠大。

     說大資料,就不得不說分布式的概念。還是那個做報表的例子,資料量小,放在一個excel表中,放在你自己的一台電腦裡存儲,資料量大點的時候,放在一台或者獨立的放在幾台伺服器上,再不行就增加配置,裝個mysql來管理,但是如果資料量非常大,每天幾十tb過來或者每天要從幾十t資料中抽取一些資料來做一些名額給老闆看,一台伺服器肯定是幹不了的,如果把資料分開存儲又是相對獨立的到幾台伺服器上肯定會影響資料的總體效果,比如對資料排個順序。那怎麼辦呢,是否可以用某種方式或者某個軟體把很多台伺服器連在一起讓他們像一台伺服器工作呢,答案是肯定的。這就是分布式系統,把存儲和計算分發到每個伺服器上來執行,整體看來就像是一台在執行,彙集了多台伺服器資源。這種方式或者軟體再或者說結構,是阿裡雲的基礎,我們有一個響亮而又充滿夢想色彩的名字:飛天系統。那麼下面我就圍繞資料來介紹,以公司為中心,按照資料從哪裡來,來了怎麼辦,到哪裡去這個線路來說下相關概念。

一, 資料從哪裡來,怎麼來

        一切業務資料化。舉個例子,寄快遞,最開始大家寄東西要填寫快遞單,手寫的,這些是你的資訊,姓名,電話,位址等,這些資料被搜集起來,就變成了最原始的資料,比如你在商場逛随便連人家的免費wifi,抱歉你的資訊,從哪個門進來,那個門出去,在哪個店呆了多久等資訊被搜集(說這些我會不會被找喝茶),再比如大家喜歡追劇,你在哪個頁面看了什麼電視什麼類型看了多久,評論了什麼,用的什麼手機搜內建為原始資料。

那如果使用者非常多,産生的資料也必然非常大。怎麼搜集呢,用什麼技術呢,那麼比如阿裡雲産品-日志服務等産品,當然還有其他阿裡雲産品

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/product/28958.html?spm=5176.7618386.3.2.l5fxeb

二,資料來了怎麼辦

     一切資料業務化。怎麼辦是說,這麼大的資料,怎麼去存儲,怎麼做計算,怎麼做成功能或者成什麼樣的産品呢。

     首先,這樣大批量的資料,就可以放在飛天上存儲,計算等。那麼存儲和計算又分很多種,就比如你有一個農場,農場裡有很多倉庫,倉庫裡可以放各種東西,比如小麥,你可以放在麥鬥裡,你也可以裝在袋子裡堆在那裡,你也可以随便倒進倉庫就行。可以對這些小麥篩選統計等,那麼小麥就是資料,這就是資料倉庫,農場上的這個倉庫,我們可以對應阿裡雲的大資料利器odps現在叫:maxcompute。

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/document_detail/27800.html?spm=5176.7740343.6.539.hfflwv

     那麼使用者可以把海量資料放到odps中,進行存儲,計算,以及和其他資料源互動等。類似于你可以把麥子進行篩選,去雜質,選出優質麥子,那就是對應到大資料術語,資料的清洗,過濾。到此看似可以滿足基本需求了,如果我有很多地方的麥子要裝進倉庫,我要對很多倉庫裡的麥子進行篩選,我還要把篩選出來的優質麥子送到科研機關做實驗。問題來了,誰先裝進倉庫,對誰先篩選或者同時篩選,篩選進度,或者說我就想等一号倉庫篩選完了再進行2号倉庫的篩選,我需要有人進行排程指揮,篩選完了送到其他各個地方,并且我想整個流程透明化,智能化。怎麼辦?

   我們對odps進行了封裝并且內建了其他一些功能讓操作變得可視化,可用易用

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/document_detail/30256.html?spm=5176.7843912.6.539.sfmcgc

     使用者可以通過可視化的工具-大資料開發套件,來操作odps,另外一個重要的功能是資料同步,把麥子運到其他地方。開發套件中可以界面化配置同步到rds,ads等等各種資料庫中,可以定時,可以設定任務的依賴關系和周期,可以預警等等。并且重要的是,目前是免費使用。

     話題回到最開始麥子存放,如果麥子源源不斷的運過來,從地裡收割一把麥子就立刻通過某種流式的比如傳送帶送到科研機關,并且傳送過程中要進行麥子的篩選,鑒别等操作。怎麼辦,有沒有這種實時的通道,流式的具有篩選功能的傳送帶呢。首先收割采集麥子的方法,我們有一種了,就是上面的日志服務,可以收割,有一個重要的問題不能忽略,就是收割速度很快,我後面的傳送帶上篩選工具篩選能力不夠,麥子會堆積吧,那有沒有一種工具,可以先把搜集的麥子源源不斷的臨時存放在那裡,後面流式傳送帶上篩選多少就從那裡取多少,源源不斷的取。有這種工具,它就是datahub-實時資料通道,可以通過日志服務把日志實時上傳臨時存儲,那傳送帶流式的實時篩選器是什麼-阿裡雲流計算

大資料阿裡雲産品的簡單介紹了解

https://help.aliyun.com/video_detail/55154.html

datahub配合流計算使用,天衣無縫。流計算可以從datahub中取資料做到實時計算分析。

   話題再次回到存放麥子的問題上,比如我有一些麥子需要非常快速的篩選,計算麥子各種名額,比如品種占有比例,注意是要篩選得速度快,上司随時都會來視察,随到随查的那種。我們可以把資料存放在ads中,眨眼間,千億資料随意查詢:

大資料阿裡雲産品的簡單介紹了解

官方文檔https://help.aliyun.com/product/26371.html?spm=5176.7618386.3.8.ngtbki

    說到資料存儲,比如我在農場裡不僅是麥子的存放,我還有一些化肥農藥汽油什麼不是那麼規則的物質怎麼辦呢

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/product/31815.html?spm=5176.7618386.3.2.d755w7

    oss能存放非結構化的資料,比如音頻,視訊,圖檔等并提供快速通路接口,當然日志資料也是可以存的。那麼maxcompute就不可以存放這些資料,要求要是結構化的,但是maxcompute2.0可以連接配接oss間接處理非結構化資料。

三,資料到哪裡去

既然上司來視察了,來看麥子的各項名額,你還沒準備好excel怎麼辦,請使用阿裡雲産品:quick bi

大資料阿裡雲産品的簡單介紹了解
大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/document_detail/33813.html?spm=5176.doc53448.6.539.bpig2b

像使用excel那樣操作海量資料的報表,我自己都怕了。

那麼,如果你還想做個牛逼的ppt給老闆看,或者做個動畫看看地圖上每個位置的麥子産量,整個雙11的那種大螢幕給老闆看,幸運的是,datav可以滿足

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/document_detail/44253.html

上司視察完畢,作出重要訓示:

希望地方可以根據曆年使用的化肥,農藥,種植的地域,播種時間等因素綜合考量指定出最佳的豐收計劃

希望可以将麥子進行分類,聚類,能夠做到下面再有麥子進入倉庫可以自動識别它是那種類别

上司的訓示不敢怠慢,機器學習來幫你用算法搞定

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/product/30347.html?spm=5176.7618386.3.2.sgxa27

   最後再舉一個例子,上淘寶買衣服,發現買了上衣之後,在下面會給你推薦鞋子,褲子或者類似款式的衣服,如果你經常買衣服,會經常給你推薦相關性很強的東西。再比如,刷微網誌,會根據你經常喜歡點選看哪些視訊,給你推薦相同類型的視訊。這就是算法實作的,具體來說是推薦算法,屬于機器學習學科中的一種算法。如何使用推薦呢

大資料阿裡雲産品的簡單介紹了解

官方文檔:https://help.aliyun.com/product/30367.html?spm=5176.7618386.3.2.sgyfwm

     比如微網誌,使用者量巨大,我要對每個使用者進行推薦,一個推薦算法的實作運作需要對背後海量的資料進行計算,那就是-大資料。是以說,機器學習,推薦算法是基于大資料技術的。阿裡雲機器學習,推薦引擎是基于maxcompute的海量存儲和計算能力的。往大的說,實際上這些機器學習學科早就出現了,但是因為沒有強大的大資料技術的支撐發展緩慢,近些年來随着大資料技術的發展以及伺服器在記憶體和cpu上的突破得以廣泛應用,并且推動人工智能的發展。

    總結:大資料技術并不是阿裡雲特有,但是阿裡雲把它變成了一種普惠服務和平台提供給使用者。目前各色各樣的企業機關把資料放到雲上,百花齊放,是信任。安全穩定是第一要則,是以 雲若安好,便是晴天。

   如果非讓我用一句話總結雲計算的話,那便是:彩雲之下,萬物相連。

有對大資料技術感興趣的,可以加筆者的微信 wx4085116.目前筆者已經從阿裡離職,部落格不代表阿裡立場。筆者開了一個大資料教育訓練班。有興趣的加我。

繼續閱讀