天天看點

漫談阿裡大資料

目前人人都在談大資料,談dt時代,但是,大資料是什麼,每個人都有自己的一個看法,好比盲人摸象,每個都認為自己摸到是真正的大象。我也擔心我所看到的,隻是大資料的冰山一角,畢竟,将引領整個人類下一次變革的大資料,不是幾篇文章就能說清楚的。

  一,dt時代

  大資料這個概念,其實在上世紀九十年代就有人提出來了,當時希望通過将所有零散的資料歸并起來,然後進行資料挖掘,以看到以前存在的問題,去預測未來幾年的趨勢,來指導商業決策。比如保險行業,人壽保險會通過大資料的統計計算,根據人均壽命來計算保費與回報率。 這是在特定的環境,特定的時間下,對資料做一些商業化的嘗試,還算不上真正的大資料。

  我們再看國内大資料的上司者——阿裡巴巴,早在2010年就在開始談大資料戰略,同年,maxcompute(原odps)開始布局,螞蟻小貸開始創業 。

  2012年,阿裡設立了cdo這個崗位以及成立cdo事業部,全面負責阿裡集團的“資料分享平台”的大資料戰略。同年,一本《大資料時代》也開始在國内外暢銷,國内大資料時代拉開序幕。

  2014年,馬雲再次提出,“人類正從it時代走向dt時代”,人類已經從it時代走向dt時代,it時代是以自我控制、自我管理為主,而dt(datatechnology)時代,它是以服務大衆、激發生産力為主的技術。這兩者之間看起來似乎是一種技術的差異,但實際上是思想觀念層面的差異。

  講了這麼多,那大資料是什麼呢?我們先看看大資料不是什麼。

  大資料不是什麼?

  1,大資料≠擁有資料

  很多人覺得擁有資料,特别是擁有大量的資料,這就是大資料了,這個是肯定不對的,資料量大不是大資料,比如氣象資料很大,如果僅僅用于氣象預測,隻要計算能力跟上就行,還遠遠沒有發揮它的價值。但是保險公司根據氣象大資料,來預測自然災害以及調整與自然災害相關的保險費率,它就演化出其它的商業價值,形成了大資料的商業環境。是以,大資料要使用,甚至關聯,交換才能産生真正價值,形成dt時代特有的大資料商業。

  2,大資料≠報表平台,

  有很多企業,建立了自己業務的報表中心,或者是大屏展示中心,就馬上宣布他們已經實作了大資料,這是遠遠不夠的。報表雖然也是大資料的一種展現,但是真正的大資料業務,不是生成報表靠人來指揮,那是披着大資料外表的報表系統而已。在大資料閉環系統中,萬物都是資料産生者,也是資料使用者,他們通過自動化,智能化的閉環系統,自動學習,智能調整,進而提升整體的生産效率。

  3,大資料≠計算平台

  之前看過一個報道,說某某金融機建構立了自己的大資料系統,後來仔細一看,就是搭建了一個幾百台機器的hadoop叢集而已。大資料計算平台,是大資料應用的技術基礎,是大資料閉環中非常重要的一環,也是不可缺少的一環,但是,不能說有了計算平台就有了大資料。比如我買了鍋,不能說我已經有了菜,從鍋到菜還缺原料(資料),刀具(加工工具),廚師(資料加工)才能最終做出菜來。

  4,大資料≠精準營銷

  見過很多創業公司在做大資料創業,仔細一看,人家做的是基于大資料的推薦引擎、廣告定投等等。這是大資料嗎?他們做的是大資料的一種應用,可以說已經是大資料的一種了。隻是大資料整個生态,不能通過這一種就來表達而已。正如大象的耳朵是大象的一部分,但是,它不能代表大象。

  那大資料到底是什麼?

  簡單講,大資料需要有大量能互相連接配接的的資料(不管是自己的,還是購買,交換别人的),他們在一個大資料計算平台(或者是能互通的各個資料節點上),有相同的資料标準能正确的關聯(如etl,資料标準),通過大資料相關處理技術(如算法,引擎,機器學習),形成自動化、智能化的大資料産品或者業務,進而形成大資料采集,回報的閉環,自動智能的指導人類的活動,工業制造,社會發展等。

  資料正在金融,廣告,零售,物流,影視等行業,悄悄地改變我們的生活。随着手機的更大規模的普及,還是日新月異的可穿戴裝置、智能家居、甚至無人駕駛汽車,都在提醒我們,以網際網路(或者物聯網)、雲計算、大資料為代表的這場技術革命正引領人類社會加速進入農業時代、工業時代之後的一個新的發展階段 -- 資料時代(dt時代)。

  前兩個時代分别以土地、資本為生産要素,而正在我們面前開啟的資料時代,正如其名,資料将成為最核心的生産要素。

  在未來,資料将成為商業競争最重要的資源,誰能更好的使用了大資料,誰将上司下一代商業潮流。所謂無資料,不智能;無智能,不商業。下一代的商業模式就是基于資料智能的全新模式,雖然才開始萌芽,雖然才幾個有限的案例,但是,其巨大的潛力與力量,已經被人們認識到。

  在下一代的革命中,不管是工業4.0(中國叫中國制造2025),還是物聯網(甚至是一個全新的協定與标準),随着資料科學與雲計算能力(甚至是基于區塊鍊的分布式計算技術),唯獨資料是所有系統的核心。萬物互聯,萬物資料化之後,基于資料的個性化、智能化将是一次全新的革命,将超越100多年前開始的自動化生産線的工業3.0,給人類社會整體的生産力提升帶來一次根本性地突破,實作從0到1的巨大變化。

  正是在這個意義上,這是一場商業模式的範式革命。商業的未來、知識的未來、文明的未來,它們本質上就是人的未來。而基于資料智能的智能商業,就是這未來的起點。

  二,資料來源

  大資料的第一要務就是需要有資料,否則,何來“資料是dt時代的第一生産要素”。

  資料來源于哪裡,哪裡會産生資料?

  資料無處不在,人類自從發明文字開始,就開始記錄各種資料,隻是儲存的媒體一般是書本,而且難以分析、加工。随着計算機與存儲技術的快速發展,以及萬物數字化的過程(音頻數字化,圖形數字化等),出現了資料的爆發,而且資料爆發的趨勢,随着萬物互聯的物聯網技術的發展,會越來越迅速。同時,對資料的存儲技術,處理技術的要求也會越來越高。

  據idc出版的數字世界研究報告顯示,2013年人類産生、複制和消費的資料量達到4.4zb。而到2020年,資料量将增長10倍,達到44zb。大資料已經成為當下人類最寶貴的财富,怎樣合理有效的運用這些資料,發揮這些資料應有的作用,這是大資料将要做到的。

  早期的企業也比較簡單,關系型資料庫中存儲的資料,往往是他們全部的資料來源,這個時候他們對應的大資料技術,也就是傳統的olap資料倉庫解決方案。因為關系型資料庫中基本上是他們的所有資料,往往大資料技術也比較簡單,直接從關系型資料庫中獲得統計資料,或者最多建一個統一的olap資料倉庫中心。

  通過淘寶的曆史來看,早期的數倉資料基本來源于主業務的oltp資料庫,資料不外乎使用者資訊(通過注冊、認證擷取),商品資訊(通過賣家上傳獲得),交易資料(通過買賣行為獲得),收藏資料(通過使用者的收藏行為獲得)。從公司的業務層面來看,關注的也就是這些資料的統計,比如總使用者數,活躍使用者數,交易筆數、金額(可鑽取到類目,省份等),支付寶筆數、金額等等。因為這個時候沒有營銷系統,沒有廣告系統,公司也隻關注使用者,商品,交易的相關資料,這些資料的統計加工,就是當時淘寶大資料的全部。

  但是,随着業務的發展,比如個性化推薦,廣告投放系統的出現,會需要更多的資料來做支撐,而資料庫的使用者資料,除了收藏,購物車是使用者行為的展現,但是,使用者的其它行為,如浏覽資料,搜尋行為等,這個時候是完全不知道的。

  這裡就需要引進另外一個資料來源,日志資料,記錄了使用者的行為資料,可以通過cookie的技術,隻要使用者登入過一次,就能跟真實的使用者取得關聯。比如通過擷取使用者的浏覽行為,購買行為,進而可以給使用者推薦他可能感興趣的商品,看了又看,買了又買就是基于這些最基礎的使用者行為資料做的推薦算法。這些行為資料還可以用來分析使用者的浏覽路徑,浏覽時長,這些資料是用來改進相關淘寶産品的重要依據。

  2009年,無線網際網路飛速發展,随着基于native技術的app大規模的出現,用傳統日志方式擷取無線使用者行為資料已經不再可能,這個時候也湧現了一批新的無線資料采集分析工具,比如友盟,talkingdata,淘寶内部的無線數讀等等,通過内置的sdk,他們可以統計到native上的使用者行為資料。

  資料是統計到了,但是,新的問題也誕生了,比如我在pc上的使用者行為,怎麼對應到無線上的使用者行為,這個是脫節的,因為pc是pc上的标準,無線又采用了無線的标準,如果有一個統一的使用者庫,比如不管是登入名,郵箱,身份證号碼,手機号,imei位址,mac位址等等,來唯一辨別一個使用者,不管是哪裡産生的資料,隻要是第一次關聯上來,後來就能對應上。

  這就涉及到了一個重要的話題 -- 資料标準,資料标準不僅僅是解決企業内部資料關聯的問題,比如一個好的使用者庫,可以解決未來大資料關聯上的很多問題,假定公安的資料想跟醫院的資料進行關聯打通,發揮更大的價值。但是,公安辨別使用者的是身份證,而醫院辨別使用者的資料則是手機号碼,有了統一的使用者庫,就可以通過idmapping技術簡單的把雙方的資料進行關聯。

  資料的标準不僅僅是企業内部進行資料關聯非常重要,跨組織,跨企業進行資料關聯也非常重要,而業界有能力建立類似使用者庫等資料标準的公司并不多,阿裡巴巴就是其中之一。

  大資料發展到後期,當然是資料越多越好,企業内部的資料已經不能滿足公司的需要,比如還是淘寶,想要對使用者進行一個完整的畫像分析,比如想獲得使用者的實時地位位置,愛好,星座,消費水準,開什麼樣的車等等,用于精準營銷。淘寶自身的資料是不夠的,這個時候,很多企業就會去購買一些資料(有些企業也會自己去爬取一些資訊,這個相對簡單一點),比如阿裡購買高德,友盟,又另外采購微網誌的相關資料,用于使用者的标簽加工,獲得更精準的使用者畫像。

  但是,資料交易并沒有這麼簡單。因為資料交易涉及到幾個非常大的問題:

  1)是怎麼保護使用者隐私資訊

  歐盟已經出台了苛刻的資料保護條例,美國也對出售客戶資料的營運商施以重罰,還處在萌芽狀态的中國大資料行業,怎麼確定使用者隐私資訊不被洩漏呢?對于一些非隐私資訊,比如地理資料,氣象資料,地圖資料進行開放、交易、分析是非常有價值的,但是一旦涉及到使用者的隐私資料,特别是單個人的隐私資料,就會涉及到道德與法律的風險。

  資料交易之前的脫敏或許是一種解決辦法,但是,并不能完全解決這個問題,是以,阿裡也提出了另外一種解決思路,基于平台擔保的“可用不可見”技術。比如阿裡雲作為交易平台,跟支付寶一樣是一個中間擔保機構,雙方的資料上傳到阿裡雲大資料交易平台,雙方可以使用對方的資料,以獲得特定的結果,比如通過上傳一些算法,模型而獲得結果,雙方都不能看到對方的任何詳細資料。

  2)是資料的所有者問題

  資料作為一種生産資料,跟農業時期的土地,工業時期的資本不一樣,使用之後并不會消失,如果作為資料的購買者,這個資料的所有者到底是誰?怎麼確定資料的購買者不會再次售賣這些資料?或者購買者加工了這些資料之後,加工之後的資料所有者是誰?

  3)是資料使用的合法性問題

  大資料營銷中,目前用得最多的就是精準營銷。資料交易中,最值錢的也是個人資料。我們日常分析中做的客戶畫像,目的就是給海量客戶分群、打标簽,然後針對性地開展定向營銷和服務。然而如果利用使用者的個人資訊(比如年齡、性别、職業等)進行營銷,必須事先征得使用者的同意,才能向使用者發送廣告資訊呢,還是可以直接使用?

  是以,資料的交易與關聯使用,就必須解決資料标準,立法以及監管的問題,在未來的時間裡,不排除有專門的法律,甚至專業的監管機構,如成立數監會來監管資料的交易與使用問題。如果真的到了這一天,那也是好事,資料要流通起來才會發揮更大的價值,如果每個企業都隻有自己的資料,就算消除了企業内部的資訊孤島,還有企業外部的資訊孤島。

  如果能合理,合适的使用多方資料,就會發生所謂“羊毛出在豬身上”的事情,比如阿裡小貸,使用的是b2b以及淘寶的資料。這樣情況下,對豬(b2b,淘寶來)說,這是一種商業場景中的海量資料的溢出效應,而對羊(螞蟻小貸)來說,是在較低的成本下、不同次元的資料集合後,發生化學反應的價值躍升的過程,這是大資料時代智能商業的典型特征。

  這才是大資料的價值,正是我們正在迎來的這個新時代以“資料”命名的理由。

  阿裡大資料發展曆程

  

漫談阿裡大資料

  三,資料技術

  大資料技術,個人認為可以分成兩個大的層面,大資料平台技術與大資料應用技術。

  要使用大資料,你先必須有計算能力,大資料平台技術包括了資料的采集,存儲,流轉,加工所需要的底層技術,如hadoop生态圈,數加生态圈。

  資料的應用技術是指對資料進行加工,把資料轉化成商業價值的技術,如算法,以及由算法衍生出來的模型,引擎,接口,産品等等。這些資料加工的底層平台,包括平台層的工具,以及平台上運作的算法,也可以沉澱到一個大資料的生态市場中,避免重複的研發,大大的提高大資料的處理效率。

  大資料首先需要有資料,資料首先要解決采集與存儲的問題,資料采集與存儲技術,随着資料量的爆發與大資料業務的飛速發展,也是在不停的進化過程中。

  在大資料的早期,或者很多企業的發展初期,是隻有關系型資料庫用來存儲核心業務資料,就算資料倉庫,也是集中型olap關系型資料庫。比如很多企業,包括淘寶早期,就用oracle作為資料倉庫來存儲資料,當時建立了亞洲最大的oracle rac作為資料倉庫,按當時的規模來說,可以處理10t以下的資料規模 。

  一旦出現獨立的資料倉庫,就會涉及到etl,如資料的抽取,資料清洗,資料校驗,資料導入甚至資料安全脫敏。如果資料來源僅僅是業務資料庫,etl還不會很複雜,如果資料的來源是多方的,比如日志資料,app資料,爬蟲資料,購買的資料,整合的資料等等,etl就會變得很複雜,資料清洗與校驗的任務就會變得很重要。

  這時的etl必須配合資料标準來實施,如果沒有資料标準的etl,可能會導緻資料倉庫中的資料都是不準确的,錯誤的大資料就會導緻上層資料應用,資料産品的結果都是錯誤的。錯誤的大資料結論,還不如沒有大資料。由此可見,資料标準與etl中的資料清洗,資料校驗是非常的重要。

  最後,随着資料的來源變多,資料的使用者變多,整個大資料流轉就變成了一個非常複雜的網狀拓撲結構,每個人都在導入資料,清洗資料,同時每個人也都在使用資料,但是,誰都不相信對方導入,清洗的資料,就會導緻重複資料越來越多,資料任務也越來越多,任務的關系越來越複雜。要解決這樣的問題,必須引入資料管理,也就是針對大資料的管理。比如中繼資料标準,公共資料服務層(可信資料層),資料使用資訊披露等等。

  随着資料量的繼續增長,集中式的關系型olap數倉已經不能解決企業的問題,這個時候出現了基于mpp的專業級的資料倉庫處理軟體 ,如greenplum。greenplum采用了mpp方式處理資料,可以處理的資料更多,更快,但是本質上還是資料庫的技術。greenplum支援100台機器規模左右,可以處理pb級别資料量。greenplum産品是基于流行的postgresql之上開發,幾乎所有的postgresql用戶端工具及postgresql應用都能運作在greenplum平台上,在internet上有着豐富的postgresql資源供使用者參考。

  随着資料量的繼續增加,比如阿裡每天需要處理100pb以上資料,每天有100萬以上的大資料任務。以上的解決方案發現都沒有辦法來解決了,這個時候,就出現了一些更大的基于m/r分布式的解決方案,如大資料技術生态體系中的hadoop,spark和storm。他們是目前最重要的三大分布式計算系統,hadoop常用于離線的複雜的大資料處理,spark常用于離線的快速的大資料處理,而storm常用于線上的實時的大資料處理。以及阿裡雲推出的數加,它也包括了大資料計算服務maxcompute(前odps),關系型資料庫ads(類似impala),以及基于java的storm系統jstorm(前galaxy)。

  我們看看大資料技術生态中的不同解決方案,也對比看看阿裡雲數加的解決方案,最後我也會單獨介紹數加。

  1、大資料生态技術體系

  hadoop是一個由apache基金會所開發的分布式系統基礎架構。hadoop的架構最核心的設計就是:hdfs和mapreduce。hdfs為海量的資料提供了存儲,則mapreduce為海量的資料提供了計算。hadoop作為一個基礎架構,上面也可以承載很多其它東西,比如hive,不想用程式語言開發mapreduce的人,熟悉sql的人可以使用hive開離線的進行資料處理與分析工作。比如hbase,作為面向列的資料庫運作在hdfs之上,hdfs缺乏随即讀寫操作,hbase正是為此而出現,hbase是一個分布式的、面向列的開源資料庫。

  spark也是apache基金會的開源項目,它由加州大學伯克利分校的實驗室開發,是另外一種重要的分布式計算系統。spark與hadoop最大的不同點在于,hadoop使用硬碟來存儲資料,而spark使用記憶體來存儲資料,是以spark可以提供超過hadoop100倍的運算速度。spark可以通過yarn(另一種資源協調者)在hadoop叢集中運作,但是現在的spark也在往生态走,希望能夠上下遊通吃,一套技術棧解決大家多種需求。比如spark shark,是為了vs hadoop hive,spark streaming是為了vs storm。

  storm是twitter主推的分布式計算系統,它由backtype團隊開發,是apache基金會的孵化項目。它在hadoop的基礎上提供了實時運算的特性,可以實時的處理大資料流。不同于hadoop和spark,storm不進行資料的收集和存儲工作,它直接通過網絡實時的接受資料并且實時的處理資料,然後直接通過網絡實時的傳回結果。storm擅長處理實時流式。比如日志,比如網站購物的點選流,是源源不斷、按順序的、沒有終結的,是以通過kafka等消息隊列來了資料後,storm就一邊開始工作。storm自己不收集資料也不存儲資料,随來随處理随輸出結果。

  其上的子產品隻是大規模分布式計算底層的通用架構,通常也用計算引擎來描述他們。

  除了計算引擎,想要做資料的加工應用,我們還需要一些平台工具,如開發ide,作業排程系統,資料同步工具,bi子產品,資料管理,監控報警等等,他們與計算引擎一起,構成大資料的基礎平台。

  在這個平台上,我們就可以基于資料做大資料的加工應用,開發資料應用産品了。

  比如一個餐廳,為了做中餐,西餐,日料,西班牙菜,它必須食材(資料),配合不同的廚具(大資料底層計算引擎),加上不同的佐料(加工工具)才能做出做出不同類型的菜系;但是為了接待大批量的客人,他必須配備更大的廚房空間,更強的廚具,更多的廚師(分布式);做的菜到底好吃不好吃,這又得看廚師的水準(大資料加工,應用能力)。

  2、阿裡大資料體系

  我們先看一下阿裡的計算引擎三件套。

  阿裡雲最早先使用hadoop解決方案,并且成功的把hadoop單叢集規模擴充到5000台規模。2010年起,阿裡雲開始獨立研發了類似hadoop的分布式計算平台maxcompute平台(前odps),目前單叢集規模過萬台,并支援多叢集聯合計算,可以在6個小時内處理完100pb的資料量,相當于一億部高清電影。

  分析型資料庫服務ads(analyticdb) ,是一套rt-olap(realtime olap,實時 olap)系統。在資料存儲模型上,采用自由靈活的關系模型存儲,可以使用 sql進行自由靈活的計算分析,無需預先模組化;而利用分布式計算技術,ads可以在處理百億條甚至更多量級的資料上達到甚至超越molap類系統的處理性能,真正實作百億資料毫秒級計算。ads是采用搜尋+資料庫技術的資料高度預分布類mpp架構,初始成本相對比較高,但是查詢速度極快,高并發。而類似的産品impala,采用dremel資料結構的低預分布mpp架構,初始化成本相對比較低,并發與響應速度也相當慢一些。

  流計算産品(前galaxy),可以針對大規模流動資料在不斷變化運動過程中實時的進行分析 ,是阿裡巴巴開源的基于storm采用java重寫的一套分布式實時流計算架構,也叫jstorm,對比産品是storm或者是spark streaming。最近阿裡雲會開始公測stream sql,通過sql 的方式來實作實時的流式計算,降低了使用流式計算技術的使用門檻。

  除了計算引擎部分,整個阿裡大資料技術生态,我在數加的文章中再詳細介紹。

  未來的大資料底層技術又将會怎麼發展呢,個人覺得,會有如下兩個要點發展:

  1、資料處理雲端化與生态化

  資料未來一定是互聯互通才有價值,目前的私有雲大資料解決方案是一個過渡階段,未來大資料需要的是更大型,更專業的平台。這裡才可以實作整個大資料的生态體系(後面的文章會介紹到)。包括了資料本身的交易市場(大資料交易平台),以及加工資料的工具,算法(或基于算法的引擎,接口,産品)的交易市場,類似目前的app store。

  資料生态是一個非常大的市場。

  2、雲端數倉一體化

  未來很多企業将受益于雲端資料庫/資料倉庫一體化的解決方案中,從現在的技術看來,大資料平台越來越具備實時的能力;線上的業務資料

  庫越來越具備分布式計算的能力。當這些能力整合,統一的時候,線上/離線的界限又将變得不再清晰,整個資料技術體系又會回到當初的資料庫/資料倉庫一體化。

  四,資料應用

  講了這麼多的大資料相關定義與相關技術了,那大資料怎麼轉變為商業價值呢,這又是一個大的話題。阿裡在大資料的應用上,最早的提出了存、通、用三個概念,而現在大資料應用更多是在談資料回報閉環。根據資料回報閉環,我們又把資料使用分成如下幾個層面來描述:

  一、資料化

  所謂存,其實就是大資料的采集與存儲,必須先有資料,其實前幾篇已經介紹過了。很多時候,如果我們連資料都沒有,大資料隻能是空中樓閣。是以,一個想要做大資料的企業,必須先想辦法擁有資料,或者采集、爬取、購買資料。

  關于通,前面也講過了,主要是兩個層面的問題:

  其一是指資料的互通,比如一個企業内部存在很多資訊孤島,資訊孤島之間必須打通,形成統一的大資料平台。關于通,最好的辦法其實就是企業建立一個統一的大資料平台,不管這個大資料平台是基于私有雲(如hadoop生态的解決方案),還是基于公共雲(如阿裡雲數加的解決方案),當所有的資料上傳到這個大資料平台,資料天然就打通了。

  其二是資料的标準,如果想讓不同的資料源可以互相關聯,形成更大的效應,就跟我在上文講到的一樣,就得有資料标準。如上文所言,資料标準不僅僅可以指導etl過程中的資料清洗,資料校驗,好的資料标準還可以使得無線的資料跟pc的資料互相關聯互通,甚至企業之間的資料關聯互通。

  這些過程,我們可以把它叫做資料化的過程,也就是大資料的基本要素 -- 資料的形成。

  二、算法

  用,就是大資料的加工使用,指采用資料科技的相關技術,對大資料進行加工,分析,并最終創造商業價值的過程。這個過程中,最核心就是算法。我們提到算法時,往往也會談到引擎,僅僅提引擎一詞,更多想到的可能是汽車的發動機。汽車引擎不管多複雜,其實輸入輸出是很簡單的,需要的是汽油+空氣,輸出動力(汽油的能量)。大資料的引擎可能是一組算法的封裝,資料就是輸入的汽油,通過引擎的轉換,輸出資料中的能量,提供給更上層的資料産品或者服務,進而産生商業價值。

  算法也是“機器學習”的核心,機器學習又是”人工智能“的核心,是使計算機具有智能的根本途徑。在過去十年,機器學習促成了無人駕駛車、高效語音識别、精确網絡搜尋及人類基因組認知的大力發展。

  如果你不去利用資料,世界上的資料就不會有用。算法其實指的是如何在業務過程中有效拓展人為管理,利用資料。

  從根本上來說,資料是不會說話的,隻有資料沒有任何價值。如果擁有大量的資料,而不知道怎麼使用 ,阿裡曾經做過一個比喻,“坐在金山上啃饅頭”。大資料真正的價值在算法,算法決定行動。在不遠的未來,“所有業務都将成為算法業務”,算法才是真正價值所在,世界上所有大規模的東西都将被資料和算法所管理。

  dt時代的智能商業對算法提出了全新的要求:算法的疊代方向、參數工程等等,都必須與商業邏輯、機制設計、甚至是價值觀取向融合為一。當算法疊代優化時,決定其方向的不僅是資料和機器本身的特性,更包含了我們對商業本質的了解、對人性的洞察和創造未來商業新樣貌的理想。 這就是我們稱算法為智能商業的“引擎”而非“工具”的關鍵理由,它是智能的核心。 基于資料和算法,完成“機器學習”,實作“人工智能”。

  三、資料産品(或資料應用)

  把使用者,資料和算法巧妙地連接配接起來的,是資料産品(或資料應用),這也是網際網路時代特别強調産品重要性的根本原因。是以,智能商業的成功,最關鍵的一步往往是一個極富想象力的創新産品,針對某個使用者問題,定義了全新的使用者體驗方式,同時啟動了資料智能的引擎,持續提升使用者體驗。

  智能化資料産品的要求是非常高的,不僅僅是與最終使用者形成個性化,智能化的互動,有完好的使用者體驗與突破的技術創新之外,最重要的,同時需要再次記錄資料,使得使用者回報的閉環得以發生。

  整個過程是自動的、智能的、可學習提升的,它是大資料時代的靈魂,是智能商業的根基。智能商業的核心特征就是能主動地了解使用者,通過學習不斷提升使用者體驗。智能商業的成功,最關鍵的一步往往是一個極富想象力的創新産品,針對某個使用者問題,定義了全新的使用者體驗方式,同時啟動了資料智能的引擎,持續提升使用者體驗。智能子產品和學習功能将成為應用的大腦

  比如螞蟻小貸,通過資料和産品的緊密融合,基于算法的資料智能實時發揮作用,最終能實作秒級放貸,這個是傳統的金融服務沒法想象的。同時,獲貸後的使用者産生的資料,又被源源不斷的采集起來,作為未來更多判斷的基礎。

  再比如搜尋系統,使用者的任何一次點選行為,都被實時記錄并回報到智能化的算法引擎,不僅優化了你的搜尋結果,而且優化了任何搜尋這個關鍵詞的人得到的搜尋結果。

  這樣的智能商業,才是對傳統商業的颠覆,才是真正的“降維”攻擊,勝者一騎絕塵。

  四、回報閉環

  上面已經談到自動化、智能化、可學習提升的回報閉環,閉環的形成決定了智能化商業的形成,但是,閉環的效率決定了大資料的使用效率。是以說,一個好的大資料産品,不僅僅是有使用者回報閉環,而且需要一個高效的使用者回報閉環。

漫談阿裡大資料

  使用者行為通過産品實時回報到資料平台,通過資料智能算法,優化結果又通過資料産品實時提升使用者體驗,在這樣的回報閉環中,資料既是高速流動的媒體,又持續增值;算法既是推動回報閉環運轉的引擎,又持續優化;産品既是回報閉環的載體,又持續改進功能,在為使用者提供更贊的産品體驗的同時,也促使資料回報更低成本、更高效率地發生。

  五,資料生态

  dt時代将催化出大資料生态。dt時代的資料生态,我從如下兩個方面來定義:

  一、資料交換/交易市場

  智能商業的基石就是資料,作為智能商業的第一要務,資料是最重要的。

  資料作為生産資料,大資料時代的血液,好比汽車的汽油,沒有汽油,再精美高端的汽車也無法運轉。而資料的來源往往是多方面的,未來一個企業所用到的資料往往不僅僅是自身的資料,甚至是多個管道交換、整合、購買過來的資料。對于“羊毛出在豬身上”的大資料商業形态,資料一定是流動的,資料隻有整合關聯,才能發揮更大的價值。

  但是資料要實作交換,交易,正如我上文所言,我們最終所必須解決的是法律法規,資料标準等一系列問題。

  二、算法經濟/生态

  gartner分析認為,算法将形成一個全球性的交易市場,就像當年的app,催生出全新一代的專業技術初創企業,并且革新機器與機器之間的互動方式。

  同時,更多的資料将生成更好的模型和使用者體驗,進而吸引更多的使用者以及更多的資料,而這将導緻儲存和計算資料的成本持續降低。

  gartner曾發表報告,對算法經濟可能帶來的市場影響做出評估。

  gartner認為,無可避免地,算法經濟将創造一個全新的市場。人們可以對各種算法進行買賣,為當下的公司彙聚大量的額外收入,并催生出全新一代的專業技術初創企業。

  想象這樣一個市場:數十億的算法都是可以買賣的,每一個算法代表的是一種軟體代碼,能解決一個或多個技術難題,或者從物聯網的指數級增長中創造一個新的機會。

  算法是創造智能應用的基石,是大資料的核心價值。

  也就是說,多個機器學習算法可以結合起來成為更強大的算法,進而更好地分析資料,充分挖掘資料裡的價值。

  在算法經濟中,前沿的技術項目,無論是先進的智能助理,還是能夠自動計算庫存的無人機,最終都将落實成為實實在在的代碼,供人們交易和使用。

  廣義的算法存在于大資料的整個閉環之中,從大資料平台、etl(資料采集,資料清洗,資料脫敏等)、資料加工、資料産品等的每一個層面都會有算法支援。算法可以直接交易,也可以包裝成産品、工具、服務,甚至平台來交易,最終形成大資料生态中的一個重要組成部分。

  甚至有人認為好的算法能夠擺脫很多公司對大資料的過度依賴。盡管資料在dt時代可能是最昂貴的生産資料,但若算法足夠強大,大資料并非必須。如遷移學習能讓計算機擺脫對大資料的嚴重依賴,進而讓人工智能不再隻是“富人的遊戲”。

  正如app經濟變革了人類與機器的互動方式一樣,我們将會看到,算法經濟将會促進下一代機器對機器互動演進的巨大飛躍。

  人們将會通過産品使用的算法來評價它的性能好壞。企業的競争力也不僅僅在于大資料,還要有能夠把資料轉換為實際應用的算法。是以,ceo應該關注公司有産權的算法,而不僅僅是大資料。

  正在湧現的機器智能平台可憑借“模型作為服務”的方式,托管預訓練過的機器學習模型,進而令企業能夠更容易地開啟機器學習,快速将其應用從原型轉化成産品。當企業們采用了微服務(microservice)發展範式後,接入并使用不同的機器學習模型和服務以提供特定功能的能力将變得越來越有價值。

  所有的這一切,最終也離不開雲計算,資料平台天然就是基于雲計算來實作。而資料交換,算法交易則需要一個商店,雲端就是目前最好的商店。不管是資料的互通,還是基于雲端預訓練、托管的機器學習模型,将促使每個公司的資料産品都能大規模地利用算法智能。

  六,數加平台

  2016年1月20日,阿裡雲在2016雲栖大會上海峰會上宣布開放阿裡巴巴十年的大資料能力,釋出全球首個一站式大資料平台“數加”。

  這一平台承載了阿裡雲“普惠大資料”的理想,即讓全球任何一個企業、個人都能用上大資料。數加平台首批集中釋出了20款産品,覆寫資料采集、計算引擎、資料加工、資料分析、機器學習、資料應用等資料生産全鍊條。

  “這是一個人人都在談大資料的時代,但隻有極少數人在用大資料。” 阿裡雲大資料事業部資深總監徐常亮特别強調“這些技術至少領先業界三年”,在輸出自身大資料能力的同時,“數加”還向有資料開發能力的團隊開放。這些團隊可入駐“數加”,借助數加上的工具為各行業提供資料服務。“就像在淘寶開店一樣,隻是他們售賣的是專業能力。”

  那數加到底是什麼呢?我們從如下幾個方面來分析一下:

  一、數加的來世今生

  我覺得阿裡對資料的重視非常早,而且也是非常願意投入的。

  早在阿裡雲成立之前,應該是06、07年左右,七公就組建了一隻資料平台部的團隊,它就是資料事業部(cdo)的前身。在雲端、資料魔方、淘寶時光機、淘寶指數、tcif、阿裡媽媽dmp、全景洞察等都是出自這個團隊之手 ,這個團隊專業解決淘寶早期資料倉庫、資料集市、以及資料分析相關的專業問題。

  09年的時候,王堅來到阿裡,講了雲計算、大資料未來的願景,可是當時沒有幾個人能聽懂,但是,我覺得馬總還是很厲害的,他信了。然後,阿裡提出了雲計算、大資料相關戰略,阿裡雲也就在那時成立了。

  資料平台事業部最早使用的并不是現在在用的maxcompute(原odps),而是hadoop,原hadoop叢集令名為雲梯1,當時阿裡也在研發自己的計算平台,就是原odps,并令名為雲梯2。

  雲梯2在開始的時候,并不是很好用,不過,拿到了内部一個很大的客戶,就是阿裡金融的螞蟻小貸。基本上也可以這麼說,沒有螞蟻小貸的磨合,基本很難有現在的maxcompute。

  雲梯1、雲梯2在内部争吵了很長一段時間,後來,出于各方的考慮,公司決定,啟動登月項目,從雲梯1全部遷移到雲梯2。

  不管是雲梯1,還是雲梯2,其實,都隻是整個大資料技術生态系統中很小的一塊,也就是計算引擎那一塊,正如我上面所講的,一個屬于hadoop生态系統,一個屬于阿裡雲自建的數加生态系統。

  雲梯1當時在内部使用也很廣泛,所有内部的資料加工,資料應用基本上都是基于雲梯1的,而且,雲梯1通過5k項目,成功使單叢集的規模擴充到了5000台。而雲梯2的生态是後來慢慢建立起來的,包括底層計算平台,開發工具/元件,基于各自算法的計算引擎/服務,以及最上層的各種資料應用/産品,是在雲梯1遷移到雲梯2的過程中,這些工具,引擎,應用才慢慢完善,統一。

  當然,現在阿裡雲的整個系統,包括内部系統,都是應用在數加的技術之上,這個也是阿裡曆來的習慣,把内部使用、驗證過的東西,提供給社會使用。這樣的好處在于與單純做産品的大資料公司相比,勝在有場景,有需求,成熟度更高。

  二、數加平台生态的組成

  數加平台生态

漫談阿裡大資料

  個人覺得,可以用如下幾個層面來描述整個數加生态體系:

  1、數加底層技術平台

  主要包括:

  maxcompute(原名odps)是“數加”底層的計算引擎。有兩個次元可以看這個計算引擎的性能,1)6小時處理100pb資料,相當于1億部高清電影。2)單叢集規模過萬台,并支援多叢集聯合計算。

  analytic db是實時多元分析引擎,可以實作百億量級多元查詢隻需100毫秒。阿裡巴巴内部很多面向海量網際網路使用者的産品的線上大資料查詢,很大程度上依賴于analytic db。

  流計算(streamcompute)具有低延時、高性能的特點。每秒查詢率可以達到千萬級,日均處理萬億條消息、pb量級的資料。

  計算引擎之上,“數加”提供了最豐富的雲端資料開發套件,開發者可一站式完成資料加工。這些産品包含:資料內建、資料開發、排程系統、資料管理、運維視屏、資料品質、任務監控。

  整體來看,大資料開發套件的優勢包括:支援100人以上協同設計、開發、運維;具有良好的擴充性;提供各個産品功能子產品的open api,可二次開發;多個資料執行個體之間的資料授權機制,確定資料隻能使用卻不可見;提供白屏化的運維能力,以及字段級資料品質監控、機器預警、資源使用率監控等功能,讓使用者更好的掌控自己的資料及資料任務。

  計算引擎與大資料開發套件互相依賴,組成了數加的底層技術平台,對應到我上文提到的hadoop技術平台。

  阿裡雲的主要目标應該是做好這個技術平台,并将平台的能力更多更快更好地開放出來,這一層才是阿裡雲大資料的核心競争力。

  2、數加應用平台生态體系

  基于上面的技術平台,阿裡在數加上還開放了規則引擎、推薦引擎、文字識别、智能語音互動、datav可視化等資料引擎、服務、産品。這些産品很多都是從阿裡自身的業務中提煉出來的,可以直接提供給企業使用,并組合成各種不同的解決方案。

  比如:

  “數加”釋出的機器學習,可基于海量資料實作對使用者行為、行業走勢、天氣、交通等的預測。圖形化程式設計讓使用者無需編碼、隻需用滑鼠拖拽标準化元件即可完成開發。産品還內建了阿裡巴巴核心算法庫,包括特征工程、大規模機器學習、深度學習等。

  規則引擎是一款用于解決業務規則頻繁變化的線上服務,可通過簡單組合預定義的條件因子編寫業務規則,并做出業務決策。比如,銀行會設定如果10分鐘内使用者在兩個省份交易,則需要電話确認。

  推薦引擎是一款用于實時預測使用者對物品偏好的資料工具,它能夠幫助客戶發現衆多物品中使用者最感興趣什麼。

  文字識别提供自然場景下拍攝的圖檔中英文文字檢測、識别以及常見的證件類檢測和識别。

  智能語音互動基于語音和自然語言技術建構的線上服務,為智能手機、智能電視以及物聯網等産品提供“能聽、會說、懂你”式的智能人機互動體驗。

  數加最終的目的,不是阿裡雲自己來研發所有這些資料服務,重點是“數加”大資料平台也将向有資料開發能力的團隊開放。這些團隊可入駐“數加”,借助數加上的工具為各行各業提供資料服務。阿裡雲計劃用3年時間吸引1000家合作夥伴入駐,共同分享1萬億的大資料蛋糕。

  基于底層的技術平台,上層開放則可以形成豐富的生态 。通過開放式的平台,凝聚行業的力量,為更多的企業和個人提供大資料服務,這就是普惠的時代。大到行業的資料分析,預測行業發展方向;小到我們每一個個體,都可以享受大資料的服務,友善個人生活。

  3、數加交易生态體系

  基于技術平台與應用平台,個人覺得,未來可以在數加上建構一個大資料的交易市場,可以包括:

  應用交易:上文中,我重點描述了資料生态以及算法經濟,算法作為大資料時代的另外一個重要要素,未來也是可交易的。基于算法的各種引擎,服務,應用等,既然可以基于數加來開發,就可以不僅僅是自己用,甚至作為一個公共的服務或者産品來出售。

  資料交易:資料是大資料時代的重要基本要素之一,也是大資料時代的基礎生産資料,大資料時代的血液。作為如此重要的生産資料,必須流通才能發揮大資料最大的價值。數加通過多租戶,可用不可見,擔保交易等設計,未來可以解決資料交易上的各種問題。

  當然,如果要實作大資料的交易,必須先解決資料的隐私、安全、法律法規、監管等問題。在這些問題沒解決之前,仍有很長的路需要嘗試。

  三、為什麼選擇數加

  小企業不僅自身缺乏資料,自建大資料平台更是折騰不起,往往周期很長,成本非常之高。很多自建的大資料平台又因為沒有經過各種實戰的檢驗,沒有相應開發工具或者工具偏少而出現各種問題。

  不過數加的出現将有望改善這一現狀。

  根據阿裡雲披露的測算資料:自建hadoop叢集的成本是數加的3倍多,國外計算廠商aws的emr成本更是數加的5倍。

  從運算效率來看,去年10月28日,sort benchmark在官方網站公布了2015年排序競賽的最終成績。其中阿裡雲用377秒完成了100tb的資料排序,打破了此前apache spark創造的23.4分鐘紀錄。

  在含金量最高的graysort和minutesort兩個評測系統中,阿裡雲分别在通用和專用目的排序類别中創造了4 項世界紀錄。

  數加承載了阿裡巴巴eb級别的資料加工計算,經曆了上萬名工程師的實戰檢驗。

  借助大資料技術,阿裡巴巴取得了巨大的商業成功。通過對電子商務平台上的客戶行為進行分析,誕生了螞蟻小貸、花呗、借呗;菜鳥網絡通過電子面單、物流雲、菜鳥天地等資料産品,為快遞行業的更新提供技術方法。

  可以看到,通過數加,企業能獲得的不僅僅是可以更友善、更便宜地使用各種開發工具。其實,比開發工具更重要的是未來大資料的生态,在數加上面,他們可以很友善地擷取各種自己想要的資料與服務。

  “數加”的釋出顯然降低了大資料的應用門檻。通過 “數加”,任何一個企業、個人都能極為友善地進行大資料的開發和應用,最起碼,從速度、成本、開發效率上,有很大提升。

  四、數加需要面對的問題

  1、基于公共雲數加的安全問題

  有人擔心阿裡是否會偷看或利用這些資料,其實就是不相信阿裡雲。當然阿裡雲官方的回答是斬釘截鐵的:不會!

  阿裡雲大資料事業部資深總監徐常亮強調,資料是客戶的寶貴資産,任何雲計算平台都不能移作他用。阿裡雲将嚴格遵守去年7月份發起的《資料保護倡議書》,也希望全行業能夠自律,共同迎接大資料産業的爆發。

  2、基于專有雲數加的規模問題

  如果企業實在擔心資料的安全問題,想要建立自己的專有雲解決方案,那麼目前,基于數加的解決方案尚且過于複雜,沒有大量預算,基本上沒有辦法實作專有雲的解決方案,是以,對中小企業來說,采用基于專用雲數加的解決方案是不現實的。

  就我個人的看法來說,未來的趨勢,一定是公共雲解決方案。

  因為:

  1,資料需要流動,互相關聯才有最大的價值,是以,資料一定要交換、交易,這個要靠公共雲來實作。,

  2,資料加工的工具、算法、産品等等,也是一個共享的生态,不能指望所有的東西都由自己來研發。跟工業社會一樣,未來的大資料時代,是一個全球化分工的時代,不能指望自己的工廠解決所有的問題。

  原文來源:袋鼠雲dtstack

 

  作者簡介:拖雷(陳吉平),袋鼠雲ceo ,國内最早一批oracle ace director,前阿裡巴巴研究員,先後擔任嗨淘、無線事業部、資料事業部資深總監,生活服務事業部總經理,以及阿裡雲事業群總裁助理。2015年離職後,做了半年獨立天使投資人,2015年底創辦袋鼠雲。