天天看點

【BDTC 2016】星環科技董事長&CTO孫元浩:大資料技術的最新進展和潛在應用

【CSDN現場報道】2016年12月8-10日,由中國計算機學會(CCF)主辦,CCF大資料專家委員會承辦,中國科學院計算技術研究所、中科天玑資料科技股份有限公司與CSDN共同協辦,以“聚焦行業最佳實踐,資料與應用的深度融合”為主題的2016中國大資料技術大會在北京新雲南皇冠假日酒店隆重舉辦。

2016中國大資料技術大會首日全體會議中,星環科技董事長&CTO孫元浩帶來了名為《大資料技術的最新進展和潛在應用》的主題演講。大資料技術的軟體棧分為分析管理工具、領域級引擎、通用計算引擎、資源管理架構以及分布式存儲引擎幾項。而Hadoop的發展目前已經有了幾大進展:分布式計算已逐漸成為主流計算方式;互動式分析技術日益成熟;資料分析算法逐漸豐富,工具普及化;融合事件驅動和批處理引擎。後Hadoop/Spark時代,新技術在資料量,類型,速度以及價值四個次元上都将加速創新。最後孫元浩表示:2016年是Hadoop技術大規模應用的戰略轉折點。

【BDTC 2016】星環科技董事長&CTO孫元浩:大資料技術的最新進展和潛在應用

星環科技董事長&CTO 孫元浩

以下為演講實錄

非常高興能參加今年的BDTC大會,我是從2011年開始參加這個會的,2012年的BDTC大會到今天已經第四屆了,非常高興能夠再次站到這個講台上面,我們過去一直緻力于Hadoop的研發,也在Hadoop上研發一些核心的技術産品,我們看到技術演進非常快,本人09年開始就做Hadoop的研發工作,我們看到這個市場技術的變遷是非常大的,這裡我們做一個簡單的回顧。

Hadoop早期是參考了03年Google的論文,06年并入雅虎,雅虎成立一個團隊做Hadoop的研發,随後把Hadoop作為網際網路的倉庫做分析,08年叢集已經真正開始在生産系統中使用了,是以我們說Hadoop有十年曆史其實是從06年開始算的,從那時真正開始投入在Hadoop的研發。到08年底的時候大家發現Hadoop的技術在網際網路公司應用成熟了,開始有一些商業公司成立,緻力于把Hadoop商業化,把它應用到除了網際網路公司以外的其他行業中去,當時定位在生物資訊,後來是在政府、金融這些行業當中。到11年的時候雅虎看到了這個市場的潛力,Hadoop團隊出來成立了一個公司,是7、8月份成立的,随後也釋出了Hadoop的發行闆産品,把Hadoop商業化,仍然是狹義上的Hadoop,包含分布式系統、包含計算引擎。幾乎在同時,09年、10年的時候,雖然Hadoop應用當中做P處理比較成功,但是仍然有一些新的公司在開發一些新的技術,希望能夠做機器學習,希望能夠做高效的互動式分析的引擎,那時候spark出現了,随後大家發現它做機器學習非常高效,也用來做機器分析,到13年時候大家發現這個引擎具備取代m的潛力,14年的時候認為基本上可以取代spark,今天這個引擎更多的出現,經過這麼多年,好像真正成功的是做機器學習、流處理。

技術引擎每過幾年都會發生巨大的變化,星環是13年成立的,借助Hadoop當時開發一個Hadoop的引擎,當時我認為在Hadoop上開發一個App引擎是錯誤的,是以我們基于Spark做一個分析型的資料庫,同時過去三年當中不停的在演變,在演變當中開發機器學習的産品、流處理的産品和資訊檢索的産品。

整個大資料軟體棧分成5層,最下面是存儲引擎層,上面是資源管理架構層,其實這三個是演變關系,是替代關系,我認為未來基于容器化的資源類的架構會逐漸取代其他,通用計算引擎這塊我們看到mapreduce慢慢退出了Spark還有一定的地位,在深度學習中有近20種深度學習的架構,這裡列了一個文檔比較好的,大家學起來比較容易的通用的深度學習架構,上面有很多算法我們認為它會具有生命力,當然其他的引擎同樣具有生命力,在領域級引擎方面分為七大類,這七大類基本上覆寫了所有的領域,這七個領域如果都做的成功,大資料應用會得到極大的深化。

第一個也是現在所有人投入的,用SQL P處理倉庫,tencoficw已經被淘汰掉了。另外互動式分析引擎,做記憶體的列式存儲盡量提升互動式分析的性能,現在發現光用原來的标準的P處理引擎不适合做非常高速的分析,可能需要一個新的技術,這也是為什麼我們把它獨立出來的選。

第三是做TP的,這裡面有機器學習、深度學習、圖分析,這七個是具備廣泛的适用性的,但是在某個應用領域當中。再往上是三大類工具,主要是機器學習的工具,這些工具是非常廣泛的應用,構成了整個大資料的軟體棧,這個軟體棧跟三年前相比已經出現了非常大的不同,底層下面三層有些演變也有一些革命性變化,趨勢上會慢慢趨于穩定,上面兩層在蓬勃發展當中仍然有新的技術出現。

進展到現在已經看到有四個定論:

  • 第一個定論我們認為分布式計算已經成為主流的計算方式了;現在我們用Hadoop來做P處理運作TBS、DS,它的性能在TB級上用29台機器也能做到在三四十個小時内完成的。在單秒超過4個TB仍然會有一些問題,但是基于Hadoop的引擎沒有局限性,能停留在TB級别,說明Hadoop技術已經可以用來做大規模P處理來做資料庫了,當然是很小的部分。這隻是一個标志點,我們認為分布計算已經被認為是比傳統技術更高效的,成本效益更高的方案。
  • 第二個進展我們發現互動式分析技術日益成熟了,我們過去希望把P處理改造成為互動式分析的方式,當時大家走了彎路,大家模仿SPB資料庫開發一個搜尋引擎,這種方式雖然資料在内容當中。我們發現檔案系統上,仍然需要存列式存儲或者互動式分析。這也是我們最近這兩年總結的經驗教訓,發現過去希望是通過一個P處理引擎做Olib分析但是沒有成功,之于這些我們發現它的性能仍然有數代的提升,大家可以看到上面是做資料存在HDFS上不建CUBE的,這個通路結果比較少,但是要求速度比較快。如果把CUBE建好以後,發現這個性能提升最低有50倍最高有500倍的提升,如果跟在HTC上相比有幾十倍的提升,說明借助CUBE是能顯著提高性能的,建造CUBE的成本較高,顯著的是固定報表稍微自助分析的。我們認為在互動式分析這一塊,現在攻的TPC-H,我們認為這個需要變化才能支援互動式分析的能力,當然現在大部分的廠商還在跑TPC-S我們希望把它引到互動式分析上來。
  • 第三個進展我們認為機器學習的算法,參加每一屆的BDTC大會很有感觸,每年主題不一樣,經過三年發展大家發現資料分析算法豐富了,算法也夠用,但是我們發現一個問題,在去年的時候我印象很深刻,去年讨論機器學習的時候大家談論的是算法很多,大家拼的是算法數量,到今年大家發現兩個問題去年也讨論但是沒有解決的,一個問題是特征工程,特征工程需要大量的選擇資料的名額來喂給算法做模組化,這個工具是非常巨大的,沒有自動化,所有從業人員大量的花在資料選擇上面。這是第一個問題,現在看起來好像可以用深度學習的方法來做,幫你自動選擇這個特征。

第二個問過去一直沒解決的是算法選擇的問題,今年有很多公司包括很多美國的創業公司在開發一些工具來提供自動模型選擇這樣的功能,它能夠自動幫你跑各種模型,描述你的問題是個分類問題還是一個聚類問題還是哪種問題,他會幫你把同一類算法全跑一遍,比較哪種算法的準确度和效率,自動選擇一個算法或者組合一個新的算法這也是比較棘手的問題,現在工具出現了,幫你自動化選擇模型。

第三個問題是如果分析出來一個結果,做了預測,預測的目的是我能不能改進,能不能反過來影響,找到哪些因素是影響結果的主要因素,這又是更深入的問題,這個問題現在仍然沒有很好的解決方法。今天我們看到進展是資料分析的算法已經很豐富了,今年工具也很豐富了,包括星環也提供兩種工具,二進制的無縫內建,可以做資料挖掘和機器學習,也可以跟midas做無縫對接,所有做的是讓機器學習方法普及化,讓更多人使用,降低它的使用門檻,這一塊基本上成為現實,當然這裡面仍然有些問題沒有解決,但是深度學習的工具已經開始得到逐漸使用,今年客戶當中接近20%的客戶在使用機器學習的産品。

  • 第四個進展我認為是在實時處理方面有蠻大的進展,過去流處理技術大概分成兩大流派,最早是世界驅動的模型,是來一個事件就處理一個,好處是延時比較低但是強迫開發人員按照事件驅動的方式程式設計,這樣開發難度是非常高的,要在上面寫一個複雜的統計或者說在上面實作一個機器學習的算法要用事件驅動的方式實作還是有點困難的,是以SQL是換了一個方式,好處是程式設計模型變成P處理方式比較簡單了,缺點是需要等一段時間累計一段資料再處理,延時比較長,SQL延時沒有低于300毫秒過,但是對于應用來講需求最難的是使用者希望在非常短的延時之内處理非常複雜的模型,因為應用是越來越複雜的,延時要求也是越來越低的。這樣很有必要開發一個融合的引擎,底層可能是事件驅動的引擎對外提供的接口、程式設計模式完全是P處理模式,能夠支援C口重組過程是機器學習,這種引擎才真正能夠在應用當中發揮作用,這是我們過去用一年半的時間發現這個是可能解決的,這是基于早期版本改造的,重構了它的引擎,來一個事件,以前的mapreduce是實作,我們發現它是被重構成,以前mapreduce是分成多個streams,現在來一個直接到下一個streams去了,延時比較低,這是比較大的重構。同時對外實作的接口是完整的P處理的程式設計模型,完全支援标準接口重組過程。這種方式我可以用來實作在低延時,在非常嚴苛的生長環境當中對傳感器資料進行非常複雜的分析,在上面運作預測性的模型,比如用流處理預測風力發電機齒輪葉片的故障情況,是實時采集資料的,在流上做預測的。也可以用在金融行業當中用來做反欺詐、風控。交易所的模型非常複雜,它的BS模型是要在流上求解一個方程,模型是很複雜的,但是要求要把目前一秒的交易融入到從開盤到現在的整個交易的池當中來算這個模型,而且要在一秒鐘之内完成,這個要求非常高,是以就需要融合引擎,這是星環比較大的進展,我們已經實作了這樣一個融合引擎,也是比較領先于國外的産品和技術,有一年以上了。

總結一下這四個進展我們認為如果是看Hadoop、spark後面的技術發展趨勢我們發現,又回到了大資料的四個V上面。我們發現SQLHadoop技術越來越成熟越來越完整,它能夠超越傳統的水準。這樣我們認為在未來兩三年當中傳統的資料倉庫領域會被新技術取代或者颠覆掉,這個工作我們已經在做,而且我們也走在了世界的前面。

第二塊我認為發展趨勢是在資料類型上面,過去大家在讨論中用非計劃資料處理,但是仍然用Hadoop資料存儲這些非計劃處理,現在随着深入學習架構的出現,我們認為這個應用又帶來新一波的高潮,深度學習可以處理視訊、圖象圖像、語音、人機互動、自然語言處理,這些是現在正在如火如荼的發展當中,但是我們認為在這個領域我們國家并沒有走在原創型的前列,我們仍然在學習美國人的技術,有兩方面的原因,一方面我認為是國外的需求在驅動,讓他們在開發引擎。第二是像GOOGLE這樣的公司可以動用幾十萬台機器訓練一個模型,它的資源投入是非常巨大的,這也是它能夠發展出這樣技術的重要原因。随着GPU和SPV的硬體技術,做深度學習、視訊分析、圖象處理可以充分利用混合架構的或者GPU的計算能力,這一塊也是現在一個引進的熱點。

第三塊方向我認為在流資料方面剛才講到了,過去流處理技術像steam基本上已經被抛棄了,它還不夠成熟,未來肯定會成熟起來,但是方向肯定是對的,大家希望建造融合事件推動和P處理的引擎做實時處理。

第四個方向我認為從機器學習、資料挖掘這一塊,這個方向會是借助有成熟的算法、成熟的工具,大家發展的目标是把算法工具能夠普及化,能夠讓更多人使用,發展大資料的價值,會有這樣的方向,這個方向會是商業公司做,因為定制化程度會高一點。開源的會少一點。

回過頭來看大資料市場,矽谷著名的VC認為傳統資料平台會在未來十年之内全部被替換成Hadoop,當然這是它的理想。我們認為有1/3以上的部分會全部換成Hadoop,原來資料的分析軟體,傳統的軟體都會逐漸嵌入Hadoop上面來,他們會進行重構和遷移。整個生态系統日益繁榮,我們劃成倒三角形,底下是大資料平台,上面是分析傳播、模型可視化、工具等等,再上面是大資料應用,再上面是專業服務和定制開發,我們看到這個市場變的比以往更繁榮,我們也看到技術大會擴充到三天這也是一個标志,我的觀點認為2016年是Hadoop技術進行企業進行深化應用的轉折點,因為前兩年大家都談這個技術,這個技術還沒有成熟,大家都在試用。今年我們發現很多行業的重要客戶在應用Hadoop到它的關鍵系統當中去,像銀行客戶已經在使用我們平台構造它的完整的資料倉庫,已經不再用關聯資料庫,有客戶已經用我們平台構造全行的風險營運系統,這标志着Hadoop已經深入到行業當中已經開始成為某些行業的剛需,我認為這是它的轉折點。這張圖是預測,它認為未來五年大資料市場将有900億的規模,我們看到2016年他們也認為增長會加速,但是未來5年市場仍然會保持30%的增速,是以整體的市場情況,仍然是需求非常旺盛的在産生,技術本身也在演變當中。是以對所有客戶來講,大家希望看到統一的标準接口這也是一個需求,也是所有Hadoop廠商的一個訴求是我們能夠提供标準的通用化的接口,但是底層技術可能在不同的演變當中,每個層次都有不同的變化,對外提供的接口比如提供在一些通用化的工具上面。

同時技術本身也在飛速發展當中,對技術開發人員來講仍然有新的技術出現,仍然需要大家創造新的東西解決我們碰到的問題,我們也高性能看到有很多同行活躍在中國各個行業當中在深度開展大資料的應用。

更多大會精彩内容,請關注CSDN“2016中國大資料技術大會” 專題報道;微網誌@CSDN雲計算,微信搜尋“CSDN大資料”訂閱号擷取大會精彩資訊。

繼續閱讀