天天看點

Hadoop創始人聊數字化變革:性能和成本不再是唯二的考慮因素

2020騰訊全球數字生态大會如約而至。

在今年的騰訊全球數字生态大會上,騰訊介紹了AI、5G等技術領域的最新進展,還請出了Hadoop創始人Doug Cutting站台,講述了他對于數字化變革的看法。

此外,在剛剛結束的大資料專場中,騰訊雲公布了大資料平台的相關資料。目前,騰訊的算力彈性資源池達20萬,每日分析任務數達1500萬,每日實時計算次數超過30萬億次,每日接入資料條數超過35萬億條,訓練資料次元達1萬億。

之後,騰訊還重磅釋出了全鍊路資料開發平台WeData,同時釋出和更新了流計算服務、雲資料倉庫、ES、企業畫像等6款核心産品。進一步優化和提升了騰訊雲大資料的全托管能力,助力企業從基礎設施層、場景開發層以及行業應用層快速建構一站式大資料平台能力。

Doug Cutting:不能從管理層着手,要從更低層次細節,“小步疊代”推動

騰訊雲副總裁劉煜宏在釋出會上提到,疫情加速了企業的數字化程序的發展。

其中,大資料作為基礎能力,支援了所有騰訊雲業務的發展,比如我們每天都在使用的健康碼。

Hadoop建立人Doug Cutting對此表示認同,他認為,随着社會資料量級的不斷增加,我們的社會正在經曆具有重大意義的數字化轉型階段。

“軟體成為進步的主要來源。”

Doug Cutting也基于自己的一些經驗,提出了幾點建議。

首先是創新。我們需要加快創新的步伐,要實作創新,我們就需要尋找最能讓我們快速創新的技術和工具,在這裡我們不應該忽略了開源的力量。

比如,2000年,Doug Cutting開發了Lucene,經過二十年發展,Lucene已經成為目前最完善最受歡迎的檢索引擎。可能Lucene不是業界最好的,很大一部分原因是因為Cutting在一開始就确定了開源的發展路線,使用者可以加入整個項目的建設,實作真正的使用者驅動,這對于新平台來說尤為重要。

在Lucene之後,Cutting做了Hadoop,擴大了計算範圍。在近幾年的發展中,人們圍繞Hadoop做了很多更新的應用,形成了一個生态,甚至在其中Hadoop本身已經變得不那麼重要了。

可以看出,開源不僅可以更快地提升單個技術,對于整個開源社群、開源環境來說都是十分重要的。

其次,在企業的發展中,往往規模越大的組織就越難進行轉變。

Cutting指出,數字化變革不能從上層的管理層着手,要從細節的小部分、從更低的層次推動,這種小步疊代的方法在長期看來是更需要的。同時,公司必須要有管理能力,要從上層的組織方進行規劃,實作安全、監督和限制,也不應忘記保持資料的一緻性和協調性。

最後,Cutting表示,性能和成本不能再作為唯二的首要考慮因素,對社會和使用者的影響正在變得越來越重要,這就要求我們把涉及到使用者、資料的更多元度的因素囊括進來。

至于企業應該如何部署自己的大資料能力,Cutting認為,雲已經成為主要的部署方式,盡管雲存在一些問題,但總的來說雲端的優勢更有價值。并且,公司也應該多考慮混合系統的形式,以應對快速變化的資料現狀。

騰訊雲重磅釋出大資料平台算力!日實時計算量超40萬億

也正是基于“從小的地方、從更低的層次推動”的理念,在今年的釋出會上,騰訊把重點放在了産品開發層。

劉煜宏在釋出會現場先公布了騰訊雲大資料平台的算力資料:算力彈性資源池達500萬核,每日分析任務數達1500萬,每日實時計算次數超過40萬億,能支援超過一萬億次元的資料訓練。

之後,騰訊雲大資料産品中心副總經理雷小平介紹到,騰訊大資料能力其實分為三層,産品開發層是中間層。

騰訊大資料能力的第一層是底層基礎的存儲計算設施,典型産品如EMR、神盾聯邦計算。這一層主要要解決的問題,除了最基本的提供基礎設施之外,還能夠幫助企業運維的工程師快速建構一個性能比較卓越、并且成本很低廉更安全的算力。

中間一層是産品開發層,這一層強調的是開箱即用。用一個平台搞定某個業務場景的開發的所有事情,可以讓企業的開發人員更多地去做業務相關的事情,不用太多考慮平台的東西。

最上面是應用層,騰訊雲會提供各種各樣的比較接近業務的SaaS化的産品,比如營銷的能力、增長的能力、BI的能力、風控的能力。

重磅釋出全鍊路大資料平台WeData

作為中間層的重磅代表新産品,騰訊雲推出全新的全鍊路資料開發平台WeData,WeData是一個一站式的大資料開發平台,打通了通用大資料開發和資料治理的過程中的所有環節。

雷小平表示,WeData主要解決了三個問題。

第一個問題是解決希望通過WeData,能夠把企業所有的中繼資料管到一起,不管是存在Hive還是其他地方。這樣的話,我們就能在一個地方看到所有的中繼資料,然後把不同平台的資料打通進行計算。

第二個問題是,希望把大資料開發整個鍊條從資料的內建到開發到測試到釋出到排程等,所有的過程放到一個平台上面。有了開發之後,再上面希望把一個企業資料治理相關的東西內建進來,包括資料的血緣、資料的地圖、資料的品質等等。

第三塊是在企業、客戶側的應用。首先是安全方面,雷小平介紹到,在年中時候,微盟的資料出現了人為誤操作的問題,騰訊雲花了一個星期幫助恢複了資料,不僅如此,騰訊給微盟提供了一整套的大資料的安全解決方案,從它的資料的通路安全到整個服務的安全到資料本身的安全,做了一整套的安全方案。

除了WeData外,騰訊還釋出了其他幾款面向場景化的一些産品。比如流計算的全托管的服務Oceanus,它能夠幫助企業快速建立一個計算的能力,以及雲數倉,是一個基于GP進行打造的,還有一個就是ES。

專訪騰訊雲大資料負責人:安全與融合是未來發展重點

在騰訊的這次全球數字生态大會之前,文摘菌提前采訪到了騰訊雲大資料基礎平台總經理陳鵬,和騰訊雲大資料産品中心副總經理雷小平。

采訪過程中,二位透露了騰訊雲最新的大資料産品WeData,以及騰訊雲本身的更多内容。

首先,針對騰訊大資料目前包括團隊、産品、研發、業務場景的情況,陳鵬介紹到,從2018年至今,通過開源協同,騰訊把原來各個業務子產品的大資料做了一個整合,目前,騰訊内部大資料的基礎設施基本上實作了協同整合。

不僅如此,在内部大資料平台整合的過程中,以前一些小衆的需求,在内部協同的背景下,都可以在統一平台上得到滿足。

比如,政企客戶的一些需求在騰訊内部是不會出現的。假設,廣東省公安廳需要做分析計算,在傳統意義上,廣東省公安廳不會把各個市的資料放在一起,這就會引發資料孤島的現象。在這樣的情況下,就需要跨源、跨域、跨類型、跨IDC的分析需求。這樣的需求從外部進入到騰訊的業務線後,就能讓平台在未來演進的方向上多一個思考視角。

近年來,随着大資料的發展,大資料造就了AI,但AI卻沒有很好的賦能大資料,此外,安全問題也逐漸成為大資料社群的短闆。融合與安全,這就構成了未來大資料發展的兩大方向。

那如何做到融合,陳鵬指出,下一代的計算平台主要應該圍繞安全、智能和統一。

第一是安全,雖然大資料本身就是采用叢集解決孤島問題,但是真正的問題在于,一部分資料分散後,再把它聚集起來,你沒有辦法把資料整合在一起做一個叢集來解決,這就把問題分散給了不同團隊,職能部門不同,資料庫也不相通,這就導緻了大資料發展面臨的問題。

資料安全涉及到權限的管控安全、計算安全,以及存儲安全。就騰訊内部的系統而言,部門與部門之間,資料的隐私性保護是非常高的,大資料安全本身是一個生态,涉及大資料的各個系統元件,是以安全必須要跟每一個環節聯系在一起。

安全問題不像SQL或者其他,大資料在這一塊沒有标準而言,騰訊雲内部從接入到落地、計算、清洗、分析,到最後的報表檢視,平台的全鍊路都把安全串起來了。是以能夠保證資料使用者在使用資料過程中的每一個操作都記錄在案,在最大程度上保證了資料安全。

雷小平補充道,在雲上,騰訊吸收内部和外部的不同經驗,将其結合在了一起,做了一整套安全方案,主要包括以下三個次元。

第一個次元是使用者的資料通路的安全,這包括了哪些人能夠通路資料,這個人是一個合法的人還是一個冒充的人,以及他能通路哪些資料,具體到這些資料的哪些字段,是可讀還是可寫。這些都做了比較細粒度的管控。

第二個次元是服務安全。這是對整個資料的容災,比如使用者在操作的時候不小心把這個資料删掉了,那這個資料能不能快速恢複等。以及在資料本身的存儲上,如果是某一個部分挂掉了,或者某一個機房挂掉了,怎麼樣保障資料的安全。

第三個次元是上層應用,對于資料内容做安全校驗。這個服務是使用者可以選的,也就是說,騰訊有一整套系統能夠識别使用者的資料裡面哪些是身份證号,哪些是密碼,這樣可以通過一些接口讓使用者在寫資料進來的時候自動加密、脫敏等等。除此之外,騰訊還做了資料通路頻率的審計,可以簡單地将其了解為一層增值服務。

總的來說,雲就通過通路的安全、服務的安全、資料的安全做到全鍊路的安全保護,這套安全能力在整個國内的雲市場還是比較領先的。

安全之後是智能,智能就是怎麼讓A幫助B,這是在AB融合過程中的重點。現在叢集規模已經達到了十萬台,基本上每年按照百分之五十左右的規模發展,幾年後,整個大資料的規模可能達到幾十萬台。但現在,大資料還需要人工輔助解決一些營運問題,希望随着技術的發展,能夠做到将線上運作的資料回流回報,再基于機器學習獲得智能化的決策,基于這些決策和名額,進行後期排程性能、驅動硬體的定制。

最後是統一,這裡涉及架構的統一、AB技術融合統一等。

從架構統一來講,大資料的技術棧目前發展得已經非常複雜了,單純說計算這一塊,現在有Spark、Hadoop,發展過程中,同質的系統非常混亂。在這樣的情況下,如何保證企業本身不會被業界這些複雜的系統影響,以及怎麼不影響整體架構的延伸。

AB技術融合統一,AB底層算子和分布式運作有着很強的相似性,比如大資料的join、aggregator、sort和AI的grad、dot、softmax等,通過運作的機制上面做一些融合;在計算引擎方面,通過統一批、流、圖三種計算形态,涵蓋DAG、PS、MPI多種shuffle模式,cost-based optimization,統一執行計劃優化,還有基于編譯技術軟硬體集合,通過代碼生成适配異構硬體,計算型算子下推到GPU、FPGA等。從這些角度講,AB融合是一個體系化的融合,不是一個單點的融合,這也是個趨勢,最終能給使用者帶來一站式的資料處理體驗。