天天看點

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

這是自去年騰訊第三次組織架構調整之後,騰訊雲首次登台做正式的「自我介紹」。

2018 年 9 月 30 日,在成立 20 周年之際,騰訊宣布将原七大事業群分拆重組,生成新的六大事業群。在保留原有的企業發展事業群(CDG)、互動娛樂事業群(IEG)、技術工程事業群(TEG)、微信事業群(WXG)的基礎上,新成立了雲與智慧産業事業群(CSIG)和平台與内容事業群(PCG)。

騰訊雲從原社交網絡事業群(SNG)轉入新成立的雲與智慧産業事業群 (CSIG),自此從幕後走到了台前。除了騰訊雲之外,CSIG 還整合了智慧零售、騰訊地圖、安全産品等核心業務線,主要面向雲和産業網際網路,被視為騰訊 To B 戰略的對外視窗。

在「紮根消費網際網路,擁抱産業網際網路」的前進方向上,騰訊雲的戰略重要性不言而喻。

11 月 6 日,在首屆 Techo 開發者大會上,騰訊雲副總裁、雲架構平台部總經理謝明和騰訊雲副總裁、資料平台部總經理蔣傑分别對騰訊雲在基礎架構與大資料 AI 領域的探索實踐進行了回顧性總結,騰訊 20 年來的技術演進之路得以完整披露。

30 萬億實時計算幕後的支撐力量

在 Techo 開發者大會的現場,蔣傑展示了一組資料:

騰訊每天需要處理的分析任務數量為 1500 萬,接入資料數量為 35 萬億條,日均實時計算次數達 30 萬億。

目前,微信活躍使用者超過 11 億,QQ 超過 8 億,騰訊遊戲超過 7 億,此外騰訊旗下還有騰訊視訊等多個億級 APP。移動網際網路的爆炸式發展,為騰訊帶來的業務資料量在五六年間增長了幾千倍。

可以說,騰訊已經成為中國實時資料計算量最大的公司。

支撐起這種量級的計算背後,是騰訊在基礎設施和大資料能力上的不斷演進。

從使用通用伺服器到不久前釋出的「星星海」,從傳統電信解決方案到第四代 T-block 産品家族,十年間,騰訊完成了基礎設施領域的自主創新之路。在經過海量資料計算的實際驗證之後,這些基礎能力也正在通過騰訊雲開放給整個産業網際網路。

從通用伺服器到自研「星星海」

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路
最早的時候,與大多數科技公司一樣,騰訊使用的是通用伺服器。為了比對早期業務量增長的需求,同時嚴格控制伺服器成本,騰訊在 2007 年定制了第一款 Twins 伺服器。
「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

之後,騰訊開發了一套大規模上架管理系統,可有效支援一天内傳遞 1000 台以上裝置。靠着這套系統,騰訊度過了業務洪峰期。

經曆了從「通用」、「定制」到「營運」的階段演化,騰訊走上了伺服器「自研」之路。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

騰訊自研伺服器「星星海」。

在上個月的騰訊全球數字生态大會成都峰會上,騰訊推出了自研伺服器「星星海」——面對雲時代客戶對伺服器性能、成本和安全性的更高要求,這款伺服器對雲端的計算、存儲、網絡等場景進行了重點優化,能夠有效滿足騰訊雲 98% 應用場景的需求。此外,星星海伺服器采用了騰訊雲與 AMD 在其最新 ROME 平台下深度定制的 CPU,實作了行業最優單核性能和最優單核 TCO,使得雲服務執行個體綜合性能提升 35% 以上,最大負載能效提高 50%。

同時,謝明在 Techo 開發者大會現場表示,今年五月份,騰訊全網伺服器總量已超過 100 萬台,成為了國内首家伺服器超過百萬台的網際網路公司。

騰訊資料中心:全面智能化

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

騰訊資料中心的整體演化路線可以概括為「高速化、規模化、集約化、智能化」。

事實上,很早之前,騰訊就開始部署自己的綠色資料中心,包括上海青浦資料中心、深圳光明資料中心等。

在最新的第四代資料中心 T-Block 建設中,騰訊通過将 IT、電力、空調的産品化,結合騰訊資料中心最佳模型及建設方法論,按照搭積木的方式,實作了全資料中心的子產品化配置及快速建設。

相比于傳統大規模資料中心,T-Block 現場施工周期減少了 50% 以上,傳遞周期縮減至 12 個月;同時,由于率先在行業内采用更高效率的制冷和供配電架構,使得系統能源使用效率得到有效提升。此外,PUE 已經能夠降低至 1.2 以下,如果在一個擁有 30 萬台伺服器的園區投入使用,一年可節省 2.5 億度電。

跨越移動網際網路和雲時代

從伺服器和資料中心的進化案例中不難觀察出,騰訊在技術上的演進與自身的發展規模和時代背景密不可分。一是 2012 年移動網際網路的爆發,二是近年雲計算的飛速發展。

在基礎網絡架構、計算、存儲、資料庫等層面,騰訊的能力進化路線均有着相似的節奏:

騰訊的前兩代網絡架構基本上都是依賴商用路由器,通過人工的方法來營運和變更。這種方式很難滿足網際網路業務快速發展及永不斷線的要求。到了第三代網絡架構中,騰訊實作了獨立的集中式路由控制器來統一管理,進行全局流量排程。

在雲時代以及 5G 商用化的背景下,騰訊開始思考網絡架構該如何應對管理和彈性能力等問題:10 萬級别商業網絡裝置有上百種型号,每種型号裝置管理接口不一緻,緻使管理起來極其複雜,無法高效運轉;其次,商業路由器無法滿足 IPV6 億級别路由表項需求;此外,目前的網絡品質也無法滿足使用者在更精細的租戶粒度排程能力方面提出的要求。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

在這個背景下,騰訊基于自研裝置和 SDN 分布式網絡建構了第四代網絡架構。走上自研之路後,騰訊的網絡裝置總擁有成本(TCO)下降了 20%+。

騰訊在存儲技術進化中的一個标志性事件是 2006 年 Qzone 和相冊業務的突然爆發,使用者每天上傳的圖檔數量多達上億張,以緻于必須在業務高峰期采取限流措施。為了解燃眉之急,騰訊開發了分布式存儲 TFS。

十多年後,騰訊雲的對象存儲引擎 YottaStore 已經實作了單叢集管理百萬節點,并且做到了真正的按需擴容,磁盤使用率達到 90% 以上,也大大降低了運維的人工成本。

計算方面,目前騰訊通過虛拟網絡 VPC 和軟體定義存儲 SDS,實作了内外網 IP 随意漂移和雲盤的靈活挂載,加上虛拟機的熱遷移技術,做到虛拟機在實體母機間的無感遷移,有效滿足實體資源更新容錯的需求。騰訊雲主機管控平台 VStation 做到了每分鐘傳遞千台虛拟機的能力,使得一個中等規模公司的計算需求可以快速得到滿足。

騰訊在資料庫上的發展也經過了幾個階段,在靈活開發的 web 時代,LAMP 技術架構非常流行,以 MySQL 為代表的開源資料庫成為首選。在社交業務已形成龐大規模和雲時代的條件下,騰訊通過開源托管、商業合作、自研三線齊發,提供超過 20 種資料庫産品,以及資料備份、SQL 審計、資料管理、資料遷移等服務等生态工具,讓使用者擷取最佳的上雲體驗。

十年間三次疊代,細數騰訊大資料演進軌迹

從 0 到 30 萬億日均實時計算,騰訊用十年多完成了大資料計算的三次更疊。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

離線計算階段(2009 年-2012 年):以 Hadoop 為核心的離線計算時代,直接用社群的版本計算,再做一些局部優化,騰訊第一代大資料平台由此建構。從關系型資料庫到自建大資料平台的全面遷移,騰訊用了三年。

實時計算階段(2012 年-2015 年):這一階段的背景是 PC 網際網路向移動網際網路的進化,對業務計算能力也提出了更高的要求。這個階段的騰訊從 hadoop 轉向以 Spark、Storm 為核心進行流式計算,從之前的天、小時、分鐘邁進到秒級、毫秒級的時代,開始支援線上分析和實時計算場景。這個階段也是三年。

機器學習&深度學習階段(2015 年-至今):這一階段主要完成了從資料分析到資料挖掘的轉變,可歸納為「智能化」。之後,騰訊研發了分布式的機器學習引擎 Angel 和一站式 AI 開發平台智能钛 TI,專攻複雜計算場景,可進行大規模的資料訓練,支撐内容推薦、廣告推薦等 AI 應用場景。

面向未來,騰訊也在做下一代的計算平台,發力點主要在資料湖、聯邦學習、批流融合、ABC 融合四個主要方向。

蔣傑認為,下一代計算平台必須具備混合部署的能力,能夠同時管理好公有雲、私有雲等不同的叢集,同時要具備跨越不同區域、機房、雲的資料共享能力和邊緣計算能力。

同時,蔣傑也用一張圖完整展示了騰訊「大資料+AI」的雙引擎架構。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

最底層是分布式的存儲,用來存儲結構化的資料,還有海量文本、語音、圖像、視訊等非結構化資料;往上一層是資源排程層,用來做 CPU、GPU 和 FPGA 的管理。再之上是計算層、分析層、資料采集層,最頂層才是大衆熟悉的各業務應用層,比如 QQ、微信、遊戲、廣點通等等。

當初「管理幾百個節點都很困難」的騰訊,在十年間交出了幾份滿分答卷:

在解決離線計算大規模叢集問題上,騰訊雲通過自研排程器,将排程性能提升了 150 倍,在 2016 年打破了 Sort Benchmark 四項世界紀錄,證明了自身在算力方面的世界領先水準。

在離線業務混合部署方面,騰訊雲與業務相結合,将幾十萬乃至上百萬的叢集管理起來,形成了資源池以提高整體使用率,目前算力資源池的規模為 20 萬台。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

騰訊資料體量增長折線圖,短短幾年間增長了五六千倍。

解決了計算能力的問題以後,還需要解決資料接入的問題,為了應對資料的爆炸式增長,同時打破不同資料中心之間的使用壁壘,騰訊自研了漂移計算引擎 SuperSQL,作為統一的資料分析入口,通過智能 CBO 優化器(基于成本的優化),将計算下推到分布在各地的異構資料源,資料分析性能提高很多倍,并且它還有一個優點:資料量越大優勢越明顯。

機器學習平台 Angel

Angel 是騰訊雲的首個 AI 開源項目。2015 年,騰訊推出了 Angel 的初代版本,用來代替 Spark 進行資料訓練,目前已疊代到 3.0 版本。Angel 在 QQ、微信支付、騰訊廣告、騰訊視訊等騰訊旗下産品中廣泛應用,并向微衆銀行等行業合作夥伴全面開放,普遍适用于智能推薦、金融風險評估等圖計算業務場景。

作為全棧式機器學習平台,Angel 的代碼行數總共超過 50 萬,功能特性涵蓋了機器學習的各個階段,尤其在稀疏資料高維模型的訓練上具有獨特優勢,擅長推薦模型和圖網絡模型相關領域。同時相容 Spark、PyTorch、TensorFlow 等生态,為使用者降低了使用門檻。在大模型處理之外,騰訊為 Angel 新增了深度學習、圖計算等支援功能,Angel 3.0 今年 8 月也已在 GitHub 上開源。

Angel 3.0 連結:

https://github.com/Angel-ML/angel

騰訊為「雲」而生

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

為「雲」而生,這是騰訊近期頻繁提及的一個概念。

謝明在 Techo 開發者大會主題演講中表示,雲計算時代正在發生着巨大的變革,正在步入到一個「極緻彈性」的時代。這對一個平台的資源管理粒度、資源排程能力、資源隔離能力以及計算/存儲解耦的架構都産生了更強的依賴。

目前,騰訊已經将自身在網絡、存儲、資料庫等 IaaS 的能力和大資料、機器學習等 PaaS 的能力,以及上層很多圖像、語音、NLP、BI 等 SaaS 能力,通過騰訊雲對外開放。「極緻彈性」就是騰訊雲的努力方向。

「擁抱産業網際網路」一年後,騰訊首次完整披露20年技術演進之路

騰訊公司副總裁、騰訊雲總裁邱躍鵬表示,随着雲計算承載的業務規模越來越大,軟體和硬體的結合成為剛需。軟硬體一體化技術會進一步發展,為開發者提供更強壯的基礎設施平台,提升雲計算的性能、提高資源使用率,最終為開發者提供穩定、更具成本效益的服務。

他指出,雲計算未來有三大趨勢,即軟硬體一體化(Cloud Native Hardware)、無伺服器計算(Serverless)和智能化(Smart)。

自 2014 年開始,騰訊就在逐漸推動基礎設施和大資料能力方面的開源,目前開源項目共 86 個,累計在 GitHub 獲得超過 25 萬個星标。

第一代平台的核心騰訊版 Hive 是騰訊首個開源的産品。2017 年,騰訊将第三代平台的核心 Angel 開源,并貢獻給 Linux 基金會 (LFAI)。今年 9 月,騰訊開源了實時資料采集平台 TubeMQ,捐獻給了 Apache 社群。

蔣傑也在大會上正式宣布将騰訊資源管理平台的核心 TKE 和騰訊分布式資料庫 TBase 正式開源。在内部推開源協同的戰略推動下,目前未開源的 SuperSQL 等技術和産品,也将陸續開源。

下一步,恰好滿 21 歲的騰訊希望成為中國大資料領域開源最全面的廠商,并用雲計算結合更多的智能來提供更好的服務。在宣布「擁抱産業網際網路」一年後,騰訊的 To B 之路剛剛開始,但看得出步伐堅定。