天天看點

阿裡雙11集團技術總指揮——湯興:一場不亞于移動化的變革已經發生前言從愛奇藝 CTO 到淘系技術掌門人第 11 個“雙 11”:一場堪比無線化的變革提前一年,決定上雲端側 AI 決策 140 億次未來規劃

嘉賓|湯興(花名:平疇)

出品|InfoQ&阿裡巴巴新零售淘系技術部

嘉賓簡介:湯興(花名:平疇),現任阿裡巴巴副總裁,上司包括淘寶技術、天貓技術、農村淘寶技術、閑魚、躺平 等多個團隊組成的新零售技術事業群淘系技術部,緻力于打造消費者和商家一體化的新零售智能商業平台,開創場景化新賽道。湯興博士擁有超過十年全球 TOP IT 公司研發及管理方面的工作經驗,曾任谷歌上海研發中心技術總監,負責了 Google 視訊搜尋業務及參與 YouTube 視訊搜尋服務的研發,後加入愛奇藝擔任 CTO,全面推動了視訊行業産品技術使用者體驗的創新和發展。

前言

2019 年 11 月 11 日,這是阿裡巴巴所有技術人經曆的第 11 次技術大考。這一年,阿裡巴巴實作了核心交易系統 100% 上雲,總銷售額達 2684 億元。在 QCon 全球軟體開發大會(北京站)2020 即将召開之際,阿裡巴巴副總裁、2019 年雙 11 集團技術總指揮湯興(花名:平疇)受 InfoQ 采訪邀約,為大家分享了這場意義非凡的變革以及阿裡新零售的技術方向。

從愛奇藝 CTO 到淘系技術掌門人

2019 年,湯興正式加入阿裡巴巴集團,任職阿裡巴巴集團副總裁,花名平疇。整體負責包括淘寶技術、天貓技術、農村淘寶技術、閑魚、躺平 等多個團隊組成的新零售技術事業群淘系技術部。

翻開平疇的履曆,他擁有超過十年全球 TOP IT 公司研發及管理方面的工作經驗。加入阿裡之前,平疇最近的一份工作經曆是任職愛奇藝 CTO,他帶領愛奇藝技術團隊建立起全球首個基于視訊資料了解人類行為的視訊大腦——愛奇藝大腦,讓機器能夠了解視訊内容,并上司在視訊社交領域推出愛奇藝泡泡,開創了視訊社交先河。

雙 11 現場的平疇

雙 11 之前,阿裡宣布由平疇擔任本屆雙 11 集團技術總指揮,從視訊領域到新零售領域,角色轉變的同時,還要帶領技術團隊面對雙 11 流量高峰的挑戰,壓力可想而知,但平疇很快就适應了這種變化。

看懂兩者之間的内在聯系與差異,就很容易在兩個領域切換和适應。

采訪中,平疇表示,視訊是内容行業,本質上是内容虛拟商品的供給與需求比對。阿裡是電商行業,主要是實物商品的供給與需求比對,兩者既有相同之處也有不同之處,比如一個沒有庫存,一個有庫存;一個通過線下物流履約,一個通過線上數字媒體傳送;一個側重營銷交易活動營運,一個側重主題營運活動等。無論是虛拟數字經濟還是實物經濟,都脫離不了零售的本質,供給與需求的有效比對,而技術體系的架構也基本類似。

第 11 個“雙 11”:一場堪比無線化的變革

2019 年,雙 11 直播已成為淘寶内容生态裡程碑式的節點,其意義可對标當年的無線化變革。

回憶起 2019 年的 11 月 11 日,平疇表示,淘寶經曆了一場意義完全不亞于無線化的變革,那就是直播。

如今,不知還有多少人對淘寶當年的那場無線化變革印象深刻。

2013 年,移動化的浪潮來了,所有人都感受到了移動化即将帶來的巨變。阿裡集團一聲令下,正式宣布“ALL IN 無線”戰略,很多人被從原有部門放到戰場最前線,有人不适應走掉了,後續的再補上,就這樣不斷調整和優化。

2016 年,現任阿裡巴巴 CEO 張勇正式向外宣布淘寶網與無線淘寶合并,淘寶成功從 PC 時代轉型為移動時代。事後證明,如果不是這場變革,我們很難見到如今的淘寶。

▐ 業務形态在變,技術必須跟上

“在雲原生的大潮下,新一代的技術變更可能才剛剛開始,核心交易系統百分百上雲可以說是整個基礎設施最大的變化以及技術突破。但是,在基礎設施的變化之外,整個業務形态也發生了巨大改變。”

平疇在采訪中表示,這種業務形态的改變指的就是直播。淘寶從 2015 年就開始做直播,短短四年打造了一個年成交千億的行業。

2019 年,雙 11 直播已成為淘寶内容生态裡程碑式的節點,其意義可對标 2015 年的淘寶無線化。當天,淘寶直播成交近 200 億(2019 年雙 11 總交易額為 2684 億元),超過 50% 的品牌商家通過直播獲得增長。

如今,直播已經成為天貓雙 11 商家的标配,直播的内容形式與圖文截然不同,更強調實時互動和流暢的觀看體驗,而這些特點對消息通道、網絡和 CDN 等軟硬體資源提出了苛刻的要求。

既要保證使用者體驗,又要追求技術上的最低成本,包括最小帶寬消耗、最大機型覆寫等。平疇帶領的技術團隊遇到了很大挑戰。

為了解決直播中可能遇到的問題,淘寶直播技術團隊自研音視訊實時通信引擎,采用去中心化的設計方式,支援橫向級聯,實作大規模低延時直播,時延從原先的 5 到 7 秒降低至 1 秒内,并在弱網下有更好的表現。

雖然做足了準備,但平疇回想起當下,坦言還是有些擔心:“很怕發生預期外的問題,尤其是新場景、新使用者動線和新架構。”

實踐證明,曆年雙 11 期間産生的相對嚴重問題,往往都不是我們預先最擔心的問題,甚至絕大多數可能不在預期内。

道理很簡單,無論項目的挑戰或風險有多大,隻要在雙 11 前能預想到,技術側就一定會做好預案應對最差情況,并且做好演練工作。對于預期外的問題,往往是沒有準備預案或者預案有效性沒有經過驗證,遇到這種情況就非常挑戰整個技術團隊應急解決問題的能力了。不過,這也是雙 11 的魅力所在:

我們永遠沒有辦法對所有問題做好預案,永遠有未知的挑戰在前方等待,而我們唯有通過技術更新去不斷地逼近那個能夠做到的最好的極限。

是以,對技術人來說,雙 11 永遠沒有做的最好,隻有做的更好。

提前一年,決定上雲

今年雙 11,我們把“最要命”的系統全都放在雲上。

這是當時阿裡巴巴集團 CTO、阿裡雲智能總裁行癫在雙 11 當晚說的一句話。如開篇所言,2019 年雙 11,阿裡實作了核心交易系統 100% 上雲,而這個決定早在一年前就做出了。

“每年雙 11 結束,全集團都會進行一次全面的技術複盤,除了複盤在整個雙 11 過程中的得與失,更重要的是,确定下一年雙 11 技術的整體方向。2018 年雙 11 複盤時,集團就整體确定了将核心電商搬到雲上的大政策。”

2019 年 1 月份,上雲項目正式啟動,這個項目在阿裡内部被稱為“雲創未來”。電商核心鍊路全面上雲意味着沒有雲下的資源做切換與互備,平疇表示,這涉及到阿裡電商數百個核心應用,上萬台實體機台,總核數過百萬核。可想而知,這其中的挑戰有多大。

▐ 分步遷移:Q3 季度進入大規模應用開發

為了實作這個目标,從機房到軟體部署、網絡拓撲、中間件等一系列基礎設施都要先行準備并且在更早一些的大促,比如 618 大促中驗證有效性。平疇透露,除基礎設施外,每年上半年是業務上各類技術平台與架構更新疊代的黃金期,等到 7、8 月份,再結合雙 11 業務的具體玩法逐漸進入業務應用的大規模開發期間。

按階段來看,平疇表示,雙 11 上雲在技術層面可以分為如下三個部分:

1、平穩遷移上雲;

2、穩定使用雲服務;

3、結合雲技術探索新的高效研發方式。

第一階段:應用遷移上雲。

平疇表示,在這個過程中,最大的風險來源于雲上基礎設施和中間件等産品的變化,應用需要配合這些變化進行改造和更新。

梳理清楚這些變化後,技術團隊才有依據判斷需要進行哪些相關的應用改造與更新工作,來規避重大風險。在這個過程中,淘系技術推動了中間件二方庫更新、版本檢測、日志異步化改造、緩存叢集遷移等工作,建立了一套應用更新檢測的自動化機制和更新流程管理,確定所有應用更新到位,并在雲上布署最小業務叢集,能夠通過自動化業務功能回歸來驗證遷移後的業務功能一緻性。

其次,遷移過程必須有很強的可控性,具備快速容災能力。平疇表示,淘系技術會通過線上流量的複制進行壓測,全量回歸雲上的應用確定不出現性能退化。壓測的同時,技術團隊準備好快速切流逃逸的方案,在原有的異地多活的容災基礎上把中心機房建立成 4 個邏輯機房, 實作一鍵在同城 4 個邏輯機房之間的容災逃逸能力,并經過多次驗證。在具體遷移的過程中,小步驟切流,同時加強雲上監控,避免突發性大面積問題出現。

第二個階段,建立上雲保障小組。

淘系内部将雲和電商相關的研發一起拉通,明确響應機制和負責人,打通兩邊的變更系統和告警系統,細化雲告警資訊中明确關于電商應用相關的資訊。通過不定時的模拟攻擊雲環境,推動兩邊對故障處理的應急能力提升。

新零售線專門成立了上雲、用雲項目組,阿裡雲也有專門的項目成員進行對接。同時,我們有專業的 PMO 來保障跨團隊的項目合作,保障日常的周 / 月例會進行資訊同步以及項目推進,針對演練中不同的線上問題有專門的應急機制,雙 11 項目的橫向拉通保障工作也随着多年的技術更新而不斷沉澱經驗。

為了保障雲上的容載能力,雙 11 技術項目組組織了多次雲上突襲演練,演練雲上單元機房不可用情況下的應急手段。通過持續疊代逐漸将核心業務搬到雲上,過程中持續進行雲上回歸測試以及切流演練,在雙 11 前的幾次大促中也驗證了線上的用雲穩定性。

第三個階段,結合雲技術探索新的研發方式。

上雲的過程中,雲技術在向雲原生發展。除了神龍伺服器(阿裡雲彈性裸金屬伺服器)之外,新的 ASI 容器也大規模使用。為了探索 Serverless 的價值,淘系技術結合雲技術建構了自己的函數平台 FaaS,覆寫淘寶互動、閑魚、導購、躺平等多個業務場景。這個平台一方面大幅提升了研發效率,另一方面提供了雲端一體的輕量級研發方式。

阿裡雙11集團技術總指揮——湯興:一場不亞于移動化的變革已經發生前言從愛奇藝 CTO 到淘系技術掌門人第 11 個“雙 11”:一場堪比無線化的變革提前一年,決定上雲端側 AI 決策 140 億次未來規劃

淘系自研雲端一體函數平台 Gaia 架構圖

在上雲的過程中,我們看到基礎設施變厚了,研發變得輕了,推動業務研發從 Procode 走向 Lowcode,進而聚焦業務研發,可以更大地釋放研發生産力。

端側 AI 決策 140 億次

上雲、做 AI,這是近兩年所有重視技術研發的科技公司的大主題。在上雲之前,阿裡淘系就開始研發端側的智能應用,這也符合當下國人的消費習慣,大部分消費者習慣通過移動端進行交易。

2019 年,手淘大規模使用端上 AI 技術,在用戶端實作對使用者行為的實時感覺,應用深度神經網絡進行使用者意圖識别,并根據識别結果進行智能決策,做到推薦内容的實時更新,大幅提升個性化推薦效果和使用者體驗。

2019 年雙 11 當天,端側 AI 決策一共運作了 140 億次,對于資訊流的個性化推薦、消息的智能投遞、直播的商品智能檢測,效果上都有非常大幅度的提升。平疇表示,淘系技術部的輕量級深度學習端側推理引擎 MNN 已經開源,這種有效利用雲與端的各自資料和計算優勢的方式一定是未來的發展趨勢。

除了端側的 AI 技術研發,阿裡淘系也正在将深度學習、機器視覺和 3D 技術結合在一起,形成 3D AI 的方向,并将之應用于躺平家裝和家居領域。

最近五到十年,人工智能技術有了突飛猛進的進展,集中表現在深度學習,以及深度學習和人工智能問題的結合上,但是越來越多人對于人工智能技術是否可以再取得突破有所疑慮。平疇坦言,過去兩三年,業界對人工智能的作用有過度誇大。人工智能提升甚至創造新的場景需要和業務、産品、工程的深度結合,這需要較長的時間摸索。理想和現實的差距讓人們轉而認為人工智能達到了瓶頸,這是缺少對技術到産品轉化規律的耐心和尊重的表現。

新的人工智能應用場景的出現不僅需要人工智能技術發展這單一的條件,更是依賴資料、業務和産品的發展。是以,開發人工智能新場景不僅僅是人工智能技術團隊的工作,也不是簡單的理論結合實際,而是需要打造基礎設施、新産品、新的資料的積累。有了這些條件,人工智能的新場景才會源源不斷的孕育出來。

人工智能是戰術,核心還是具體場景的需求滿足,如何準确定義場景和相應的衡量體系才是人工智能發揮所長的前提。

未來規劃

2019 年的雙 11 過後,阿裡内部同樣召開了一場複盤會。平疇透露,2019 年的雙 11 是技術曆史上消費者最順滑的一次,交易核心鍊路全面上雲,淘寶直播的同時線上人數也創了曆史新高。

未來,阿裡會持續不斷提升購物車、下單等核心鍊路的消費體驗,同時通過技術更新的手段大幅優化整體資源使用效率,降低大促過程中的技術資源使用成本。

接下來,阿裡淘系的研發重點會聚焦在 5G 可能帶來的技術創新。平疇補充道,随着 5G 的發展,網絡速度越來越快,視訊和直播的普及度越來越高。對于淘寶和阿裡來說,傳統的電商是基于圖文和使用者進行互動,5G 會帶來新的購物方式。目前來看,直播是一種新的變化,5G 的部署可能會讓直播上出現 AR 互動,底層的低延時直播相關技術(編解碼、低延時通信)應該也會給消費者帶來新的消費體驗。

此外,AI、端計算、基于實體的 3D 渲染等技術在業務上的實施和應用也是十分值得關注的技術,将 AI 技術應用到智能家居、家裝領域,智能化、自動化地為使用者提供專業設計師水準的軟硬裝設計方案,并且基于實體的 3D 渲染技術将設計師的設計方案渲染出照片級的逼真效果。同時,以全鍊路數字化改造為基礎,以使用者定制化、場景化為消費者提供服務,形成端到端的解決方案,這些技術的高度結合才能創造極緻的使用者體驗。

One More Thing

淘系技術部依托淘系豐富的業務形态和海量的使用者,我們持續以技術驅動産品和商業創新,不斷探索和衍生颠覆型網際網路新技術,以更加智能、友好、普惠的科技深度重塑産業和使用者體驗,打造新商業。我們不斷吸引使用者增長、機器學習、視覺算法、音視訊通信、數字媒體、移動技術、端側智能等領域全球頂尖專業人才加入,讓科技引領面向未來的商業創新和進步。

請投遞履歷至郵箱:[email protected]

了解更多職位詳情:

更好的世界 需要更好的你 | 淘系技術2020校招通道正式開啟!

關注【淘系技術】,一個有内容,有溫度的微信公衆号!

繼續閱讀