本文字數:2280
閱讀時間:4~7分鐘
您将獲得:
1、阿裡雲AI·OS技術體系的核心價值
2、全面了解阿裡雲AI·OS技術體系架構
3、深度解析支援阿裡雲AI·OS技術體系的核心元件及業務場景實作方式
以下是正文
(本文内容來阿裡巴巴資深技術專家喜德,在雲栖大會推薦與搜尋工程技術專場上的分享)

(喜德_阿裡巴巴資深算法專家)
AI·OS是由阿裡巴巴搜尋工程團隊負責,集個性化搜尋、推薦、廣告三位一體的技術平台。本次分享來自該團隊資深算法專家喜德,為大家帶來這一年裡,搜尋工程體系在阿裡巴巴内網及開源平台上的最新技術成果。
AI·OS所面臨的挑戰
大家在使用手淘時會有三種頁面是大家會經常碰到:1、搜尋結果頁;2、推薦業面;3、大促業面。如最近中秋節的活動,在中秋節主會場中,搜尋與推薦的結果都是個性化的。這樣大型的會場頁面不僅需要涉及背景選品、廣告投放、業面搭建,同時還要負責全流程深度學習訓練以及預測體系,如果讓你負責搭建這樣一個促銷頁面,需要多少時間完成?有的人會覺得可能需要一個月的時間。實際情況是我們完成這樣一個頁面,隻需要一個不懂技術的營運,最快10分鐘,最慢15分鐘,就可以搭建完成并上線,讓使用者看到。
除了淘寶之外阿裡巴巴有不同的APP,每個APP都有搜尋、推薦、促銷、廣告。這麼多的業務如何讓他們能夠像手淘一樣,擁有最快的算法疊代效率、最佳算法效果、最強性能,且在同一個引擎平台,用最少的人力支援。這就是搜尋推薦工程體系要解決的問題。
AI·OS的平台價值及核心能力
這個問題在工業界很常見。現在生活中絕大多數人都有車且種類各異,如果汽車廠商運用垂直化的方式,從頭到尾做,則不管是研發周期的長度,投入的人力、技術穩定時間,都是需要消耗大量資源且花費很長時間。而汽車工業界解決這個問題的方法,就是打造一個汽車平台,最有名就是大衆的MQB平台,MQB平台對動力系統、操控系統這些汽車共有的部件進行沉澱,同時保留很強的可定制的能力。
那麼回到搜尋和推薦的業務上來,我們同樣需要支援大量的業務端,其中包括阿裡内網的業務、雲上的業務,比如開放搜尋、Elasticsearch、智能推薦;有效的支援這些業務則一定要有基礎能力的沉澱,包括線上能力的沉澱,像召回、排序、分布式通信架構,高性能的索引結構,深度學習的訓練、預測、資料處理的全流程、大量伺服器的管理、離線資料處理能力、運維管控的能力以及給使用者提供友善的插件定制能力。這些能力聚集到一起就是AI·OS平台的價值。
AI·OS架構解讀
AI·OS底層部件是Hippo,一個相容Kubernetes api的資源排程系統,在這個系統中,保障阿裡内網在搜尋推薦體系實作70%峰值使用率的情況下,線上業務不受任何影響。同時我們支援周均55%的平均CPU的使用率,這意味着,如果線上服務有峰谷,線上服務隻有10%-20%CPU的使用率的情況下,結合離線混布做到平均55%的CPU使用率,可以節省一倍的機器,成本可以大幅降低。
在資源排程系統之上,我分為線上和離線兩部分,而線上這部分我們可以分為五大核心引擎,通過這五個核心引擎可以組成不同的業務能力,比如做一個搜尋系統,可以用圖引擎做個性化資訊的擷取,用HA3搜尋引擎做搜尋召回,用深度學習的預測引擎做相關的算分和排序。而做推薦引擎,隻需把搜尋引擎換成推薦引擎就可以了,這樣就可以組合出一個推薦業務,通過這種底層靈活的元件結合,可以保證快速業務的疊代,并保障非常好的性能。
XDL介紹:
在五大引擎之上,我們針對不同的業務特點,将搜尋、推薦、廣告運用在不同的運維系統和業務接入系統。離線部分,基于計算平台的四大技術組建建構我們的離線系統,包括深度學習PAI、資料分析處理平台MaxComputer、實時計算平台Blink、互動式分析平台Hologres。因為采用雲上、雲下一體化的結構,四大平台在阿裡雲上都可以看到。基于這四大平台,加上搜尋、推薦、廣告的商品特性,需要由我們自己深度學習的訓練平台XDL。XDL主要解決的問題在搜尋推薦廣告商品的場景中,解決大規模分布式的訓練和預測的問題,用XDL平台的核心原因,是因為商品的場景,和語音圖象視訊翻譯之間的深度學習場景有很大不同,而不同點展現在商品場景中,有大量稀疏的特征,這意味着我們會有億級别的特征,十億級别的參數,百億級别的樣本,這個量級很大且稀疏,我們需要結合場景,做針對性的調整,這個調優與圖像的場景不同的,這就促使我們必須有這樣的平台。目前XDL處于開源狀态。
我們在支援世界上最大的垂直商業搜尋引擎時,資料的量級和業務規模決定了這是一個大規模高頻觸發處理平台,且支援分鐘級實時學習。在深度訓練場景中,訓練越實時,使用者的行為回報就會越快,這也是商業場景中非常有特點的需求。在看到一個商品的時候,你會同時看到一批商品特性跟一般訓練的組合的不同,會有結構性的特點,有利于我們提供針對性優化,對性能和存儲帶來提升。
Euler介紹:
在圖學習細分領域,我們同樣可以在商業場景中獲得很好的效果,我們會有專門深度學習的子分支Euler,Euler是一個非深度部分的資料處理平台,主要針對搜尋和推薦資料索引前需要用到的一些資料分析處理,以及分布式計算的業務邏輯。另外是端到端的深度學習、訓練、預測一體化的系統算法平台,處理的是從樣本的生成、訓練,到模型的驗證、分析,再到線上的上線切換、服務,一直到樣本回流。通過這個系統,算法同學可以實作非常快的疊代速度。因為在深度學習疊代過程中,疊代越快,你的算法效果可以做的越好。在商業場景中,我們會有一些常用的圖形算法,從遊走類,如deepwork,到比較複雜的卷積類,如GCNGCT等,我們在Euler這個平台裡面都給大家提供一個基礎的實作能力,同時阿裡内部在用的三種算法我們也同樣進行了開源。大家可以通過上圖二維碼掃碼了解。同時我們在圖學習的底層提供了非常關鍵的組建--圖引擎,我們内制的遊走類和卷積類的算法,支援管理的接口,友善大家拓展算法,給自己的業務帶來很好的效率提升。
基于這個AI·OS算法平台,我們不僅支援了阿裡内部搜尋推薦業務,同時也支援阿裡廣告業務、雲上的Elasticsearch、開放搜尋、智能推薦這些業務,是以是三位一體的引擎平台體系。
相關活動:
限時折扣截止--11/29
- 新購,首月75折
- 新購/續購/更新,預購6個月85折
- 新購/續購/更新,預購12個月8折
點選下方産品連結購買開放搜尋(Opensearch)
阿裡巴巴自主研發的大規模分布式搜尋引擎平台,其核心引擎HA3(問天3)系統為包括淘寶、天貓在内的阿裡集團核心業務提供搜尋服務支援。通過內建智能查詢語義了解、機器學習排序算法等能力,旨在為企業提供高搜尋品質的一站式内容智能搜尋服務。
智能推薦(AIRec)基于阿裡巴巴領先的大資料和人工智能技術,結合在電商、内容、新聞、視訊直播和社交等多個行業領域的積累,為全球企業及開發者提供個性化推薦服務
加入社群
點選 訂閱
《阿裡雲搜尋與推薦技術交流期刊》,擷取本片原文幹貨文稿!
如果你想與更多開發者交流随時交流、了解最前沿的搜尋與推薦技術,可以掃碼加入社群