作者:阿裡巴巴搜尋推薦事業部進階研究員 沈加翔
一、三位一體的線上服務體系AI·OS介紹
AI·OS(Artificial Intelligence Online Serving)是由阿裡巴巴搜尋工程團隊打造,集個性化搜尋、推薦、廣告三位一體的線上服務平台。AI·OS引擎體系所支撐的業務場景包括:手機淘寶所有搜尋頁面、手機淘寶上的資訊流(猜你喜歡)、大促重點活動會場、淘寶首頁商品推薦、分類行業個性化推薦以及商品選品場景,覆寫了手機淘寶上80%以上使用者群體。使用一套技術來支撐搜尋、推薦乃至廣告,這在大型網際網路公司裡是比較少見的。阿裡的平台技術戰略,本質上是兩樣東西,一是電商技術,另一個是和電商配合的大資料AI技術的應用。電商OS,包括商品管理、類目管理、營運管理、交易鍊路。而在大資料、深度學習的時代,AI的投放、搜尋推薦,甚至廣告的投放,已經是獨立于傳統電商的技術場景。除了手淘上的場景之外,AI·OS還支援阿裡電商集團内能夠想到的所有場景,典型的包括東南亞的Lazada、聚劃算、飛豬、優酷、釘釘、菜鳥、盒馬、本地生活——餓了麼、口碑,甚至和經濟體内部的兄弟公司支付寶在合作。

在深度學習的時代,AI·OS引擎體系的架構演進的變化是相當大的。但是我們并沒有像其他的網際網路公司一樣,在搜尋和推薦的系統之外單獨做深度學習的技術。之是以成為今天的AI·OS體系,是因為我們把搜尋、推薦、資訊流、廣告、深度學習這幾項,從技術到業務場景都不同的東西,非常好地結合到了一起,得以形成了有實質内涵,能互相借助合體發力的基礎引擎平台。
從另一個角度縱觀AI·OS上衆多的業務場景,整個體系内會涵蓋以下技術或概念(如圖):
第一層,分布式引擎系統需要具備的能力。無論是搜尋、推薦、廣告,都需要召回、排序,系統做大之後,需要分布式通信,高性能索引的存儲,要有比較高效率的支援索引靈活建構更新的能力,以上是基礎能力。
中間這一層,是在深度學習時代沉澱出來的技術要求和場景要求。比如深度學習需要做樣本處理,做訓練,線上預測,同時,與之相應的,是個性化投放,這在搜尋、推薦、廣告都有所展現。最後,索引的部分還應該支援實時更新,這個概念在電商體系尤為重要。
再下面,就是整個體系内有資源管理,高可用性,相應的計算引擎的支撐,運維的管控和插件的支援。
以下是AI·OS工程體系技術的概念圖。
在這個元件的最下層是資源的管理,叫Hippo,是一個非常高效的資源管理系統。
最上層業務,包括淘内業務,雲上業務和廣告業務,都是近幾年陸陸續續拓展起來,一起逐漸遷移到AI·OS這個功能體系上的。阿裡的很多技術、業務是一個自底向上的模式,我們有非常強的創新意識。我們自底向上把搜尋推薦平台化建設到百分之七八十,再組織推動到戰略高度,加速之後形成了全覆寫的格局。
右側是系統裡的中間件,是更為基礎的元件,跟實際的業務功能都直接相關。包括服務的定位——運作數萬台機器的系統,内部要想服務定位需要有一個自己的機制。服務監控達到秒級的,這種秒級的服務監控和内部應用的metrics對分布式系統的debug是非常關鍵的。索引分發是解決引擎資料更新鍊路的重要基礎元件。我們的消息隊列是一個利用機器碎片資源搭建的高性能消息元件,隻有非常小的CPU消耗和網絡的通量,基本上是一個免費的元件,成本上比較有優勢。二層排程和彈性擴縮,在應對大促時,是在内部做搜尋、推薦、廣告之間分鐘級資源調配的重要手段。
左側的算法平台、離線平台、訓練平台、計算平台,是我們在深度學習時代新的開拓。從樣本和特征的處理鍊路來說,有我們的算法平台——星雲體系,在這個過程當中,有訓練引擎的對接——XDL。計算平台,是支撐算法樣本和訓練的基礎,也是阿裡集團内部強大的技術支點,是和搜尋一起成長起來的,互相促進互相支撐。
中間,是這幾年最重要的積累,和業務密切相關。端上智能,我們在端上不僅僅做簡單的推薦改變和結果混排的變化,而是真正在端上做模型的訓練,深度模型的預測,在這方面,手淘資訊流是全世界規模最大的深度學習、訓練和預測的應用場景,這是我們比較有特色的探索。
HA3搜尋引擎的服務是我們最經典的具有全文字檢索能力的引擎。商業化引擎,是與HA3相對應的,支援廣告業務、關鍵詞比對帶廣告,或者支援定向場景投放的召回引擎。iGraph圖引擎,是具備線上圖計算和圖檢索能力,在業界規模較大的圖檢索引擎,它裡面具備的使用者個性化關系、知識圖譜的線上推導能力都是很大規模的。這些引擎都是支援資料實時更新的,這個能力的來源就是AI·OS Framework,支援對資料的管理,對更新的管理,是對右側整套技術的依賴,也有延伸出來的深度學習的能力。
二、AI·OS 線上服務技術架構演進
AI·OS線上服務架構,對逐漸走向規模化的初創公司,具備一定的參考意義。
AI·OS 雖然有十年時間,但由于之前一直圍繞淘寶搜尋業務深耕細作,在2013年至2015年期間主要在搜尋引擎上做性能優化,在阿裡體系内部做搜尋引擎平台化。搜尋搭建主要是運用比較經典的架構——Query的處理+搜尋引擎+摘要服務,Query的部分,會有一些個性化存儲,當時是用簡單的KV來完成。這個架構是很多初創型企業選用的架構,也是我們雲産品上提供的一個經典解決方案。
2015年到2018年,随着資訊流業務的進入,我們将搜尋底層(Suez或AI·OS framework)資料抽象沉澱出來,在沉澱的資料上面,衍生了圖引擎、預測引擎、搜尋引擎、推薦引擎,形成了今天AI·OS的主體架構。在這個過程中,我們也統一了全集團的搜尋和資訊流基礎架構,但這個過程是很依賴于阿裡集團内部自下而上的搜尋平台推進,這是在業界獲得證明,在集團獲得認同後,納入到集團戰略裡的。
2018年~2019年,我們推進了全圖化的架構,是從深度學習開源架構TensorFlow學來的。在深度神經網絡疊代過程中,全圖化架構這種圖化DAG的表達,對業務描述更為标準通用化,我們把這個全圖化架構學來後,推廣到所有業務線,不僅是深度學習上,還包括業務邏輯調整、場景疊代、功能調整,如粗排、精排、統計、過濾這些功能,都用圖化的方式來表達,在業務疊代效率上,有了質的飛越。
由于之前在定制業務邏輯時,難以避免有些代碼級的,像C++、JAVA、插件開發,雖然能解決業務需求,但維護更新成本較高。解決方案就是用DAG算子化的表達,完成算子圖後,随着版本更新,不需要改變算子圖,僅需改變算子的實作,把業務疊代、平台更新的耦合度大大降低,非常好地解決了這個問題,這是近兩年重要的技術突破。
在這個過程中,我們也把搜尋和推薦的技術,用到了非常有趣的場景上面,比如菜鳥物流引擎,本質上是圖檢索和圖計算的表達,跟我們的引擎體系,與iGraph圖引擎一起成長,成就了這個典型的場景,在這個場景上每天有億級别的包裹在圖中流動,尋找最優化的路徑,都是通過這個引擎來支援的。還有像釘釘消息搜尋,消息是加密的,我們是無法檢視的,而這個加密是從上到下貫徹到每一個環節的,在正常的搜尋引擎中,是無法實作的。這個加密能力,是靠引擎的疊代實作的,除了深度學習外,我們在逐漸引入SQL的能力。
随着集團内部進一步貫徹中台戰略,不管是在軟體的抽象,還是在能力的衍生,都需要在雲上發揮。我們已經在集團内部已與螞蟻金服業務拉通,并開辟了新的突破口。我們也真正在踐行平台化、通用化的思路,用最高效的方式解決問題,并打造出了海神(一站式選品投放系統)、開放搜尋(一站式内容智能搜尋服務)等經典應用産品。其中,海神平台支撐了阿裡集團1000+個性化場景,業務覆寫淘寶、天貓、聚劃算、雙11大促等業務線,支援了超過10億次的選品投放。開放搜尋作為高搜尋品質的一站式内容智能搜尋服務,以産品方式規模化支援搜尋業務,覆寫了集團絕大部分搜尋業務,業務應用數量超過1萬個。并在雙11大促時,擔負了重要角色,支撐了高達100萬的QPS峰值。
三、AI·OS技術概覽
AI·OS主要部件包括:
端到端深度學習平台:星雲&AOP
深度學習極大加速了模型工程的發展,模型疊代越來越頻繁,網絡結構越來越複雜多樣,是以給算法疊代效率、資料計算效能以及模型傳遞可靠性等都帶來了巨大挑戰。為此我們提出并建構了面向大規模商業化場景的一站式深度學習模組化平台——星雲。借助星雲,使用者可以快速完成從特征引入、樣本特征變換,到模型訓練及評估,再到模型傳遞整個算法模組化閉環。在此基礎上,星雲提供了完善的資料模型校驗體系,確定使用者的離線模組化和模型傳遞具備生産級别的可靠性。星雲支援全量學習、增量學習和線上學習,并通過高層抽象實作了各種學習模式之間的低成本切換。
大規模分布式深度學習架構:XDL
XDL是以開源架構為基礎,面向廣告、搜尋、推薦等場景打造的分布式深度學習架構,針對高維稀疏特征、網際網路結構化資料和結構化模型進行了專門設計與優化。XDL支撐着阿裡媽媽直通車、鑽展、超級推薦、品牌等多個營銷産品對使用者的深度了解與智能投放,是智能營銷AI的核心驅動力。
預測引擎:RTP
傳統的模型增量學習通過restore目前模型,持續訓練,天級更新,或者實時流式訓練,小時級更新,新模型需要經過全量切換才真正生效。基于AI·OS的預測引擎RTP,把TensorFlow的能力內建進來,讓深度大模型支援實時更新,充分利用實時資料分布,提升CTR/CVR預估精度,擷取業務效果。模型特征支援實時更新,模型可以增量訓練,通過對RTP線上graph分解,提取可更新模型weights成最大不連通可執行子圖,實時發送模型資料消息,真正實作了模型離線流式訓練,線上實時更新的效果。最終将線上模型更新周期從之前的小時級縮短到分鐘級别,模型生效時間從之前的分鐘級縮短到秒級别。
全圖化推薦引擎:TPP
TPP(The Personalization Platform,阿裡個性化平台)為集團衆多的個性化業務提供開放、一緻的解決方案,讓搜尋、推薦技術輕松服務于業務發展,業務也能快速得在平台找到需要的技術,是AI·OS(Online Serving)大資料深度學習線上服務體系中的入口之一 。使用者在TPP平台上編寫方案代碼,通過場景的形式對外提供服務。使用者不用關心機器資源申請,應用部署結構,不需要編寫服務架構,隻需要實作自己的推薦邏輯函數,在TPP産品頁面管理方案的生命周期,從編譯,調試到釋出上線。
四、AI·OS雲原生産品與實踐
我們将集團内沉澱出的技術能力,從2014年開始逐漸向外部推出。目前,依托于AI·OS體系建構的産品矩陣如下所示。
開放搜尋(OpenSearch)源于阿裡巴巴AI·OS體系技術,是免運維、一鍵式的雲上平台,将搜尋平台服務化、産品化,完全屏蔽了搜尋系統的底層複雜度,以标準化産品的方式支援業務。開放搜尋擁有比較好的搜尋品質,效果可以線上調優。隻需要送出内容、配置,就可以直接得到搜尋體驗。搜尋體驗中相關性可靈活配置選擇,可以改寫query、定制分詞、送出行業詞典。
在阿裡巴巴集團内部,我們依靠開放搜尋統一了各個搜尋中長尾業務,自助接入的業務數量達上千個,基本覆寫了集團各個BU的業務。經過數年的耕耘,我們在阿裡雲也擁有數千家使用者,包含内容、電商、視訊等行業的典型應用。
智能推薦(AIRec)延申自阿裡集團内部的海神系統,提供一站式的個性化推薦服務,服務使用者在送出内容和使用者行為,在確定資料保密的前提下,按照不同行業的模闆,應用個性化推薦算法,實時調整效果,為使用者提供服務。除了阿裡巴巴深耕的電商領域外,我們在内容、視訊等其他行業算法的投入是相當充沛的。我們要把内部的技術用好之後,很自然地更加抽象、通用地拓展新的場景。
在這一過程中,資料源的埋點規範、使用是有些門檻的,但我們也緻力于讓産品更易用,同時效果提升的監控、調試、營運幹預的政策,都已經在産品裡提供了。在中小企業的創業期間,這可能将成為一種剛需配置。
還有圍繞開源生态的Elasticsearch,這款服務由我們和Elastic公司合作推出。我們秉承開放的生态理念,将Elasticsearch的靈活易用和我們排程管控系統的穩定高效相結合,并根據使用者需求,不斷疊代自研的創新性功能。使用者需要什麼,我們就會提供什麼,Elasticsearch在我們體系上做适配,是一個互相扶持、互相助推的局面。
在這三個垂直産品之下,是我們基礎的雲上技術積累,比如ElasticFlow,在資料進入引擎之前,需要對資料做打平處理,再灌到搜尋引擎裡,例如Elasticsearch就需要ElasticFlow。同時,它還實作了開放搜尋開箱即用的離線能力。在這一層,我們需要的是具化的計算引擎能力,這個計算引擎是在集團的計算平台之上,為搜尋、推薦定制了一個資料采集、開發、共享以及模型訓練的能力,這個能力提供出來之後,可以讓其上的産品橫向地拉通共享,這也是AI·OS體系沉澱的重要标志。
再下層是管控平台,搜尋的基礎平台以及阿裡雲的基礎産品,在這上面我們會有一些生态化的産品。
以下将介紹幾個典型使用者案例。
在春節期間,我們和好未來達成了合作。它旗下的直播雲教育平台,在合作過程中有非常大的業務量增長,使用的是Elasticsearch+Logstash+Kibana+Beats的産品組合。在疫情期間,業務量的峰值和平時相比,有翻倍的Elasticsearch叢集擴容的需求,我們在分鐘級完成了叢集擴容,讓客戶的使用者體驗得到最佳表達。翻倍的擴容不止需要把資源要過來,還需要把資料擴上去,并在不需要的時候,把資源還回去。這個是我們所擁有的非常重要的彈性擴縮能力,能很好地滿足使用者需求,讓他在成本上達到最優。
上圖使用開放搜尋的典型電商app,主打運動潮流,有很多粉絲,對搜尋效果非常關注。該客戶曾選擇自建搜尋,但在擴容處理、搜尋排序上缺乏些經驗,搜尋無結果率曾達到60%。後來,我們和客戶一起優化,通過開放搜尋産品疊加了我們阿裡内部搜尋算法的沉澱,包括分詞、查詢語義了解、query的改寫等。功能上線後,搜尋無結果率下降了80%,交易轉化率提升了9%,這意味着搜尋的改動帶來了GMV的直接增長。
以上是同時使用開放搜尋和智能推薦的著名IT社群——CSDN。他們之前做法是送出URL,由别人抓,提供索引,有了索引之後,再通過大搜尋的方式去查,做站内的限制,這是非常流行的模式,但這個模式的流量變現是受制于人的,非常脆弱。同時,大的通用方案無法改善搜尋效果,送出的URL沒有辦法100%保證被收錄,更無法保證搜尋結果的召回和相關性。通過開放搜尋的方案,定制了這些能力後,效果比自建的方案和原合作方案都要好,PV_CTR比自研的高1倍以上,CSDN現在已順利地支撐了網站的搜尋服務。
衆安保險在阿裡雲Elasticsearch上是比較大規模的使用者,我們幫助他提升了性能,優化成本,在資料庫檢索加速場景滿足了多表關聯的查詢需求和高可用性的要求,并保證金融類企業異地容災部署的需求。
加入社群
點選訂閱
《阿裡雲搜尋與推薦技術交流期刊》掃碼入群,了解更多資訊