阿裡文娛搜尋在深度語義相關性計算的探索

大家都知道，視訊是4G、5G時代最便捷的資訊載體。它為使用者帶來了極大的便利，也給搜尋帶來了更大的挑戰。視訊，無論是制作、存儲、計算還是分發，都比文本模式資訊困難得多。今天的分享會以四種方式向您介紹：

阿裡娛樂搜尋業務介紹

相關性和排序

多模式視訊搜尋

對深度語義關聯的一些探索

首先，與您分享以下娛樂搜尋業務簡介。

1. 阿裡娛樂搜尋業務介紹

搜尋整個阿裡娛樂提供一站式搜尋推薦服務，服務範圍不僅包括優酷的整個搜尋門戶，如APP端、OTT大螢幕、PC端和網絡終端等，還涉及大麥、票務等領域。該搜尋内容涉及從傳統影視、動漫等版權的長視訊庫，也涵蓋了社會各領域的UPGC視訊内容，除了電影人、表演、小說等也是娛樂搜尋各個業務領域的需求，需要提供搜尋服務。

就使用者而言，該平台擁有數億級的視訊資源。不僅包括平台購買的受版權保護的OGC視訊（如節目，電影和電視節目），還包括使用者上傳的一些UGC視訊。

2. 使用者價值→評價名額

視訊搜尋的工作原理是什麼？讓我們首先告訴您視訊搜尋中的使用者價值是什麼，以及它如何影響搜尋技術。評估名額的使用者價值在這裡展現在兩個次元上。

首先是工具屬性，即使用者使用搜尋服務作為工具來查找内容，目标是找到正确的做法。

搜尋要準确，不僅是使用者價值的基礎，也是搜尋屬性的基礎。從此次元評估搜尋的有效性需要一系列體驗類名額（跳出率、相關性、及時性、多樣性等）。可廣播性是視訊搜尋的一個獨特屬性，是指視訊是否可以在優酷平台上播放。出于版權和監管原因，某些内容不可播放。此外，還會定期對搜尋效果滿意度進行人工評估，做橫向和縱向比較。

第二個是分發屬性，即使用者如何在平台上消費更多内容并帶來更多收入。

其實有兩個次元要多，一個是要看VV的視訊數量，二是PS的消費時間。這兩個名額對于視訊的垂直搜尋區域非常重要，因為它直接衡量使用者滿意度。對于平台來說，搜尋還需要能夠支援平台的外展，實作廣告、會員等商業價值。這些屬性決定了視訊搜尋業務是一項多目标優化任務。

3. 搜尋算法架構

下面是用于從上到下搜尋資料的算法架構，資料層、底層技術層、Query 的意向層、内容調用層、關聯層和排序層。這個架構層次比較高，首先大概不會涉及細節，希望大家能了解視訊搜尋的關鍵技術，會更貼近内容的内容在這裡突出，友善了解後面的内容。

資料層：它基于視訊的内容，從中擷取來自實體，關系和屬性的适當知識（例如誰是程式中的參與者？它的作用是什麼？它是在哪一年釋出的？通過内容組織聚合地圖，例如基于事件次元的及時性聚合。

基礎技術層：基于資料層，底層的CV技術和NLP功能用于支援上層對Qury意圖的了解，内容的召回以及随後的相關性和排序。意圖層需要了解使用者的 Qury 意圖是什麼。首先，分析Querrey的成分（Query Tagging），标記是要指出Qury中的成分是什麼意思（比如"一步一步報警吳啟龍"這個咭，需要識别的"一步一步報警"是一個程式名稱，"吳啟龍"就是一個人）。然後，這些資訊用于建立一個細粒度的意圖系統，深刻了解使用者表達的意圖（例如，需要了解使用者是否在尋找節目的意圖，或者是否要檢視角色的周圍環境和一般知識類的意圖），這可以指導頂部的回憶相關性排序。

回憶層：涉及多媒體内容了解是視訊搜尋的重點，因為與傳統搜尋不同，視訊内容傳達的資訊非常豐富，很難用短十幾個字的标題準确寫照，而使用者在搜尋中，因為表達他的需求非常不同，自然存在語義鴻溝或知識鴻溝，是以不能把視訊當成黑匣子，而是需要利用NLP的能力，CV的能力，連同其他技術能力，提供對視訊内容的全面分析。

相關性：涉及的主要内容是基礎相關性和一些語義比對技術，以及稍後重點介紹的深度語義相關計算。

排序層：通過前面提到的兩個次元（體驗和分布）提高整體搜尋性能。排序主要用于機器學習的學習排名的某些模型中，以改善分布，同時還優化體驗類的目标，例如時間敏感的多樣性等。這是一個典型的多目标優化任務。

以下是相關性和排序，這兩個搜尋的核心子產品。

1. 搜尋相關性 - 挑戰

相關性被定義為為使用者提供一個 Qury 和一個文檔 Doc，以确定 Qury 和 Doc 是否相關。與通用搜尋相比，視訊搜尋有三個特殊挑戰，如下所示：

異構内容了解：表中的兩個文章，使用者Query和視訊标題Doc，實際上無關緊要。通過對視訊内容的了解，豐富元資訊，建立異構内容的相關性。（比如使用者庫瑞《變形金剛2017姚金東》，Doc隻有姚金東，其實通過對視訊内容的了解，可以知道姚京東和變形者的關系，并且知道它是在2017年拍攝的。是以，通過對内容和IP指紋的了解，比如這個視訊周圍的IP和IP本身，可以豐富視訊的元資訊，提高異構内容比對的相關性。

實體知識比對：視訊有很多領域知識，需要用它來建構視訊内容（例如标題内容）。具有NER的實體提取标題，CV技術有助于提高其識别準确性。（例如，使用者查詢""法律是沒有同情心的中國人"，查詢方通過作文分析得到"法律是不可接受的"是一個程式名稱。然而，doc使用者上傳是一種社會現象，需要對Doc方面有一個結構化的了解，可以推斷出Doc方面對"法律上不被允許"的了解不是一個程式。基于這些資訊，這種先驗知識可用于做出更好的判斷，并确定相關性比對時的最終相關性。

深度語義計算：這種挑戰其實在一般的搜尋領域中是遇到過的，但視訊搜尋領域的挑戰更大，因為它需要結合知識，以及對視訊内容的了解去連結，才能更好的解決。稍後将更詳細地介紹這一點。

2. 搜尋相關性

對于搜尋關聯，一般解主要從四個次元展開，如下：

基本特征：基于文本的比對，包括術語稱重和基于術語級别的比對矩陣。

知識特征：主要是通過對内容的了解和視訊本身與元資訊的特征提取知識次元，如視訊人物與程式相關聯和與一些元資訊相關聯，用來做一些知識類的比對。其中，Doc Tagging類似于前面描述的Thery Tagging，但它需要将内容了解NLP技術和關系資料結合起來，以識别視訊中标題的組成部分。

測試後功能：在某些情況下，測試後功能比先驗功能（基本和知識功能）更重要，因為在使用者搜尋 Qury 之後，使用者與搜尋結果之間存在互動，例如 Qury 和 Doc 之間的互動。搜尋域中比較常用的互動特征是Query_Anchor，它是基于該使用者在搜尋日志中的協同點選行為，從Doc次元中挖掘與Doc關聯的古裡，并基于古瑞進行比對。

語義特征：主要是指文本層面的語義比對。過去，DSSM雙塔模型已被使用，最近Bert語義模型已被離線或線上用于離線或線上語義計算。除了比對次元之外，語義特征還可以支援召回，Querrey通過SMT和點選行為分析的語義擴充可以擴大召回範圍，以獲得更好的語義比對。

3. 相關性資料集建構及特征系統

在這種情況下，首先建構相關資料，更好的方法是通過手動标記建構相關性資料集，其中标記的規範尤為重要。此資料集通常以衆包方式擷取，因為資料集很大，必須與實際業務和使用者需求相結合。本文基于相關資料建構，不僅包括要标記樣本的相關性級别（例如将文檔劃分為完全相關、完全不相關和部分相關的級别），還包括它們之間的排序關系或等效樣本的服務上層的順序，是以标簽品質和成本是本文的重點。對于成本，需要一個有效的問題樣本自動發現機制，左圖中所示的基于Q-Learning的想法旨在加快标簽效率，同時提高标簽品質。

本文專門将資料集劃分為驗證集和定型集。驗證集主要針對特定類型的線上體驗問題而建構，并在一定程度上具有針對性。訓練集（回歸集）的目的是評估算法在驗證集的疊代優化期間不會對行的整體效果産生負面影響。基于訓練集到線上模型的連續疊代，線上模型預測樣本并不那麼準确，通過反向模型對這個問題進行樣本挖掘，挖礦要外包給标簽。這裡的挖掘主要是挖掘一些模型預測結果和線上名額的泛化比較大，這些情況可以形成快速疊代的閉環，提高模型的圖案精度，可以大大提高整個标簽的品質和效率。

右圖顯示了目前相關性的整體特征的劃分。頂部是Querry的特征，其中包含一些一般的文字比對特征，以及與意圖相關的特征，例如Querry是角色還是節目。中間是文檔類的特征，包括一些先驗特征，比如從文檔标題解構特征和一些基本的文本比對特征，除了先驗特征是後A先驗特征比較重要之外，它主要用于做一些分布類目标。底部是Qury和DOC的比對特征，基于子的文本比對和意圖比對，例如類目的比對，以及這種知識水準比對和語義比對。

4. 分揀功能系統

基于相關性的特征，上階在特征的基礎上進行一些整合和豐富。這裡主要分為四個區塊的排序特征系統，那麼除了匡匐和DOC及其比對特征外，這些都是所有業務領域共有的，比如除了技術比對類、查詢統計之外，還增加了一些視訊平台的功能，比如實時廣播控制，它是解決排序除了體驗目标之外，還要解決分布類目标，因為它在決策領域很重要。

在視訊内容功能組中，内容品質更為重要。由于使用者每天上傳的視訊量非常大，是以有必要評估内容的品質。我們負責提供高品質的視訊内容功能，這些功能主要從封面圖像，标題，圖檔品質，圖像和其他子產品進行評估。

最後一個是使用者的特點，主要包括一些使用者的行為特點、人像特征。它主要用于一些廣義的搜尋場景，以增強系統的個性化能力，如我們這邊的頻道頁面搜尋排序、廣義排序等。

為什麼選擇多模？

因為基于文本子產品的搜尋系統，比如基于标題和描述的文本搜尋，在視訊搜尋中會遇到一些困難，首先，單模資訊缺失，使用者上傳視訊，标題往往比較簡單，很難表達豐富的視訊内容，而且有些文字資訊和視訊内容沒有關聯，此外，使用者的搜尋意圖也越來越多樣化，甚至版權視訊搜尋也不是在這個程式名稱查詢中，它往往有更多的社交和互動需求。還有需要關閉，即這類内容和創意使用者，他需要找到各種視訊剪輯素材，那部分需要還需要使用多模态技術支援。另一方面，多模态的優勢在于它能夠內建各種模式，如語音文本圖像和視訊。結合多模式資訊，深入了解視訊，幫助使用者找到他們真正想要的東西，并進行許多新的搜尋。

1. 多模式視訊搜尋

架構圖是使用者用于搜尋的多模式解決方案。目前，多模态的研究熱點在業界和學術界都非常高，但學術界傾向于端到端的解決方案。例如，将查詢和視訊映射到中間模式，然後在中間模式中進行語義比對，然後進行相似性。這種端到端的解決方案當然是了解短視訊的好方法，但對于長視訊，很難真正準确地了解它們。因為長視訊包含的資訊越多，資訊越多，噪音越大。更重要的是，工業似乎對整個系統的可解釋性和可控性有很高的要求。是以，很少使用單一的端到端解決方案。

優酷的多模式搜尋使用三階段解決方案。第一階段使用CV技術将其他模式（如圖檔和視訊）的資訊簡化為文本模式，并使其成為結構化的内容了解。第二階段通過多模态内容檢索實作回想，在上層通過多模态内容關聯排序算法實作最終的動态搜尋效果，如"上面的圖像"，基于人臉識别技術可以識别視訊中出現的星星（容易看出别緻，黃子謙等明星），然後通過OCR和AR技術識别視訊中的對話内容并轉換為文本，最後基于文本做結構化了解。結構化文本需要系統的了解群組織，本文主要采用關鍵詞的提取來了解核心概念，并形成内容主題。同時還将采用音樂識别、動作識别、場景識别等CV技術，不斷豐富視訊内容的結構，讓使用者進行多種組合搜尋，系統可以更好地回憶和排序結果。

下面是一個案例，通過這個案例介紹一下本文在做多模态視訊搜尋時，如何提取群組織内容關鍵詞，将視訊内容簡化為文本模态後如何做好文本内容的組織和了解。

在圖檔中，視訊是關于歐洲陶瓷的，但其标題很簡單，是陶瓷文字，字幕文字是用OCR技術識别的。字幕文本承載的内容關鍵詞非常多，另外，内容與關鍵詞所屬的關系要多得多，是以通過多種關鍵詞提取技術來提取候選關鍵詞，同時擴大了候選詞源的多樣性。基于NER的方法可以保證提取的關鍵詞是百科全書實體，具有相對廣泛的知識内涵。結合N-gram和語言模型的新單詞發現方法，擴充了對未知知識領域的探索。挖掘出的候選關鍵詞的數量其實非常大，在關鍵詞的基礎上，根據視訊内容與候選詞的比對或與關鍵詞的相關性進行分類，通過分類模型将它們分類為核心關鍵詞，有常見的關鍵詞和提及關鍵詞。除文字特征外，關鍵詞分類的核心特征将通過音頻、視訊等多模态特征進行訓練，提高分類的準确性，更準确地預測關鍵詞和内容表達的相關性。在這個過程中存在挑戰，比如這個關于歐洲瓷器曆史的視訊，但标題很簡單。雖然我們将能夠使用前面提到的關鍵字提取技術提取歐洲，梅森和塞夫勒等關鍵詞，但如何将這些關鍵字連結到歐洲并了解此視訊是關于歐洲的曆史，而不是中國或日本的曆史。另外，對于瓷器領域（如瓷器、瓷器高嶺土）的實體知識，如何知道實體和瓷器是在談論類似的東西，那麼就需要有技術作為支撐。因為實體知識庫的技術可以覆寫廣泛的領域，比如全行業的豐富實體資訊，可以幫助提取核心内容主題。此外，該算法需要能夠推理實體之間的關系，以便更全面地了解視訊，然後更好地支援上層的調用、比對和排序。

2. 影響案例

上圖顯示了基于多媒體實作的搜尋案例的線上效果。最左邊的案例，當使用者搜尋"軍譯張兆忠"時，可以看到前面的幾個視訊，其内容是張兆忠的主講者。但是，标題上沒有名字，我們通過算法了解内容，從視訊子產品中提取出來，并以此關鍵字的形式顯示。其他情況類似，這意味着使用者在視訊開頭沒有什麼需要的，但是在視訊内容中有一個，是以這次有必要使用多媒體視訊檢索。

最後，介紹一些關于深度語義相關性的探索，前面的介紹内容都是在阿裡娛樂之前的一些工作，來阿裡娛樂三個月來做一些深度語義相關性的探索工作，來分享。

1. 從字面上比對 V.S. 語義比對

為什麼要進行這種深度語義計算？

由于傳統的文字比對或文字相關性，其實并不能解決一些語義問題。這裡有兩種情況。

使用者搜尋"如何騎自行車"的第一個案例實際上是在尋找一種政策，圖中顯示了傳統方法的結果。字面上的比賽不是一個噱頭，而是一個搞笑的視訊。

第二種情況是使用者在尋找"熱油燒什麼處理"，這是一種怎麼做的Qury，但結果并不理想，都是字面比對的，不是使用者想要的，是以需要做深度的語義計算。主要從系統設計層、邏輯架構層和模型算法層三個層面。

相關性系統設計

首先，看系統設計的相關性，本文結合業務需求做一個新的系統設計。

較舊的相關性用于提及LTR進行一些多目标優化的各種特征。這種方法的問題在于，它将經驗類問題與分布類問題耦合在一起，使得LTR學習不是很好。是以，新版本的關聯系統設計與LTR做了明确的功能劃分。新版本的相關性主要解決的是經驗類問題，ltR不表示分布問題，使經驗問題和分布問題解耦，這并不是說LTR不管經驗類問題，而是彼此之間的問題。這有兩個優點，一是提高了整個搜尋結果的秩序感，為使用者提供了他們最想要的東西，二是基于秩序的保證，ltR可以增加使用者的粘性，引導使用者多看。

下面是相關性增長規範的示例，這些規範分為三個或四個齒輪。相關性主要在于執行這種子檔案。

第一檔：使用者的意圖不滿意。比如奎瑞的一步一步的驚險，吳啟龍的一步一步的驚險，DOC說根本不是電視劇，是以不被回憶。

第二檔：使用者部分打算滿足。例如，為了滿足使用者的主要意圖，但不滿足次要意圖，這可以作為推薦或相關結果呈現給使用者，

第三檔：使用者的意圖完全滿意。這是相關性相對較高的結果。

相關性邏輯結構

接下來，看一下新版本相關性的邏輯體系結構。舊的邏輯體系結構主要是繪圖功能，并且使用了一些規則來适應此子位置。新版本的依賴項将原始規則模型替換為三層結構：從前到前的調諧器層、模型層和後調諧器層。

預調層：此規則政策主要包含一些在訓練集上準确率超過 95% 的黃金規則，在滿足這些條件時不進行模組化，而是直接通過規則進行處理。

模型層：當黃金法則無法加工時，使用齒輪模型作為口袋的底部。拆分模型包含 Recall 模型和 Refine 模型的兩個子模型，這兩個模型具有相同的結構，但它們使用不同的特征和樣本選擇。杠杆模型的優點是了解并耦合了整個相關性的功能，一個用于發現具有高相關性的高品質DOC，另一個用于減少相關性分叉和過濾。此語義特征作為特征放置在杠杆模型中，而不是直接使用深度模型。為什麼不直接使用深度模型呢？由于行業需要高度的可控性和解釋性，傳動模型仍然使用這種傳統的GBDT模型。

後調諧器層：當由于樣本資料不均勻、缺乏核心特征等原因而無法學習時，此層補充了一些手動底部規則。例如，制定了一些規則來了解視訊内容的功能。此層中還有一個全局調諧器，其作用是根據全局 DOC 比對進行一些調整，以消除較低級别的模型。此模型輸出齒輪、其分數和子特征将輸出到 LTR，以進行基于分布的最終排序。

4. 深度語義關聯架構

下面我們來談談這裡開發的深度語義關聯架構，即這些預訓練模型是如何在優酷場景中落地的？這種三階段語義架構在工業設計常用的方法中被引用。

轉移的第一階段：它主要使用預訓練語言模型的通用字段（如Google或Hagong訓練出來的BERT），然後使用優酷搜尋日志重用一個預訓練，這樣就可以得到優酷字段的語義模型，那麼這個模型的目的是提高模型名額的下限，它通常可以改善基本BERT 2%-3%名額。基于轉移階段，得到優酷字段的語義模型。

第二階段适配：它是基于優酷場的語義模型和多任務資料，訓練一系列這樣的模型，比如這裡的查詢分析叫QP、召回模型、關聯排序，它實際上是基于同一基礎模型來訓練的。适應階段的作用是提高模型名額的上限也是上限。這可以在模型最終離線時完成，但由于性能原因，需要最後一步進行蒸餾。

第三階段幻滅：本文使用多階段知識提煉，旨在接近模型名額的上限，除了文本資料外，還使用各種上下文資料和前面提到的知識資料。

5. 深度模型選擇

這塊的深度模型選擇，其實我們比較清楚，左邊的圖檔是BERT的傳統用法，它是一種互動型，離線可以這樣用，而這篇文章也是用的。但上網時，由于性能壓力大，往往選擇這種雙塔結構，那麼雙塔的結構，它與互動型的BERT，雖然效率更高，但其名額是存在較大差距。

6. 非對稱雙塔模型（線上部署）

那麼，如何消除這種差距呢？已經完成了兩件事，其中第一件是使用不對稱的雙塔模型線上部署，例如Doc端，可以離線儲存。查詢端使用三層小 BERT，因為它考慮了并發性。同時，為了減少雙塔模型的名額衰減，對于Doc端來說，它實際上并沒有儲存一個嵌入，它是嵌入的M組，M組可以了解為從M側描繪Doc的特征，進而最大限度地保留Doc端的一些豐富資訊。然後離線，您可以通過這個更複雜的12層BERT運作它的多個組的嵌入，然後在線上端使用Dipi與三層小BERT一起生産它，然後在Ha3側，即引擎側，根據注意力計算Equinding和Doc側M嵌入之間的權重，然後做一個點乘以得到最終的分數。僅僅說這個名額沒有衰減那麼多是不夠的，但是行的查詢端的特征提取保證了行上的一緻性。由于查詢端模型被替換為小型模型，是以其名額會進一步衰減，并且使用多級蒸餾方案來減慢這種衰減。

7. 多級蒸餾程式

我想向大家介紹一下多階段蒸餾方案。該圖包含兩條資料，一條用于傳輸集，即 5000w 未标記資料和優酷點選日志，另一條用于目标集，即手動标記的資料集。

（1）打分：使用互動式BERT（名額最好，但隻能離線使用）作為老師。标記這兩個資料以獲得BERT軟标簽。

（2）蒸餾：使用未标記的資料進行蒸餾。它不是使用BERT直接提煉目标模型，而是用于提煉對稱的雙塔BERT，這意味着Query側和Doc側都是12層BERT。

（3）目标集微調：在中間模态中得到對稱雙塔BERT。

（4）固定重量和蒸餾：

固定權重：将對稱孿生 BERT 的權重複制到不對稱孿生 BERT（目标學生），然後将權重固定。

蒸餾：再一次，用轉移集蒸餾鍊劑，其包括以下步驟：（1）首先會有各種損失，其中既包括這種标簽的硬損失，也包括這種交叉熵損失的這種軟的标簽，基于這種損失，其實因為這種損失是最終的預測層。（2）為了更充分地了解三層小BERT在查詢端的效果，還會用來讓MSE損失餘燼，那麼它是怎麼做到的呢？正是在這個中間模式boss上标記了它，當它完成時，它不是标簽，它是每個cookie的一些餘燼，然後它用于監視不對稱的雙塔BERT，以使其了解更多資訊。（3）這裡實踐中有一個細節，因為線上有存儲壓力，是以不可能存儲BERT基底的768維矢量，肯定是要縮小的，一般用一個舞蹈網絡來縮小次元，但是這個Dance Networ，因為它在BERT的頂部，如果同等大小的學習率，就會學習非常不足，導緻最終名額很差，是以這個地方利用了Layer-wise的緩和率，這意味着低維的舞蹈網絡比底層的BERT學習的要多得多，這樣可以減少低維性非常低産生的資訊損失，然後他的名額可以很好地接近技術模型。其目的是通過這個多階段的過程，而不是一步到位，逐漸縮國小生網絡和教師網絡之間的差異，進而減少由于模型結構差異大而導緻的知識提煉損失。這種效果也很重要，通過這種效應，多級蒸餾現在能夠實作兩點内的名額損失。

8. 融合知識的深度語義比對

接下來，我們在模型層面介紹一些優化工作，為什麼要做融合知識的深度語義比對？因為在視訊的垂直領域，頭的古瑞大多是把知識和語義融合好來解決的，因為如果Doc方面是結構化的，就會有豐富的結構化領域，比如這部電影，它的演員是誰，導演是誰，什麼年齡。這些結構化的領域非常豐富。但是，Qury 的使用者端是口語化的或鍵入的，不會有完整的輸入。比如使用者搜尋"兩铨湖浩歌"，使用者正在尋找兩陏湖的愛情故事和張昊玩這樣的程式，簡單的語義比對或簡單的結構化查詢都很難解決，是以需要整合知識和語義來解決。但是，現有的一些方法是不夠的，例如，對于THEKG結構化資訊來說是不夠的，并且不支援這種多KG的熱插拔。由于KG的種類很多，有常見的KG、領域KG和百科全書KG，是以KG結構化資訊和文本資訊之間存在異構的差距。本文所做的工作是整合KG的結構語義特征，即實體的域子圖的結構特征在語義上比對。圖中的情況是使用者搜尋"劉成的獵戀"，然後通過KG的查詢找到它的子圖，然後它的子圖結構資訊編碼成BERT通用序列化輸入，然後在KG層和文本層之間做一些監控操作，這樣最終的比對效果才能達到理想的效果。

9. 效果案例

最後是案例分享，這些案例主要是基于新舊版本的比較，它起到了兩個作用，第一點是使整個搜尋順序有了很大的提高，讓一些亂七八糟的内容通過語義過濾和語義相關但字面上無關的内容回想，是以第二點是語義回想能力的提高。例如，使用者搜尋"阿拉斯加帝王蟹"舊版的關聯會有一些不相關的内容，但經過新版本的關聯過濾後，這些不相關的結果已經幹涸。

作者：Leap Chen，阿裡娛樂資深算法專家，搜尋關聯算法負責人，負責搜尋相關性基礎體驗和智能語義能力的優化。

阿裡文娛搜尋在深度語義相關性計算的探索

繼續閱讀

李開複回應AI六小虎困境：有資金訓練模型，融資、晶片都不是問題；阿裡稱新AI翻譯工具擊敗谷歌和ChatGPT丨AI情報局

地平線今起招股：阿裡、百度為基石投資者｜投資速遞

阿裡雲回應登出測繪；消息稱騰訊遊戲大調整；星紀魅族經營業務變更 | 晚報

多家品牌官微撤掉易建聯相關内容；阿裡雲回應甲級測繪資質登出

阿裡雲登出測繪資質引猜疑，回應4月份主動申請與國安部通報無關

阿裡雲回應“甲級測繪資質登出”：今年4月主動申請的登出

倒數4天！阿裡媽媽雙11第1波現貨投資熱榜釋出！百萬商家都在搶！

天貓雙11預售全面爆發！四大行業領航品牌借力阿裡媽媽拉新、卡詞、爆品、直播四大優勢！

爆款劇史上最強返場，《邊水往事》導演入職阿裡大文娛

【快訊】《邊水往事》導演算入職阿裡大文娛成立三邊坡工作室

國安部爆測繪洩密事件，四維圖新、阿裡雲等緊急回應；台積電第三季度淨利同比增54.2%；小馬智行赴美IPO | 科技一周

阿裡軟體公司法定代表人變更，陳立卸任執行董事

谷歌億萬富翁或将買下樂順價值4.5億美元的“阿裡巴巴”項目

馬雲回來了，阿裡巴巴拿下春晚

暴漲2000億，蘋果拉了阿裡一把

中國最大的民營企業誕生，營收突破萬億，超越華為阿裡巴巴