如何讓使用者找到想要的内容？阿裡文娛搜尋算法實踐

作者| 阿裡文娛進階算法專家若仁

視訊搜尋是涉及資訊檢索，自然語言處理(NLP)，機器學習、計算機視覺(CV)等多領域的綜合應用場景，随着深度學習在這些領域的長足進展以及使用者對視訊生産和消費的廣泛需求，視訊搜尋技術的發展在學術和工業界都取得了飛速的發展。

在GMIC 2020 阿裡文娛技術專場，阿裡文娛進階算法專家若仁，分享了視訊搜尋技術簡介、多模态在視訊搜尋的應用，希望對相關的算法同學能帶來啟發。

考慮到大家來自不同的業務領域和技術方向，我會先簡單介紹優酷視訊搜尋的業務背景，同時快速介紹搜尋的基本評估名額，以及搜尋系統的算法架構，還有相關性和排序模型，讓大家有一個更全面的認識，後面會重點介紹多模态視訊搜尋的相關技術。

一、阿裡文娛搜尋業務簡介

搜尋團隊為整個阿裡文娛提供一站式的搜尋服務，服務範圍包括優酷Phone和OTT端，還包括大麥、淘票票。涉及的檢索内容，從影劇綜漫的長視訊影視庫，到覆寫社會各領域的UPGC視訊。此外，影人和演出場館的也在搜尋服務範圍。以優酷為例，我們有數億的視訊資源，不僅包括平台購買版權的OGC視訊，更多是使用者上傳的UPGC視訊。視訊的存儲、計算以及分發，比文字更具挑戰。

搜尋技術的使用者價值主要展現在兩個次元：

一是工具屬性。就是使用者将搜尋服務作為尋找内容的工具，目标是“找準，找全”，即“搜的到，搜的準”。從這個次元去評估搜尋效果的好壞，需要一系列的體驗類名額，比如跳出率、相關性，以及時效性和多樣性。這些都是搜尋通用的技術名額；所謂可播性指在應用上能播放，這是全網視訊搜尋特有的，受内容版權和内容監管多方面的原因，有一些内容是平台無法播放的。此外，我們還會定期做人工評測，做橫向和縱向比較。

二是分發屬性。讓使用者消費更多的視訊内容，有更多VV(觀看視訊數)以及TS(消費時長)的引導。這些名額對于垂直搜尋，是非常重要的，也是使用者滿意度最直接的衡量。對于平台來說，搜尋還能支援平台的宣發和商業價值，實作廣告/會員的商業價值，前提是将使用者體驗做好。

搜尋算法架構，由下到上依次是資料層、技術層、内容召回、多媒體相關性、排序、意圖。

1）資料層：最基礎是視訊内容的資料，我們從視訊内容中抽取出對應的知識，包括實體、實體之間的關系以及屬性。通過内容組織的方式，以圖譜知識去指導我們做聚合，從時效性的次元做聚合，從多種次元将内容組織起來；

2）技術層：在資料基礎之上，利用CV和NLP技術，支撐上層内容召回和相關性，排序，以及對Query的意圖了解；

3）召回層：對多媒體内容了解是難點，下文會詳細展開講；

4）相關性：包括基礎相關性/語義比對技術；

5）排序層：按照體驗和分發等次元，去提升搜尋整體體驗。排序利用機器學習排序學習的方式，去提升分發效果，此外還要優化體驗類目标，如時效性，多樣性等，同時也要實驗平台的宣發等目标，是典型的多目标優化場景；

6）意圖：對Query意圖了解，首先要對Query做成分分析，标明Query各成分是什麼，是節目名還是劇集資訊。然後要建立細粒度的意圖體系，對使用者表達的意圖去做深層次的意圖了解，進而更精準的指導召回，相關性和排序。

多媒體内容了解是視訊搜尋的重點，視訊内容傳遞的資訊是非常豐富的，是不可能用标題的短短十幾個文字描述全面的。使用者在檢索表達時，需求的差别非常大，這就是天然的語義鴻溝。是以我們不能把視訊當作黑盒子，需要利用NLP能力、CV的能力以及其他技術能力對視訊内容有全面的分析解構。

二、相關性和排序模型

1、挑戰

視訊搜尋相對通用搜尋是有特殊挑戰的。第一個挑戰是内容相關性比對，下圖中前兩個case，展現出使用者表達的Query和視訊标題不是那麼相關，需要通過對内容了解分析，通過對它的元資訊的豐富，建立起内容相關性。

如“變形計2017姚金冬”，視訊标題中隻有“姚金冬”，實際上通過視訊内容的了解，可以知道“姚金冬”和“變形計”，并且是2017年的。通過内容了解和IP指紋，把IP周邊視訊，如切條或二創視訊，和IP建立起關聯關系，能大大豐富視訊的元資訊，提升内容相關性比對度。

第二個挑戰是實體知識比對，我們要借助于視訊标題的結構化去了解，用NER方式抽取出來，同時也需要CV的技術去輔助NER識别的準确率。比如“法不容情國語”，QP端了解出“法不容情”是一個節目名，這就是Query的成分分析；使用者上傳的是“公共用地被占私用，法不容情”的社會問題，需要對文檔端去做結構化的了解，要了解出“法不容情”在上下文中不是節目，而是其他意思，然後在相關性比對的時候，利用這些先驗知識做更好的相關性判斷，進而決定相關性比對度。此外，“中國餐館電視劇”這個case也類似，使用者找的是《中國餐館》節目，而不是需要檢索出“中國餐館放着抗日神劇”。

第三個層面的挑戰是語義比對，當然是通用搜尋也有語義比對問題，一些語義類/how to類的知識比對，要去做語義和更全面的分析，比如利用内容了解和實體知識的輔助補充等，才能做好語義比對。

2、解法

我們整個視訊搜尋相關性是從四個次元去做：

1）基礎特征：基于基礎文本的特征比對，包括term weight、比對矩陣等；

2）知識特征：通過内容了解，以及視訊自身所帶的元資訊，例如視訊中的人物，所關聯的節目相關的元資訊，以及針對視訊标題所做的結構，比如我們抽取出哪部分是人物，哪些是IP名，哪些是遊戲角色等。标題結構化之後，根據Query成分的了解，支援在知識層面去做比對；

3）後驗特征：因為使用者去搜尋Query之後，搜尋結果之間會産生互動，形成Query和Doc互動特征。Query_Anchor以及通過這些互動特征能夠指導Query意圖的了解，把他們作為這種後驗關聯的一些特征，能夠支援我們這種意圖比對。

4）語義：是文本層面的語義比對，利用DSSM語義模型和Bert語義模型，做離線和線上的語義比對模型。除了這種比對層面之外，還要支援語義召回。通過SMT和點選行為分析等技術，進行語義擴充，擴大召回語義内容的範圍，利用它們形成的特征更好的做好語義比對。

希望通過前面兩個slide，能夠讓大家更好的了解視訊搜尋相關性的挑戰和解法。

3、相關性資料集建構和特征體系

全面準确的發現問題是解決問題的基礎。相關性資料集的目的是給相關性算法提供ground truth，标注是重點。相關性标注資料集的标注規範較複雜，标注樣本量比較大的，通過外包進行人工的标注，重點需要關注的是标注品質和标注成本。根據标注規範不僅要去标注樣本的等級，對同等級下樣本的還需要标注偏序關系，品質的把控特别關鍵。對于成本來說，需要有高效的樣本挖掘機制和方法。

如圖中左側所示，可以通過Active Learning的思想來加快标注的效率提升，同時也能提升标注品質。我們可以基于訓練集不斷地疊代線上模型，對于線上模型預測不是那麼準确的樣本，可以提供給外包同學去檢測标注，形成一個快速的疊代閉環，提升訓練的精度。大家用這種方法去做，能夠大大提升整個标注的品質和效率。

右側是相關性的技術特征，最上層是Query相關的特征，有正常類的，非常基礎的文本特征；有意圖了解輸出的特征，比如說人物、節目、寬泛、How to類意圖等；文檔端的先驗特征包括從文檔标題解構出來的特征以及基礎文本特征，除了先驗特征還會使用前面說的後驗特征；最下層是Query和Doc的比對類特征，比對特征也會分基礎比對、意圖比對、語義比對、知識比對這幾個次元。

4、排序特征體系

搜尋詞特征組：搜尋詞以及比對特征這些特征類别，是搜尋領域通用的；
比對特征組：有一些特征是平台特有的，比如視訊的實時播控、内容宣發特征；
視訊内容特征組：内容品質對于我們的平台非常重要，因為每天上傳視訊量非常大，需要做好内容品質的評估，才能更好地指導冷啟動的分發。我們人工智能部有一個CV團隊，負責為我們提供高品質的特征，從封面圖、标題、畫質/圖像/聲音各模态去評估視訊品質；
使用者特征組：使用者行為特征，使用者畫像及使用者行為的表征學習特征主要用在一些寬泛搜尋場景。例如頻道頁的搜尋排序、 OTT寬泛意圖排序等。

接下來分享2017年，我們和達摩院在搜尋上落地的表征學習排序方案。

第一層是對特征域編碼層，按照使用者、搜尋意圖、視訊三元素。在使用者次元，劃分了使用者id域、使用者觀看視訊序列域；搜尋意圖次元，劃分了搜尋詞id域、搜尋詞視訊表達域、文本編碼域。視訊次元，劃分了視訊統計特征域、視訊文本編碼域、視訊i2i域。

第二層和第三層不同特征域間網絡結構互相獨立，通過稀疏編碼優化的全連接配接層對第一層的高維特征域進行降維，把高維資訊投影至低維的向量空間中。

通過第三層全連接配接層對域内資訊的二次編碼，輸出域内特征向量。

通過第四層把concat層連結起來，對域間的id特征向量、行為特征向量、文本特征向量和觀看序列特征向量做多模态的特征向量融合。

之後經過兩層的全連接配接網絡實作對給定使用者和搜尋意圖下每個視訊的排序分值的預測。這個模型是内容分發的一個排序模型，它同時還會結合相關性模型，時效性，以及視訊品質等從多元度模型融合，來決定最後的排序。

三、多模态視訊搜尋

基于标題和描述等文本資訊的檢索，會遇到很多困難。

首先是單模态資訊缺失，使用者在上傳UGC視訊的時候，标題是比較簡單，很難将豐富的視訊内容表達清楚，有時這些文字資訊還和視訊内容是沒有關聯關系的；

其次是使用者搜尋意圖越來越多元化，即使是版權視訊的搜尋也不再集中于節目名字的搜尋，社交與互動的需求逐漸增長越來越多；

其次還有TO B側的需求，也就是内容二創的使用者，需要去找各種各樣的視訊片段，視訊素材，這部分的需求也是需要用多模态技術去支撐。

基于多模态技術的搜尋，将語言、語音、文字、圖像的各種子產品集中起來，綜合這些資訊來了解，能夠友善使用者更好地找到所需内容，得到更好的搜尋體驗。目前在工業界和學術界對多模态搜尋的研究熱度都非常高，學術界有很多方案是基于将 Query和視訊映射到一個中間Concept的空間，然後在中間次元做相似度的比對排序。此外，也有VQA/GQA等各類基于視訊問答的資料集去推動自然語言和圖像的關系推理，最近Video/Visual Bert的端到端的解決方案也有了很大的突破。

學術界喜歡這種端到端的解決方案的，對于短小視訊的了解，可能是個不錯的方案。但針對長視訊，這些方案是很難真正做到準确的了解的。因為長視訊包含内容資訊是更多元，更寬泛。此外在工業界搜尋引擎是需要有可解釋和可控性的，很少是采用單一端到端的解決方案。是以我們優酷的多模态搜尋采用的技術方案是：

利用CV算法技術，将其他子產品的資訊降維到文本模态；
通過我們多模态内容檢索的技術實作召回；
再從上層通過内容相關性和排序技術，達到使用者對内容各次元檢索需求的滿足。

例如，基于人臉識别的技術，将視訊中出現的明星人物，如《這就是街舞》視訊中識别出易烊千玺、黃子韬等；此外通過OCR/ASR的技術，識别各視訊中的對話内容轉化成文本。然後基于文本去做結構化了解。

結構化的文本，需要有系統性的了解群組織，用後面會講到的關鍵詞抽取技術，把它了解好并形成我們的一些内容主題；同時還會利用音樂識别、動作識别、以及場景識别，情緒識别等CV技術，不斷豐富解構内容，實作使用者在上面去各種組合搜尋的時候，我們都能夠召回，還能排的比較好。

這個slide主要是用一個案例來介紹我們在多模态視訊搜尋時，内容關鍵詞是怎麼更好的組織，視訊内容降維成文本之後，怎麼能夠去做好這些文本内容的組織了解。

首先，從案例看到，内容關鍵詞的詞庫是非常非常大的，此外内容和關鍵詞屬于多對多的關系。我們要通過各種關鍵詞的抽取技術抽取候選的内容關鍵詞，并且要擴大候選詞來源的一個多樣性，比如基于"NER"的方法能確定抽取的内容關鍵詞是百科類實體名稱，有較廣泛的知識内涵； “新詞發現”方法會綜合Ngram以及語言模型(LM)等多種基礎能力擴大對未知知識領域的挖掘。

候選關鍵詞是一個斷擴充的過程，随着我們在視訊内容了解的次元擴大，候選關鍵詞的來源會越來越豐富。在豐富的内容候選關鍵詞基礎上，根據内容候選關鍵詞和視訊内容相關程度建構分類模型預測不同的等級，最相關的是核心内容關鍵詞，其次是相關内容關鍵詞以及提及内容關鍵詞，然後整個在關鍵詞分級的核心特征是除了文本特征之外，還會采用音頻/視訊表征網絡生成的一些多模态特征來共同訓練，來提升預測關鍵詞相關度的準确率，把關鍵詞和内容表達的關聯度預測更精準。

在過程中會看到這麼做存在的一些問題，以圖中視訊為例，該視訊主要是講歐洲瓷器的發展史，但是該視訊文本标題是“陶瓷: 陶瓷(六)”，非常簡短的描述，對它做内容了解降維成文本後，能夠利用上面講到的技術抽取内容關鍵詞“塞夫勒”,“麥森”，但是如何能夠把“塞夫勒”、“麥森”和“歐洲”關聯起來，知道這個視訊講的是歐洲瓷器發展史，而不是中國或者日本；此外對于瓷器領域知識實體，“陶器”, “青花瓷”, “高嶺土”,怎麼把它們和“瓷器”概念關聯起來。

這些都是需要有知識圖譜(KG)知識支撐的，這就需要KG實體知識庫涵蓋廣泛的領域，需要有全行業的豐富實體，才能幫助提取核心内容主題。另外像抽取的内容關鍵詞“伯特格爾”是個人名，但是要用什麼技術能把它和内容主題相關程度識别準确，知識庫不一定能收錄，單純通過頻次也不一定能了解準确，但是“伯特格爾” 被“他”指代提及多次，需要有這種指代推理能力，把這樣的關系了解出來。有了這些關系的了解，才能基于内容關鍵詞之上去了解整個的内容事件、内容主題、以及内容故事線等不同層級的抽象，才能夠更全面的了解視訊，然後來更好的去支撐上層的召回比對和排序。

目前，我們做的這些探索都上線了，線上上能看到效果。像使用者搜尋“軍情解碼張召忠“，排前面的這幾個視訊内容都是“張召忠”主講的，但是在标題文本裡面是沒有的，是通過内容了解的方式能夠把它抽取出來；像“軍武次位面虎式坦克”，“虎式坦克”是使用者是要找的，但是在視訊标題中都是“榮耀之虎”，“虎P之腿”，這些視訊裡面是針對“虎式坦克”有詳細的内容介紹，通過内容了解能夠将使用者的需求和内容關聯起來，能做比較好的召回和排序；最右邊的是高曉松老師的“曉說以色列“也是這類，大家可以在優酷APP上多做一些體驗。

如何讓使用者找到想要的内容？阿裡文娛搜尋算法實踐

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希