天天看點

“找片兒”太難?大模型+視訊搜尋輕松解決!

作者:Cloudinsight
當視訊檢索疊上大模型Buff。

萬樂樂|技術作者

視訊檢索,俗稱“找片兒”,即通過輸入一段文本,找出最符合該文本描述的視訊。

随着視訊社會化趨勢以及各類視訊平台的快速興起與發展,「視訊檢索」越來越成為使用者和視訊平台實作高效查找視訊、定位目标内容的新需求。

對于個人使用者而言,面對海量的線上視訊資源,快速準确地通過關鍵詞或描述找到感興趣的視訊十分重要。同時,在個人儲存設備如手機或網絡雲盤中,使用者也存在檢索自己拍攝錄制的視訊資料的需求。

而對于視訊剪輯師和制作團隊來說,在龐大的媒資庫中搜尋所需的視訊片段或素材是一項日常基礎工作。精準高效的視訊檢索技術可以滿足其在短時間内鎖定比對的素材,有效提升創作效率。

“找片兒”太難?大模型+視訊搜尋輕松解決!

某新媒體編輯網站媒資搜尋截圖

此外,對于視訊平台和監管部門來說,如何在數以億計的視訊庫中定位到包含劣迹藝人的視訊并下線,也是巨大的挑戰。

「視訊檢索」技術的發展與應用不僅是解決資訊過載、提高資料處理效率的有效途徑,更是在滿足個人使用者、專業創作者乃至整個視訊行業發展的迫切需要中扮演着至關重要的角色。

本文将回顧視訊檢索技術的發展曆程,并揭秘隐藏在新一代自然語言視訊檢索技術背後的大模型。

01 視訊檢索現狀

視訊檢索是怎麼實作的?我們以優酷搜片為例,優酷的視訊檢索技術基于:

• 主要搜尋内容為标題與描述;

• 通過多模态内容識别人物、ASR、OCR,轉化為文本搜尋;

• 具有一定Query了解能力與實體知識比對(轉化為搜尋關鍵詞);

• 具有一定的通過語義了解的Query意圖分析(識别諸如How To類問題)。

“找片兒”太難?大模型+視訊搜尋輕松解決!

圖檔來源:阿裡文娛技術團隊

上述技術方案的能夠滿足使用者基本的視訊檢索需求,但是也存在缺陷:

• 大量視覺資訊無法參與檢索召回:基于現有多模态算法的搜尋,隻能識别處于标簽體系内的人、物、ASR、OCR等内容,大量視覺資訊(比如在藍天翺翔的飛鳥),無法文本化參與檢索。

• 強依賴知識圖譜與語義分析:知識圖譜的維護與更新、意圖了解的能力,均需要不斷地投入與更新,使用負擔較大。

• 基于關鍵詞的搜尋丢失語義聯系:以“馬老師騎自行車”為例,基于關鍵詞的搜尋隻能合并搜尋“馬老師”和“自行車”兩個關鍵詞,丢失“騎”這個概念,導緻召回偏差。

與此同時,随着時代發展,大家找片子的手法也越來越刁鑽。使用者希望不再滿足于某個關鍵詞,而是希望使用類似下面的自然語言,去比對視訊本身的内容,而不僅僅是人、物、ASR、OCR可文本化的内容,比如:足球運動員受傷、飛機穿越天門山、春風化雨育桃李......

如果要實作這樣智能的搜尋效果,應該怎麼做呢?我們先來回顧視訊檢索技術的發展曆程。

02 視訊檢索技術發展曆程

第一代:基于文本的傳統視訊檢索

在網絡還不發達的時代,計算機對于音視訊的處理能力及其有限,媒體資料僅僅被當作是文本資料的擴充。為了能夠搜尋媒體資料,網站編輯一般會對媒體資料做一次人工編目:取好标題,寫好描述,甚至會手動添加若幹關鍵詞。

是以,傳統的視訊檢索,本質上是退化為文字檢索,通過利用關系型資料庫(如mysql)或文本倒排資料庫(ElasticSearch)的能力,對文本分詞,進行檢索排序。

“找片兒”太難?大模型+視訊搜尋輕松解決!

第二代:基于AI标簽的跨模态視訊檢索

随着網際網路音視訊資料量的日益增長,媒資人工編目已經到了不可持續的地步,必然要求更高生産力技術的引入。

到21世紀10年代,基于CNN架構神經網絡的日趨成熟,AI已能簡單了解和認識視訊中的客觀實體,并能通過分類模型給視訊分類,此時智能标簽技術便應運而生。以阿裡雲視訊雲的智能标簽技術為例,它能夠給視訊自動打出以下标簽:

• 客觀實體:名人/政治人物/敏感人物、地标、Logo

• 場景與動作事件

• 時間、地域、人物等關鍵詞

• 視訊類目資訊

第二代視訊檢索技術是在第一代技術的基礎上,對視覺、聽覺的模态進行了自動分析,将其轉化為文本資料,其總體架構仍然未變,仍是基于文本的檢索。

“找片兒”太難?大模型+視訊搜尋輕松解決!

第三代:基于大模型的自然語言視訊檢索

上述搜尋依賴于關鍵字或标簽進行内容索引和檢索,但這類方法存在明顯的限制,尤其是對于非文本内容,如:圖檔、視訊,用有限的标簽來描述它們的全面資訊是非常困難的。這些标簽可能既無法覆寫所有相關的概念,也無法表達内容的細緻差異和深層含義。

随着AIGC和所謂的“通用人工智能(AGI)”崛起,尤以大語言模型(LLM)為代表的大模型全面應用為契機,第三代視訊檢索技術開始成熟。LLM内部包含着人類海量知識的表征,将LLM延展到音視訊模态,我們即可實作對媒體資料的表征。

多模态表征大模型能夠将文本、圖檔、音頻、視訊等内容轉換成高維空間中的向量表示,也稱為嵌入(embeddings)。這些嵌入可以捕捉到内容的語義資訊,并将其映射到一個連續的向量空間内,使得語義上相似的内容在這個向量空間中彼此接近。

大模型檢索技術支援自然語言搜尋,使用者可以用自己的話描述他們想要找的内容,而不是依賴于預先定義好的關鍵詞或标簽。通過對自然語言描述的了解,大模型可以将這些描述轉換為相應的向量表示,并在高維空間中尋找最比對的内容。

“找片兒”太難?大模型+視訊搜尋輕松解決!

第三代檢索技術的優勢在于它的靈活性和表現力。使用者不必再局限于有限的關鍵字,而可以用自己的語言進行更精确和細膩的描述。同時,由于大模型能夠了解内容的深層意義,搜尋結果通常更加相關和準确,增強了使用者體驗,并為擷取和發現資訊提供了更加強大的工具。

例如,一個使用者想要找到一張描繪“一個穿着古代盔甲的戰士在日落時分靜立在山巅”的圖檔和視訊。在傳統的基于标簽的搜尋系統中,使用者可能需要嘗試各種組合的關鍵詞,比如“戰士”、“盔甲”、“日落”、“山巅”等。而在大模型的跨模态檢索系統中,使用者可以直接輸入完整的描述,檢索系統會了解其語義并傳回比對的圖檔和視訊。

03 自然語言視訊檢索上線

阿裡雲視訊雲基于達摩院的多模态表征大模型,在點播和智能媒體服務中上線了自然語言視訊檢索。并結合已有的AI标簽檢索、人臉檢索、圖像相似度檢索,形成了完整的多模檢索解決方案。

自然語言視訊檢索示範:https://v.youku.com/v_show/id_XNjM2MzE5NTg5Ng==.html

我們目前實作的自然語言視訊檢索技術,支援性能參數:

• 最大支援10萬小時規模的視訊中召回相關片段

• 在10QPS搜尋速度下RT<1秒

• 召回的片段準确率達到80%以上

當然,在實作自然語言視訊檢索的過程中,我們也遇到了一系列的難點和挑戰。

“找片兒”太難?大模型+視訊搜尋輕松解決!

下文将講述我們如何克服這些難點與挑戰,并介紹實作的技術原理與方案,以及未來視訊檢索進化的方向。

04 多模态表征大模型算法

算法原理

CLIP 是OpenAI在2021年提出的一個視覺分類模型,在沒有微調的情況下,預訓練模型能夠在下遊任務中達到十分出色的遷移效果。為了擺脫監督學習對标注資料集的強依賴,CLIP采用了自監督對比學習方案,從網際網路收集的4億對圖文資料對中學習圖像和文本的對應關系,進而獲得了視覺-語言的對齊能力。

CLIP預訓練模型包含兩個主要子產品:Text Encoder 和 Image Encoder,其中Text Encoder用來提取文本的特征,采用63M參數的text transformer模型,而Image Encoder用來提取圖像的特征,采用基于CNN架構的ResNet模型或者基于tansformer架構的ViT模型。

“找片兒”太難?大模型+視訊搜尋輕松解決!

基于文本搜尋圖像是CLIP的一個最直接的應用,先将待檢索圖像送入Image Encoder生成圖像特征并存儲,再将檢索文本送入Text Encoder生成文本特征,使用文本特征與存儲的圖像特征逐一進行比對,其中餘弦相似度最高的就是檢索得到的圖像。

CLIP雖然是基于文本-圖像對訓練的,它也可以很自然的推廣到文本-視訊檢索任務中:對視訊抽幀獲得關鍵幀圖像,再将關鍵幀圖像送入Image Encoder提取圖像特征即可。

算法選型

盡管CLIP具有優異的zero-shot遷移能力,但它是基于英文資料集訓練的,要将其應用到中文搜尋中需要非常麻煩的翻譯工作。為了避免增加翻譯子產品而引入額外的計算量,我們找到了達摩院釋出的兩個開源中文檢索模型:TEAM 和 ChineseCLIP。

TEAM是達摩院在2022年釋出的一項工作,作者在CLIP的雙塔結構上新增了一個名為Token Embeddings AlignMent(TEAM)的子產品,該子產品用于對token級别的圖像特征與文本特征做顯式對齊,并為輸入的圖文對生成比對得分。

所述架構中Image Encoder采用vit-large-patch14結構,Text Encoder采用bert-base結構。作者還建構了一個10億級規模的中文視覺-語言與訓練資料集(通過誇克收集),通過在這個資料集上對所提出架構進行預訓練,在中文跨模态檢索基準測試(Flickr8K-CN, Flickr30K-CN 和 COCO-CN )中達到了先進的性能。

“找片兒”太難?大模型+視訊搜尋輕松解決!

ChineseCLIP是達摩院在2022年釋出的另一項工作,主要是基于2億規模的中文資料集(原生中文資料+漢化中文資料)完成了對CLIP的漢化工作,而模型結構沒有做大的改動。

為了實作跨模态基礎模型對中文資料的高效遷移,作者開發了一種兩階段預訓練方法,其核心思想是利用LiT(Locked-image Tuning)使文本編碼器能夠從CLIP的基礎視覺模型中讀出高品質的表示,然後将整個模型轉移到新的預訓練資料域。

首先使用已有預訓練模型對圖文雙塔做參數初始化,其中Image Encoder使用CLIP的參數,Text Encoder使用中文RoBERTa的參數。第一階段,當機Image Encoder參數,隻對Text Encoder進行預訓練參數更新;第二階段,通過對比學習同時微調Image Encoder和Text Encoder。通過兩階段訓練,在中文跨模态檢索測試(MUGE, Flickr30K-CN, 和 COCO-CN)中達到了最先進的性能。

“找片兒”太難?大模型+視訊搜尋輕松解決!

算法評測

基于阿裡雲視訊雲AI編輯部長期積累的資料,最終采用了一些短視訊作為測試視訊集。該視訊集以幾分鐘到10幾分鐘的短視訊為主,包含新聞、宣傳片、訪談、動畫等各種類型的視訊,這也十分符合視訊雲客戶定位。

“找片兒”太難?大模型+視訊搜尋輕松解決!

将測試視訊集入庫之後,我們設計了一些自然語言句子作為搜尋的query,會保證query一定有對應的視訊。考慮到視訊集規模較小,我們最終隻評估召回TOP1的準确率。

經過實際測試,TEAM和ChineseCLIP都能夠達到TOP1傳回80%的準确率,二者都可作為大模型特征提取器嵌入系統架構中。

05 搜尋工程技術方案

在系統架構設計上,我們的搜尋服務架構采用Core-Module設計體系,把最核心不易變化的搜尋流程設計為Core子產品,把各種不同的搜尋業務,分開做成不同的Module。搜尋Core子產品内部有個Module管理器,管理所有Module(Module設計上允許自注冊)。

每個Module包含3個接口資訊分為特征提取、查詢改寫、聚合打分。

“找片兒”太難?大模型+視訊搜尋輕松解決!

上述傳統搜尋、跨模态檢索、大模型搜尋分别對應3種Module,另外還支援新增人臉搜尋、DNA搜尋Module,後續其他搜尋Module可以支援擴充。

“找片兒”太難?大模型+視訊搜尋輕松解決!

在入庫流程上,媒資入庫時支援多元度的内容了解:

• 基礎資訊base-module:傳統搜尋引擎

• 智能标簽aiLabel-module:依托達摩院自研智能标簽算法,支援物體、場景、地标、事件、LOGO、字幕OCR、語音ASR、詞、類目、主題、人物角色、自定義标簽識别

• 人臉特征face-module:人臉識别

• DNA特征dna-module:同源檢測特征提取

• 大模型特征mm-module:多模态大模型特征提取,進行内容了解

把媒資按照不同次元進行内容了解,傳統标量資料存ES建構反向索引,向量資料存在自研分布式向量資料庫。

“找片兒”太難?大模型+視訊搜尋輕松解決!

在搜尋流程中,跨模态大模型搜尋根據使用者query文本,再經過大模型提取文本特征,搜尋向量底庫得到目标内容,針對視訊内容會先聚合片段友善後續展示命中視訊媒資内部的細節資訊。使用者也可以進行傳統ES文本搜尋得到目标内容,使用者可以結合兩種搜尋方式使用,多路召回能力目前還于内測中。

目前視訊抽幀頻率是1秒1幀,大模型搜尋命中可以得到秒級别的片段資訊,滿足使用者精準定位目标内容需求;依托了我們自研的分布式向量資料庫,支援海量資料(10億級别)特征資料存儲,搜尋時延在1s内。

目前針對自然語言描述搜尋TOP1準确率達80%,針對複雜語義的了解搜尋還存在困難,後續結合LLM做改進優化。

人臉檢索支援以圖搜,多模檢索支援以文搜,大模型檢索支援以文搜、以圖搜。

“找片兒”太難?大模型+視訊搜尋輕松解決!

在擴充性上,大模型搜尋支援多租戶,各租戶之間資料互相隔離,既支援低成本共享執行個體,也支援高性能獨享執行個體;使用者管理媒資資料時支援建立多個搜尋庫,每個搜尋庫可分别設定搜尋索引,搜尋索引底層算子支援配置選擇;使用者根據搜尋庫增删改查媒資資料,滿足客戶不用使用場景,搜尋架構具有高擴充性、可靠性、穩定性。

“找片兒”太難?大模型+視訊搜尋輕松解決!

06 總結和展望

本文介紹了智能媒體服務的跨模态大模型檢索技術實作和使用,我們把媒資進行多元度分析,使用傳統的基于ES的标量檢索和基于向量的特征檢索有機結合,滿足使用者對長視訊的内容了解和跨模态精準檢索的需求。

但是,視訊檢索技術還遠遠沒有進化到終點,在下面幾個方面仍待優化與突破。

一是算法的提升。

準召率優化:目前達摩院表征大模型TEAM和ChineseClip,召回準确率達80%;達摩院在研新多模态資訊表征合一模型MBA召回準确率可達93%,後續待接入。

新的模态融合:目前接入的表征大模型,僅支援文本與圖像的對齊,音頻模态是缺失的。想象一下,如果我搜“空山新雨後”,找到了一幅搭配雨聲的山水風景視訊,是多麼酷的體驗。

多表征融合:目前算法僅基于句子級别的文本,以及幀級别的圖像進行特征提取,其實是丢失了視覺中的人物、物體等客觀實體細節的。理想中的表征大模型,應該是多表征融合的。例如我搜“梅西捧着金球獎”,出現的應該是梅西拿着金球獎,而不是C羅捧着金靴獎。這意味着表征大模型需要有人物識别和文字識别的能力,而不僅僅依賴訓練中的文本-圖像對。

二是成本與性能的平衡。

表征特征壓縮:目前是768維float32維向量,已經實作了float32壓縮為uint8搜尋效果基本保持一緻,正在探索壓縮為01二值向量,實作低成本存儲與搜尋。

基于片段的表征:目前視訊每秒抽取一幀進行特征計算存儲,已經研究出視訊片段合并,提前進行特征聚合減少抽幀數量,降低存儲同時提升搜尋效率。

三是在工程與體驗上。

多路召回:針對AI标簽搜尋、人臉檢索、大模型檢索,支援使用者進行同時搜尋,搜尋結果合并後重新打分排序。

檢索增強LLM:支援對使用者複雜搜尋語句的了解,搜尋時針對使用者query語句進行query改寫實作QP能力,識别filter、groupBy等字段進行搜尋語句SQL式轉換,搜尋結果結合原始query通過大模型再次分析過濾排序等;自然語言搜尋增強形式,結合大模型實作問答式搜尋,支援企業快速建構媒資知識庫。

目前,自然語言視訊檢索已在阿裡雲智能媒體服務(IMS)上線,歡迎大家咨詢體驗。

媒資搜尋産品文檔:https://help.aliyun.com/document_detail/2582336.html

歡迎加入官方答疑「釘釘群」咨詢交流:30415005038

參考文獻及大模型:

[1] 《視訊搜尋太難了!阿裡文娛多模态搜尋算法實踐》:https://mp.weixin.qq.com/s/n_Rw8oa0Py7j_hPIL1kG1Q

[2] 《深度 | 上億使用者每天看100分鐘!基于多模态Embedding及檢索的短視訊内容了解》:https://mp.weixin.qq.com/s/M_E89uEPkWrMRBan1kF8AQ

[3] 《優酷推出“AI搜片” | 模糊搜尋精準比對,解決找片難》:https://mp.weixin.qq.com/s/Wr09Sfn3XxJ-CqvJmeC-Uw

[4] ChineseClip模型:https://modelscope.cn/models/iic/multi-modal_clip-vit-base-patch16_zh/summary

[5] TEAM圖文檢索模型:https://modelscope.cn/models/iic/multi-modal_team-vit-large-patch14_multi-modal-similarity/summary

繼續閱讀