天天看點

美團本地生活場景的短視訊分析

美團本地生活場景的短視訊分析

分享嘉賓:馬彬 博士 美團 技術專家

編輯整理:劉小輝

出品平台:DataFunTalk、AI啟蒙者

導讀:在硬體、軟體技術發展的助推下,我們正進入一個視訊爆發的時代,無論從使用者還是内容次元,視訊資料都蘊含着非常大的資訊量,在視訊資料的分析中AI算法大有可為,無論是視訊的創作、稽核、編輯還是分發等環節都能看到AI技術的應用。在各種各樣業務場景的驅動下,美團開展了很多視訊分析相關的AI技術實踐。本次分享的題目是本地生活場景的短視訊分析,主要圍繞下面三點展開:

  • 短視訊分析背景介紹
  • 短視訊分析技術在美團的技術實踐
  • 總結與展望

01短視訊分析背景介紹

1. 視訊行業發展趨勢

美團本地生活場景的短視訊分析

近年來,不管是從技術還是從日常生活,都能感受到我們正在進入到一個視訊爆發的年代,當然這背後的一些軟體和硬體的技術成為了這件事情的一個助推。從這些統計資料可以看到,無論是内容還是使用者次元,視訊資料都包含了非常大的資訊量。在視訊資料的分析過程中,不管是視訊的創作、稽核、編輯還是分發,AI算法都大有可為。這是視訊行業整展現狀的一個背景。

2. 美團AI ——"場景驅動技術"

美團本地生活場景的短視訊分析

美團的AI相關技術非常有特色,一個特點或者優勢是“場景驅動技術”。除了大家比較熟悉的外賣,美團在吃、住、行、購、玩以及生活事務等方面有各種各樣的業務應用場景,每個場景都會有一些特殊的視覺相關需求,在不同的場景下又會有不同特色資料内容的沉澱,這些場景和資料特點驅動着我們去做一些底層AI技術相關的沉澱,同時AI技術在打好一些基礎之後,又會反過來賦能業務場景的一些應用。計算機視覺技術顯然是AI平台層一個不可或缺的部分,這也是今天我們将展開去呈現的一部分。

美團本地生活場景的短視訊分析

在美團的業務場景下,為什麼要對視訊資料進行利用和分析?以常見的使用者點評為例,傳統的文本加圖像在呈現資訊的時候會有一些不足,相比之下,如果以視訊點評的形式去呈現一個非常有創意的内容,不僅對商家來說是一個比較好的資訊的宣傳,對于使用者來說,也是一個更加生動的資訊擷取的次元。在這種情況下,相信大家可以感受到美團在短視訊上其實是大有可為的。

美團本地生活場景的短視訊分析

按照視訊行業的大緻劃分,美團的視訊絕大多數屬于本地生活場景的碎片消費,這其實也是符合大家的認知的。美團的業務場景非常多,不管是在B端還是C端,豐富的供給源和展位都有非常多短視訊内容的呈現。在這樣的背景下,可以看到美團不僅有豐富的應用場景,同時又有豐富的視訊内容和展位。對應到線上的這些應用,往下技術層要做的事情也就逐漸浮出水面,它是一個從視訊内容的素材供給到内容分發以及創意展示全鍊條的一個AI賦能的情況,同時也可以看到在每一個内容流轉的環節都有很多計算機視覺技術可以去發揮作用。

02短視訊分析技術在美團的技術實踐

1. 視訊多标簽分類

背景:

美團本地生活場景的短視訊分析

對于原始視訊資料,僅僅利用中繼資料、文本或者使用者點選行為開展業務應用,由于缺乏對視訊内容的把控,存在很多局限性。視訊打标通過對視覺内容進行一些了解能夠更好服務于内容營運、使用者畫像、搜尋、推薦、廣告等業務應用,這其中的一些場景要求必須對内容有一些顯式标簽的把控。比如在内容營運的場景下,有時需要進行資料資産的盤點,希望知道美食的視訊有多少,酒店住宿的視訊有多少,然後對于缺失的部分有針對性進行補充營運,這種情況下對視訊内容的了解如果隻是依靠嵌入特征的隐式表征是不太能滿足業務上的定制化需求的。在這樣的大背景下,我們需要對視訊内容進行一個标簽化的了解,即對視訊進行多标簽分類。

挑戰:

美團本地生活場景的短視訊分析

視訊多标簽分類有什麼難點呢?在美團的場景下,資料非常豐富多樣,如何有效構模組化型以及我們的标簽體系成為分類模型啟動階段需要克服的第一個困難。其次,初始模型建構之後,前期要對标簽保證一個準确率,但是标簽覆寫率可能會有一定問題,很多業務資料是打不上标簽的,如何進行标簽體系的擴充是第二步。最後,因為内容的更新和疊代是一個持續的過程,是以技術打标的能力也是需要有一套能夠增量學習的機制,進而進行高效的樣本疊代,這是第三個非常關鍵問題。下面分别就這三步介紹我們在這方面的一些技術實踐。

初始模型建構:

美團本地生活場景的短視訊分析

為了快速在業務場景下建構初始的打标能力,最直接的想法就是通過外源資料,利用一些公開的資料集進行知識和标簽的遷移。公開資料集中Google的YouTube-8M資料集與多标簽分類這個場景最為契合,這個資料集具有非常豐富的實體、場景、動作等各類标簽,而且相對通用,具有一定的遷移性,可以應用到我們的業務場景中。模型結構是相對容易處理的一件事情,往年的競賽中有很多可供參考的模型結構,比如常用的Aggregation、Sequential相關模型。其中,前者逐幀提取特征,然後利用Pooling形成整個視訊的表征,後者通過RNN序列模組化進行視訊特征的抽取。此外,假設提供原始視訊的情況下,還有3D Conv、Two-stream這樣兩類主流的視訊分類模型,這些基本涵蓋了視訊分類中主流的一些方法。結合我們的業務場景,由于我們的視訊大多是分鐘級或者幾十秒甚至十幾秒的小視訊,時序的長時上下文重要性不那麼強。同時我們的業務場景以實體和場景标簽為主,運動特征雖然能夠提供增量資訊,但在前期從零到一建構标簽模型的階段并不是剛需。結合這兩點,我們選擇了第一類Aggregation模型。

美團本地生活場景的短視訊分析

由于YouTube-8M資料集的内容和本地生活場景還是有比較大的差别,資料内容和标簽的差異是接下來我們要處理的一個更為困難和實際的問題,這也是目前任何一套資料驅動的Deep learning model需要克服的問題。在Facebook以及Google的一些工作的啟發下,我們提出了一套半監督的、知識遷移的學習範式,首先利用公開資料集訓練的Teacher Model在業務場景下的無标注資料上進行打标,在這個過程中利用置信度卡控、相似性距離度量或者Label Propagation這類半監督學習常用的方法進行一些僞标簽的清洗,進而獲得業務場景下的一些标注資料,然後利用這些标注資料進行Student model的微調。這個過程可以進行若幹輪的疊代,Student model學習到一些資訊之後,可以又變成Teacher model進行下一輪的疊代。通過這樣一番初始模型的建構,我們在業務場景的資料下,看到一個明顯的效果提升,不同的品類下的一些視訊标簽的準确率有了非常大的提升。

标簽體系擴充:

美團本地生活場景的短視訊分析

第二步緊接着面臨的問題是初始的标簽體系難以保證對業務場景内容有一個很好的覆寫,這裡我們從橫向擴充與縱向細化兩方面進行了标簽體系的擴充。

① 橫向擴充

我們盡量在少标注的情況下通過兩方面的優化完成這件事。一方面對于這類打不上标簽的視訊,通過中間層的feature embedding進行視覺特征的聚類,然後人工對聚類的結果進行抽象分析,選擇比較契合業務場景的标簽對一個或者一批視訊進行打标,快速進行橫向标簽的擴充。另一方面主動擴充内容了解的次元,在利用通用多标簽分類資料集遷移知識的同時,從場景分類、人臉檢測、人體分析等相關資料集去遷移知識。

② 縱向細化

标簽力度過粗是公開資料集标簽體系存在的另一個問題,為此我們結合業務場景下圖像了解積累的一些美食的場景分類以及菜品的細粒度識别相關的能力和模型,對視訊打标的結果進行了縱向的優化和擴充,完成一些細粒度标簽的菜品标注,進而為業務上的應用提供了非常好的幫助。

資料高效持續疊代:

美團本地生活場景的短視訊分析

第三步面臨的問題是如何實作資料高效持續的疊代,因為考慮到标簽體系的擴充過程以及樣本随時間的遷移,要求我們有一個持續學習的過程。圖中藍色部分基本代表了模型的冷啟動與标簽次元擴充,更重要的是要有一套從線上回流的機制,對應紅色部分。一方面在沒有業務場景标簽互動的情況下,通過主動學習的方式查詢一些最值得人工标注的樣本,例如基于置信度或者多模型投票都可以很有效的找出模型了解不到位的線上真實樣本,然後通過人工标注的方式擴充樣本。另一方面業務場景中有很多弱監督的資料,利用這部分資料能夠很好的幫助我們持續去疊代模型的性能。

2. 視訊智能封面

美團本地生活場景的短視訊分析

在資訊流場景下,最先呈現給使用者的資訊通常都是需要經過精挑細選的。比如按搜出圖場景下,呈現給使用者的内容與使用者查詢的相關性需要非常強的個性化,而在頭圖優選或者推薦這些個性化要求相對弱的場景,即使不太知道使用者明确的意圖是什麼,我們也應該選擇相對品質較好的圖來進行一個呈現。這是以往資訊流場景下圖像相關的應用,視訊智能封面的邏輯與這個其實是非常類似的,因為封面對于視訊來說就像是相冊的頭圖一樣。在前置的展位上,我們不能把整個視訊全部播放出去,需要選擇最精彩或者與使用者意圖最相關的一段作為封面進行呈現,這對于給使用者提供比較好的資訊服務是非常重要的。

算法整體流程:

美團本地生活場景的短視訊分析

對于一個輸入視訊,首先需要進行一些候選片段的抽取,然後比較關鍵的一個過程是對這些片段進行篩選和排序,排序的品質直接決定了最終優選封面的好壞。在使用者沒有特别明确的意圖或者偏好的場景下,我們可以從品質或者其他角度推薦最為穩妥的一套通用智能封面,而在搜尋或者其他使用者意圖比較明确的場景,我們需要根據語義進行個性化的了解,然後推薦出語義相關的智能封面。下面分别介紹通用智能封面和語義智能封面相關算法流程。

通用智能封面:

美團本地生活場景的短視訊分析

通用智能封面最核心的部分是視訊片段的重要性度量,我們需要從視訊的重要性波形圖中抽出重要性最高的片段往前排作為封面。現有的方法主要分為兩類,第一類是端到端模型,利用強監督學習、弱監督學習或者強化學習的方式進行模組化,比如利用強監督學習直接去回歸人工标注的顯著性分數或者精彩度評分值。另一類在冷啟動階段更好處理,可解釋性也更強,做法是利用重要性度量進行次元的拆分,人工去定義封面的通用品質評價标準,比如畫面清晰度、鏡頭晃動、資訊量等次元,然後每一個次元通過底層特征或者傳統的圖像品質評價(IQA)方法計算評分,最終通過政策或者模型進行各次元評價結果的聚合。如果在業務場景中能夠擷取到相關監督信号,第一類方法是非常好并且值得嘗試的。在前期能力積累中以及考慮模型的可解釋性,我們主要采用第二類方法,在疊代一段時間之後,随着樣本的積累可以相應轉化到第一類方法。

語義智能封面:

美團本地生活場景的短視訊分析

語義智能封面是與使用者意圖強相關的,不僅需要篩選出一些精彩片段,同時還需要對片段内容的語義有一定的把控,其中關鍵的技術難點就是如何擷取視訊片段的标簽。最正常的做法是通過圖像分類檢測或者視訊片段的監督學習進行分類打标,這種做法不過多展開介紹,重點介紹下面這種有業務場景特色的處理方式,即基于弱監督學習的視訊片段語義标簽挖掘。

美團本地生活場景的短視訊分析

在美團的場景下,我們可以看到使用者在拍攝一段點評視訊的同時,還會配有相應的一段描述文字,這個時候兩個模态之間是有很多相關性或者說共識存在的,而且視覺次元一個視訊片段和整段視訊的關系與文本次元一個詞與整段文本之間的關系是有可類比性的。在這種情況下,我們分别對視覺模态和文本模态進行一些處理,然後将兩方面相關的了解結果進行标簽合并、交叉校驗等資料清洗操作,進而挖掘出一大批“片段-标簽”對。

業務應用:

美團本地生活場景的短視訊分析

在實際生産環境中,我們通過這樣的方式從使用者評論的内容中挖掘出的買手機遊戲平台地圖示簽與視訊片段的相關性是非常高的,挖掘出的标簽可以直接用到相關的線上應用,比如最典型的使用者搜尋場景下,搜尋引擎能夠根據使用者的查詢内容推出語義相關的封面呈現給使用者,通過這種方式視訊封面與使用者搜尋内容的相關性有了比較明顯的提升。

3. 視訊生成

美團本地生活場景的短視訊分析

視訊生産在整個産品的鍊條中扮演的主要是擴充供給的作用,比如支撐商家相冊内容的豐富。

視訊生成技術:

美團本地生活場景的短視訊分析

在美團的場景下,視訊生産技術的一個分層抽象會經曆一個從下到上的處理流程,每一塊都會有一些相應的技術點。對于素材篩選,因為輸入的素材豐富多樣,涉及圖像、視訊、音頻、文本,是以每一塊都需要進行一些針對性的技術的處理,然後再向上通過合成渲染、統一的風格化處理,最後輸出内容到業務上進行分發和應用。下面主要以圖像素材的篩選以及處理為例,展示兩個業務場景下真實的技術應用執行個體。

應用場景:

① 餐飲場景

美團本地生活場景的短視訊分析

在餐飲場景下,我們需要為商家生成一些宣傳的小視訊或者動圖,這對于商家或者營運側來說是一個端到端的黑盒,隻要輸入商家的店鋪ID就能自動化生成最終的一個呈現結果。這裡我們技術上圖像會進行很多素材的AI了解和處理:首先基于識别品質卡控、内容去重對商家的相冊進行一個整體的結構化以及品質的排序;然後通過了解内容找出來一些需要的圖像并基于圖像美學品質評價進行素材的精排;最後進行智能裁切、局部優選、動效渲染來整合素材生成最終的展示視訊。在這個自動化的處理流程中,AI技術扮演了重要的角色,比如在素材了解上對菜品的識别和了解能力是比較核心也是很有美團特色的,同時還有素材的智能裁切,這其實都依賴于我們在資訊流場景下一些長期的實踐積累。

② 酒店場景

美團本地生活場景的短視訊分析

相比于餐飲場景,酒店場景多了一些酒店住宿行業的特色,業務上對于資訊内容的呈現有類似于行業腳本這種比較好的呈現順序,同時這個場景下對于視訊和音頻相關的配合也有比較高的要求,AI會增量做一些音頻節拍的檢測輔助人工進行一個卡點,最終呈現出一個觀感和體驗更加好的相冊速覽的效果,使用者也能很友善地擷取各個次元的資訊。

03總結與展望

随着AI技術的發展以及5G等通訊行業技術的提升,視訊在人們本地生活場景下将會扮演愈發重要的角色,視訊分析技術将在本地場景中發揮更大價值。通過無監督、自監督以及多模态相關的内容了解技術,挖掘利用業務場景下海量資料中的有效資訊将是比較重要的一個技術發展方向。

今天的分享就到這裡,謝謝大家。

在文末分享、點贊、在看,給個3連擊呗~

嘉賓介紹:

美團本地生活場景的短視訊分析