天天看點

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

進入全民視訊時代以來,廣告行業的需求也在發生日新月異的變化。

國内移動網際網路大資料公司 QuestMobile 最近釋出的《2020 年中國網際網路廣告市場洞察》報告顯示,從廣告形式上看,視訊類資訊流增速更快,趨向成為主流廣告形式。

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

圖源:

https://mp.weixin.qq.com/s/ikrOOmOiKkxl6ZI1b9UHRQ

與此同時,使用者對廣告的創意要求也越來越高:大批視訊廣告在播放的前 3 秒就會被 60% 的觀衆劃走,一個新廣告面世不到一周就沒有人再去看了。

為了迎合這種消費習慣的變化和創意需求的更新,視訊廣告創作者需要在短時間内創作出大量有吸引力的廣告。這意味廣告行業的生産模式需要經曆一場變革。 和其他很多行業一樣,這種變革可以通過解放人力來完成。 具體到視訊廣告,AI 算法可以做什麼呢?

一方面,AI 可以承擔一些重複性工作,比如批量生産各類素材。另一方面,一些非重複性的創意工作也可以嘗試交給 AI,比如讓它自行了解廣告内容亮點,并以此為依據生成一個新廣告。

但要把這些都做好,首先要讓 AI 把視訊廣告吃透,也就是我們常說的視訊深度了解。

而這件事情,騰訊廣告其實早就在做了,而且深知其中的價值與挑戰。騰訊廣告多媒體 AI 中心總監劉威坦言,視訊深度了解難到令人絕望,「假如說圖像識别已經開發到中年的水準,我覺得視訊還是嬰兒水準。視訊的 knowledge domain 太大了,你在某個地方加一個小東西,特征空間裡看到的就已經差了很多,是以算法非常脆弱」。類似的前沿算法研究,騰訊廣告内部還有很多。

在向這些前沿算法發起挑戰的同時,騰訊廣告還會通過各種形式将産、學、研各界聚集到一起,共同推進行業技術的演進,始于 2017 年的「騰訊廣告算法大賽」就是其中之一。

這一比賽一直聚焦業務最關心的問題,今年的賽題更是直面令人頭疼的視訊廣告深度了解,而且是高難度的「多模态視訊廣告秒級解析」。

由于賽題頗具挑戰,出題方将其分成了兩個賽道:「視訊廣告秒級語義解析」(賽道一)和「多模态視訊廣告标簽」(賽道二)。

這兩個賽道難在哪兒呢?

先來說說沒那麼難的賽道二。這個賽道以視訊、音頻、文本三個模态作為輸入,要求選手針對測試視訊樣本預測出視訊在呈現形式、場景、風格等三個次元上的标簽。

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

剛才說過,視訊了解本身就是一個難題,而本次比賽不僅要求了解視訊,還要和音頻、文本等模态的資訊綜合到一起來了解,實作多模态融合。這一考法令選手叫苦不疊。

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

然而,賽道一難度還要更高。這一賽題同樣以視訊、音頻、文本三個模态作為輸入,但要求選手将測試視訊進行「幕」的分段,并且預測出每一段在呈現形式、場景、風格等三個次元上的标簽。「幕」即場景,可能包含多個鏡頭,是以也叫「語義超鏡頭」。這些鏡頭在語義上相關,描繪并傳達一個進階概念。比如下圖中第一個場景(幕)就包含四個鏡頭,共同闡述「打電話」這一進階概念。如何将這些鏡頭歸入一個場景、概括出其進階語義資訊顯然是一個非常綜合的問題。

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

此外,「多模态視訊廣告秒級解析」這個主題是騰訊廣告從真實的業務需求中提煉出來的,在算法領域尚未被提出,也很少有人進行過深入研究,相應的資料、代碼、可參考文獻都比較少,這也增加了比賽的難度。怪不得有不少選手回報說,「跑 baseline 都費勁」。

與賽題難度相比對的是高額獎金池:本屆大賽冠軍可以拿到 10 萬美元的現金獎,總獎金池高達百萬級。

為什麼這個賽題如此重要?騰訊公司副總裁蔣傑在決賽緻辭中提到,「随着5G 技術的逐漸普及,以視訊為載體的内容越來越受使用者歡迎,如何深度了解視訊廣告内容,挖掘其潛在價值,無疑成了當下廣告行業發展的重點。而細粒度了解視訊時序内容,對于廣告業務具有積極意義,可以真正幫助廣告主降本提效,讓廣告更有溫度。」

今年的比賽吸引了上千家高校和企事業機關的4300餘名選手報名。在昨天舉行的決賽中,賽道一的冠軍由「GZ」戰隊摘得,他們将視訊廣告秒級語義解析這個任務分成了 Temporal Segmentation 和 Proposal Tagging 兩個子任務來完成,具體方案如下:

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

賽道一冠軍解決方案概覽。

賽道二的冠軍則由「揮霍的人生」戰隊摘得,他們使用了基于 stacking 的方案,預測時可以并行提取每個獨立部分的特征,模型疊代速度快。

除了現金獎勵,通過此次大賽,選手還有機會現場參與 2021 ACM MM Grand Challenge Session(以下簡稱 ACM 多媒體挑戰賽),同更多算法專家做進一步的現場交流。

參加騰訊廣告算法大賽還有機會拿到頂會挑戰賽門票?沒錯,因為本屆賽事與 ACM Multimedia 實作了強強聯合,兩道賽題都入選了 ACM 多媒體挑戰賽。

ACM Multimedia 是多媒體領域最重要的國際會議,也是中國計算機學會(CCF)認證以及多媒體研究領域評級中唯一的 A 類國際頂級會議。為了促進工業界和學術界的交流,大會設定了 ACM 多媒體挑戰賽環節。可以說,這是多媒體領域工業界和學術界交流活動中最有影響力的一個。

那麼,這個挑戰賽關注什麼樣的議題呢?ACM 多媒體挑戰賽主席李錫榮給出的答案是:工業界未來 5 年到 10 年關心的問題。

眼光放得長遠,難度自然不會低,是以大賽也沒指望選手通過一場比賽就把問題解決掉。 「(比賽)解決方案不見得在一兩年内就能商業化或者産品化,它實際上是對于未來技術的一種探索。」李錫榮補充說。

換句話說,ACM 多媒體挑戰賽探讨的問題必須要有前瞻性和實用性,這與騰訊廣告算法大賽的兩道賽題不謀而合。 

同時,賽題入選頂會挑戰賽也意味着,今年騰訊廣告算法大賽的國際影響力進一步擴大,比賽中誕生的解決方案、代碼、資料集等資源将為國際算法圈提供重要參考。

當然,這些資源也将為視訊廣告創意業務的發展帶來新的助力。騰訊廣告内部與之相關的就有多尺寸智能裁剪、 模闆視訊自動剪輯、 視訊創意智能混剪等多項視訊廣告業務。 多尺寸智能裁剪是指利用一種規格的視訊生成多種規格的視訊,比如輸入 16:9,輸出 9:16、4:3、1:1 等多種格式。這裡面涉及智能關鍵幀截取、焦點跟随、視訊去填充、圖像分割、背景融合等多項視訊了解任務。

舉個例子,在把一個豎版視訊切換成橫版的時候,AI 要截取畫面的一部分來保持滿屏鋪開,這就需要 AI 識别出畫面的焦點是什麼(如下圖中的一家三口),然後進行焦點跟随。這一功能有多實用?要知道,各個投放平台對視訊廣告的規格要求是不一樣的,一個廣告視訊可能需要 20 多種規格。在沒有 AI 介入的情況下,這無疑是一項低效的重複性工作。 

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

模闆視訊自動剪輯是指複用之前積累的優秀素材快速剪出新的創意。此時,廣告主可能隻需要提供若幹張商品圖,而視訊的「黃金前 3 秒」、轉場、行動指引等片段都可以從素材庫調取。AI 算法可以為這個素材庫提供更加精準的标簽(比如一個優秀的前 3 秒素材講了什麼内容),進而在再創作時更加精準地比對新廣告需求。到目前為止,騰訊廣告已經積累了 10000 多套這樣的模闆,複用模闆每天生産的視訊量在 10 萬以上。

視訊創意智能混剪是指根據輸入的一段視訊剪出不同時長的版本,同時還要保留視訊廣告的吸引力、信任力、說服力和行動力。

舉個例子,現在有一段 30 秒的産品介紹廣告,需要讓 AI 把它剪成 15 秒的。首先,AI 要把視訊切成若幹場景,然後從這些場景中找到那些可以吸引使用者觀看、增加使用者信任、向使用者展示産品優惠資訊以及驅使使用者下單的片段并保留下來。這一過程就是給各個場景進行秒級切分并打上各種标簽的過程,也是賽道一考察的主要内容。

這些業務的順利開展都離不開騰訊廣告多年以來積累的多模态 AI 能力,包括文本、圖像、語音、視訊等多個領域。同時,這些能力的組合也為騰訊廣告打造智能稽核、智能創作、内容了解等廣告業務平台奠定了基礎。這些平台覆寫創意制作(投前)、廣告推薦(投中)、創意複盤(投後)整個鍊路,支援文本、圖檔、視訊、落地頁等各種廣告類型,已經在在遊戲、電商、金融、教育、網服等多個行業的廣告創作中得到應用。

讓AI讀懂視訊廣告有多難?這道算法題4000多人挑戰,冠軍赢走了10萬美元現金

可以預見的是,随着 AI 落地的深入,未來将有越來越多的 AI 技術應用到廣告産品當中。或許哪天吸引你看下去的一個廣告就是 AI 生成的呢。

繼續閱讀