本文内容根據演講視訊以及PPT整理而成。
演講嘉賓介紹:宋瑛娟,達摩院機器智能實驗室資深算法專家。
預約觀看演講視訊背景介紹
大家都知道,視訊AI技術是近年來計算機視覺中比較熱門的方向。而在阿裡達摩院,多媒體AI産品就是視訊AI産品的一些能力,目前正在ai.aliyun.com官網上進行公測,公測的能力包括了标簽能力、内容智能生成能力等。未來,在兩到三個月内,達摩院機器智能實驗室也會逐漸上線更多多媒體AI标簽的能力,包括短視訊分類、更多動作識别、陌生人臉和負向标簽(用于鑒黃等場景)等。預計在2020年3到5月份的時候,還将會上線視訊指紋功能,幫助快速檢索視訊,以及多媒體AI自學習平台,借此來支撐更多深度定制的應用場景。
視訊技術-改變傳播能力
衆所周知,視訊技術能夠改變傳播方式。在網際網路上,最早的傳播方式是依靠文字,後來出現了圖檔傳播以及圖檔和文字相結合的傳播方式,之後又出現了音頻,最後出現了視訊的傳播形式。對于視訊而言,首先其天生就是多模态的。其次,視訊在應用場景中,從創作、生産、分發、營銷到消費是存在供給和消費閉環的。而對于阿裡達摩院而言,所想要做的其實是一些最基礎的能力。是以,達摩院對于視訊AI的能力分為了三個部分,即智能了解、智能生産和智能分發。智能了解包括對于人、物以及自然和行為的識别和自動分類;智能生産包括智能拆條、智能縮略圖、以及智能配樂等;而智能分發則包括了智能檢索、版權溯源等。

視訊技術-多模态視訊了解助力精确檢索和高效營運
前面提到,視訊天生就是多模态的,而對于多模态資料的了解過程中就天然地會用到一些底層技術,比如對于視訊的語音識别,通過OCR支援字幕識别,以及UGC識别等來綜合地識别視訊中的結構化資訊。目前,達摩院的視訊标簽是比較通用化的,并且還在不斷增加,如果有一些比較大的場景還可以和合作夥伴一起建構更多的視訊标簽。
達摩院機器智能多媒體AI産品2.0版本能夠實作3到6倍速的視訊處理速度,一個小時的視訊最快能夠在10分鐘之内處理完成,并且能夠将視訊中的人物、建築物、文字全部識别出來。在達摩院機器智能多媒體AI産品的後續優化中,會對于人臉的識别做一次大的提升,對于人臉識别的精度以及敏感人物的範圍和庫進行提升。
視訊技術-視訊指紋
所謂視訊指紋,所想要做的就是基于對于一段視訊的結構化了解來決定如何使用,比如在版權保護中判斷兩段視訊是否相同,或者視訊如果被分發到線下的廣告中是否能夠追蹤到。實作視訊指紋之後,即使視訊的品質、空域發生變化,或者視訊發生了拼接或者修改,仍然能夠對于這段視訊進行溯源。
視訊技術-視訊生成,封面、GIF、摘要、拆條、集錦
基于對于視訊的結構化了解,達摩院機器智能多媒體AI産品就能夠實作更多的視訊應用,比如視訊生成,封面、GIF、摘要、拆條、集錦等。目前,達摩院機器智能多媒體AI産品線上上比較重要的能力就是封面和GIF的生成技術,目前有很多廠商已經應用了。未來,達摩院機器智能多媒體AI産品将會線上上推出場景拆條和體育類集錦功能。并且繼續優化封面和GIF能力,做到基于場景級别的靜态、動态封面的生成。同時根據視訊内容品質的抽取以及前端分發的品質度量,結合智能決策,對生成内容進行最優化前端觸發。阿裡在優酷的場景裡面做了一些實驗,幫助優酷将CTR提升了15%。
應用案例
目前,達摩院機器智能多媒體AI産品現在正在和央視進行合作,在央視的媒資庫裡面會做一些視訊結構化的應用。簡單而言,第一點就是素材結構化生成,第二點就是在媒資庫中進行檢索,第三點就是根據一些片段找到與國家上司人相關的片段并展示出來。