天天看點

清華大資料論壇:快手AI技術副總裁鄭文分享深度學習應用

作者:MtimeTime.com

中新網4月28日電 27日,清華大學108周年校慶之際,清華大學大資料研究中心、清華-快手未來媒體資料聯合研究院共同主辦《清華大資料論壇——深度學習技術與應用》,清華大學師生、校友彙聚一堂,探讨分享深度學習技術與應用的最新進展。

清華大資料論壇:快手AI技術副總裁鄭文分享深度學習應用

快手ai技術副總裁鄭文博士作主題分享

據悉,清華大學-快手未來媒體資料聯合研究院于2018年4月正式成立。作為清華大學校級科研機構,研究院充分利用清華大學的領先技術和快手多年的行業積累,面向多個領域開展基礎和應用研究、開發、內建和快速疊代,共同探讨一系列未來媒體課題,讓技術更好賦能使用者,實作人與人之間更精準的連接配接。

軟體學院2001級的校友、清華-快手未來媒體資料聯合研究院副院長、快手ai技術副總裁鄭文博士作了題為《深度學習在短視訊領域的應用和展望》的分享。

鄭文表示,作為一個日活超過1.6億的短視訊app,快手的使命是“用科技提升每一個人獨特的幸福感”。有兩個關鍵詞,一是“每一個人”,這說明快手的價值觀是非常普世的,但同時也強調每個人的幸福感是“獨特的”。光靠人工營運很難達到針對每個人的服務,需要通過人工智能技術,特别是近幾年有所突破的深度學習技術來實作。

鄭文介紹說,目前快手是通過記錄來提升幸福感的,這可以從兩個方面來展現。首先,使用者希望能看到更廣闊的世界。第二,使用者也有分享自己,被更廣闊的世界看到的需求。

但是這裡面臨一個挑戰,現在快手累計擁有超過 80 億條視訊與數億使用者,在這兩個海量的數字面前,如何有效配置設定注意力?過去,注意力一般會集中在所謂的“爆款視訊”裡,但在爆款視訊之下,還有大量可能包含了非常豐富的資訊、類别多樣化的内容,這種“長尾視訊”往往很難被别人注意到。如此,一些需求小衆,或者興趣比較細分的群體往往很難找到他們想要的内容。

清華大資料論壇:快手AI技術副總裁鄭文分享深度學習應用

這個挑戰決定了必須要依賴于深度學習為主的ai技術解決該問題,代替人工實作内容比對的分發。快手很早開始就在ai相關技術方面做了很多積累,從視訊生産到分發每一個環節都有大量深度學習的應用。

内容生産

鄭文說,快手希望通過ai技術使得記錄更加豐富有趣,基于這個目标,開發了大量多媒體和ai技術,比如背景分割、天空分割、頭發分割,人體關鍵點、人臉關鍵點、手勢關鍵點檢測等等,并将它們應用在魔法表情中。

快手使用者跟中國網際網路使用者分布非常一緻,中國網際網路使用者裡面有很大一部分使用的手機都是中低端手機,算力有限。而先進的 ai 技術對裝置的計算量的要求極高,為了讓先進的技術被最多的使用者體驗到,快手對底層平台進行定制化開發,基于快手自研的 ycnn 深度學習推理引擎及媒體引擎,讓上述技術在大多數機型上都能高效運作,并針對不同機型、不同硬體進行了适配和優化。

鄭文透露,快手也希望将内容品質變得更高,研發并應用了很多圖像增強技術。例如,使用者在光線很暗的環境下拍攝,産出的視訊往往會丢失資訊和細節,通過暗光增強技術,可以将這些細節恢複。

接下來是快手近期在内容生産方面研發的一些具體的深度學習技術。三維人臉技術能夠針對單張人臉圖像恢複出人臉的三維資訊,一方面可以實作對人臉的一些修改,比如打光、做一些表情、實作三維變臉特效;另一方面,通過三維人臉資訊,可以提取出人的表情變化,然後把表情遷移到虛拟的卡通形象上,效果類似于 iphonex 推出的 animoji 功能,但 iphonex 有結構光攝像頭,且運作 animoji 需要很強大的算力,通過技術研發,在普通攝像頭、配置較低的手機上也能實作類似功能。

鄭文表示,人像分割技術能把人像和背景區分開,分别對人像和背景做特效,或者進行背景替換,還可以做人像虛化;頭發分割,可以把頭發區域分割出來,做染發效果。天空分割技術則可以讓天空區域變得更加超現實、更加夢幻。人體姿态估計則是預測人的關節點位置,利用這一技術,可以給人體肢體上加特效,或者修改人的體型,做美體瘦身功能。此外,還能重構出人體的三維資訊,用于控制卡通形象。

手勢檢測是把各種特定的不同手形檢測出來,實作“控雨”等玩法。另外還有 ar 相機姿态估計,背後是快手自研的 3d 引擎,并在其基礎上添加編輯器子產品、渲染子產品、肢體子產品、聲音子產品等,來實作模型精緻而自然的光感、材質。

在音視訊方面,應用了很多智能算法,比如需要視訊盡可能清晰,但同時也要求傳輸流暢,這就需要針對視訊複雜度做一些自适應優化。另外,也會對圖像進行分析,比如視訊裡面人臉的區域往往對大家的觀感影響最大,會把人臉的區域檢測出來,将碼率做得更高,使得整體觀感獲得很大的提升。

也會檢測圖像品質,比如視訊生産過程中存在一些導緻圖像品質較低的因素,如拍攝沒有對好焦,鏡頭長期沒有擦拭,或者視訊經過多次上傳和壓縮而産生塊狀瑕疵。會把這些問題通過 ai 算法檢測出來,一方面提醒使用者拍攝的時候注意這些問題,另一方面在做視訊推薦時也會對高品質視訊進行一些傾斜。

内容了解

據鄭文介紹,内容生産環節完成後,視訊會被上傳到後端伺服器,這裡需要對視訊内容進行更深層次的了解。視訊的内容了解會用在很多方面,比如内容安全、原創保護、推薦、搜尋、廣告等等,這裡大概分為兩個階段。

首先是感覺階段,機器會從人臉、圖像、音樂、語音四個次元對視訊資訊進行了解。

人臉是一個很重要的次元,因為人臉往往包含了人所關心的最主要的部分,會對人臉區域進行檢測,識别年齡、性别、表情等。

另外一個次元是圖像層面,會對圖像進行分類,如圖像的場景是什麼;此外也會檢測圖像中有哪些物體,還會進行圖像品質評估,以及利用 ocr 技術從圖像中提取文字。

音樂是影響視訊感染力很重要的一部分,可以從視訊裡識别出音樂類型,甚至可以對音樂進行結構化分析,分離伴奏和歌唱部分。

語音也是視訊非常重要的次元,往往從圖像中可能并不能很好地得到視訊所傳達的資訊,這時候語音就非常重要,會把語音識别出來轉化成文字,也會通過語音去識别人物的身份、年齡、性别等等。

第二個階段是推理階段,會把這些不同次元的資訊進行多模态融合,推理出更高層次的語音資訊,或者對視訊進行情感識别。也用到知識圖譜技術,把視訊裡的知識存儲在知識圖譜裡表達出來。通過知識圖譜的推理,能夠得到一些更高層、更深入的資訊。

在内容了解方面也做了一些比較具體的技術,如快手開發了一套視訊标簽系統,可以對視訊裡出現的大多數内容和場景進行分類。在快手語音識别功能子產品,采用深度學習算法,結合上下文語境子產品,使得識别精度得到很大提升。

一方面,需要了解視訊内容,另一方面,也需要對使用者進行了解,包含使用者公開的年齡、性别等資訊以及使用者在實時使用快手時産生一些行為資料。這些資料都會傳送到後端的深度學習模型裡,訓練出對使用者了解的向量。通過這些向量,可以預測使用者的興趣以及他與其他使用者之間的關系。

最後得到對使用者的描述以及對視訊的了解,使用者和視訊之間的比對就會産生萬億級别特征的大資料,這個大資料會被用在實時線上的推薦系統裡,預測使用者會對什麼樣的視訊感興趣。另外也會對社群裡的内容進行排序,比如前面提到如何配置設定注意力,希望注意力配置設定的差距不要太大,是以會根據基尼系數調整視訊内容的配置設定情況。此外,還會考慮到内容的安全性、多樣性以及原創保護等因素。

鄭文表示,希望跟高校、學界的老師同學進一步加強深度合作,充分利用快手的海量資料和強大算力,共同推進深度學習技術,挖掘未來更多的可能性,提升大衆幸福感,這也是成立清華大學-快手未來媒體資料聯合研究院的願景。

繼續閱讀