清華大資料論壇：快手AI技術副總裁鄭文分享深度學習應用

中新網4月28日電 27日，清華大學108周年校慶之際，清華大學大資料研究中心、清華-快手未來媒體資料聯合研究院共同主辦《清華大資料論壇——深度學習技術與應用》，清華大學師生、校友彙聚一堂，探讨分享深度學習技術與應用的最新進展。

快手ai技術副總裁鄭文博士作主題分享

據悉，清華大學-快手未來媒體資料聯合研究院于2018年4月正式成立。作為清華大學校級科研機構，研究院充分利用清華大學的領先技術和快手多年的行業積累，面向多個領域開展基礎和應用研究、開發、內建和快速疊代，共同探讨一系列未來媒體課題，讓技術更好賦能使用者，實作人與人之間更精準的連接配接。

軟體學院2001級的校友、清華-快手未來媒體資料聯合研究院副院長、快手ai技術副總裁鄭文博士作了題為《深度學習在短視訊領域的應用和展望》的分享。

鄭文表示，作為一個日活超過1.6億的短視訊app，快手的使命是“用科技提升每一個人獨特的幸福感”。有兩個關鍵詞，一是“每一個人”，這說明快手的價值觀是非常普世的，但同時也強調每個人的幸福感是“獨特的”。光靠人工營運很難達到針對每個人的服務，需要通過人工智能技術，特别是近幾年有所突破的深度學習技術來實作。

鄭文介紹說，目前快手是通過記錄來提升幸福感的，這可以從兩個方面來展現。首先，使用者希望能看到更廣闊的世界。第二，使用者也有分享自己，被更廣闊的世界看到的需求。

但是這裡面臨一個挑戰，現在快手累計擁有超過 80 億條視訊與數億使用者，在這兩個海量的數字面前，如何有效配置設定注意力？過去，注意力一般會集中在所謂的“爆款視訊”裡，但在爆款視訊之下，還有大量可能包含了非常豐富的資訊、類别多樣化的内容，這種“長尾視訊”往往很難被别人注意到。如此，一些需求小衆，或者興趣比較細分的群體往往很難找到他們想要的内容。

這個挑戰決定了必須要依賴于深度學習為主的ai技術解決該問題，代替人工實作内容比對的分發。快手很早開始就在ai相關技術方面做了很多積累，從視訊生産到分發每一個環節都有大量深度學習的應用。

内容生産

鄭文說，快手希望通過ai技術使得記錄更加豐富有趣，基于這個目标，開發了大量多媒體和ai技術，比如背景分割、天空分割、頭發分割，人體關鍵點、人臉關鍵點、手勢關鍵點檢測等等，并将它們應用在魔法表情中。

快手使用者跟中國網際網路使用者分布非常一緻，中國網際網路使用者裡面有很大一部分使用的手機都是中低端手機，算力有限。而先進的 ai 技術對裝置的計算量的要求極高，為了讓先進的技術被最多的使用者體驗到，快手對底層平台進行定制化開發，基于快手自研的 ycnn 深度學習推理引擎及媒體引擎，讓上述技術在大多數機型上都能高效運作，并針對不同機型、不同硬體進行了适配和優化。

鄭文透露，快手也希望将内容品質變得更高，研發并應用了很多圖像增強技術。例如，使用者在光線很暗的環境下拍攝，産出的視訊往往會丢失資訊和細節，通過暗光增強技術，可以将這些細節恢複。

接下來是快手近期在内容生産方面研發的一些具體的深度學習技術。三維人臉技術能夠針對單張人臉圖像恢複出人臉的三維資訊，一方面可以實作對人臉的一些修改，比如打光、做一些表情、實作三維變臉特效；另一方面，通過三維人臉資訊，可以提取出人的表情變化，然後把表情遷移到虛拟的卡通形象上，效果類似于 iphonex 推出的 animoji 功能，但 iphonex 有結構光攝像頭，且運作 animoji 需要很強大的算力，通過技術研發，在普通攝像頭、配置較低的手機上也能實作類似功能。

鄭文表示，人像分割技術能把人像和背景區分開，分别對人像和背景做特效，或者進行背景替換，還可以做人像虛化；頭發分割，可以把頭發區域分割出來，做染發效果。天空分割技術則可以讓天空區域變得更加超現實、更加夢幻。人體姿态估計則是預測人的關節點位置，利用這一技術，可以給人體肢體上加特效，或者修改人的體型，做美體瘦身功能。此外，還能重構出人體的三維資訊，用于控制卡通形象。

手勢檢測是把各種特定的不同手形檢測出來，實作“控雨”等玩法。另外還有 ar 相機姿态估計，背後是快手自研的 3d 引擎，并在其基礎上添加編輯器子產品、渲染子產品、肢體子產品、聲音子產品等，來實作模型精緻而自然的光感、材質。

在音視訊方面，應用了很多智能算法，比如需要視訊盡可能清晰，但同時也要求傳輸流暢，這就需要針對視訊複雜度做一些自适應優化。另外，也會對圖像進行分析，比如視訊裡面人臉的區域往往對大家的觀感影響最大，會把人臉的區域檢測出來，将碼率做得更高，使得整體觀感獲得很大的提升。

也會檢測圖像品質，比如視訊生産過程中存在一些導緻圖像品質較低的因素，如拍攝沒有對好焦，鏡頭長期沒有擦拭，或者視訊經過多次上傳和壓縮而産生塊狀瑕疵。會把這些問題通過 ai 算法檢測出來，一方面提醒使用者拍攝的時候注意這些問題，另一方面在做視訊推薦時也會對高品質視訊進行一些傾斜。

内容了解

據鄭文介紹，内容生産環節完成後，視訊會被上傳到後端伺服器，這裡需要對視訊内容進行更深層次的了解。視訊的内容了解會用在很多方面，比如内容安全、原創保護、推薦、搜尋、廣告等等，這裡大概分為兩個階段。

首先是感覺階段，機器會從人臉、圖像、音樂、語音四個次元對視訊資訊進行了解。

人臉是一個很重要的次元，因為人臉往往包含了人所關心的最主要的部分，會對人臉區域進行檢測，識别年齡、性别、表情等。

另外一個次元是圖像層面，會對圖像進行分類，如圖像的場景是什麼；此外也會檢測圖像中有哪些物體，還會進行圖像品質評估，以及利用 ocr 技術從圖像中提取文字。

音樂是影響視訊感染力很重要的一部分，可以從視訊裡識别出音樂類型，甚至可以對音樂進行結構化分析，分離伴奏和歌唱部分。

語音也是視訊非常重要的次元，往往從圖像中可能并不能很好地得到視訊所傳達的資訊，這時候語音就非常重要，會把語音識别出來轉化成文字，也會通過語音去識别人物的身份、年齡、性别等等。

第二個階段是推理階段，會把這些不同次元的資訊進行多模态融合，推理出更高層次的語音資訊，或者對視訊進行情感識别。也用到知識圖譜技術，把視訊裡的知識存儲在知識圖譜裡表達出來。通過知識圖譜的推理，能夠得到一些更高層、更深入的資訊。

在内容了解方面也做了一些比較具體的技術，如快手開發了一套視訊标簽系統，可以對視訊裡出現的大多數内容和場景進行分類。在快手語音識别功能子產品，采用深度學習算法，結合上下文語境子產品，使得識别精度得到很大提升。

一方面，需要了解視訊内容，另一方面，也需要對使用者進行了解，包含使用者公開的年齡、性别等資訊以及使用者在實時使用快手時産生一些行為資料。這些資料都會傳送到後端的深度學習模型裡，訓練出對使用者了解的向量。通過這些向量，可以預測使用者的興趣以及他與其他使用者之間的關系。

最後得到對使用者的描述以及對視訊的了解，使用者和視訊之間的比對就會産生萬億級别特征的大資料，這個大資料會被用在實時線上的推薦系統裡，預測使用者會對什麼樣的視訊感興趣。另外也會對社群裡的内容進行排序，比如前面提到如何配置設定注意力，希望注意力配置設定的差距不要太大，是以會根據基尼系數調整視訊内容的配置設定情況。此外，還會考慮到内容的安全性、多樣性以及原創保護等因素。

鄭文表示，希望跟高校、學界的老師同學進一步加強深度合作，充分利用快手的海量資料和強大算力，共同推進深度學習技術，挖掘未來更多的可能性，提升大衆幸福感，這也是成立清華大學-快手未來媒體資料聯合研究院的願景。

清華大資料論壇：快手AI技術副總裁鄭文分享深度學習應用

繼續閱讀

為了看看AI有多強，有人帶它玩了一次“劇本殺”

硬體丨 AMD預計最早2023年推出整合AI引擎的CPU

聲音為什麼适合打造品牌強化心智

第7代高通AI引擎：透過AI，看見未來

5分鐘攝像頭抓拍一次，居家一天至少89次！尚德員工：連廁所都不敢上

玩了一場劇本殺，同車隊友“不是人”

2022樂橙新品釋出會：14款新品齊發軟體硬體全面更新

有沒有給視訊配音的軟體？分享能給視訊配音的軟體

别讓ChatGPT跑了

梗圖搜尋神器來了！還能搜視訊，網友：找了六年的梗圖兩分鐘解決

用ChatGPT作弊，小心被抓，反剽竊水印技術讓學生噩夢提前到來

谷歌“狂飙”生成式AI賽道，最新模型可憑文字、圖檔“創作”音樂

ChatGPT發瘋怎麼辦？小冰李笛：兩個關鍵，我可破之

體驗再次刷屏的ChatGPT：還會算錯題，但邏輯更強了

小紮親自官宣Meta視覺大模型！自監督學習無需微調

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI