天天看點

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

演講嘉賓簡介: 阿裡文娛核心系統部負責人——心石

以下内容根據演講視訊以及PPT整理而成。

本次分享主要圍繞以下兩個方面:

一、新趨勢

二、技術布局

一、新趨勢

文娛視訊技術探索和5G機會點

優酷主要提供劇集、綜藝、電影、動漫品類的長視訊,同時包含資訊、紀實、文化财經、時尚生活、音樂、體育、遊戲和自頻道品類,業務形态包括會員、直播、VR、家庭娛樂和經濟業務,是一個綜合的視訊平台,服務于視訊消費業務場景。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

5G的基礎建設和營運商推進5G應用

5G技術的主要特征:高速率、低延時和多連接配接,相較于4G,達到了質的變化。從應用層來看,5G的速率是4G的10倍以上,可達到20Gbps,時延降低10倍,連接配接數密度增量式增長,可提高10倍。5G在工業自動化、自動化駕駛車輛應用較多,同時在視訊消費,3D、4D視訊和超高清螢幕,是極為确定的應用,優酷在5G時代來臨前,做了一些思考和探索。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

聚焦5G+AI建構新文娛消費體驗

将從消費側的新玩法、新形式、新體驗和生産側的視訊數量和處理速率新要求兩個部分講述。

消費側側重于5G下音視訊體驗更新,資訊密度即帶寬高後帶給消費者在超高清、播放能力、立體視覺的體驗。優酷基于對超高清的了解,在畫質、聲音、高幀等方面,做了自己的幀享平台。随着速度的提升和連接配接時延的降低,播放能力全面更新,增加互動體驗。上行通路打通後,2D和平面式消費不能滿足使用者的需求,轉向立體,具體包括AR、VR以及6DoF觀看。

生産側借助AI助力,快速有效的生産視訊,通過AI了解,多元度加工視訊,産生二次創造的有趣素材。AI助力的部分包括多模态搜尋能力(以往通過文字搜尋,後續可能會增加圖檔、語音,多模态的搜尋視訊)、基于使用者興趣的推薦系統(對視訊有效組織)、基于素材解構的視訊智能生産(素材結構和語義了解,對視訊進行二次加工,例如生成片花、封面、梗概,以往借助人工,效率較低,借助和AI和算法的幫助,快速生産,滿足5G下資訊量暴漲和通路拓寬的要求)、視訊品質主觀體驗提升(清晰度感受不夠好的視訊,實體條件滿足,但主觀品質并沒有得到提升,可借助AI整體校準,保證在高資訊通路下,給使用者提供的不僅僅是實體品質較高的視訊,同時主觀品質極高)

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

5G時代的内容趨勢

5G時代的内容趨勢和5G的三個技術提升息息相關。視覺體驗提供的是更高資訊密度的訴求,不論是4K、60FPS和HDR 10bit,均來源于5G下高帶寬,高資訊密度的技術特征。互動形式上,互動形态更豐富,包括3D視訊、遊戲化和内容互動,主要源于低延時、高線上的特征。5G高連接配接數催生新的内容形态,例如AR、VR和 6DoF。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

阿裡文娛在5G背景下的技術布局

第一部分是普惠的超高清視訊體驗,裝置不同,裝置呈現視訊的能力不同,使用者在5G網絡下的視訊觀看體驗是不同的。帶給裝置不同或環境組成不同的使用者超高清體驗,即“每一幀,都享受”,阿裡将此技術方案稱為“幀享”。窄帶高清2.0在不降低視訊品質的同時,大幅度降低帶寬占用,接下來疊代出窄帶高清3.0,在保證使用者享受超高清畫質時,再減少30%流量線。第二部分是機器視覺加持下互動新形态,包含新互動場景的嘗試,互動彈幕、遊戲化等産品技術探索。第三部分是新互動到雲渲染,包括播放互動能力的技術創新以及邊緣計算對6DoF、VR/AR視訊及視訊雲渲染的思考。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

5G下最确定的應用場景是超高清,是否能呈現出使用者腦海中的超高清視訊,例如視訊編碼、後期處理、前期制作、拍攝裝置、存儲和再加工,這些元素在方方面面影響着超高清的呈現。高幀率,超高分辨率,HDR,環繞音效,這些技術上的名額是遠遠不夠的。糟糕的拍攝裝置或者前期制作,即使視訊達到了技術上的名額,但整體效果體驗并沒有達到。

全鍊條的掌控是保障高品質視訊消費體驗的基礎

消費者看到的是一個高幀率、高分辨率的音頻處理和解碼效果,實際上從生産側到消費者側,有多個環節和多個工作需要完成。首先源頭是拍攝,包括器材和現場管理,以保證毛片素材的品質。之後是制作,調色過程中,優酷根據市場上不同裝置的螢幕,做顔色的校準,校準資訊會傳送到後續環節中,在解碼時根據消費者的螢幕進行不同的調制和還原,進而保證不同的裝置呈現的色彩效果基本一緻。較好的剪輯和音頻算法和格式應用在制作過程中,闡釋還原不同的音軌以及算法的推演和模拟都是混音重要的組成部分。制作環節後,進入成片媒體的階段,即載入分發的視訊平台。資訊數較大的原始媒體,将被重新繪制,轉化為不同的格式和有效編碼,降低整體的空間占有率,将規模化分發下的體驗和成本做到極緻。依賴高效的計算平台,不論是編碼本身還是後期制作,成片都能得到高效的處理。生産環節後,得到可直接被分發的視訊流,線上分發的視訊流,依賴有效資源排程和傳輸協定,終端子產品捕獲後解碼和渲染。整個全鍊條的掌控,才能帶給消費者一個高品質的視訊體驗,每個環節都需要技術加持。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

AR特效廣告植入系統

超高清是5G時代确定的應用場景,阿裡、騰訊等都在探索這個業務。帶寬高意味着需提供更多的視訊,對大資料量的視訊有效後期處理,例如老片從低分辨率翻新為高分辨率,是待解決的技術問題,各大視訊服務網站均在探索的方向(同一時間内,能夠處理高清視訊的數量)。

例如在醫院場景下,點位系統捕獲白牆,框出一個區域後,進行多模态視訊解構,解構後将區域錄入特效系統中,特效系統根據已有的模闆定制,此時牆上出現一個廣告,有趣的同時并不幹擾原先的視訊。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

首先雲端會對視訊進行AI訓練和輸入區域熱度算法模型,訓練完成後平滑處理并存儲。用戶端的傳感器捕獲使用者的播放和手勢變化并請求伺服器,根據所處的幀位和使用者的手勢,将訓練的資料和手勢融為一體下發到用戶端,用戶端渲染引擎根據幀定位和播放完成整個AR過程。例如在這就是街舞2,通過現場的拍攝裝置布局,結合算法的邏輯處理,呈現出旋轉的效果。目前,優酷在做6DoF視訊觀看到可互動的探索,使用者滑動螢幕,與視訊互動,定幀後,可左右旋轉,放大縮小。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

在對視訊有一定的了解後,可進行包括區域的定位,AR的植入,商品的購買,串聯整體鍊路。差別于僅僅觀看互動的體驗,将更進一步,在觀看的過程中,通過AR的技術,關聯其他的業務。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

播放端通過安全分發服務,從CDN節點擷取素材(可播放的視訊),在5G的基建下,邊緣節點的計算能力得到放大,CDN擷取的靜态視訊,經過邊緣節點的計算和存儲,增加互動(商品購買、拖拉拽互動),邊緣節點距離使用者近,在互動頻繁的時候,使用者得到的回報及時,整體體驗提升。播放段與視訊進行互動行為時,排程中心會傳回距離使用者最近的邊緣節點。邊緣節點具備一定計算能力,當播放端需互動時,邊緣節點将計算的結果傳回給播放端,播放端根據計算結果,持續的從CDN節點拉取後續分支視訊,構成整體的鍊路組合。相較于以往僅僅看視訊,加入高互動的環節。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

生産側AI技術

AI技術提高視訊的生産效率,催生不同視訊生成的業務形态。NLP和ASR技術用于語義了解以及風險排除。圖像分類技術用于風險辨別(涉黃涉暴視訊)。目标檢測技術用于人臉檢測和小物品檢測。視訊指紋技術用于識别視訊排除重複視訊、視訊版權問題。視訊語義了解技術可有效了解視訊,用于規整分類同類視訊。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

視訊内容結構

如下圖,圖檔的中心是視訊,包括視訊标簽(用于定位視訊的類型),視訊指紋(算法拆分視訊),視訊品質(品質高還是低以及主觀品質)。外圍區将視訊分為圖像和音頻兩部分,圖像被拆分為單幀和鏡頭,單幀中可定位區域,包括人體識别、人臉屬性、OCR和LOGO檢測等。鏡頭包括物體跟蹤、人臉跟蹤、實體分割、鏡頭識别和景别識别。音頻部分包括來源即BGM識别以及ASR和音頻指紋。通過方方面面算法的處理和視訊的結構,對視訊本身有更深的了解,結合業務場景可以進一步的處理和再組織。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

基礎素材自動化生産與檢索

智能檢索,可根據人物本身的動作和角色的表情定位節目的劇情、場景、台詞。例如通過搜尋紅海行動槍戰,能夠檢索到槍戰的視訊。精細化摳圖中,精細化定位視訊中任務的動态過程。Shot級别素材打點,檢索出現的人物、場景、動作。檢索的結果可用于封面或小視訊的創作。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

封面圖自動化生産

多元度自動化選圖:根據背景的模闆,産生基于人物、場景的截圖。從截圖中選出例如CP互動、任務表情、典型場景和動作的GIF圖檔。亦可根據美學評級,自動化生成封面,提升了整體自動化效率,以往需要資深的營運人員,人工組織。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

實作素材和内容的統一個性化分發

不同使用者的喜好不同,結合使用者喜好,推薦滿足美觀、精準、提效的标準的視訊。首先從原始視訊中抽取視訊幀,根據使用者觀看停頓、彈幕的高潮點和深度學習标注,選出有吸引力的幀畫面。之後進行圖像品質判斷,通過計算機視覺手段過濾模糊、曝光不正等低品質的圖檔。然後結合計算機視覺和美學對圖檔進行長寬比、縮放調整和拼接。接下來進行元素級别的分析,計算圖像中使用者決策的關鍵資訊,如人臉、場景、事件、情感等。最後是個性化素材分發,根據使用者的喜好和興趣分發素材(例如喜歡動作戲或感情戲的觀衆,看到的是不同的素材)。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

模闆式視訊半自動化生産

BGM卡點剪輯,根據BGM的節奏,選擇視訊,契合BGM的卡點。整個過程首先會進行BGM卡點分析,選擇不同的剪輯模闆(例如燃炸裂、虐心、甜蜜、搞笑、古風),模闆之後,中間剪輯合成處理,包括個性化logo,消除字幕/歌詞,然後針對視訊的高潮增加一些動态特效,收尾時增加片頭片尾的藝術特效。以往,是一件較為花費心力的視訊,模闆化後整體效率得到提升,但第一次一般需要專業編輯人員确定節奏、旋律。前情概要生成,目前可借助模闆半自動化生成。視訊形态轉換,例如豎屏視訊轉化為橫屏視訊,以往較為困難,有了主體定位和切割技術,不僅可以保證視訊的産品形态符合要求,亦可以保證視訊品質。

觸摸全新的文化娛樂:文娛視訊技術、5G建構新消費體驗

視訊消費場景下,資訊通路提高可呈現超高清的視訊;5G低延時的特點催生新的互動行為和互動方式;高密度連接配接,即集中的場所連接配接更多的裝置數,結合低延遲時間的特點,呈現出區域性高密度的互動方式,才會産生面對面的多人AR+VR的内容形态。其他的業務場景,思考5G帶來的趨勢,也應該從這三個方面思考。

繼續閱讀