
第三十屆國際人工智能聯合會議(international joint conferences on artificial intelligence,簡稱 IJCAI )于8月19-26日召開,該會議是國際人工智能領域三大頂級學術會議之一,被譽為國際人工智能科學界的“奧林匹克”。
大會設定IJCAI Video Competition Award旨在讓全世界人工智能研究人員有機會展示人工智能技術有趣和讓人激動的一面,同時讓公衆和媒體能夠獲得AI研究人員提供的第一手準确資料。
阿裡巴巴淘系技術“Virtual AI of Alibaba Tao Technology”作品是工業界唯一獲獎作品,展示了虛拟AI 技術能力和對人類帶來的各種有趣的體驗,斬獲今年該項賽事季軍。
背景
AI技術快速發展,通過3D、CG及動作捕捉等相關AI技術,虛拟AI已經跟人們的日常生活密切相關。與此同時,在電商的購物環境中,淘系技術不斷探索虛拟AI技術的創新,在電商豐富且複雜的環境下,充分應用各種虛拟AI技術,給消費者帶了全新體驗更新的同時,更大大降低了商家個性化經營的成本。
虛拟數字人——未來數字人也可以為品牌代言
淘系技術自主研發建構的虛拟代言技術,基于AI深度學習的能力為電商經營者建構免費的代言場景,電商經營者通過上傳一張普通的2D衣服圖檔,虛拟AI引擎會自動渲染生成模特圖,或者上傳已有的模特,進而實作衣服上身的效果。這部分參考了PF-AFN的技術架構,算法模型如下圖:
總體上分為兩個階段
▐ 第一個階段
利用傳統的parser-based方案,得到初步的換衣效果,目的是為了得到相同模特相同姿态,不同服飾的資料,由于這樣的組合資料幾乎無法找到,是以依靠第一階段生成,再用于後續第二個階段模特圖到模特圖的直接換衣。且第二個階段不需要分割資訊的輸入,隻需要輸入模特圖和目标衣服就能完成較為自然的換衣。
▐ 第二個階段
首先對衣服warp,經過一個形變網絡FPN,使一件衣服形變成與模特身體姿态所比對的樣式,再結合第一階段得到的初步換衣效果,經過自适應掩碼引導的合成網絡,分多路、多層提取人與衣服的資訊,在融合部分學自适應地學習了與人體結構類似的0到1的掩碼,掩碼用于指導最終從模特與目标衣服的資訊融合,解決了之前方案無法解決高清換衣,換衣有原衣殘留,衣服圖案不清晰問題。
與此同時AI引擎會結合商品的文本資訊驅動模特的五官實作動态口播商品的賣點或推薦理由,模拟主播介紹對應的商品。
這部分技術包含兩小塊:
- 文本轉語音
首先利用TTS技術得到文字對應的語音,輸入的文本經過帶注意力機制的Encoder-Decoder網絡模型,并利用帶殘差子產品的空洞卷積神經網絡模型,将梅爾頻譜特征表達逆變換為時域波形樣本合成最終的語音,實作清晰流暢的語音生成。
- 語音驅動面部五官
驅動視訊的算法模型如下圖:
首先利用wav2lip方案,将生成的語音作為嘴部驅動的音頻A,并利用一段視訊序列B作為臉部動作和頭部姿态控制源,該視訊的身份可任意。同時,利用image animation方法,驅動特定模特進行口播。該方案有效的解決了音頻驅動臉部運動的姿态可控和真實性問題,使得虛拟代言由靜态展示演變為動态口播,更具感官性。
虛拟代言使得電商經營者能夠一鍵免費請虛拟明星給自己的商品代言成為了可能,極大的降低了經營者的原始投入。
虛拟直播間——沉浸式 3D 直播,主播想在哪播在哪播
同時,淘系技術正在開發一種全新的3D擴充現實的直播拍攝技術,将一系列的實時渲染、雲渲染和AI技術組合,推出全球首款可以影視級虛拟拍攝的雲技術,讓客戶和商家,首次在普通手機和電腦上就可以實作令人驚歎的3D影視級視覺效果,商家将不再需要購買昂貴的裝置,掌握專業的職能,就可以輕松、低價且高效的在直播中擴充現實,生成虛拟的商品、場景、數字人等,全面提升了商家在直播電商、内容電商中的帶貨能力和内容創作能力。
▐ 滿足商業影視級的效果要求
差別于娛樂型APP的端上小型AR技術,面對電商商業拍攝所需的影視級、廣告級的MR拍攝嚴苛要求,該項新技術,突破傳統3D模型素材大小的限制(通常隻能幾MB),也不再局限于使用小型的AI模型,本項技術以先進的邊緣計算、雲渲染技術,采用數十GB的3D素材,大型更精準的AI模型,借助在雲端頂級的GPU算力,支撐起商業标準的MR拍攝。在達到影視級效果的同時,依然能達到傳統小AR的實時互動性;
▐ 國民易用的體驗
差別于傳統影視行業,新技術以AI新能力和優秀産品的互動體驗,讓商家的日播脫離對好萊塢式專業裝置、專業團隊的依賴;
也差別于傳統影視拍攝的冗長周期的離線渲染和人工後期合作,該項新技術支援實時互動、實時渲染、實時創作、實時直播與分發。
在這項技術中,SLAM、VIO和人體動捕等AI技術,被用來重新定義聖殿之上影視級特效的拍攝門檻,成為商家日常開播的易用技術、讓其成為真正的國民易用産品。
傳統的特效合成師、專業策劃、導演、專業燈光師、專業攝像師、動畫師、音效師、調色師等的很多重複性工作,正在被這些AI技術和雲化技術所替代。
特效燈光、渲染工作站、錄影機、特技等專業裝置,也正在被這些技術逐漸取代。在場地要求、裝置成本、易用性3個方面,正在全面接近現有直播的标準,已經成為一款真正的國民普适易用型的技術;
▐ 創新與創作生态繁榮
大量雲化3D拍攝素材庫、場景庫,使得電商的經營者,解脫了拍攝策劃、3D創作的困擾,雲素材、雲創作手法信手拈來,随時開拍。同時我們尊重,也正積極的鼓勵和期待傳統影級、傳統遊戲行業生态夥伴和藝術大師的進入,來創新與創作,豐富繁榮直播電商和内容電商的内容創作形式和藝術表現手法。
虛拟家居——秒級生成100個你家的樣子
與此同時,淘系技術團隊不斷嘗試和探索,将AI和VR等技術嘗試應用在更多行業,推出了中國首款完全自研的免費電商渲染引擎:AceRay。
AceRay應用了業界最頂尖的渲染技術,基于阿裡雲的基礎設施能力,通過躺平設計家平台為室内設計使用者提供免費的渲染服務。
AceRay可以在幾秒内用光線追蹤技術渲染出一幅真實的圖像,借助這項技術,我們可以極大的提高設計師的設計效率。通過AceRay提供的低成本渲染技術,電商領域的3D技術大規模應用将成為可能。
在這裡邊,淘系技術部自研的3D智能設計技術,可以幫助消費者進行智能的室内裝修設計。消費者隻需圍繞自己喜歡的一件家具,用手機拍攝一個短視訊,3D智能設計基于AI深度學習技術、3D技術、實時渲染技術,就能完成對該件家具的3D模組化。
有了3D模型之後,通過利用深度序列生成技術,3D智能設計會圍繞該3D模型進行全屋的軟硬裝室内搭配設計。不僅考慮了單空間(比如客廳)軟硬裝搭配的協調性(如下圖),該技術同時兼顧了不同空間(如客廳與卧室)軟硬裝搭配的協調性,進而産出能與設計師媲美的設計效果,大幅提升設計效率,最終通過短視訊的形式将未來家的樣子呈現給消費者。
這項技術,将複雜的需要專業設計師參與才能完成的裝修方案設計,簡化成了消費者隻需挑選一件自己喜歡的家具就能自助完成。不管是線上還是線下,消費者一旦喜歡某件家具,就可以借助該技術,完成裝修設計,并最終看到整體效果。消費者在購物決策過程中,不再需要考慮尺寸是否合适、怎樣搭配才好看等購物難題,極大提升了購物體驗,同時讓人人都是設計師成為了可能。
對于電商經營者而言,為了更好的呈現其所售賣的商品,需要投入巨大成本進行精美的數字内容制作,比如:精美的商品展示圖、能夠360度呈現商品全貌的短視訊等,有了3D智能設計,電商經營者隻需用手機圍繞其所售賣的商品拍攝一個短視訊,3D智能設計就能完成商品展示圖、短視訊等多種精美的數字内容的創作,進而極大降低商家成本。
結尾
阿裡巴巴淘系技術自研的虛拟AI技術,在日趨激烈的商業競争環境中,通過數字化賦能提高商家數字化經營能力,用先進的AI技術幫助千百萬商家降本增效,積極引領着一場電商場景的新革命,讓技術的創新和進步普惠商家。
視訊作者:李朝、胡始昌、林超、于磊、崔銘峻、錢虔、張鵬、向辰瀚、賈榮飛、李操、胡曉航、朱莉絹、徐曦、趙磊、湯興
點選檢視視訊淘系技術 IJCAI 參賽視訊