開發一個自己的數字人，FACEGOOD把語音驅動表情技術開源了

機器之心專欄

機器之心編輯部

助力 AI 數字人落地，FACEGOOD （量子動力）正式開源語音驅動表情技術 Audio2Face 技術。本文是對該技術的簡要概述。

目前，元宇宙熱潮下，AI 數字人也開始涉及衆多領域，包含文娛、服務、教育、營銷等。市面上出現的 AI 數字人包括功能型 AI 數字人，如虛拟助手、虛拟導遊、虛拟客服等；陪伴型 AI 數字人，如虛拟伴侶、虛拟家屬等；社會型 AI 數字人，如虛拟主播、虛拟偶像、虛拟教師、虛拟醫生、虛拟導購等。

浦發銀行的首位銀行業數字員工「小浦」

虎牙 AI 數字人晚玉

搜狐新聞用戶端聯合搜狗推出的首個明星「AI 數字人」主播。

為了實作虛拟數字人的多域化滲透，讓更多 AI 數字人的場景落地，FACEGOOD 決定将語音驅動口型的算法技術正式開源，這是 AI 虛拟數字人的核心算法，技術開源後将大程度降低 AI 數字人的開發門檻。

項目位址：https://github.com/FACEGOOD/Audio2Face

項目背景

2019 年，第十屆中國國際新媒體短片節組委會和 FACEGOOD 聯合釋出陸川導演 AI 數字人。

陸川導演 AI 數字人形象

觀衆可以和 AI 數字陸川面對面互動交流，為觀衆帶來打破虛拟空間和現實空間次元壁的實時實感交流互動體驗。為了能達到實時互動的效果，FACEGOOD 開發了一套數字人實時語音互動系統，實作了語音到表情動畫的實時轉換。

如今，FACEGOOD 選擇将全套語音驅動表情的技術代碼開源，免費提供給廣大數字人開發者使用。

技術解讀

該技術可以将語音實時轉換成表情 blendshape 動畫。這樣做的原因是在現行的産業中，用 BS 去驅動數字形象的動畫表情仍是主流，友善動畫藝術家對最終動畫産出最藝術調整，傳輸的資料量小，友善動畫在不同的數字形象之間進行傳遞等等。

基于這些實際生産中的需求，FACEGOOD 對輸入和輸出資料做了相應的調整，聲音資料對應的标簽不再是模型動畫的點雲資料而是模型動畫的 blendshape 權重。最終的使用流程如下圖 1 所示：

在上面的流程中，FACEGOOD 主要完成 Audio2Face 部分，ASR、TTS 由思必馳智能機器人完成。如果你想用自己的聲音，或第三方的，ASR、TTS 可以自行進行替換。

當然，FACEGOOD Audio2face 部分也可根據自己的喜好進行重新訓練，比如你想用自己的聲音或其它類型的聲音，或者不同于 FACEGOOD 使用的模型綁定作為驅動資料，都可以根據下面提到的流程完成自己專屬的動畫驅動算法模型訓練。

那麼 Audio2Face 這一步的架構是什麼樣呢？又如何制作自己的訓練資料呢？具體如下圖 2 所示：

正常的神經網絡模型訓練大緻可以分為三個階段：資料采集制作、資料預處理和資料模型訓練。

第一階段，資料采集制作。這裡主要包含兩種資料，分别是聲音資料和聲音對應的動畫資料。聲音資料主要是錄制中文字母表的發音，以及一些特殊的爆破音，包含盡可能多中發音的文本。而動畫資料就是，在 maya 中導入錄制的聲音資料後，根據自己的綁定做出符合模型面部特征的對應發音的動畫；

第二階段，主要是通過 LPC 對聲音資料做處理，将聲音資料分割成與動畫對應的幀資料，及 maya 動畫幀資料的導出。

第三階段就是将處理之後的資料作為神經網絡的輸入，然後進行訓練直到 loss 函數收斂即可。

最後來看兩段效果展示視訊：

繼續閱讀