天天看點

AI劉強東007帶貨,背後大模型也就10億參數

作者:量子位

衡宇 發自 凹非寺

量子位 | 公衆号 QbitAI

京東創始人劉強東啊,他昨天又加班了。

準确來說,是他的AI數字人形象“采銷東哥”,昨晚開啟了自己生涯第四場直播。

AI劉強東007帶貨,背後大模型也就10億參數

這次東哥幹的是圖書采銷工作。

與上兩次直播不同,這一回直播間不僅有了數字人助理,還有多機位切換等展現方式。與此同時,和留言區及螢幕前觀衆的互動方式也有所增強。

量子位就此事詢問了京東雲言犀算法總監,得到答案是:

每一場想側重表示的不一樣。技術的手段比較豐富,很難一場裡面都推出來。

不得不說,京東這回拿自家的京東雲言犀數字人擠牙膏,還挺有自己的節奏(doge)。

AI劉強東007帶貨,背後大模型也就10億參數

一周時間裡,四場劉強東數字人連播,可謂出師大捷——

據公開的“戰報”,其首秀不到1小時,直播間觀看量超2000萬,帶貨GMV超5000萬。

難怪網上沖浪的時候,有人評價道,AI東哥真的是“數字人帶貨的天花闆”了。

而且京東自己放話,這就是京東雲言犀數字人的平均技術水準,且成本不到真人直播的1/10。

“自己的狗糧自己先吃”

劉強東AI數字人“采銷東哥”上播第一天起,就有許多質疑。

質疑一,真的是數字人嗎?真的不是讓劉強東提前坐那兒,錄好視訊然後再播嗎?

且看采銷東哥的表現:

形象和真人劉強東幾乎一毛一樣,平頭、西裝、左手腕帶表,肉眼難辨真僞。

AI劉強東007帶貨,背後大模型也就10億參數

口音能較好貼合唇部動作,語速快、連音多,一般語句吐字較輕,一些重點會重音表強調,尋求認同時用“啊”來銜接;耳朵尖的朋友可能還能聽出他的宿遷口音。

動作姿态不算僵硬,能有頭部、手部的動态動作,且動起來後整個人也受光均勻。

AI劉強東007帶貨,背後大模型也就10億參數

但随着直播場數的增加,這種疑惑聲漸漸下去了。

可能大家都覺得,是在沒什麼可能讓劉強東忙中撥冗,每天坐在那兒提前錄播吧。

質疑二,如果真的是數字人劉強東,那大夥兒看到的效果,會不會是面對自家一号位做的“特供版”?

換言之,其他公司如果同樣想用京東雲言犀數字人來做主播,是不是根本達不到這個效果?

就這個問題,京東雲言犀負責人是站出來給了解釋的:“劉總數字人技術,代表了我們現在的通用技術。”

大白話就是說,用了京東雲言犀數字人,所有的大V/CEO主播都能有同樣的這個效果,至少在120秒之内“惟妙惟肖”。

如果不信,可以親自驗證——前段時間京東618招商,給所有品牌商家免費開放了數字人基礎版使用30天權益,都能用上。

AI劉強東007帶貨,背後大模型也就10億參數

京東雲言犀負責人笑着表示,去年京東雲就已經基于言犀大模型更新了數字人技術。

用句軟體公司的梗,“Eat your own dog food”,自己的狗糧自己先吃,最開始團隊内部先給京東雲言犀負責人做了個AI數字人出來,但回頭看和現在劉強東的數字人沒法比。

2022年開始,京東雲言犀數字人就已經開始商業化,目前有4000多家品牌使用。

去年雙十一後,京東雲言犀團隊開始制作采銷AI數字人,首先是在大時尚事業部測試,包括公衆接受程度,停留時長,使用者轉換率,互動程度等。

團隊心想,既然要追求刺激,那就把“Eat your own dog food”貫徹到底,幹脆給公司老大也搞一個吧!

劉強東AI數字人“采銷東哥”就這麼誕生了。

10億參數數字人大模型輕量上陣

采銷東哥身後,是京東雲言犀大模型團隊,及其大模型做小後打造的10億參數數字人大模型。

總的技術來看,言犀2年多前就選擇了端到端的方式,即模組化——驅動——渲染的一體化。以至于Sora出來後,團隊驚喜發現端到端的技術方向是可取、可喜的。

不過,雖然和Sora是同一條路子,但最後應用的場景不太一樣,言犀大模型數字人的賽道更聚焦,專注人物生成(原因是團隊評估人物視訊生成商業價值和社會影響力可能都更大)。

而關于端到端的路線,這裡展開說兩句。

現在基本分為兩大類,一類是完全端到端,中間不對任何環節進行顯示的模組化,完全是隐性的,都在一個空間裡面做;另一類是對簡單基本素材的人臉建3萬多個點Mesh模型,再去控制人物的表情、唇型,然後做紋理的渲染。

京東雲言犀說得很明白,2種方案會根據場景需求做不同使用。

京東雲言犀負責人表示,其間比較得意的是人物大姿态的動作。

“早期真人數字人,動作幅度比較小。基本上臉部不會怎麼動,因為一旦頭動了,可能就剩半個嘴唇了。”他透露,在大姿态方面做了較多技術投入,才有了現在AI劉強東的活動自如。

AI劉強東007帶貨,背後大模型也就10億參數

此外,身為主播,語音表達無疑也十分重要。

既要複現真人主播的語音、語調,又要學習真人說話的習慣,如語速、語調、重音、倒吸氣。

就拿劉強東本人來說,他講話很少有輔助詞,也較少清晰讀出連接配接詞,如“跟着”的“着”字經常被一筆帶過。

因為出生江蘇宿遷,他的話語裡還是會“露餡”,冒出宿遷口音來。比如“時間”中的“sh”會有更重的鼻音;後鼻音有時會被吞掉,變成前鼻音。

就,還挺有特色的。

原本呢,京東雲言犀技術團隊的計劃是用劉強東2017年的一段演講音頻作學習素材,但測試發現,演講時劉強東的語氣太過正式了,和直播帶貨有點畫風不搭。

團隊無奈把劉強東“抓”到鏡頭前,錄了30分鐘的音視訊,讓他閑聊自己的經曆什麼的。

用這段音頻為底提取出聲學特征,就能通過已經被喂了5萬小時語音資料訓練的言犀語音大模型合成出人工語音。

不過據量子位了解,京東雲言犀大模型團隊的最新戰績,是使用6秒素材複現具體某個人的聲音。

AI劉強東007帶貨,背後大模型也就10億參數

團隊成員還分享了其他一些關于AI數字人背後的事:

訓練過程中,主賽道錨定人物向,是以不管是從資料的采集、清洗和各方面都做了精細化聚焦。

推理實作方面,除了模型代碼壓縮、量化等正常操作,還對INT4和INT8進行了精度調改。

團隊下一步計劃,是把語音、視訊生成兩塊綜合到一起。

當然,另一部分挑戰是嘗試用非常小樣本或零樣本學習的方式就能抓住真人本尊的特點,繼而生成惟妙惟肖的數字人。

“采銷東哥是京東數字人平均水準”

京東雲言犀負責人表示,其實京東内部對數字人有一個分級。

第一級的數字人效果,可以做真人的補充工作,處于向真人看齊階段。

第二級數字人可以媲美真人,真人不在,也可以承擔重要場合、重要時間的主播工作。

并且播出後,會有人分不清主播是真是假——從這個角度來說,圖靈測試應該算是通過了。

不過,雖然在形象、表情、語音、動作複刻尚佳,但是本尊的深度思想,大模型數字人還沒有辦法1:1同步。

到了第三階段,本尊和數字人之間不是替代關系,更像是真人有了個數字分身,能夠真正深度抓住本尊的思想、文化、知識背景、一些理念。

AI劉強東007帶貨,背後大模型也就10億參數

而且,京東自家直播間有一個120s戰鬥。

簡單說就是直播時,如果使用者在120s之内都不覺得眼前的數字人讓自己别扭,就會跨過恐怖谷效應,接受這個數字人,看他的展示、聽他的解說。

而且看到120s,因為對主播産生了信任,往往很大機率會下單。

“目前來看,數字人直播帶貨有很大機會會成為一個大的爆點。”京東雲言犀負責人解釋道,“主要是内容層次達到了新的水準,大家的接受度和信任度已經過了關鍵點了。”

AI劉強東007帶貨,背後大模型也就10億參數

說回“采銷東哥”,他現在幾乎能很完美地被生成120s以上的形象,并且足以以假亂真。

也就是說,“采銷東哥”現在處于京東數字人分級裡的第二階段,這也是京東雲言犀數字人的平均水準。

團隊還提到,其實目前AI大模型數字人大規模商用,技術已經不是難點了。

難點是什麼呢?是主播個人的形象要跟整體調性相比對,在選品、互動方面還需要下很多功夫。

One More Thing

聊着聊着,一個有趣的問題被抛出來。

問,未來在京東直播間,有沒有可能誕生一個類似于董宇輝的AI數字人超級主播?

京東雲言犀負責人和算法總監相視一笑,說:

(這件事)技術上是有可能的,但在倫理和感情上不一定能成立。

比如很多丈母娘喜歡董宇輝,是因為這個人有很實在的特質,很文雅,有知識。

我不知道在倫理上到底之後會怎麼解決……

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀