天天看點

東哥數字人如何跨過“恐怖谷”

作者:虎嗅APP
東哥數字人如何跨過“恐怖谷”

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下午第三次出現在京東采銷直播間。

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目标是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

有分析人士向虎嗅指出,眼下擺在京東數字人面前的“短期”挑戰可能并非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

另有AIGC資深從業者認為,目前在國内數字人直播領域,“表情模拟和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作仿真模拟。目前國内垂直于這一領域的技術型公司有矽基智能等代表,而在網際網路大廠中,京東、阿裡、位元組等都在布局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競争點依然是三要素:算力、算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短視訊、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

東哥為何自己上?

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基于言犀大模型更新了數字人産品,并嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

這段早期的“測試”,讓京東内部對于數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

2024年春節後,京東雲言犀團隊開始發力推廣數字人産品,他們希望找到一個讓京東數字人技術和産品成功“出圈”的方法。讨論後,他們決定大膽一點,讓老闆試試。

京東雲言犀算法總監向虎嗅描述了這一過程:劉強東配合拍攝了視訊素材,在“外形”生成後,京東雲言犀再通過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東内部就開始進行直播策劃了。

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

經過反複探讨,最終團隊選擇了第二個方案。

“我們最關注的是120秒挑戰。我們通過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒内發覺這是一個特别假的形象、或者對這個形象産生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒内,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時内,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

目前處于第二階段

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對産品進行清晰的介紹;第二階段可以媲美真人,并承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,采取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中并不在任何環節進行顯示模組化;另一種,則是上文提及的利用一張照片或者3~5分鐘視訊素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

最大的技術難點,是大姿态:即數字人擁有複雜的唇形、仿真動作、微表情。“如果想實作大姿态數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿态數字人并不會一直正對着鏡頭說話,你需要在各個角度實作拟真效果。”

“我們的核心技術思路是端到端:模組化-驅動-渲染的一體化。和Sora的思路很像,但差別在于Sora一開始就聚焦于通用内容視訊方案,而言犀大模型聚焦于人物視訊生成。未來我們将可能參考部分Sora技術,按效果優先,逐漸擴充覆寫的領域。”京東雲言犀負責人說。

在這個路徑中,模型的推理優化以及計算效率是另一個關鍵點。京東雲言犀的大模型項目組裡,有一個單獨的戰鬥小組負責推理優化。相關人士告訴虎嗅,行業内常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東采取了不同的政策,通過CPU,而非GPU進行推理,降低應用成本。

“原來在大模型裡每一個模型參數應該是浮點數,一般是用32或64位來表示浮點數的一個參數的,但應用時浮點數一方面占的空間很大;二是運算比較慢,浮點運算相對比較慢,是以我們做量化就是用一個八倍的整數來近似模拟一個16位的浮點數。甚至我們可以做到用四位就可以來模拟一個參數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

有AIGC領域資深從業者告訴虎嗅,目前國内可以做雲端數字人服務的公司并不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理優化是有優勢的,而其海量商品資料對于數字人産品是一個關鍵助力,它可以針對不同産品去更快速、高效地做優化。”

尚需解決的挑戰

互動能力更新以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

過去幾次直播,京東雲言犀團隊和京東采銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,并根據每一次直播的效果去優化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東采銷直播間則負責選品、營運等一系列“業務側”工作,過去三場直播中京東采銷直播間在選品上以平台爆品為主。

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了通過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比于真人直播間常見的“插科打诨”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個産品,突然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

另一個挑戰是場景。

據京東雲言犀團隊人士透露,他們目前在直播之外,在短視訊等領域也服務了一些B端客戶,比如在一些地産公司裡,會通過數字人自動生成講房視訊。不過相比于想象中能夠落地的場景,目前真實服務的場景相對有限。

618或成為京東雲言犀數字人的“期中考試”,據悉京東内部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即将揭曉。

東哥數字人如何跨過“恐怖谷”

正在改變與想要改變世界的人,都在 虎嗅APP

繼續閱讀