天天看點

數字“東哥”直播首秀,全靠大模型?

作者:尹文生
數字“東哥”直播首秀,全靠大模型?

“京東的新老朋友們大家好,我是劉強東。”4月15日傍晚,京東官方釋出一條視訊,劉強東面對鏡頭發言。而鏡頭前的東哥,顯得那麼神采奕奕,相信如果不是公開報道,大家絕對想不到鏡頭後面并非東哥本人,而是高仿真的“數字人”!

而15日釋出的視訊,其實是對正式直播的“預熱”:4月16日下午6時18分這個特定的時間點,由京東雲言犀打造的“采銷東哥”AI數字人開啟直播首秀,同時亮相京東家電家居、京東超市采銷直播間。

嚴格說起來,這并不是東哥第一次出現在鏡頭前:據中國新聞網,七年半前的2016年11月10日,“雙十一”前夕,京東早8點開始聯手花椒特别推出了12小時不間斷直播SHOW,霸道總裁劉強東更是親自站台直播做飯,為網友教學了“大盤雞”和“波士頓龍蝦”兩吃。同時,在直播中不忘重點推薦京東的産品,向大家強調“所有的食材原料都可以從京東購買到”。

實際上,直到正式直播結束,還是很多網友不敢相信,出鏡的東哥真的是“數字人”,隻因實在太逼真了!

數字“東哥”直播首秀,全靠大模型?

“數字人”東哥,直入主題?

究竟逼真到什麼程度?據筆者和朋友共同觀察,“數字人”東哥不是僅僅在那裡說話,同時還有豐富的肢體語言和表情,同時說話的語音語調,和東哥标簽般的“宿遷國語”也有個八九成的還原度!

據多家媒體報道,現實生活中的劉強東語速比較快,吐字比較輕,有些詞語會習慣連讀,他對“時間”“正是”中的“sh”發音帶有重鼻音,還喜歡稱呼“兄弟們”鼓舞大家的士氣,而這些因素在“數字人”東哥中都進行了針對性優化。

當然AI和真人毫無疑問還是有差別的:據筆者朋友表示,畫面中“東哥”的手一直在動,顯得不太自然;而說話的語音語調如果仔細聽,還是可以聽出明顯人工合成的氣息,和自然語音的差别,就好比最近沸沸揚揚的“半固态電池和全固态電池”的差别。

其實講話的語音語調并不重要,能讓人聽懂就沒問題,大家更關心的顯然是,劉強東這樣的大佬,直播時究竟會講些什麼,是自身的創業經曆還是心靈雞湯,抑或兼而有之?

實踐證明,這次“東哥”雖然沒有再次化身大廚,也沒有推銷食材,不過依然做的是老本行——帶貨!

根據直播現場實錄,“我創立京東就是想讓大家買到的商品友善、快速、便宜,還要保證産品品質。”在5分鐘的簡單暖場後,這位東哥數字人迅速開啟了帶貨,并未談論太多的個人生活和觀點。而帶貨産品以家電和食品為主,包括空調、電視、藍莓、牛奶、玉米等,配合了4月16日“京東家電家居電視空調超級品類日”。

據券商中國總結,京東超市披露,數字版“東哥”上播30分鐘,直播間觀看人數破千萬;近1小時觀看量超2000萬,直播時段使用者平均停留時長達到日常均值的5.6倍。在40分鐘内,直播間整體訂單量破10萬。

那麼成單情況如何呢?直播期間,采銷東哥AI數字人講解13款商品,整體訂單量環比上周日均增長7.6倍;京東超市“百億農補”貨品,開播半小時成交額環比上周日均增長5.7倍。也算取得了“開門紅”戰績!

劉強東此次參與直播,主要是為進一步預熱京東的内容生态和短視訊創作。據天眼查知識産權資訊顯示,近期,京東方面已經申請注冊“老劉專場”“優京家品”“圓頭價”等商标,國際分類涉及廣告銷售、服裝鞋帽等,目前商标狀态均為等待實質審查。

數字“東哥”直播首秀,全靠大模型?

“數字人”直播,大模型是後盾

數字人誕生背後,離不開背後京東雲言犀多年的技術深耕與積累。而“言犀”,就是京東雲旗下的千億級大模型,京東“數字人”背後的真正“大腦”!

從産業應用次元來看,直播間的虛拟主播屬于服務型虛拟數字人,相較于身份型虛拟數字人而言,技術門檻更高,需要解決實際應用中不同場景的問題。從行業來看,數字人已經成為直播行業發展的重點。據證券日報,艾媒咨詢資料顯示,預計2025年中國虛拟人帶動産業市場規模和核心市場規模将分别達到6402.7億元和480.6億元。

和真人比起來,“數字人”最明顯的優勢在于,它不需要吃飯睡覺上洗手間,是以理論上可以24h全天候無死角開播,照顧到所有人的時間,還無需場地、化妝、服裝等費用,明顯降低營運成本。更重要的是,數字人能實時回應使用者需求,增強使用者參與度。因而可以與真人主播形成互補!

舉個簡單例子,早晨6點至8點是真人主播的休息時段,但卻恰好又是新手父母們“最痛苦”的時間——起床給寶寶換尿布後,還要出門上班,因而一些母嬰品牌便會利用這個空擋,讓數字人主播進行“潤物細無聲”的關懷!

但是要做出“數字人”東哥,最大的難點在于,劉強東是知名公衆人物,公衆對其形象、聲音、語态等特征都無比熟悉,因而“出品”如果和真人偏差太大,必将導緻來自各界的瘋狂diss,進而懷疑背後大模型團隊的專業能力,是不是“銀樣镴槍頭”,因而團隊的壓力不是一般的大!

那麼,為了創造出一個有血有肉的“東哥”,京東雲言犀做了哪些努力呢?

據澎湃新聞、21世紀經濟報道等,為了打造真實的“東哥”,技術團隊對大模型做出多次調整:起初“喂”給大模型的演講素材,雖然充滿激情、爆發力強,但過于正式。為此,他們用最新錄制的閑談作為主要素材,其中有劉強東本人的旅行經曆,再提取5分鐘演講的韻律特征灌給大模型,通過不斷優化,最終才塑造出十分接近本人的聲音。

複現出音色以後,還需要捕捉聲音的“副語言”,包括語速、語調、重音、倒吸氣等。這些副語言原本分布稀疏,大模型不容易捕捉到規律,但又是判斷語意的重要輔助力量,如果沒有副語言,聲音就會缺乏情緒、顯得過于“正确”和冷冰冰。

言犀團隊的方法是,把聲音樣本的重音、語調等拆解成音素,利用NLP(自然語言識别),讓模型能更清晰地注意到它們,并通過ASR(語音識别)來捕捉語調和語氣變化,綜合判斷何時開始發言。綜合以上技術,産生一個能流暢自如交談的數字人聲音。

據了解,言犀語音大模型在訓練時,被“喂”入5萬小時海量鮮活的語音資料,才能智能比對不同直播風格。而早在“東哥”橫空出世前,京東的數字主播早已遍布平台,而且聲音足以“以假亂真”,甚至類似相聲演員的聲線!

據公開資料:在今年春節閑時直播中,京東雲言犀數字人就曾賣出過4000萬元貨品,平均提升閑時直播轉化率超30%。截至2024年4月,已經有超過4000個品牌在京東使用數字人直播,用來接替真人完成閑時直播。它們能提升閑時轉化率超30%,成本卻不到真人直播的1/10。

京東之是以重倉數字直播,似乎還有一方面的考慮:和其它電商比起來,在直播方面顯得“先天不足”,因而意圖通過數字直播等全新方式,在直播電商方面大舉進軍!

數字“東哥”直播首秀,全靠大模型?

京東電商,奮起直追

就在“東哥”開播差不多一周前的4月10日,京東宣布了“雙十億”計劃——将投入十億現金和十億流量,以鼓勵更多主播和MCN機構入駐平台,同期也傳出京東以降低門檻的方式、緊急推進主播招募的消息。

十億在普通人看來是天文數字,但是投入到直播領域,未見得能夠掀起多大水花。來看看京東和阿裡的對比:據中國經營報,今年3月26日,淘天集團内容電商事業部總經理程道放,在2024淘寶内容電商盛典上宣布“2024年淘寶直播将新增百億現金投入、千億流量,真金白銀在内容電商加大投入”,比京東整整高了一個數量級!

的确,作為直播電商的較晚入局者,京東缺乏李佳琦、薇娅這樣的頭部主播,因而面對“赢者通吃”的局面多少有些力不從心。此次京東的10億級投入主要用在搶主播、搶使用者上。為了争奪主播,京東對數位3C、家電家居、母嬰等20個領域的達人進行補貼,對優質創作者提供更多曝光和流量激勵。

京東的此番動作,又是補貼又是數字人,能否助力其直播電商再上一個新台階?讓我們拭目以待。