天天看点

数字“东哥”直播首秀,全靠大模型?

作者:尹文生
数字“东哥”直播首秀,全靠大模型?

“京东的新老朋友们大家好,我是刘强东。”4月15日傍晚,京东官方发布一条视频,刘强东面对镜头发言。而镜头前的东哥,显得那么神采奕奕,相信如果不是公开报道,大家绝对想不到镜头后面并非东哥本人,而是高仿真的“数字人”!

而15日发布的视频,其实是对正式直播的“预热”:4月16日下午6时18分这个特定的时间点,由京东云言犀打造的“采销东哥”AI数字人开启直播首秀,同时亮相京东家电家居、京东超市采销直播间。

严格说起来,这并不是东哥第一次出现在镜头前:据中国新闻网,七年半前的2016年11月10日,“双十一”前夕,京东早8点开始联手花椒特别推出了12小时不间断直播SHOW,霸道总裁刘强东更是亲自站台直播做饭,为网友教学了“大盘鸡”和“波士顿龙虾”两吃。同时,在直播中不忘重点推荐京东的产品,向大家强调“所有的食材原料都可以从京东购买到”。

实际上,直到正式直播结束,还是很多网友不敢相信,出镜的东哥真的是“数字人”,只因实在太逼真了!

数字“东哥”直播首秀,全靠大模型?

“数字人”东哥,直入主题?

究竟逼真到什么程度?据笔者和朋友共同观察,“数字人”东哥不是仅仅在那里说话,同时还有丰富的肢体语言和表情,同时说话的语音语调,和东哥标签般的“宿迁普通话”也有个八九成的还原度!

据多家媒体报道,现实生活中的刘强东语速比较快,吐字比较轻,有些词语会习惯连读,他对“时间”“正是”中的“sh”发音带有重鼻音,还喜欢称呼“兄弟们”鼓舞大家的士气,而这些因素在“数字人”东哥中都进行了针对性优化。

当然AI和真人毫无疑问还是有区别的:据笔者朋友表示,画面中“东哥”的手一直在动,显得不太自然;而说话的语音语调如果仔细听,还是可以听出明显人工合成的气息,和自然语音的差别,就好比最近沸沸扬扬的“半固态电池和全固态电池”的差别。

其实讲话的语音语调并不重要,能让人听懂就没问题,大家更关心的显然是,刘强东这样的大佬,直播时究竟会讲些什么,是自身的创业经历还是心灵鸡汤,抑或兼而有之?

实践证明,这次“东哥”虽然没有再次化身大厨,也没有推销食材,不过依然做的是老本行——带货!

根据直播现场实录,“我创立京东就是想让大家买到的商品方便、快速、便宜,还要保证产品质量。”在5分钟的简单暖场后,这位东哥数字人迅速开启了带货,并未谈论太多的个人生活和观点。而带货产品以家电和食品为主,包括空调、电视、蓝莓、牛奶、玉米等,配合了4月16日“京东家电家居电视空调超级品类日”。

据券商中国总结,京东超市披露,数字版“东哥”上播30分钟,直播间观看人数破千万;近1小时观看量超2000万,直播时段用户平均停留时长达到日常均值的5.6倍。在40分钟内,直播间整体订单量破10万。

那么成单情况如何呢?直播期间,采销东哥AI数字人讲解13款商品,整体订单量环比上周日均增长7.6倍;京东超市“百亿农补”货品,开播半小时成交额环比上周日均增长5.7倍。也算取得了“开门红”战绩!

刘强东此次参与直播,主要是为进一步预热京东的内容生态和短视频创作。据天眼查知识产权信息显示,近期,京东方面已经申请注册“老刘专场”“优京家品”“圆头价”等商标,国际分类涉及广告销售、服装鞋帽等,当前商标状态均为等待实质审查。

数字“东哥”直播首秀,全靠大模型?

“数字人”直播,大模型是后盾

数字人诞生背后,离不开背后京东云言犀多年的技术深耕与积累。而“言犀”,就是京东云旗下的千亿级大模型,京东“数字人”背后的真正“大脑”!

从产业应用维度来看,直播间的虚拟主播属于服务型虚拟数字人,相较于身份型虚拟数字人而言,技术门槛更高,需要解决实际应用中不同场景的问题。从行业来看,数字人已经成为直播行业发展的重点。据证券日报,艾媒咨询数据显示,预计2025年中国虚拟人带动产业市场规模和核心市场规模将分别达到6402.7亿元和480.6亿元。

和真人比起来,“数字人”最明显的优势在于,它不需要吃饭睡觉上洗手间,因此理论上可以24h全天候无死角开播,照顾到所有人的时间,还无需场地、化妆、服装等费用,明显降低运营成本。更重要的是,数字人能实时回应用户需求,增强用户参与度。因而可以与真人主播形成互补!

举个简单例子,早晨6点至8点是真人主播的休息时段,但却恰好又是新手父母们“最痛苦”的时间——起床给宝宝换尿布后,还要出门上班,因而一些母婴品牌便会利用这个空挡,让数字人主播进行“润物细无声”的关怀!

但是要做出“数字人”东哥,最大的难点在于,刘强东是知名公众人物,公众对其形象、声音、语态等特征都无比熟悉,因而“出品”如果和真人偏差太大,必将导致来自各界的疯狂diss,进而怀疑背后大模型团队的专业能力,是不是“银样镴枪头”,因而团队的压力不是一般的大!

那么,为了创造出一个有血有肉的“东哥”,京东云言犀做了哪些努力呢?

据澎湃新闻、21世纪经济报道等,为了打造真实的“东哥”,技术团队对大模型做出多次调整:起初“喂”给大模型的演讲素材,虽然充满激情、爆发力强,但过于正式。为此,他们用最新录制的闲谈作为主要素材,其中有刘强东本人的旅行经历,再提取5分钟演讲的韵律特征灌给大模型,通过不断优化,最终才塑造出十分接近本人的声音。

复现出音色以后,还需要捕捉声音的“副语言”,包括语速、语调、重音、倒吸气等。这些副语言原本分布稀疏,大模型不容易捕捉到规律,但又是判断语意的重要辅助力量,如果没有副语言,声音就会缺乏情绪、显得过于“正确”和冷冰冰。

言犀团队的方法是,把声音样本的重音、语调等拆解成音素,利用NLP(自然语言识别),让模型能更清晰地注意到它们,并通过ASR(语音识别)来捕捉语调和语气变化,综合判断何时开始发言。综合以上技术,产生一个能流畅自如交谈的数字人声音。

据了解,言犀语音大模型在训练时,被“喂”入5万小时海量鲜活的语音数据,才能智能匹配不同直播风格。而早在“东哥”横空出世前,京东的数字主播早已遍布平台,而且声音足以“以假乱真”,甚至类似相声演员的声线!

据公开资料:在今年春节闲时直播中,京东云言犀数字人就曾卖出过4000万元货品,平均提升闲时直播转化率超30%。截至2024年4月,已经有超过4000个品牌在京东使用数字人直播,用来接替真人完成闲时直播。它们能提升闲时转化率超30%,成本却不到真人直播的1/10。

京东之所以重仓数字直播,似乎还有一方面的考虑:和其它电商比起来,在直播方面显得“先天不足”,因而意图通过数字直播等全新方式,在直播电商方面大举进军!

数字“东哥”直播首秀,全靠大模型?

京东电商,奋起直追

就在“东哥”开播差不多一周前的4月10日,京东宣布了“双十亿”计划——将投入十亿现金和十亿流量,以鼓励更多主播和MCN机构入驻平台,同期也传出京东以降低门槛的方式、紧急推进主播招募的消息。

十亿在普通人看来是天文数字,但是投入到直播领域,未见得能够掀起多大水花。来看看京东和阿里的对比:据中国经营报,今年3月26日,淘天集团内容电商事业部总经理程道放,在2024淘宝内容电商盛典上宣布“2024年淘宝直播将新增百亿现金投入、千亿流量,真金白银在内容电商加大投入”,比京东整整高了一个数量级!

的确,作为直播电商的较晚入局者,京东缺乏李佳琦、薇娅这样的头部主播,因而面对“赢者通吃”的局面多少有些力不从心。此次京东的10亿级投入主要用在抢主播、抢用户上。为了争夺主播,京东对数码3C、家电家居、母婴等20个领域的达人进行补贴,对优质创作者提供更多曝光和流量激励。

京东的此番动作,又是补贴又是数字人,能否助力其直播电商再上一个新台阶?让我们拭目以待。