天天看点

AIGC+ChatGPT,虚拟主播进入“同人化”时代

作者:Allmetas

直播经济的高速增长正在推动直播形态的不断升级,经过两年的市场沉淀,备受Z世代消费者喜爱的“虚拟主播”已经迎来爆发式“生长”阶段。

在各大视频直播平台,不同风格类型的个性化3D虚拟主播正在替代真人主播活跃于直播间。虚拟主播大幅度推动了直播业务的发展,不仅可以24小时在线,表现稳定持久;还可以随时变换风格,保持新鲜感;并且在技术有保障的情况下,无需大量团队的接入即可维持正常运营。

AIGC+ChatGPT,虚拟主播进入“同人化”时代

快手StreamLake 为蒙牛打造的虚拟员工「奶思」

聊天娱乐、游戏互动、产品讲解、情感语聊等等。虚拟主播的应用场景层出不穷,花样百出,不仅在文化娱乐行业全面赋能,而且在快消、教育、金融、通讯等其他行业方向也能实现高效交互。

虚拟主播不仅提升了品牌的形象力和表现力,更是能作为数字员工服务于品牌,在一些领域替代人工。因此,对以虚拟主播为典型代表的“数字员工”服务能力的要求也越来越高。

如何对用户的提问“对答如流”?

如何提高虚拟主播的直播效果?

如何才能降低虚拟主播的设计和运营成本?

在一系列的问题之下,AIGC技术的成熟与ChatGPT的横空出世,或许给我们提供了更多解题思路。

01

从“拟人化”到“同人化”,虚拟主播的进阶之路

《2022虚拟数字人综合评估指数报告》这样总结虚拟数字人发展的三个阶段:

第一阶段:拟人化,由计算机虚拟合成的高度逼真的三维动画人物,动作形态声音等与真人吻合,初步基于AI实现虚拟人驱动,实时进行信息沟通和反馈。

第二阶段:同人化,从外观的形态模拟进阶到情感的可交互,情感算法技术实现与人类高质量情感互动。

第三阶段:超人化,虚拟人的能力超越自然人,“虚拟”实体化,机器人承载虚拟人意识回到现实世界。

AIGC+ChatGPT,虚拟主播进入“同人化”时代

图片源自《2022虚拟数字人综合评估指数报告》

目前,虚拟主播驱动模式主要有两种:一种是由动捕技术+真人驱动的虚拟人,通过捕捉幕后“中之人”的动作表情塑造虚拟形象,也是目前最为主流的虚拟主播形式;另一种,则是由AI技术驱动,可以做到24小时不间断直播。

从功能上看,动捕+真人驱动的虚拟主播虽然可以在互动环节上实现对答如流,但是仍然需要人工扮演,无法实现24小时的全天候服务。AI技术驱动的虚拟主播可以无限时长直播,但是在交互层面是根据品牌提前设定的知识库模版进行互动问答,同时配合相关活动做一些娱乐形式的展示,利用的范围和领域相对有限。

虚拟主播如何实现既与人类高质量情感互动,又能全天候在线?——AIGC+ChatGPT则让我们看到了实现这种“既能又能”的可能性。

02

AIGC+ChatGPT,“同人化”的虚拟主播表现如何?

3月15日凌晨,OpenAI 发布了多模态预训练大模型GPT-4。GPT-4可以接受图像和文本输入,输出文本、图片、音视频等多模态,在许多领域的表现都超出了人类平均水平。随后,微软于16日宣布,将推出名为Copilot的人工智能服务,并将其嵌入Word、PowerPoint、Excel等Office办公软件中,实现文本编写,数据分析并生成图标,以及管理收件箱,合成回复草稿等功能。在同一天,中国版的ChatGPT——百度文心一言正式对外亮相。

AIGC+ChatGPT,虚拟主播进入“同人化”时代

图源自OpenAI官网截图

国内外互联网科技巨头公司纷纷加入AI大语言模型的建设与布局,这无疑将构建更加良好的人工智能生态圈,推动AI技术能力大幅提升,未来以虚拟主播为典型代表的数字员工将成为企业必不可少的“标准配置”。

ChatGPT为虚拟主播带去了语言能力的大幅提升:

ChatGPT的嵌入,就仿佛为“拟人化”的虚拟人装上了大脑。不仅可以实现更加准确、流畅且自然的表达,更能通过快速的学习和适应,为用户提供更具个性化的服务。通过相关数据的针对性训练形成个性化模型,未来虚拟人将有望应用于线下展厅的AI讲解介绍数字人、线上AI主播、AIGC快速短视频系统等多个场景。

AIGC的助力主要体现在画面和声音层面:

AIGC在音视频生成领域建树颇多。一方面,从语音模仿到变声器等功能,大大增加了互动娱乐性;另一方面,定制化的AIGC工具可以方便创作者制作出画面、声音、动态效果更精确的产品,提升作品综合质量,极大地提高了创作效率。

视频加载中...

世优科技数字人「小倩」

在ChatGPT和AIGC技术的加持下,虚拟主播将进入“同人化”阶段。通过与各行业应用场景不断地深度融合,“同人化”的虚拟主播将变身为企业的数字员工,成为企业降本增效的重要帮手——依靠系统的企业知识库,为用户提供7*24小时的随时服务,协助企业完成重复性工作,并大幅提高基础工作的准确性和服务质量。

生动具体的虚拟形象,加以灵动且人性化的情感交互能力。这是一次运营工具的数字化革命,在不远的未来,一个低成本高效率的数字员工将成为企业的标配。错失一个突破性的工具,或许就将错失一个时代。

AIGC+ChatGPT,虚拟主播进入“同人化”时代

“拟人化”虚拟主播VS“同人化”虚拟主播对比图

“虚拟数字人驱动的最终形态,是实现AI驱动,即用‘AI’替换掉‘中之人’所扮演的角色。”虚拟内容技术服务提供商世优科技创始人&CEO纪智辉认为,虚拟主播可以作为品牌的固定资产,在未来一直使用,沉淀价值是无限的。

纪智辉透露,世优科技虚拟人除了接入ChatGPT智能语言模型外,还对虚拟人动作进行了专项训练,以提高虚拟人在应用场景中的流畅度和逼真度。未来虚拟形象的使用可能像每个企业都配备官网、直播间一样普遍,成为不可或缺的对外宣传窗口。

03

世优科技AI数字人慕兰,语言模型技术在国内数字人上的首次应用落地

2023年3月1日,世优(北京)科技有限公司宣布成为百度文心一言(英文名:ERNIE Bot)首批生态合作伙伴。后续,世优科技将通过百度智能云全面体验并接入文心一言的能力,接入百度文心语言模型的世优科技数字人,让虚拟人向着更加智能、智慧的方向迈出了关键的一步。目前,世优科技已成功推出了具有语言模型技术加持的AI虚拟主播「慕兰」。

AIGC+ChatGPT,虚拟主播进入“同人化”时代

世优科技AI虚拟主播「慕兰」

“慕兰,怎样才能发财?”

“要想发财,首先要有规划和耐心,你需要制定一个现实的财务目标,并且不断努力去实现它。”

笔者和观众在慕兰的抖音直播间进行了一场有趣的互动,数字人慕兰可以就观众提出的不同问题,提供流畅简洁又风趣幽默的回答。从直播互动体验效果来看,慕兰已经在智能程度上接近“同人化”,可与观众进行高质量的情感交互。

视频加载中...

「慕兰」直播录屏

这是对话式语言模型技术在国内数字人应用场景上的首次落地。

在世优科技看来,数字人是AI的UI。从2022年主持了百度元宇宙歌会的度晓晓,到如今可以与用户对答如流的慕兰,通过世优科技强大的生成式AI技术能力,与文心大规模实时生成文本能力结合,利用AIGC技术转换成图文、音频、视频等内容,如今的虚拟人已经无需大量的人力支撑内容制作,即可生成具有智能对话能力的个性化模型。

经由世优数字人与ChatGPT+AIGC的技术组合,三维世界与现实世界的隔阂将逐步消融,取而代之的是融合、交互,技术将为现实世界带去更加多元、极具想象力的美好未来。

这也将为数字世界带来颠覆性变革。

结语

调研数据显示,2022年已有近七成的企业表示其公司开展直播的频率有进一步地提升,且有49.0%的企业客户表示其直播频率的提升幅度较大。

如今的企业直播,早已从早期被迫的线上营业,发展成为贯穿医疗、教育、金融、内部培训、对外营销等多种场景,推动企业数字化进程的重要杠杆。

降低营销成本,丰富营销手段;打破时间和空间限制,建立与用户的广泛沟通;打造私域流量,促进转化;收集、留存、打通用户数据……作为数智时代的创新应用,虚拟主播所代表的新一代技术创作能力,已经对传统企业运作、营销推广模式造成了颠覆。

虚拟人早已不仅仅是一个虚拟形象,而是企业的数字资产。谁能在品牌、技术、运营和场景等方向,占据领先优势,构建竞争壁垒能力,方能在新一轮的AI技术狂潮中占领先机,立于不败之地。