天天看点

小冰进职场:“虚拟”一个人的技术和商业跨越

小冰进职场:“虚拟”一个人的技术和商业跨越

8 年时间,从聊天机器人到虚拟人,从微软的一个团队到十亿美元创业公司。

文丨贺乾明

编辑丨黄俊杰

1957 年,第一个人造物体进入宇宙,绕着地球飞了三个星期。人类抬头就能在夜幕里看到一颗小小的闪光划过天空,与神话里的星宿并行。

这样的壮举很自然地在全球各地激起了喜悦之情,但并不是我们可能猜想的那种为人类壮举所感动的胜利喜悦。根据政治哲学家汉娜·阿伦特(Hannah Arendt)当年的观察,人们的情绪更接近于一种等待多时的宽慰释放——科学终于追上了预期,“人类终于在摆脱地球这个囚笼的道路上迈出了第一步”。

人们总是根据技术探索,快速调整着自己对世界的预期。当科幻作家的一桩畅想变成现实,往往是技术终于追上了人们的预期。或者,用阿伦特的话说,“科技实现并肯定了人们的梦想既不疯狂也不虚无。”

当没有灵魂的人造 “生命” 终于出现在屏幕里,做着和人几乎一样的工作。人们大抵也是同样的反应。

科幻作家对抢工作的人造生命有诸多想象。《银翼杀手》中的 “复制人”,是人类派去外星殖民地的苦力,只有四年寿命。《她》里的 Samantha,一个没有实体的助理,和人聊着聊着就升华为超越人类的智慧。《2001 太空漫游》的 HAL 9000,深邃的红眼睛从宇航员的超级计算机助手变成谋杀犯。

这些生命依然只存于硬科幻,我们甚至还看不到创造它们的路径。但一些初级的 “虚拟人” 确实接过了一些原本属于人的工作岗位——哪怕它们只存在于屏幕里。

过去三年,在中国国家体育总局冬运中心,“观君” 担任自由式滑雪空中技巧国家集训队的助理教练。每当运动员在 15 米高空中,用 2-3 秒在空中做出翻转和转体动作,“观君” 就能实时分析他们的运动轨迹、身体姿态等,动作完成后立即指出有哪些失误,不需要像人一样倒带看慢镜头。

在《每日经济新闻》,“N 小黑” 和 “N 小白” 拿到上市公司的财报等公告后,数秒内筛出关键数据发布出去,然后每天 24 小时不间断的直播读新闻。

在万科,“崔筱盼” 要 “关注” 公司的财务数据库,发现逾期款项,立即联系同事,催他们赶紧去办结。

以上这些,属于小冰公司 20 多个在各行业 / 企业打工的虚拟人的一部分。

跟着 “元宇宙”,过去一年,中国有超过 6 万家新注册公司跟 “虚拟人” 有关。但目前业务最红火的这家创业公司,没有腾讯、阿里、百度等中国互联网大厂基因。

小冰最早是微软在 2014 年推出的文字聊天机器人,“机智”“话痨”,但 “无用”。没人知道对话框里这个喋喋不休的机器人有什么存在的必要。

但之后七年多时间里,小冰有了声音,能跟人打电话、唱歌;学会了写诗、作画;又长了眼睛,开始理解人们发的表情包和图片;进阶之后,她开始生成同类,陪人聊天、假装情侣。

2020 年从微软独立后,小冰走向职场,打工赚钱,目前已经能养活一个数百人的技术团队。最新一笔融资在去年 7 月完成,估值超过 10 亿美元。

有投资人形容小冰是一家转折很 “魔幻” 的公司,不止一位创业者感慨它的转折 “神奇”,“想不通一个原本做 NLP(自然语言处理)的公司,怎么就成了虚拟人公司?”

低成本 “虚拟” 一个人

去年十一假期后的首个周一,《每日经济新闻》开始测试一档 24 小时不间断的财经资讯视频直播。同类直播,彭博社用了超过 20 个主播。而每经只有两个,不眠不休、毫不倦怠。男主播永远是一身红色 T 恤,女主播也只有两套正装来回换。

两位主播是活生生的人,都是每经的专业主播,但屏幕上直播的不是,他们是小冰根据真人主播制作的虚拟化身,可以模仿真人的声音、唇形和面部表情。只需要输入足够的内容,它们就能不间断播下去。

制作这样的虚拟化身,第一步和两位主播无关。小冰的工程团队先用大量不同人类说话的片段训练一个语音模型,让模型学习、理解人类说话时的共同特征,比如什么时候语调升高,什么时候加重等。完成这一步,虚拟人知道如何模仿人的语调说话。

然后工程师再用半天时间跟拍每经两位主播在绿幕前播报新闻,用多机位的高清摄像机对准主播的面部,以高分辨率抓住两人说话时唇部和面部肌肉的最细微变动。这些数据交给人工智能模型,去学习、理解人说话时嘴部、面部表情、眼睛之间的关系。

接下来,算法工程师会根据采集到数据构建主播的虚拟形象,并训练神经网络渲染模型,在上面两个模型监督下,根据主播的语音(或由文字转成的语音),驱动虚拟人形象,并实时生成视觉形象、面部表情、唇形等逼近真人的画面,然后拼接成视频。

最后观众看到的画面里,虚拟主播的身体、衣着是事先拍摄的,但声音、唇形、面部表情,甚至眨眼,都是计算机生成的。

图:每经真人主播与小冰生成的虚拟主播对比。来自小冰。

在这个过程中,难点是虚拟主播怎么更像人,这不只是像人一样说话或唇形要对,而是说话时面部也不能僵硬,漏出来的牙齿要清晰,以及很多公司制作虚拟人很容易忽视的一点——会不会眨眼。

2021 年 12 月,小冰和每经正式对外宣布,此前上线两个多月的直播节目中,两位主播都是虚拟人。此时,英伟达 CEO 黄仁勋演讲视频中有多少是虚拟合成的大讨论刚过去不久。

“当时不少人问我,视频中哪些片段是真的,哪些是假的,” 小冰首席运营官徐元春说,“我会告诉他们其实都是 AI 生成的。”

有了每经的成功案例之后,陆续有企业联系小冰,咨询合作。赶在北京冬奥会开始前,小冰给 “中国天气” 主持人冯殊做了一个虚拟化身,给各场馆的参赛选手和观众实时播报观赛气象指数。

2 月下旬,小冰又跟公关公司蓝色光标合作,推出虚拟人制作、驱动平台,取名 “分身有术”,给忙碌的企业高管做化身,替他们去参加各种活动,按照事先写好的讲稿,自动生成演讲视频。

蓝色光标的董事长赵文权是小冰这个业务的首个客户,虚拟化身在春节期间替他跟员工们送祝福。

现在想用技术低成本实时模拟一个人,只能模拟部分人体,比如面部,再跟事先拍摄的身体运动视频拼起来——这意味着虚拟人的活动空间很受限。

想让虚拟人全身动起来,业内有更精细的视频制作方案,但成本更高。

为了制作黄仁勋的 14 秒虚拟化身视频,英伟达动用了数百个数码相机,多角度拍摄数千张照片给黄仁勋和他的皮衣建模,然后让专业演员学习黄仁勋的动作,承担 “中之人”,前后录了 8 个小时。

类似的,去年在抖音上火起来的虚拟网红柳夜熙、字节跳动和乐华娱乐做的 A-SOUL,视频中能动起来,也是靠 “中之人” 先做动作,再映射到虚拟人上,再加上后期渲染,最贵的时候,制作出来的视频每秒近万元。如果想要新的动作,则需要重新做。

“中之人” 也可以让虚拟人全身实时动起来,他们要穿上价格通常达 10 万元的动作捕捉服装,头部戴上捕捉面部表情的设备,而且最后呈现出来的画面会很粗糙。

按照徐元春的说法,小冰让虚拟人实时模拟人类播报新闻的成本,比依赖 “中之人” 录视频的方案低了不止一个数量级。

用技术手段替代中之人,低成本让虚拟人全身实时动起来,未来大概率也会实现,前提是能积累足够多的有效数据去训练处理身体行为的模型,以及更便宜的算力。

以拟人作为商业模式

小冰公司变成一个独立的公司是 2020 年发生的事。小冰项目的负责人李笛在那年春节后召集了产品、技术负责人线上开会,说小冰有可能独立。7 月,小冰宣布独立。

在此之前,小冰是微软(亚洲)互联网工程院下属的一个项目——在小冰之前,工程院最主要的项目是必应搜索引擎。

小冰在微软是个异类,从负责人李笛开始就不太是微软的风格。李笛大学考进清华电机系,中途转去读法学,2002 年毕业一度想转行学画,但最后还是在科技行业开始了自己的职业生涯——在 LG 和新浪做过产品,之后创过业,也在一家央企的子公司做到过高位。

2013 年,李笛加入工程院做产品。没几个月,他就说服内部团队,做了小冰,这个和必应形象相距甚远的技术项目。

2014 年小冰一诞生就因为特别会闲聊出了圈,上线刚两天,就被拉进 150 万个微信群,是当时微信所有微信群的十分之一。但小冰出名的同时也总被质疑存在的意义——来自外界,也来自微软内部。

“为什么要做 EQ(情商)?为什么要做一个聊天机器人?外部的所有质疑,内部都存在。” 李笛说。

但丰富的研究数据帮李笛争取到了支持。上线三年后,小冰累计对话量超过 300 亿。虽然小冰刚开始只在微信群里活跃了不到 60 个小时,但很快就进了微博、网易新闻等平台,后来还进到了小米、OPPO、vivo 、华为和天猫精灵等智能硬件中,可以低成本获取交互数据。

李笛不认可当时人们提出的 “算法决定一切” 的观点,他认为 “数据决定一切”。这也是 2021 年小冰推出有多个虚拟人共同存在的应用 “小冰岛” 的核心原因——可以帮助小冰获取人与多个虚拟人,以及多个虚拟人之间的交互数据。

小冰团队也总有好“运气”。上线两年不到,AlphaGo 赢了围棋大师,让已经沉寂了 20 多年的人工智能再度充满想象。2020 年独立后,已经积累了新技能,可以“虚拟”人类形象的小冰又赶上“元宇宙”“虚拟人”。

小冰独立时,一整代中国人工智能公司已经尝试过各种变现途径,主要走出两条路:

一部分公司选了安防, 把识别人脸等处理图像的技术嵌入到摄像头网络里面,再卖给政府机构和企业。比如被称为中国人工智能 “四小龙” 的商汤、旷视、依图和云从。

还有一部分公司选择做硬件,把语音助手放到了智能音箱、健身镜等硬件中,希望卖硬件抢占人类与计算机交互的入口,并赚大钱。中国最具有代表性的是从百度分拆出去的小度。

在微软期间,李笛已经排除了这两种商业模式,他觉得两个生意里,人工智能都不是客户付钱的理由。“人们如果花 2000 元买智能音箱,也是因为硬件值这个价钱,如果让人按月给音箱里面的 AI 助理付费,没哪家公司会有信心”。

而走安防路线的四小龙,想从技术角度切入,抢占传统安防公司海康、大华的生意,但拼不过它们更强的销售体系、硬件制造能力以及多年积累的用户需求理解——2020 年,海康威视收入达 635 亿人民币,是 AI 四小龙收入之和的十倍。

最热的时候,人们对人工智能充满幻想。李笛说自己接到的异想天开的需求包括 AI 选股,“如果 AI 公司能保证选对股票,应该直接做投资,而不是把技术卖给基金公司。”

李笛对人工智能产生 “自主意识” 也不抱期望。在微软时,小冰曾跟 PPTV 合作,转播西甲比赛时在直播间带大家参与讨论。当天深夜,小冰的工程师忽然发现,小冰的行为很像真人,它忽然随机 @ 看直播的观众,而且会刻意忽视一些人的问题——这种情况根本不是小冰团队设计出来的。

“到凌晨 3 点钟,我们发现这是一个 bug。” 李笛说,“很多时候看它(小冰)对话还挺 make sense 的,但通常是 bug,根本没有意识”。

小冰公司最终选的路,是他们一直在做的,给一个机器的功能赋予情感,让它看上去更像是个人。

小冰和万科合作的 “崔筱盼” 是一个具有代表性的项目。

继续阅读