梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
这是疫情之下的第三个元宵节了。
或许你已经结束假期回到工作的城市,又或许连续几年没能回家了。在防疫措施下,这个节日未免显得冷清。
不过热闹并没有消失,只是转移到了网络上。
中国青年报联合百度发起的#我们一起画月亮#在微博火了,连冰墩墩设计团队负责人曹雪都来体验。
同属奥运圈的国际奥委会成员小萨马兰奇、短道速滑运动员韩天宇也来参与。
还有演艺界的王一博、魏大勋、杨迪、孔雪儿、哈妮克孜,以及知名博主Papi酱……
乍看以为是一个常见的H5刷屏,仔细一看,竟然是AI大模型的首次破圈,让广大普通用户都体验了一下AI创作艺术。
具体来说,只需告诉AI想去哪里看月亮,就能得到AI为你创作的一张元宵月景,另外配诗一首。
比如小萨马兰奇想看他家乡西班牙的月,AI就画出一副南欧风景,画风也是西式油画。
到了韩天宇,他想看北京的月,AI画风也切换得更像中式山水。
要注意这画、这诗都是AI全新创作的,在网上不会有一模一样的。
画作中细节丰富的月亮也不是一般月亮,原型是“嫦娥一号”探月卫星拍摄数据制作成的中国第一张全月影像。
AI画作中的月亮正是由这张全月影像图变化而来,更具纪念意义。
如果输入自己家乡的名字,就可以看到AI对你那里有什么印象。
或者让AI画一份你目前所在地的月景,还可以填上收件人生成元宵贺卡分享给远方的亲人,用科技的方式体验一把“千里共婵娟”。
不按常理出牌的话,还可以来扫码试试火星或冬奥会等非常规场景,考验一下AI脑洞有多大。
只根据寥寥几个字画出一张细节丰富的绘画作品,对人来说都非易事,对AI来说更是如此。
既要让图像与文字描述相符又要保证图像本身的质量,尤其是用户可以随意输入文本的这种,很多情况AI都是第一次见,怎么就知道要往上画什么呢?
AI如何决定画什么?
AI根据文字画出图像这种能力一般叫做跨模态生成。
模态,指的是文本、图像、视频等不同的信息表现形式。
跨模态,则是把不同类型的信息结合起来。比如图像搭配上文本组成一对,让AI去学习它们之间的关系。
简单来说,AI会把文本以字或词为单位拆开,编码成向量组成的序列。图像经过计算也可以编码成向量序列。
接下来AI要学习两件事:
第一,根据文本序列预测出图像序列的内容。
第二,根据预测出的图像序列再重建成图像。
通过这个过程,AI可以理解到特定文本和图像之间的对应关系。
基础一些的,像颜色、形状的文字描述及对应的图像特征。
高阶一点的,还可以是更综合的概念,比如当文字中的埃及,AI就知道标志性景观有金字塔。
具体到这次元宵赏月活动,AI技术的提供方是百度,用到的是文心大模型。
大模型的“大”一方面在训练数据量,跨模态能力上,百度用了1.45亿组高质量中文图文对做训练。另一方面,跨模态部分的参数规模也有100亿。
除了练得多、规模大,文心大模型的跨模态能力与同类AI模型相比还有一项创新之处。
首创的跨模态统一建模,让AI同时学习文本到图像和图像到文本两个方向的任务,两个模块之间学到的参数共享。
这样做的好处,可以用人类学外语来理解。
相当于先练一遍中译英,再倒过来练一遍英译中,对词汇、语法之间对应关系的理解就更深了。
其他的技术创新还有不少,比如端到端的训练流程能同时加强编码器和解码器性能等,这里不再一一详述。
有了种种新技术加持,文心跨模态大模型在同类模型对比中取得了领先成绩,特别是在零样本任务大幅领先国内外。
△FID越低代表生成图像的数据分布越接近真实图像
当然,画好不好看不能光看数据质量,还得符合人类审美。
在人类评估中,文心跨模态大模型在图像清晰度、纹理品质、与文本的相关性三个指标也取得领先。
看分数指标不直观的话,不如再看一些实例。
登录文心大模型官网,便能在线体验它的跨模态生成能力。
根据同样一段文字描述,文心跨模态大模型可以切换不同画风。
把白话描述换成更抽象的古诗,AI也能准确理解并配上画面。
AI诗词作画这项能力也在文心大模型官网上开放了体验,地址可以在文末获取。
倒过来,根据图像也可以生成文本描述。
△来自论文arxiv.org/abs/2112.15283
实际上,跨模态大模型只是百度文心大模型中的一个组成部分。
目前,文心大模型系列除了跨模态,还包含NLP(自然语言理解)大模型、CV(计算机视觉)大模型,既有基础通用的大模型,也包含面向医疗、金融等重点领域、重点任务的大模型,以及丰富的工具与开发平台。
文心大模型整体上与其他家大模型相比有个核心特色——知识增强。
除了海量训练数据外,文心大模型还从拥有5500亿事实的百度知识图谱中持续学习。
在知识的指导下,AI能够更快地学习到海量数据中蕴含的规律,表现出来的也就更加智能,特别是在零样本能力上领先于纯大数据训练出来的模型。
一方面能节省人工标注数据的昂贵成本,另一方面更是为本身就缺少足够数据的场景带来更大想象空间。
在AI内容生成(AIGC)方面,也很考验大模型的零样本能力。
究其原因,AI生成的内容是要直接呈现给消费者,或AI直接与人类互动,人就是最大的不确定性。
这次的元宵节AI作画活动便是一个好例子,生成的画作和诗词广受好评,经受住了网友们的考验。
除了跨模态大模型外,文心NLP大模型也有出色的零样本生成能力。
无需标注任何样本,便可以根据用户指定的体裁、情感、长度、主题、关键词等属性,生成不同类型的文本。
这一点也可以在文心大模型官网上动手体验。
文心大模型家族里各个成员的理解和生成能力,逐步可胜任文字、图像、视频在内的互联网用户消费的主要内容的规模化生产。
一个AI生成内容(AIGC)的新时代,即将开启。
以文生图只是AIGC的冰山一角
如今互联网上的每个人每天都在消费大量的内容。
从你正在阅读的这篇文章,到微博,到直播、短视频、游戏,形式越来越多样的内容都抢占用户的时间和注意力。
微博靠降低用户用文字表达自己的门槛而流行,短视频让更多普通人靠手机就能分享自己的生活而火爆。
不断提升内容多样性和交互性,持续降低制作门槛、提升内容生产效率是每种内容都在追求的发展方向。
于是,AI协助下的内容生产逐渐走向台面。
手机拍照用上各种AI对焦、修图,各大网络平台纷纷实装文章一键转视频、AI自动朗读文字等功能。
除了摆在台面上的数字消费类内容,广义的生成式AI也在更多看不见的地方发挥着价值。
比如去年程序员们津津乐道的GitHub Copliot,AI通过理解编程语言与自然语言间的关系可以辅助人类程序员写代码、写注释。
文心大模型的文档理解能力,在保险行业可以辅助业务员处理一份合同的时间缩短到1分钟,业务效率提升30倍。
像文心大模型这样的以文生图能力,甚至可以用在线下实物产品的生产上。
比如AI辅助人类设计师做服装设计和工业设计,节省大量重复劳动时间、降低生产成本。
创意设计,以前被认为是人类专属的高难度领域,AI难以涉足。
AI在图像上的能力很长时间以来局限于分类、识别、编辑修改这些任务。
但随着技术发展,AI已经开始渗透到艺术领域,能够进行独立的创意、生成画作,比大家预想的速度要快得多。
有的AI画作在拍卖行以天价成交,有的AI画作被收录进纽约现代艺术馆。
这种形势下,人工智能顶级会议NeurIPS连续几年开设的“创意与设计工作坊”也办得有声有色。
但要说AIGC的集大成者,还要重点提一下最近火热的数字人。
数字人经常要与人类交流互动,更加考验AI在视觉、语音、文字等模态上全方位的能力。
与人类相比,数字人还有个优势是不用休息。
火热进行中的冰雪赛事上就有一位AI手语主播,24小时不间断得为2780万听障人士提供手语服务。
百度APP代言人龚俊的数字人,可以作为语音搜索助理出现在用户手机里,让粉丝拥有面对面与偶像实时对话的沟通体验,增加了明星的价值。
此外虚拟员工、虚拟客服等形式的数字人也都展现了各自的产业价值,走进互娱、金融、政务、零售等更多行业。
再说回到互联网,下一代互联网无论是叫元宇宙还是Web3.0,对内容的数量、形式和交互性都提出了更高的要求,面临更大的数字内容供给缺口。
这些缺口正等着以AIGC为代表的技术去填补。
最后,如果你现在就想提前感受一下AIGC时代,今天就是个好机会。