天天看点

解码“国产Sora” 又双叒叕是清华系

作者:休闲荒野
解码“国产Sora” 又双叒叕是清华系

Vidu一键生成16秒视频

作者/ IT时报记者 沈毅斌

编辑/ 郝俊慧 孙妍

一辆白色的越野车,尾部卷起阵阵尘土快速行驶在森林中,旁边的树木随着车辆行驶由远及近逐渐从画面中消失;一个海边小屋里,阳光洒向房间,镜头缓慢穿过阳台,俯瞰平静大海上漂浮的几艘船只,最后镜头定格,海面的波光、船只的倒影、远处的蓝天白云都是如此逼真;一只熊猫坐在湖边,跟着节奏挥动手臂,弹奏着吉他……

解码“国产Sora” 又双叒叕是清华系

4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,由生数科技联合清华大学打造的文生视频大模型Vidu首次发布,可模拟真实物理世界,具备丰富的想象力、多镜头语言和高时空一致性,对中国元素也有较高的理解力。

两个月前,Open AI带着全新的文生视频大模型Sora“来势汹汹”,成为人工智能界的开年“王炸”。自此以后,尽管多家大模型厂商都在发布视频大模型,但没有一家能与Sora“平起平坐”。

国内大模型以自己的方式打破这一局面,Vidu被称为“国产Sora”。不过,与Sora相比,Vidu在生成时长和模拟性方面还有一定差距,而算力依然是横亘于前的巨大挑战。

一盆墨水的“逆向还原”

以往短视频的生成,是先生成关键帧,再以此为核心做连续时序的拓展,相当于预测前后帧的画面进行补充,但很难保证长时间画面预测的连续性。

Sora扩展了扩散模型在时间维度上的应用,从而确保生成的视频不仅单帧质量高,而且帧与帧之间有良好的过渡和连贯性。在Sora之前的文生视频大模型,大多只能生成几秒到十几秒的视频,而Sora则可生成最长60秒的视频。

生数科技产品负责人张旭东在接受媒体采访时表示,扩散模型本质是做一个概率分布,随着模型规模越来越大,概率分布越逼近于真实,生成效果也就变得更加逼真。

从目前公布的生成视频来看,Vidu已经拥有很强的模拟真实世界能力,不过对比Sora,Vidu生成的画面更偏向油画,一些复杂画面的细节处理不如Sora精确,时长也还有较长差距。

解码“国产Sora” 又双叒叕是清华系

Vidu生成

解码“国产Sora” 又双叒叕是清华系

Sora生成

生数科技的一位内部人士李佳新(化名)告诉《IT时报》记者,“简单理解,扩散模型就像一滴墨水滴入水中会逐渐扩散一样,最后整片水域变成黑色。”他进一步解释,视频的生成训练首先是一个正向扩散过程,该过程会逐步向纯净数据(如图像或文本)中添加噪声,直至数据变为完全的随机“噪声”(这里指干扰数据)。

其次是逆向去噪的过程。生成“全噪音”新样本后,模型逆向而行,即从高斯噪声出发,逐步“去噪”,恢复清晰的数据样本,也即通过复杂的逆向过程,不断迭代预测减少噪声,逐层递增地重构数据,每一步都可能让视频变得更加清晰,接近真实样本,也就是从一盆墨水再还原为一盆清水。

Sora和Vidu都在时间维度上扩展这一去噪过程,在不断训练中设置目标函数,根据目标函数指导每个去噪步骤,从而使当前的噪声状态更接近原始数据分布,这需要训练一种或多种预测模型,精准地预测并减除数据中的噪声成分。不仅要考虑每一帧图像的去噪恢复,还要确保相邻帧之间的动态连续性和流畅性。

技术路线发布早于Sora

Vidu使用的底层架构是U-ViT(Uni-Vision Transformer视觉转换器),由生数科技在2022年9月推出,是全球首个Diffusion(扩散概率模型)与Transformer(转换模型)融合的架构。两个月后,伯克利和纽约大学的两位学者发布了DiT(Diffusion Transformer)架构,这被认为是Sora的主要技术来源。

Transformer是类似ChatGPT、文心一言等语言大模型最核心的架构,在并行处理、长序列数据处理、语境理解、灵活性和扩展性等方面有很强的能力,而Diffusion架构是图片大模型的核心,是保证高质量图像的关键。将这二者融合便形成既能灵活扩展、理解语境,又能生成高清画面的U-ViT架构。

尽管生数科技团队先找到了文生视频最合适的技术路线,但受限于美国对中国的算力禁售以及增长的算力成本,2023年,团队重点投入到文生图和文生3D等计算量较小的大模型开发,并在3月开源了基于多模态融合的大模型UniDiffuser。

2024年1月,Vidu团队实现了4秒视频生成时长突破。

2月,Sora抢先发布,这给团队带来相当“刺激”,以后两个月,大家憋足了劲加速研发。如今,Vidu已可生成最长为16秒的视频。

解码“国产Sora” 又双叒叕是清华系

何时能赶上Sora?

清华大学教授、生数科技首席科学家朱军坦言,长视频对计算的消耗,对分布式系统网络带宽的传输等都带来了新的挑战,这些都需要一点点攻关,同时还需要算力的支持以及高质量数据的训练和治理。此外,算法原理、模型架构、数据治理、工程实现等同样也是突破视频时长的关键。

截至目前,生数科技已完成多笔融资,投资方包括启明创投、蚂蚁集团、BV百度风投、达泰资本、锦秋基金、卓源亚洲、智谱AI等知名机构和企业。随着资本的不断注入,领衔中国类Sora模型的愿景,或将成为Vidu可预期的未来。

解码“国产Sora” 又双叒叕是清华系

始于游戏用于游戏

与Sora一样,Vidu也未向公众开放。

李佳新表示,Vidu未来主要运用场景可能是游戏和影视领域,生数科技可以提供文生图、3D模型生成和视频生成等功能,这些功能在游戏领域的需求最大。

浙江大学百人计划研究员、博士生导师赵俊博曾推测,Sora可能是运用了游戏引擎生成的大规模数据进行训练。倘若Vidu也走同样路线,游戏将成为其落地的重要场景。

始于游戏,用于游戏。

“比如,游戏创造初期,Vidu可以帮创作者生成角色、场景等草图,在此基础上不断完善。传统意义上,游戏3D模型需要手动建模,在3D模型生成的加持下,不仅可以自动生成游戏道具、玩家形象等各类3D模型,还能生成角色宣传视频,提升游戏开发效率。此外,游戏背景、游戏道具、角色演示等也都可以运用视频生成。”李佳新举例道。

目前,影响文生视频大模型在游戏场景落地使用的关键,还在于模型能力,许多生成内容只能提供快速却粗略的设计,后期还需要人工不断优化。

发布会当日,生数科技正式推出“Vidu大模型合作伙伴计划”,希望与产业链上下游企业、研究机构共同构建合作生态。生数科技联合创始人兼 CEO 唐家渝表示,生数科技将继续打造覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力,同时还将面向图像生成、视频生成等场景打造垂类应用,为游戏制作、影视后期等需求提供订阅制收费服务。

继续阅读