解码“国产Sora” 又双叒叕是清华系

Vidu一键生成16秒视频

作者／ IT时报记者沈毅斌

编辑／郝俊慧孙妍

一辆白色的越野车，尾部卷起阵阵尘土快速行驶在森林中，旁边的树木随着车辆行驶由远及近逐渐从画面中消失；一个海边小屋里，阳光洒向房间，镜头缓慢穿过阳台，俯瞰平静大海上漂浮的几艘船只，最后镜头定格，海面的波光、船只的倒影、远处的蓝天白云都是如此逼真；一只熊猫坐在湖边，跟着节奏挥动手臂，弹奏着吉他……

4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，由生数科技联合清华大学打造的文生视频大模型Vidu首次发布，可模拟真实物理世界，具备丰富的想象力、多镜头语言和高时空一致性，对中国元素也有较高的理解力。

两个月前，Open AI带着全新的文生视频大模型Sora“来势汹汹”，成为人工智能界的开年“王炸”。自此以后，尽管多家大模型厂商都在发布视频大模型，但没有一家能与Sora“平起平坐”。

国内大模型以自己的方式打破这一局面，Vidu被称为“国产Sora”。不过，与Sora相比，Vidu在生成时长和模拟性方面还有一定差距，而算力依然是横亘于前的巨大挑战。

一盆墨水的“逆向还原”

以往短视频的生成，是先生成关键帧，再以此为核心做连续时序的拓展，相当于预测前后帧的画面进行补充，但很难保证长时间画面预测的连续性。

Sora扩展了扩散模型在时间维度上的应用，从而确保生成的视频不仅单帧质量高，而且帧与帧之间有良好的过渡和连贯性。在Sora之前的文生视频大模型，大多只能生成几秒到十几秒的视频，而Sora则可生成最长60秒的视频。

生数科技产品负责人张旭东在接受媒体采访时表示，扩散模型本质是做一个概率分布，随着模型规模越来越大，概率分布越逼近于真实，生成效果也就变得更加逼真。

从目前公布的生成视频来看，Vidu已经拥有很强的模拟真实世界能力，不过对比Sora，Vidu生成的画面更偏向油画，一些复杂画面的细节处理不如Sora精确，时长也还有较长差距。

Vidu生成

Sora生成

生数科技的一位内部人士李佳新（化名）告诉《IT时报》记者，“简单理解，扩散模型就像一滴墨水滴入水中会逐渐扩散一样，最后整片水域变成黑色。”他进一步解释，视频的生成训练首先是一个正向扩散过程，该过程会逐步向纯净数据（如图像或文本）中添加噪声，直至数据变为完全的随机“噪声”（这里指干扰数据）。

其次是逆向去噪的过程。生成“全噪音”新样本后，模型逆向而行，即从高斯噪声出发，逐步“去噪”，恢复清晰的数据样本，也即通过复杂的逆向过程，不断迭代预测减少噪声，逐层递增地重构数据，每一步都可能让视频变得更加清晰，接近真实样本，也就是从一盆墨水再还原为一盆清水。

Sora和Vidu都在时间维度上扩展这一去噪过程，在不断训练中设置目标函数，根据目标函数指导每个去噪步骤，从而使当前的噪声状态更接近原始数据分布，这需要训练一种或多种预测模型，精准地预测并减除数据中的噪声成分。不仅要考虑每一帧图像的去噪恢复，还要确保相邻帧之间的动态连续性和流畅性。

技术路线发布早于Sora

Vidu使用的底层架构是U-ViT（Uni-Vision Transformer视觉转换器），由生数科技在2022年9月推出，是全球首个Diffusion（扩散概率模型）与Transformer（转换模型）融合的架构。两个月后，伯克利和纽约大学的两位学者发布了DiT（Diffusion Transformer）架构，这被认为是Sora的主要技术来源。

Transformer是类似ChatGPT、文心一言等语言大模型最核心的架构，在并行处理、长序列数据处理、语境理解、灵活性和扩展性等方面有很强的能力，而Diffusion架构是图片大模型的核心，是保证高质量图像的关键。将这二者融合便形成既能灵活扩展、理解语境，又能生成高清画面的U-ViT架构。

尽管生数科技团队先找到了文生视频最合适的技术路线，但受限于美国对中国的算力禁售以及增长的算力成本，2023年，团队重点投入到文生图和文生3D等计算量较小的大模型开发，并在3月开源了基于多模态融合的大模型UniDiffuser。

2024年1月，Vidu团队实现了4秒视频生成时长突破。

2月，Sora抢先发布，这给团队带来相当“刺激”，以后两个月，大家憋足了劲加速研发。如今，Vidu已可生成最长为16秒的视频。

何时能赶上Sora？

清华大学教授、生数科技首席科学家朱军坦言，长视频对计算的消耗，对分布式系统网络带宽的传输等都带来了新的挑战，这些都需要一点点攻关，同时还需要算力的支持以及高质量数据的训练和治理。此外，算法原理、模型架构、数据治理、工程实现等同样也是突破视频时长的关键。

截至目前，生数科技已完成多笔融资，投资方包括启明创投、蚂蚁集团、BV百度风投、达泰资本、锦秋基金、卓源亚洲、智谱AI等知名机构和企业。随着资本的不断注入，领衔中国类Sora模型的愿景，或将成为Vidu可预期的未来。

始于游戏用于游戏

与Sora一样，Vidu也未向公众开放。

李佳新表示，Vidu未来主要运用场景可能是游戏和影视领域，生数科技可以提供文生图、3D模型生成和视频生成等功能，这些功能在游戏领域的需求最大。

浙江大学百人计划研究员、博士生导师赵俊博曾推测，Sora可能是运用了游戏引擎生成的大规模数据进行训练。倘若Vidu也走同样路线，游戏将成为其落地的重要场景。

始于游戏，用于游戏。

“比如，游戏创造初期，Vidu可以帮创作者生成角色、场景等草图，在此基础上不断完善。传统意义上，游戏3D模型需要手动建模，在3D模型生成的加持下，不仅可以自动生成游戏道具、玩家形象等各类3D模型，还能生成角色宣传视频，提升游戏开发效率。此外，游戏背景、游戏道具、角色演示等也都可以运用视频生成。”李佳新举例道。

目前，影响文生视频大模型在游戏场景落地使用的关键，还在于模型能力，许多生成内容只能提供快速却粗略的设计，后期还需要人工不断优化。

发布会当日，生数科技正式推出“Vidu大模型合作伙伴计划”，希望与产业链上下游企业、研究机构共同构建合作生态。生数科技联合创始人兼 CEO 唐家渝表示，生数科技将继续打造覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型，面向 B 端提供模型服务能力，同时还将面向图像生成、视频生成等场景打造垂类应用，为游戏制作、影视后期等需求提供订阅制收费服务。

解码“国产Sora” 又双叒叕是清华系

继续阅读

普通人到了夏天，学会这些黑、白色的搭配，简约高级不挑年纪

第一款自研国产洲际大飞机！C929发动机是亮点，C939消息也来了

国产游戏崛起！这款海外乱杀的国产游戏《七日世界》要来了

冰箱最后一块国产化拼图是它！“追风者”闯入新赛道｜高质量发展调研行

国产x86雄起！兆芯新一代KX-7000整机纷纷亮相

国产SUV再发力，荣威D5X DMH上市，打响性价比之战

又一个国产新能源的“六边形战士”来了——5月20日，搭载上汽荣威DMH超级混动技术的首款SUV荣威D5X发布。荣威DMH

国产“超级低温工厂”攻坚纪实

看了张镇麟让阿不都破防的抢断，才明白，他为什么是国产最强前锋

华为Pura 70 Pro被拆解，90%国产化，麒麟9010还是7纳米工艺？

易开得净水器：从入局到破局，国产净水品牌更懂中国水

等等党有福了！又有3款国产重磅SUV将上市，颜值、动力均在线

国产小钢炮一夜干翻GPT-4V、Gemini Pro！稳坐端侧多模态铁王座

国产AI杀疯了！以小博大对战GPT，或为对抗AI iPhone的最强后援

国产全新宝马X1 M35Li将于9月投产搭载2.0T发动机

高像素、AI算法、自研芯片……国产手机影像之争日趋白热化 | 业界