天天看点

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

作者:开山怪阿土

这里所有文章均来自

微信公众号“火星AIGC”

想要看到更多更新的AI前沿信息、AI资讯和AI工具实操,请关注微信公众号“火星AIGC”。

南开大学视与字节跳动公司合作发布了开源 StoryDiffusion 框架,这是一个革命性的图像和视频生成项目,可以生成长序列一致性的图像和视频,目前全球还没有可实用的同类 AI 项目。通过 StoryDiffusion 可以一键生成人物一致,场景一致的系列漫画,简直是为漫画制作人和内容创作者定制的 AI 工具。

视频加载中...

StoryDiffusion- Consistent Self-Attention for Long-Range Image and Video Generation

目前让图像生成保持一致性的项目主要有 IPAdapter 和 PhotoMaker,两者利用在大型数据集上经过预训练的模型,允许直接使用给定的图像来控制图像的生成,实操过AI绘画的朋友应该知道,它们的局限性在哪里,人物在保持一致性的情况下,衣服、场景甚至头发颜色样式不可控。

不一样的是 StoryDiffusion 通过提出一致性的自我关注来创建各种风格的图像,可以在多个图像中保持主题的一致性,包括一致性的角色风格和服装以实现连贯的故事讲述,并且是无训练和可插拔的。看一下图像生成效果。

StoryDiffusion 可以创建令人惊叹的一致卡通风格的角色。

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

StoryDiffusion 在多个角色生成中,也可以同时维护多个角色的身份,并在图像序列中生成一致的角色。

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

一键生成系列漫画的效果

南开大学发布革命性的图像和视频生成项目 StoryDiffusion
南开大学发布革命性的图像和视频生成项目 StoryDiffusion
南开大学发布革命性的图像和视频生成项目 StoryDiffusion
南开大学发布革命性的图像和视频生成项目 StoryDiffusion

以上官方展示效果惊人,经过试用实测的结果跟官方展示一样。

这还仅仅是图像生成,StoryDiffusion 还可以通过其图像语义运动预测器以生成的一致图像或用户输入图像为条件生成高质量视频。官方发布了很多视频demo,也许达不到 Sora 那么长,但在视频中的主体一致性上面已经可以跟 Sora 比肩了。

视频加载中...

视频加载中...

视频加载中...

视频加载中...

视频加载中...

视频加载中...

视频加载中...

技术简介

StoryDiffusion 主要通过以下两个模块组件来实现上述效果——根据预定义的文本故事生成包含丰富内容的一致性图像或视频序列。

一致性自注意力机制 (Consistent Self-Attention):

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

该模块无需训练,可直接插入到现有的图像生成模型中。

它通过在生成过程中在图像批次之间建立连接,有效地生成了面部和服装一致的图像,从而提升了人物的一致性。

这种方法提高了用户通过文本提示控制生成内容的能力。

语义运动预测器 (Semantic Motion Predictor):

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

该模块用于将一系列一致性图像转换为视频,使其更加生动地讲述故事。

它通过将图像编码到语义空间,捕捉空间信息,从而更准确地预测运动,即使是大幅度的动作也能够流畅地表现出来。

与仅依赖图像潜在空间预测运动的方法相比,语义空间的预测结果更加稳定,尤其是在生成长视频时效果更为显著。

如何使用

目前官方提供两种使用方法,一是本地部署,二是网络试用。

本地部署有两种途径,一是Python克隆安装项目,需要注意的是显卡至少在20G显存以上。另一种是通过本地电脑上的 pinokio一键安装运行。

网络试用也用两种途径,一是谷歌的colab云笔记本上运行,二是在抱抱脸空间试用。我在抱抱脸上试用了一下,主体一致性非常好,除了一些小瑕疵,效果完全跟官方展示一样。

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

1.支持图片参考图片,(现在不支持卡通参考图像)。

2.支持排版风格和字幕。(默认情况下,提示用作每张图像的标题。如果需要更改标题,请在每行末尾添加一个#。只有#之后的部分才会添加为图像的标题)。

3.[NC]符号([NC]符号用作标志,表示生成的场景图像中不应出现任何字符。如果要这样做,请在行的开头加上“[NC]”。例如,要生成没有任何字符的落叶场景,请写:“[NC]The leaves are falling。”)。

目前只有图像生成功能,官方并没有提供视频生成的代码。官方论文中也提到,虽然可以使用滑动窗口生成较长的视频,但 StoryDiffusion 并非专门为长视频生成而设计,因此在生成超长视频时效果可能不够理想。StoryDiffusion 在生成一致性图像时,对于一些细微的服装细节 (如领带) 可能存在不一致的情况,需要更详细的文本提示才能保持一致性。

StoryDiffusion 是AI生成一致性方面的开创性探索,为内容一致性方面的AI生成能力提供了新的视角。随着AI的不断发展,像 StoryDiffusion 这样的工具将在故事讲述和内容创作的方面发挥至关重要的作用。

论文地址:arxiv.org/abs/2405.01434

项目地址:github.com/hvision-nku/storydiffusion

试用地址:huggingface.co/spaces/YupengZhou/StoryDiffusion

继续阅读