南开大学发布革命性的图像和视频生成项目 StoryDiffusion

这里所有文章均来自

微信公众号“火星AIGC”

想要看到更多更新的AI前沿信息、AI资讯和AI工具实操，请关注微信公众号“火星AIGC”。

南开大学视与字节跳动公司合作发布了开源 StoryDiffusion 框架，这是一个革命性的图像和视频生成项目，可以生成长序列一致性的图像和视频，目前全球还没有可实用的同类 AI 项目。通过 StoryDiffusion 可以一键生成人物一致，场景一致的系列漫画，简直是为漫画制作人和内容创作者定制的 AI 工具。

视频加载中...

StoryDiffusion- Consistent Self-Attention for Long-Range Image and Video Generation

目前让图像生成保持一致性的项目主要有 IPAdapter 和 PhotoMaker，两者利用在大型数据集上经过预训练的模型，允许直接使用给定的图像来控制图像的生成，实操过AI绘画的朋友应该知道，它们的局限性在哪里，人物在保持一致性的情况下，衣服、场景甚至头发颜色样式不可控。

不一样的是 StoryDiffusion 通过提出一致性的自我关注来创建各种风格的图像，可以在多个图像中保持主题的一致性，包括一致性的角色风格和服装以实现连贯的故事讲述，并且是无训练和可插拔的。看一下图像生成效果。

StoryDiffusion 可以创建令人惊叹的一致卡通风格的角色。

StoryDiffusion 在多个角色生成中，也可以同时维护多个角色的身份，并在图像序列中生成一致的角色。

一键生成系列漫画的效果

以上官方展示效果惊人，经过试用实测的结果跟官方展示一样。

这还仅仅是图像生成，StoryDiffusion 还可以通过其图像语义运动预测器以生成的一致图像或用户输入图像为条件生成高质量视频。官方发布了很多视频demo，也许达不到 Sora 那么长，但在视频中的主体一致性上面已经可以跟 Sora 比肩了。

视频加载中...

技术简介

StoryDiffusion 主要通过以下两个模块组件来实现上述效果——根据预定义的文本故事生成包含丰富内容的一致性图像或视频序列。

一致性自注意力机制 (Consistent Self-Attention)：

该模块无需训练，可直接插入到现有的图像生成模型中。

它通过在生成过程中在图像批次之间建立连接，有效地生成了面部和服装一致的图像，从而提升了人物的一致性。

这种方法提高了用户通过文本提示控制生成内容的能力。

语义运动预测器 (Semantic Motion Predictor)：

该模块用于将一系列一致性图像转换为视频，使其更加生动地讲述故事。

它通过将图像编码到语义空间，捕捉空间信息，从而更准确地预测运动，即使是大幅度的动作也能够流畅地表现出来。

与仅依赖图像潜在空间预测运动的方法相比，语义空间的预测结果更加稳定，尤其是在生成长视频时效果更为显著。

如何使用

目前官方提供两种使用方法，一是本地部署，二是网络试用。

本地部署有两种途径，一是Python克隆安装项目，需要注意的是显卡至少在20G显存以上。另一种是通过本地电脑上的 pinokio一键安装运行。

网络试用也用两种途径，一是谷歌的colab云笔记本上运行，二是在抱抱脸空间试用。我在抱抱脸上试用了一下，主体一致性非常好，除了一些小瑕疵，效果完全跟官方展示一样。

1.支持图片参考图片，（现在不支持卡通参考图像）。

2.支持排版风格和字幕。（默认情况下，提示用作每张图像的标题。如果需要更改标题，请在每行末尾添加一个#。只有#之后的部分才会添加为图像的标题）。

3.[NC]符号（[NC]符号用作标志，表示生成的场景图像中不应出现任何字符。如果要这样做，请在行的开头加上“[NC]”。例如，要生成没有任何字符的落叶场景，请写：“[NC]The leaves are falling。”）。

目前只有图像生成功能，官方并没有提供视频生成的代码。官方论文中也提到，虽然可以使用滑动窗口生成较长的视频，但 StoryDiffusion 并非专门为长视频生成而设计，因此在生成超长视频时效果可能不够理想。StoryDiffusion 在生成一致性图像时，对于一些细微的服装细节 (如领带) 可能存在不一致的情况，需要更详细的文本提示才能保持一致性。

StoryDiffusion 是AI生成一致性方面的开创性探索，为内容一致性方面的AI生成能力提供了新的视角。随着AI的不断发展，像 StoryDiffusion 这样的工具将在故事讲述和内容创作的方面发挥至关重要的作用。

论文地址：arxiv.org/abs/2405.01434

项目地址：github.com/hvision-nku/storydiffusion

试用地址：huggingface.co/spaces/YupengZhou/StoryDiffusion

南开大学发布革命性的图像和视频生成项目 StoryDiffusion

继续阅读

#头条创作挑战赛#①0-12岁家长育儿教育课·80节②0-6岁早教游戏课·100节③专注力家庭游戏课·45节④亲子沟通

#头条创作挑战赛#一视频中，商场厕所男士上厕所时拍的，厕所挡板离地有一个人脸宽的空隙，先是两条胳膊着地，然后露出一张放倒

又一办公室不雅行为！摄像头忘关视频被曝光，女子身份引热议

一分钟小说。第208集某导发了一个吃饭的视频吃着吃着饭咧着嘴掩面痛哭流涕某导和王大娘在一个小饭店里吃饭。某导说，他怀孕，

@爱好短视频的你，歌曲《走过剑门关》短视频网络比赛火热开启！

牛皮真不是吹的吗？今天看了一个视频，让我大吃一惊！从视频上看到，上百头黄牛要去河对岸吃草，面对百米宽汹涌澎湃的大河，它们

这才是今天娱乐圈最炸裂的瓜！6月5日，娱乐圈突然曝出一则十分炸裂的瓜，那就是有女生爆料男爱豆胡煊宣在她怀孕期间多次出轨，

和“警察”视频通话，代价是100万？！

和警察视频通话，代价是100万？！

2020年刚开始做中视频的时候，随随便便发个视频，播放量100多都能有八九元收入，反观现在，就算有1000播放量，收入还

汪小菲儿子砸场麻六记，吐槽父亲像“猪”，马筱梅晒视频气大S

又有141人遇难，47个是孩子！现场视频曝光：这场欢庆，为何

[给力]纽恩泰空气能百万IP星计划——短视频矩阵获客训练营火热进行中🔥🔥🚩理论+实操，解锁线上曝光新技能🚩从流量到成交，

#头条创作挑战赛#最近一位情感博主的视频，引起了太多人的共鸣。他的视频，情感真挚细腻，对人物内心的把握准确到位，不失真，

之前估剩重4～5百克的尊荣木香气息沉香料件，实干重出乎意料！着称坚挺尚余约601克，较前视频显示623克仅减重22克，沉

董宇辉端午假期回村摸鱼刚刚宇辉更新了视频，终于回到了潼关老家，跟家人一起提前过端午佳节。听妈妈说村前的小河里有鱼，宇辉拿