天天看点

Stable Diffusion-新手入门指南

作者:AI研习所

1、Stable Diffusion

Stable Diffusion 是一种基于潜在扩散模型(Latent Diffusion Models)的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。

如何使用Stable Diffusion?

你需要给出一个描述图片的提示,例如:姜饼屋,西洋镜,焦点,白色背景,吐司,脆麦片;生成图片如下:

Stable Diffusion-新手入门指南
Stable Diffusion-新手入门指南

Stable Diffusion优势

类似的文本生成图像服务有很多,例如DALLE和MidJourney。那为什么要选择Stable Diffusion呢?

•开源:相较于刚才提到的两个工具,Stable Diffusion对于用户而言最大的优势在于免费。

•高质量:Stable Diffusion模型可以生成高分辨率、样化的图像,与真实图片难以区分。

•灵活性:Stable Diffusion模型可以处理各种类型和风格的文本输入和图像输入,无论是简单的描述、复杂的故事、抽象的概念、还是具体的要求。

•稳定性:Stable Diffusion模型可以避免出现常见的图像生成问题,如模糊、伪影、重复、不自然等。

2、多样化风格模型

Stable Diffusion-新手入门指南

风格切换

在使用过程中大家可以根据自身的设计需求进行风格模型切换,例如:

•Stable Diffusion v1.4/.5/2.0/2.1:官方基础模型。百搭各种风格;

•Realistic Vision v2.0 : 擅长生成照片风格的逼真图像;

•Anything v3.0:动漫风格;

•dreamlike-photoreal :写实风格;

动漫风格

Stable Diffusion-新手入门指南
Stable Diffusion-新手入门指南
Stable Diffusion-新手入门指南

逼真图像

Stable Diffusion-新手入门指南
Stable Diffusion-新手入门指南

3、产品推荐

在线生成器

对于AI绘画感兴趣的0基础初学者,可以使用一些免费在线生成器生成图片,无需进行镜像部署等相对复杂的操作环节。

AI绘画 Web UI

免费在线生成器的功能非常有限,对于图片有更高要求的人而言,可以使用更高级的Web UI(网络产品界面设计)。我使用的是UCloud的GPU云服务器,搭配平台提供的AI绘图 Web UI镜像,开箱即用,无需进行繁琐配置。请参阅安装指南。

Stable Diffusion-新手入门指南

4、图像生成

Prompt

虽然AI发展迅速,但Stable Diffusion仍然无法精准读懂用户的想法,更多的是需要靠用户尽可能详细地描述需要的图像主题,确保包含有力的关键词来定义整体图像风格。Prompt可以作为元素权重的关键词,让AI更倾向于在绘图中绘制和Prompt的内容相关的元素。

Stable Diffusion-新手入门指南

•假设您想生成一张比较有个性的猫咪的照片。一个简单的提示:有个性的猫,生成图片如下:

Stable Diffusion-新手入门指南

如果我们用更加详细具体的提示再生成一次:一只灰色的猫,戴耳机,赛博朋克风

Stable Diffusion-新手入门指南

从前后两次提示生成的图片对比来看,第一张就过于简单,第二种相对更加符合我们的预期;所以在写提示时,我们要详细描述我们需要的图像风格以及整体的构建。对于初学者而言,前期我们可以借助AI提示生成器学习逐步过程和重要关键词,从而使生成的图片尽可能达到预期效果。

另外在写提示时,关键词也十分重要,有向导性的关键词可以使最终生成的图片更加符合用户的预期效果,例如:

名人的名字(例如 Emma Watson)

艺术家姓名(如梵高)

艺术媒介(例如插图、绘画、照片)

后续我们会单独讲解有关提示构建和示例关键字的更多信息。

Negative prompt

Negative Prompt则是和Prompt相反,是一个反向加权的权重关系,也就是减低某些元素出现的频率,从而约束AI的行为。

Stable Diffusion-新手入门指南

参数设置

为了使图片达到更加精准的预期效果,我们在进行图像生成的过程中也可以去调整整体的参数设置,以下是一些比较重要的参数参考:

Stable Diffusion-新手入门指南

Image size:输出图像的大小。标准尺寸为 512×512 像素。将其更改为纵向或横向尺寸会对最终生成的图片效果产生很大影响。例如使用纵向尺寸最终会生成全身图像。

Sampling steps:默认 20,整体可根据最终生成的图像效果去设置。适当大一些的可以让画面内容更细致,小的话就没那么细致,想要追求更好的效果也可以将此参数适当调大到30左右。当然,参数越大越吃性能。

CFG scale:可以简单理解为AI对描述参数的倾向程度,默认典型值为7,如果希望最终生成的图像更符合提示,可以适当将参数调大一些。

Seed value:-1 生成随机图像,这个随机数影响画面的内容,如果seed以及Negative Prompt和Prompt都相同,生成几乎完全一致的图片的概率就很高。个人建议这个不用特意设置,默认就行;如果对生成图像有明确要求,可以根据去看调整参数大小。

Batch count:一次性出图的数量,出图数量越多,生成越慢。

5、定制模型

Stability AI及其合作伙伴发布的官方模型称为基础模型。例如 Stable Diffusion1.4、1.5、2.0和2.1。

定制模型是基于基础模型进行训练的。目前,大多数模型都是从 v1.4 或 v1.5 开始训练的。他们通过额外的数据训练,用于生成特定风格的图像。

以下是 5 种不同型号的比较:

Stable Diffusion-新手入门指南

选择哪种模型

对于初级玩家来说,可以使用基本模型先摸索整体玩法和应用,建议先从V1.5版本开始。基础模型分为两个主要组:v1和v2。v1模型包括1.4和1.5版本,而v2模型则包括2.0和2.1版本。

如何训练新模型

训练模型的两种主要方法是:(1) Dreambooth和 (2) embedding。

目前整体看来,Dreambooth更强大,因为它对整个模型的权重进行微调。嵌入则保持模型不变,但会找到描述新主题或风格的关键词。

6、图生图

Stable Diffusion-新手入门指南

除了上述提到的文生图(txt2img),在选项卡中还有img2img,Extras,PNG Info,Checkpoint Merger,Train,Additional Networks,Dreambooth,Settings,Extensions,其中常用的也还有img2img图生图。

图像精准控制

ControlNet使用输入图像作为参考图,然后程序根据此图按一定的模式预处理一张新图,之后再由AI根据这两幅图绘制出成品;用户也可以关闭程序的预处理功能,直接输入一张用户自己处理好的图片当作预处理图,之后AI仅根据这副图生成成品。它可以提取特定信息,例如动物姿势。下面是使用 ControlNet 从输入图像复制动物姿势的示例。

Stable Diffusion-新手入门指南

Input

Stable Diffusion-新手入门指南

Output

图像分割

segment anything支持图像分层,切割,单次可处理单张或多张图片。下面以一只猫的图片为示例,基于sam模型可以快速实现图像的分层、蒙版、分割。

Stable Diffusion-新手入门指南

Input

Stable Diffusion-新手入门指南

Output

图像微调

Additional-Networks可支持基于LoRA模型微调图片风格。以Prompt:“a grey cat, headphone, cyberpunk”为例,如图所示模型输出结果如下:

Stable Diffusion-新手入门指南

Input

Stable Diffusion-新手入门指南

Output

区域提示

Regional Prompter可以通过设置区域提示来控制生成图像的具体细节和特征。您可以使用区域提示来指定生成图像中特定区域的外貌、风格或属性。下面是在左下角放置一只狼,在右下角放置头骨的示例。

Stable Diffusion-新手入门指南

深度图像

Depth-to-image是指从深度图或深度信息生成图像的过程。它可以检测输入图像中的前景色和背景色,生成的输出图像将遵循相同的前景色和背景色。以下是一个示例:

Stable Diffusion-新手入门指南

Input

Stable Diffusion-新手入门指南

Output

7、视频制作

Deforum是一种将Stable Diffusion的能力与动画的动态性相结合的短视频剪辑。目前该插件在社交媒体平台上越来越受欢迎,它们以多种形式呈现,如艺术动画、形态变换效果或超现实的视觉序列。

通过这个新手指南,我们可以了解使用Stable Diffusion生成图像的基本知识和技巧。后续我们将针对每个环节给大家做更加细致的讲解以及在线演示操作细节。让我们一起深入探索,发现更多创作的可能性!