超详细！最新Stable Diffusion保姆级教程出炉

AI教程 2024-03-27

如今 AI 发展也越来越快了，涉及领域也越来越广了，去接触使用 AI 是非常有必要的了。

其中说到 AI 绘画，相信大家对于Stable Diffusion应该都不会陌生的了。

众所周知，Stable Diffusion 是一个基于深度学习的图像生成工具，内置强大模型，可以根据文本描述来智能的生成图像，功能不仅包括文生图、还有图生图、局部重绘等诸多功能。

要知道AI绘画的关键在于图像的精准控制和风格控制，区别于其他AI软件，Stable Diffusion自身拥有众多选项，可以让你“定制”想要的图像效果。

Stable Diffusion 最核心的部分是它的模型，要理解 Stable Diffusion 所使用的潜在扩散模型背后的技术细节需要一定的算法基础，因此我们在这里只用尽量简要的语言介绍一下扩散模型的训练过程，帮助大家对它建立一个大概的印象。

(1) 扩散模型的训练需要先找到大量高质量的图像数据，训练时先进行正向扩散，即对每张图像按照高斯噪声公式逐步向数据中添加噪声，直到整张图像变成一张全是噪声的图像（噪声数据）。在这个训练的过程中，会记录所有步骤，然后用神经网络来反向学习噪声分布和数据分布之间的关系，即学习如何给一个全是噪声的图像降噪，生成一张高清图像。

(2) 所有高质量图像都经过步骤 (1) 后，就会得到一个训练好的扩散模型，机器就可以通过噪声来对图像进行预测。这样一来，整个绘画的过程就是 AI 用一组随机噪声（随机数）来预测基于它们能画出一个什么样的图像，即从一堆凌乱的随机数中画出图像。这是一个大力出奇迹的过程，但厉害的是最终能产出清晰度非常高和细节较为完美的图像。

AI 绘画工具的操作技巧

1. Stable Diffusion 基础操作

文生图

如图所示 Stable Diffusion WebUI 的操作界面主要分为：模型区域、功能区域、参数区域、出图区域。

txt2img 为文生图功能，重点参数介绍：

正向提示词：描述图片中希望出现的内容

反向提示词：描述图片中不希望出现的内容

Sampling method：采样方法，推荐选择 Euler a 或 DPM++ 系列，采样速度快

Sampling steps：迭代步数，数值越大图像质量越好，生成时间也越长，一般控制在 30-50 就能出效果

Restore faces：可以优化脸部生成

Width/Height：生成图片的宽高，越大越消耗显存，生成时间也越长，一般方图 512x512，竖图 512x768，需要更大尺寸，可以到 Extras 功能里进行等比高清放大

CFG：提示词相关性，数值越大越相关，数值越小越不相关，一般建议 7-12 区间

Batch count/Batch size：生成批次和每批数量，如果需要多图，可以调整下每批数量

Seed：种子数，-1 表示随机，相同的种子数可以保持图像的一致性，如果觉得一张图的结构不错，但对风格不满意，可以将种子数固定，再调整 prompt 生成

图生图

img2img 功能可以生成与原图相似构图色彩的画像，或者指定一部分内容进行变换。可以重点使用 Inpaint 图像修补这个功能：

Resize mode：缩放模式，Just resize 只调整图片大小，如果输入与输出长宽比例不同，图片会被拉伸。Crop and resize 裁剪与调整大小，如果输入与输出长宽比例不同，会以图片中心向四周，将比例外的部分进行裁剪。Resize and fill 调整大小与填充，如果输入与输出分辨率不同，会以图片中心向四周，将比例内多余的部分进行填充

Mask blur：蒙版模糊度，值越大与原图边缘的过度越平滑，越小则边缘越锐利

Mask mode：蒙版模式，Inpaint masked 只重绘涂色部分，Inpaint not masked 重绘除了涂色的部分

Masked Content：蒙版内容，fill 用其他内容填充，original 在原来的基础上重绘

Inpaint area：重绘区域，Whole picture 整个图像区域，Only masked 只在蒙版区域

Denoising strength：重绘幅度，值越大越自由发挥，越小越和原图接近

ControlNet

安装完 ControlNet 后，在 txt2img 和 img2img 参数面板中均可以调用 ControlNet。操作说明：

Enable：启用 ControlNet

Low VRAM：低显存模式优化，建议 8G 显存以下开启

Guess mode：猜测模式，可以不设置提示词，自动生成图片

Preprocessor：选择预处理器，主要有 OpenPose、Canny、HED、Scribble、Mlsd、Seg、Normal Map、Depth

Model：ControlNet 模型，模型选择要与预处理器对应

Weight：权重影响，使用 ControlNet 生成图片的权重占比影响

Guidance strength(T)：引导强度，值为 1 时，代表每迭代 1 步就会被 ControlNet 引导 1 次

Annotator resolution：数值越高，预处理图像越精细

Canny low/high threshold：控制最低和最高采样深度

Resize mode：图像大小模式，默认选择缩放至合适

Canvas width/height：画布宽高

Create blank canvas：创建空白画布

Preview annotator result：预览注释器结果，得到一张 ControlNet 模型提取的特征图片

Hide annotator result：隐藏预览图像窗口

LoRA 模型训练说明

前面提到 LoRA 模型具有训练速度快，模型大小适中（100MB 左右），配置要求低（8G 显存），能用少量图片训练出风格效果的优势。

以下简要介绍该模型的训练方法：

第 1 步：数据预处理

在 Stable Diffusion WebUI 功能面板中，选择 Train 训练功能，点选 Preprocess images 预处理图像功能。在 Source directory 栏填入你要训练的图片存放目录，在 Destination directory 栏填入预处理文件输出目录。width 和 height 为预处理图片的宽高，默认为 512x512，建议把要训练的图片大小统一改成这个尺寸，提升处理速度。勾选 Auto focal point crop 自动焦点裁剪，勾选 Use deepbooru for caption 自动识别图中的元素并打上标签。点击 Preprocess 进行图片预处理。

第 2 步：配置模型训练参数

在这里可以将模型训练放到 Google Colab 上进行，调用 Colab 的免费 15G GPU 将大大提升模型训练速度。LoRA 微调模型训练工具我推荐使用 Kohya，运行 Kohya Colab：https://colab.research.google.com/github/Linaqruf/kohya-trainer/blob/main/fast-kohya-trainer.ipynb

配置训练参数：

先在 content 目录建立 training_dir/training_data 目录，将步骤 1 中的预处理文件上传至该数据训练目录。然后配置微调模型命名和数据训练目录，在 Download Pretrained Model 栏配置需要参考的预训练模型文件。其余的参数可以根据需要调整设置。

第3 步：训练模型

参数配置完成后，运行程序即可进行模型训练。训练完的模型将被放到 training_dir/output 目录，我们下载 safetensors 文件格式的模型，存放到 stable-diffusion-webui/models/Lora 目录中即可调用该模型。由于直接从 Colab 下载速度较慢，另外断开 Colab 连接后也将清空模型文件，这里建议在 Extras 中配置 huggingface 的 Write Token，将模型文件上传到 huggingface 中，再从 huggingface File 中下载，下载速度大大提升，文件也可进行备份。