Stable Diffusion怎么用适合新手吗？

完全适合。本文从零开始讲解，不需要任何基础。按照步骤操作，30分钟内就能上手。

大部分工具都有免费版本，基础功能完全够用。如果需要高级功能再考虑付费，不着急。

和其他工具比怎么样？

本文有详细对比。简单来说，没有绝对最好的工具，只有最适合你的。建议先试用再决定。

Stable Diffusion怎么用2026：安装+出图+模型选择完整教程

玩Stable Diffusion两年多了，我的RTX 4070每天跑图少说也有100张。从最开始什么都不懂，连Python都不会装，到现在闭着眼都能调出一张能用的图，中间踩过的坑真的数都数不清。今天把这些实战经验全部整理出来，希望能帮你少走弯路。

如果你也对Python感兴趣，可以看看我们的Python详细教程。

如果你对AI绘画感兴趣，又不想每个月花几十块钱去订阅在线服务，那Stable Diffusion绝对是你目前最靠谱的选择。它完全免费，完全在你自己的电脑上运行，生成的图片想怎么用就怎么用，根本不用担心版权纠纷。想了解更多免费AI绘画工具的话，可以看看这篇2026免费AI绘画工具汇总，里面还有不少其他好用的工具推荐。

Stable Diffusion到底是什么

说得直白一点，Stable Diffusion就是一个开源的AI画图工具。你用文字描述你想要的画面，它就帮你生成对应的图片。跟Midjourney、DALL-E这些在线服务不一样的是，SD完全跑在你自己的显卡上，断网了照样能用。

它的核心优势总结起来就是：免费、自由、可控。

不用花一分钱，不用排队等生成，想画多少张就画多少张
模型选择、参数调节、后期处理全部由你自己掌控
可以用自己的图片训练专属模型，生成特定风格、特定人物的图片
没有任何审核限制，创作完全自由

这些优势是在线服务给不了你的。用过SD之后，你会发现每月花几十块去订阅Midjourney真的没必要，除非你只是偶尔用用、不想折腾。

硬件要求：先看看你的显卡够不够用

这是每个新手最关心的问题，我直接给你结论，别纠结：

配置级别	显卡型号	显存大小	实际体验
入门级	RTX 3060 / 4060	8GB	能跑，SD 1.5很流畅，SDXL需要开省显存模式
推荐级	RTX 3080 / 4070 / 4080	12GB+	流畅运行所有模型，批量出图毫无压力
旗舰级	RTX 4090	24GB	随便折腾，高分辨率加大模型完全不受限

我手上的RTX 4070跑SDXL模型，设置768x1024分辨率，20步采样大概6到8秒出一张图。跑SD 1.5就更快了，基本3到4秒就能搞定。一天出个两三百张图，显卡温度也就六七十度，完全扛得住。

8GB显存不是说不能用，只是跑SDXL模型的时候你得开启一些省显存的参数设置，出图速度会慢百分之三四十。如果你的预算比较紧张，RTX 4060完全可以入门，先用SD 1.5的模型练手，等以后有钱了再升级显卡也不迟。

没有N卡的话，AMD显卡也能跑，但配置过程要麻烦不少，而且速度普遍比同级别的N卡慢一截。Mac用户的话，M系列芯片也能跑，就是生态支持差一些，很多插件用不了。

安装Stable Diffusion WebUI详细步骤

目前社区里最主流的图形界面还是AUTOMATIC1111开发的Stable Diffusion WebUI。它的社区生态最完善，能找到的教程也最多，遇到问题搜一下基本都有人解答过。如果你是第一次接触SD，从这里开始绝对没错。

第一步：安装Python 3.10.6

去Python官方网站下载3.10.6这个特定版本。注意不要装3.11或者更新的版本，很多依赖库还没适配，装了一定会报错。安装的时候有一个特别重要的步骤：一定要勾选”Add Python to PATH”这个选项，忘了勾选的话后面启动WebUI的时候一定会出问题。

安装完成后，打开命令提示符（按Win+R输入cmd回车），输入python --version，看到输出是Python 3.10.6就说明装对了。

第二步：安装Git

去git-scm.com下载最新版本的Git，安装过程一路点默认选项就行。装好之后同样在命令提示符里输入git --version验证一下，能看到版本号就说明安装成功了。

第三步：下载并启动WebUI

在命令提示符里依次输入以下命令：

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
webui-user.bat

第一次启动的时候，脚本会自动下载所有依赖包和一个基础模型文件，整个过程大概需要20到30分钟，具体取决于你的网速。中间可能会卡在某些步骤好几分钟不动，这是正常的，别急着关掉窗口。

全部下载完成后，浏览器会自动打开http://127.0.0.1:7860这个地址，看到WebUI的操作界面就说明你安装成功了。以后每次想用SD，只需要双击运行webui-user.bat就行了。

如果你想更详细地了解SD的各种进阶安装配置和优化技巧，我之前写过一篇更全面的Stable Diffusion完整指南，里面涵盖了更多高级设置和常见问题的解决方案。

备选方案：ComfyUI

如果你已经用过一段时间WebUI，觉得它不够灵活或者出图速度不够快，可以试试ComfyUI。ComfyUI采用节点式界面，看起来像连连看，上手难度比WebUI大不少。但它的优势也很明显：出图速度更快，显存占用更低，支持更复杂的工作流。适合有一定基础、想玩高级操作的用户。

新手不建议一上来就用ComfyUI，学习曲线太陡了。先用WebUI把基础概念搞清楚，再用ComfyUI会顺畅很多。

模型选择：到底该用哪个

SD的模型文件也叫checkpoint，它直接决定了你出图的风格和质量。这可能是新手最容易迷糊的地方了，网上的模型成千上万，根本不知道该下载哪个。

三大版本到底选哪个

版本	核心特点	显存需求	最适合的场景
SD 1.5	出图速度快，社区模型最丰富，LoRA资源超多	6GB以上	快速出图练手、玩LoRA、风格探索
SDXL	画质比1.5明显提升，细节更丰富，构图更合理	8GB以上	正式作品产出、商业用途、高质量需求
SD 3 / 3.5	最新架构，文字渲染能力强，人体比例更准确	12GB以上	追求极致质量、需要图中带文字的场景

我个人的使用经验是：日常快速试想法用SD 1.5，正式出作品用SDXL。SD3虽然质量确实高，但目前社区生态还在完善阶段，能用的好模型数量还是偏少，LoRA资源也不够丰富。

去哪里下载模型

主要有两个来源：

Civitai（civitai.com）：这是目前最大的SD模型社区，里面的模型按热度排序就能找到大家都在用的好模型。下载的时候注意看清楚模型类型，Checkpoint、LoRA、VAE、Embedding这些都是不同的东西，别放错文件夹了
HuggingFace（huggingface.co）：这是Stability AI官方发布模型的地方，比较权威的来源。官方基础模型在这里下载最方便

模型下载完成后，把.safetensors格式的文件放到stable-diffusion-webui/models/Stable-diffusion/这个目录下，回到WebUI界面左上角的下拉菜单里就能选到你新加的模型了。记得点一下刷新按钮。

出图基础：txt2img实操指南

打开WebUI之后，默认就是在txt2img（文字生成图片）标签页，这也是你最常用的功能。下面逐个讲解每个参数的含义和推荐设置。

正向提示词怎么写

提示词用英文写效果最好，中文虽然也能跑但质量差很多。基本的写法结构是：

质量词 + 主体描述 + 环境描写 + 光影效果 + 风格指定

给你举个实际例子：

masterpiece, best quality, 1girl, sitting in a cafe window, afternoon golden sunlight, soft lighting, film photography style, shallow depth of field, bokeh background

几个要点：质量词放在最前面权重最高；越重要的描述越往前放；可以用括号加权重，比如(beautiful eyes:1.3)就是把这个特征的权重提高30%。

负面提示词为什么特别重要

很多新手会忽略负面提示词，这是个大错误。负面提示词就是告诉AI”你不应该生成什么”，能大幅减少翻车概率。下面这个通用负面提示词模板你直接复制就行：

worst quality, low quality, normal quality, blurry, deformed, ugly, bad anatomy, bad hands, extra fingers, missing fingers, extra limbs, fused fingers, watermark, text, signature, cropped, out of frame

把这段贴到负面提示词框里，能避免百分之八十以上的常见问题。根据不同场景你还可以追加特定的负面词，比如画人像就加上bad face, asymmetric eyes，画风景就加上oversaturated, artificial looking。

关键参数逐个讲解

采样步数（Steps）：推荐20到30

步数越高，AI在生成过程中迭代计算的次数越多，图片细节也就越多。但这个收益是递减的，20步到30步的提升远没有10步到20步那么明显。我日常出图就用25步，够用了。低于15步图片容易发糊，高于40步基本看不出区别但白白浪费时间。

提示词相关性（CFG Scale）：推荐7到9

这个参数控制生成图片跟你写的提示词之间的匹配程度。设成7是比较通用的数值，画面看起来自然舒服；调高到10以上，图片对比度和饱和度会变高，容易出现色块和不自然的光影；设成5以下的话，图片跟你的提示词关联度就很低了，AI会自由发挥。

采样器（Sampler）：首推DPM++ 2M Karras

这是目前社区公认的速度和质量平衡最好的采样器，适合绝大多数场景。其他几个值得了解的：

Euler a：出图速度快，风格偏柔和，适合快速试提示词
DPM++ SDE Karras：质量比2M稍好一点点，但速度慢百分之三十
DDIM：老牌采样器，在img2img模式下表现比较稳定

分辨率怎么设

SD 1.5模型的原始训练分辨率是512x512，所以推荐你在这个基础上调整，比如512x768画竖图，768x512画横图。SDXL的训练分辨率是1024x1024，推荐用1024x1024或者768x1024。

千万不要直接设很高分辨率比如2048x2048，出来的图大概率会出现重复的人体结构或者奇怪的构图。正确的做法是先用小分辨率出图，效果满意之后再开启Hires. fix功能放大。

不同场景的参数推荐表

这是我日常使用的参数配置，经过大量测试总结出来的，你可以直接照搬：

用途	推荐模型	Steps	CFG	Sampler	分辨率
人像写真	SDXL RealVisXL	25	7	DPM++ 2M Karras	768x1024
动漫插画	SD 1.5 + Animagine XL	20	8	Euler a	512x768
风景场景	SDXL DreamShaper	30	7.5	DPM++ 2M Karras	1024x768
产品效果图	SDXL 基础模型	25	9	DPM++ SDE Karras	1024x1024
快速草稿试想法	SD 1.5 任意模型	15	7	Euler a	512x512
商业海报	SDXL Juggernaut	30	8	DPM++ 2M Karras	768x1152

img2img：以图生图的基本用法

txt2img是从零开始凭空生成图片，img2img则是在一张已有图片的基础上进行修改和创作。常见的应用场景包括：

把一张真实照片转换成动漫风格或者油画风格
对已经生成的图片做细节调整，比如换个背景或者改服装颜色
配合ControlNet精确控制人物的姿势和构图

操作很简单：把参考图片拖进img2img区域的图片框里，写好你想要的提示词，然后调整”重绘幅度”（Denoising strength）这个参数。这个数值范围是0到1：

0.3到0.5：保留原图的大部分结构和构图，只做风格化或者细节微调
0.5到0.7：原图的大致轮廓还在，但细节会有比较大的变化
0.7以上：基本等于重新画了，只保留原图的色调和大致方向

进阶控制：ControlNet简介

ControlNet可以说是Stable Diffusion最强大的扩展插件了，没有之一。它让你能够精确控制生成图片的构图、人物姿势、场景深度等等，真正做到”指哪画哪”。

最常用的几种模式：

OpenPose：从参考图片中提取人物骨架，然后让AI按照这个骨架姿势生成新的人物。画人物必备，再也不用靠运气碰姿势了
Canny / Lineart：提取图片的边缘线条或者线稿，然后基于这个线条结构生成新的图片。特别适合建筑效果图和产品渲染
Depth：控制画面中物体的前后景深关系，让生成的图片在空间感上更准确
Tile：在做高清放大的时候保持细节的一致性，不会出现放大后细节跑偏的问题

安装方法：在WebUI的Extensions（扩展）页面搜索”sd-webui-controlnet”，点击安装即可。不过ControlNet自身也需要额外的模型文件，要另外下载放到对应的目录里面。

想了解SD和Midjourney到底哪个更适合你的使用场景，可以看看这篇Midjourney vs SD 2026全面对比。如果你更偏好Midjourney那种开箱即用的体验，这篇Midjourney使用教程也值得参考一下。

我的日常出图工作流分享

最后分享一下我自己每天的工作流程，供你参考：

先用txt2img加低步数（15步）快速测试提示词方向，找到满意的构图和风格
确定提示词之后，把步数调到25到30，微调CFG数值，正式批量出图
从生成结果中挑选满意的图片，开启Hires. fix放大两倍获取高清版本
如果需要精修某些局部细节，把图丢进img2img做针对性调整
最后用Photoshop或者在线修图工具做最终的后期处理

这样一天下来差不多能出100到200张图，最终真正能用的大概也就10到20张。别指望随便写几个词就能一次出完美结果，多试多调才是正确的方式。提示词的写法需要积累经验，参数的调节需要反复测试，这些都是熟能生巧的事情。

常见问题解答

q: Stable Diffusion安装的时候报错”ModuleNotFoundError”或者”RuntimeError”怎么办？ a: 九成以上的情况是Python版本不对或者安装时没加到系统PATH。解决办法是卸载当前的Python，重新安装3.10.6版本，安装的时候务必勾选”Add Python to PATH”选项。如果这样还不行，就把stable-diffusion-webui整个目录删掉，重新用git clone下载一遍。另外检查一下你的网络，有些依赖包需要访问国外服务器，网络不通也会导致安装失败。

q: 生成图片的时候提示显存不足（CUDA out of memory）怎么解决？ a: 找到安装目录下的webui-user.bat文件，用记事本打开，找到COMMANDLINE_ARGS那一行，改成set COMMANDLINE_ARGS=--medvram（适用于8GB显存）或者set COMMANDLINE_ARGS=--lowvram（适用于6GB显存）。这样设置会牺牲一些出图速度，但能让程序在显存紧张的情况下正常运行。另外一个办法是生成图片之前关掉其他占用显存的程序，比如浏览器开了很多标签页、正在跑的游戏、其他AI工具等等。

q: 生成的人物图片面部总是很奇怪或者变形怎么办？ a: 这是Stable Diffusion的一个老问题了，有几个行之有效的解决方案。第一，在负面提示词里加上”bad anatomy, bad hands, ugly face, deformed face”这些关键词。第二，生成图片的分辨率不要太低，至少保证512x512以上。第三，选择专门优化过人脸表现的模型，比如RealVisXL或者majicMIX realistic。第四，安装ADetailer这个扩展插件，它能在出图后自动检测面部区域并重新生成修复，效果非常好。

想用AI绘画技术赚钱变现的话，可以看看这篇AI绘画变现指南，里面介绍了不少实际可行的变现路径和操作方法。