玩Stable Diffusion两年多了,我的RTX 4070每天跑图少说也有100张。从最开始什么都不懂,连Python都不会装,到现在闭着眼都能调出一张能用的图,中间踩过的坑真的数都数不清。今天把这些实战经验全部整理出来,希望能帮你少走弯路。
如果你也对Python感兴趣,可以看看我们的Python详细教程。
如果你对AI绘画感兴趣,又不想每个月花几十块钱去订阅在线服务,那Stable Diffusion绝对是你目前最靠谱的选择。它完全免费,完全在你自己的电脑上运行,生成的图片想怎么用就怎么用,根本不用担心版权纠纷。想了解更多免费AI绘画工具的话,可以看看这篇2026免费AI绘画工具汇总,里面还有不少其他好用的工具推荐。
Stable Diffusion到底是什么
说得直白一点,Stable Diffusion就是一个开源的AI画图工具。你用文字描述你想要的画面,它就帮你生成对应的图片。跟Midjourney、DALL-E这些在线服务不一样的是,SD完全跑在你自己的显卡上,断网了照样能用。
它的核心优势总结起来就是:免费、自由、可控。
- 不用花一分钱,不用排队等生成,想画多少张就画多少张
- 模型选择、参数调节、后期处理全部由你自己掌控
- 可以用自己的图片训练专属模型,生成特定风格、特定人物的图片
- 没有任何审核限制,创作完全自由
这些优势是在线服务给不了你的。用过SD之后,你会发现每月花几十块去订阅Midjourney真的没必要,除非你只是偶尔用用、不想折腾。
硬件要求:先看看你的显卡够不够用
这是每个新手最关心的问题,我直接给你结论,别纠结:
| 配置级别 | 显卡型号 | 显存大小 | 实际体验 |
|---|---|---|---|
| 入门级 | RTX 3060 / 4060 | 8GB | 能跑,SD 1.5很流畅,SDXL需要开省显存模式 |
| 推荐级 | RTX 3080 / 4070 / 4080 | 12GB+ | 流畅运行所有模型,批量出图毫无压力 |
| 旗舰级 | RTX 4090 | 24GB | 随便折腾,高分辨率加大模型完全不受限 |
我手上的RTX 4070跑SDXL模型,设置768x1024分辨率,20步采样大概6到8秒出一张图。跑SD 1.5就更快了,基本3到4秒就能搞定。一天出个两三百张图,显卡温度也就六七十度,完全扛得住。
8GB显存不是说不能用,只是跑SDXL模型的时候你得开启一些省显存的参数设置,出图速度会慢百分之三四十。如果你的预算比较紧张,RTX 4060完全可以入门,先用SD 1.5的模型练手,等以后有钱了再升级显卡也不迟。
没有N卡的话,AMD显卡也能跑,但配置过程要麻烦不少,而且速度普遍比同级别的N卡慢一截。Mac用户的话,M系列芯片也能跑,就是生态支持差一些,很多插件用不了。
安装Stable Diffusion WebUI详细步骤
目前社区里最主流的图形界面还是AUTOMATIC1111开发的Stable Diffusion WebUI。它的社区生态最完善,能找到的教程也最多,遇到问题搜一下基本都有人解答过。如果你是第一次接触SD,从这里开始绝对没错。
第一步:安装Python 3.10.6
去Python官方网站下载3.10.6这个特定版本。注意不要装3.11或者更新的版本,很多依赖库还没适配,装了一定会报错。安装的时候有一个特别重要的步骤:一定要勾选”Add Python to PATH”这个选项,忘了勾选的话后面启动WebUI的时候一定会出问题。
安装完成后,打开命令提示符(按Win+R输入cmd回车),输入python --version,看到输出是Python 3.10.6就说明装对了。
第二步:安装Git
去git-scm.com下载最新版本的Git,安装过程一路点默认选项就行。装好之后同样在命令提示符里输入git --version验证一下,能看到版本号就说明安装成功了。
第三步:下载并启动WebUI
在命令提示符里依次输入以下命令:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
webui-user.bat
第一次启动的时候,脚本会自动下载所有依赖包和一个基础模型文件,整个过程大概需要20到30分钟,具体取决于你的网速。中间可能会卡在某些步骤好几分钟不动,这是正常的,别急着关掉窗口。
全部下载完成后,浏览器会自动打开http://127.0.0.1:7860这个地址,看到WebUI的操作界面就说明你安装成功了。以后每次想用SD,只需要双击运行webui-user.bat就行了。
如果你想更详细地了解SD的各种进阶安装配置和优化技巧,我之前写过一篇更全面的Stable Diffusion完整指南,里面涵盖了更多高级设置和常见问题的解决方案。
备选方案:ComfyUI
如果你已经用过一段时间WebUI,觉得它不够灵活或者出图速度不够快,可以试试ComfyUI。ComfyUI采用节点式界面,看起来像连连看,上手难度比WebUI大不少。但它的优势也很明显:出图速度更快,显存占用更低,支持更复杂的工作流。适合有一定基础、想玩高级操作的用户。
新手不建议一上来就用ComfyUI,学习曲线太陡了。先用WebUI把基础概念搞清楚,再用ComfyUI会顺畅很多。
模型选择:到底该用哪个
SD的模型文件也叫checkpoint,它直接决定了你出图的风格和质量。这可能是新手最容易迷糊的地方了,网上的模型成千上万,根本不知道该下载哪个。
三大版本到底选哪个
| 版本 | 核心特点 | 显存需求 | 最适合的场景 |
|---|---|---|---|
| SD 1.5 | 出图速度快,社区模型最丰富,LoRA资源超多 | 6GB以上 | 快速出图练手、玩LoRA、风格探索 |
| SDXL | 画质比1.5明显提升,细节更丰富,构图更合理 | 8GB以上 | 正式作品产出、商业用途、高质量需求 |
| SD 3 / 3.5 | 最新架构,文字渲染能力强,人体比例更准确 | 12GB以上 | 追求极致质量、需要图中带文字的场景 |
我个人的使用经验是:日常快速试想法用SD 1.5,正式出作品用SDXL。SD3虽然质量确实高,但目前社区生态还在完善阶段,能用的好模型数量还是偏少,LoRA资源也不够丰富。
去哪里下载模型
主要有两个来源:
- Civitai(civitai.com):这是目前最大的SD模型社区,里面的模型按热度排序就能找到大家都在用的好模型。下载的时候注意看清楚模型类型,Checkpoint、LoRA、VAE、Embedding这些都是不同的东西,别放错文件夹了
- HuggingFace(huggingface.co):这是Stability AI官方发布模型的地方,比较权威的来源。官方基础模型在这里下载最方便
模型下载完成后,把.safetensors格式的文件放到stable-diffusion-webui/models/Stable-diffusion/这个目录下,回到WebUI界面左上角的下拉菜单里就能选到你新加的模型了。记得点一下刷新按钮。
出图基础:txt2img实操指南
打开WebUI之后,默认就是在txt2img(文字生成图片)标签页,这也是你最常用的功能。下面逐个讲解每个参数的含义和推荐设置。
正向提示词怎么写
提示词用英文写效果最好,中文虽然也能跑但质量差很多。基本的写法结构是:
质量词 + 主体描述 + 环境描写 + 光影效果 + 风格指定
给你举个实际例子:
masterpiece, best quality, 1girl, sitting in a cafe window, afternoon golden sunlight, soft lighting, film photography style, shallow depth of field, bokeh background
几个要点:质量词放在最前面权重最高;越重要的描述越往前放;可以用括号加权重,比如(beautiful eyes:1.3)就是把这个特征的权重提高30%。
负面提示词为什么特别重要
很多新手会忽略负面提示词,这是个大错误。负面提示词就是告诉AI”你不应该生成什么”,能大幅减少翻车概率。下面这个通用负面提示词模板你直接复制就行:
worst quality, low quality, normal quality, blurry, deformed, ugly, bad anatomy, bad hands, extra fingers, missing fingers, extra limbs, fused fingers, watermark, text, signature, cropped, out of frame
把这段贴到负面提示词框里,能避免百分之八十以上的常见问题。根据不同场景你还可以追加特定的负面词,比如画人像就加上bad face, asymmetric eyes,画风景就加上oversaturated, artificial looking。
关键参数逐个讲解
采样步数(Steps):推荐20到30
步数越高,AI在生成过程中迭代计算的次数越多,图片细节也就越多。但这个收益是递减的,20步到30步的提升远没有10步到20步那么明显。我日常出图就用25步,够用了。低于15步图片容易发糊,高于40步基本看不出区别但白白浪费时间。
提示词相关性(CFG Scale):推荐7到9
这个参数控制生成图片跟你写的提示词之间的匹配程度。设成7是比较通用的数值,画面看起来自然舒服;调高到10以上,图片对比度和饱和度会变高,容易出现色块和不自然的光影;设成5以下的话,图片跟你的提示词关联度就很低了,AI会自由发挥。
采样器(Sampler):首推DPM++ 2M Karras
这是目前社区公认的速度和质量平衡最好的采样器,适合绝大多数场景。其他几个值得了解的:
- Euler a:出图速度快,风格偏柔和,适合快速试提示词
- DPM++ SDE Karras:质量比2M稍好一点点,但速度慢百分之三十
- DDIM:老牌采样器,在img2img模式下表现比较稳定
分辨率怎么设
SD 1.5模型的原始训练分辨率是512x512,所以推荐你在这个基础上调整,比如512x768画竖图,768x512画横图。SDXL的训练分辨率是1024x1024,推荐用1024x1024或者768x1024。
千万不要直接设很高分辨率比如2048x2048,出来的图大概率会出现重复的人体结构或者奇怪的构图。正确的做法是先用小分辨率出图,效果满意之后再开启Hires. fix功能放大。
不同场景的参数推荐表
这是我日常使用的参数配置,经过大量测试总结出来的,你可以直接照搬:
| 用途 | 推荐模型 | Steps | CFG | Sampler | 分辨率 |
|---|---|---|---|---|---|
| 人像写真 | SDXL RealVisXL | 25 | 7 | DPM++ 2M Karras | 768x1024 |
| 动漫插画 | SD 1.5 + Animagine XL | 20 | 8 | Euler a | 512x768 |
| 风景场景 | SDXL DreamShaper | 30 | 7.5 | DPM++ 2M Karras | 1024x768 |
| 产品效果图 | SDXL 基础模型 | 25 | 9 | DPM++ SDE Karras | 1024x1024 |
| 快速草稿试想法 | SD 1.5 任意模型 | 15 | 7 | Euler a | 512x512 |
| 商业海报 | SDXL Juggernaut | 30 | 8 | DPM++ 2M Karras | 768x1152 |
img2img:以图生图的基本用法
txt2img是从零开始凭空生成图片,img2img则是在一张已有图片的基础上进行修改和创作。常见的应用场景包括:
- 把一张真实照片转换成动漫风格或者油画风格
- 对已经生成的图片做细节调整,比如换个背景或者改服装颜色
- 配合ControlNet精确控制人物的姿势和构图
操作很简单:把参考图片拖进img2img区域的图片框里,写好你想要的提示词,然后调整”重绘幅度”(Denoising strength)这个参数。这个数值范围是0到1:
- 0.3到0.5:保留原图的大部分结构和构图,只做风格化或者细节微调
- 0.5到0.7:原图的大致轮廓还在,但细节会有比较大的变化
- 0.7以上:基本等于重新画了,只保留原图的色调和大致方向
进阶控制:ControlNet简介
ControlNet可以说是Stable Diffusion最强大的扩展插件了,没有之一。它让你能够精确控制生成图片的构图、人物姿势、场景深度等等,真正做到”指哪画哪”。
最常用的几种模式:
- OpenPose:从参考图片中提取人物骨架,然后让AI按照这个骨架姿势生成新的人物。画人物必备,再也不用靠运气碰姿势了
- Canny / Lineart:提取图片的边缘线条或者线稿,然后基于这个线条结构生成新的图片。特别适合建筑效果图和产品渲染
- Depth:控制画面中物体的前后景深关系,让生成的图片在空间感上更准确
- Tile:在做高清放大的时候保持细节的一致性,不会出现放大后细节跑偏的问题
安装方法:在WebUI的Extensions(扩展)页面搜索”sd-webui-controlnet”,点击安装即可。不过ControlNet自身也需要额外的模型文件,要另外下载放到对应的目录里面。
想了解SD和Midjourney到底哪个更适合你的使用场景,可以看看这篇Midjourney vs SD 2026全面对比。如果你更偏好Midjourney那种开箱即用的体验,这篇Midjourney使用教程也值得参考一下。
我的日常出图工作流分享
最后分享一下我自己每天的工作流程,供你参考:
- 先用txt2img加低步数(15步)快速测试提示词方向,找到满意的构图和风格
- 确定提示词之后,把步数调到25到30,微调CFG数值,正式批量出图
- 从生成结果中挑选满意的图片,开启Hires. fix放大两倍获取高清版本
- 如果需要精修某些局部细节,把图丢进img2img做针对性调整
- 最后用Photoshop或者在线修图工具做最终的后期处理
这样一天下来差不多能出100到200张图,最终真正能用的大概也就10到20张。别指望随便写几个词就能一次出完美结果,多试多调才是正确的方式。提示词的写法需要积累经验,参数的调节需要反复测试,这些都是熟能生巧的事情。
常见问题解答
q: Stable Diffusion安装的时候报错”ModuleNotFoundError”或者”RuntimeError”怎么办? a: 九成以上的情况是Python版本不对或者安装时没加到系统PATH。解决办法是卸载当前的Python,重新安装3.10.6版本,安装的时候务必勾选”Add Python to PATH”选项。如果这样还不行,就把stable-diffusion-webui整个目录删掉,重新用git clone下载一遍。另外检查一下你的网络,有些依赖包需要访问国外服务器,网络不通也会导致安装失败。
q: 生成图片的时候提示显存不足(CUDA out of memory)怎么解决?
a: 找到安装目录下的webui-user.bat文件,用记事本打开,找到COMMANDLINE_ARGS那一行,改成set COMMANDLINE_ARGS=--medvram(适用于8GB显存)或者set COMMANDLINE_ARGS=--lowvram(适用于6GB显存)。这样设置会牺牲一些出图速度,但能让程序在显存紧张的情况下正常运行。另外一个办法是生成图片之前关掉其他占用显存的程序,比如浏览器开了很多标签页、正在跑的游戏、其他AI工具等等。
q: 生成的人物图片面部总是很奇怪或者变形怎么办? a: 这是Stable Diffusion的一个老问题了,有几个行之有效的解决方案。第一,在负面提示词里加上”bad anatomy, bad hands, ugly face, deformed face”这些关键词。第二,生成图片的分辨率不要太低,至少保证512x512以上。第三,选择专门优化过人脸表现的模型,比如RealVisXL或者majicMIX realistic。第四,安装ADetailer这个扩展插件,它能在出图后自动检测面部区域并重新生成修复,效果非常好。
想用AI绘画技术赚钱变现的话,可以看看这篇AI绘画变现指南,里面介绍了不少实际可行的变现路径和操作方法。