Stable Diffusion怎么用2026:安装+出图+模型选择完整教程

Stable Diffusion是最强的开源AI绘画工具。这篇教程从硬件要求到参数调优,手把手教你从零开始用SD出图。

3 分钟阅读
提效录
Stable Diffusion怎么用2026:安装+出图+模型选择完整教程

玩Stable Diffusion两年多了,我的RTX 4070每天跑图少说也有100张。从最开始什么都不懂,连Python都不会装,到现在闭着眼都能调出一张能用的图,中间踩过的坑真的数都数不清。今天把这些实战经验全部整理出来,希望能帮你少走弯路。

如果你也对Python感兴趣,可以看看我们的Python详细教程

如果你对AI绘画感兴趣,又不想每个月花几十块钱去订阅在线服务,那Stable Diffusion绝对是你目前最靠谱的选择。它完全免费,完全在你自己的电脑上运行,生成的图片想怎么用就怎么用,根本不用担心版权纠纷。想了解更多免费AI绘画工具的话,可以看看这篇2026免费AI绘画工具汇总,里面还有不少其他好用的工具推荐。

Stable Diffusion到底是什么

说得直白一点,Stable Diffusion就是一个开源的AI画图工具。你用文字描述你想要的画面,它就帮你生成对应的图片。跟Midjourney、DALL-E这些在线服务不一样的是,SD完全跑在你自己的显卡上,断网了照样能用。

它的核心优势总结起来就是:免费、自由、可控

  • 不用花一分钱,不用排队等生成,想画多少张就画多少张
  • 模型选择、参数调节、后期处理全部由你自己掌控
  • 可以用自己的图片训练专属模型,生成特定风格、特定人物的图片
  • 没有任何审核限制,创作完全自由

这些优势是在线服务给不了你的。用过SD之后,你会发现每月花几十块去订阅Midjourney真的没必要,除非你只是偶尔用用、不想折腾。

硬件要求:先看看你的显卡够不够用

这是每个新手最关心的问题,我直接给你结论,别纠结:

配置级别显卡型号显存大小实际体验
入门级RTX 3060 / 40608GB能跑,SD 1.5很流畅,SDXL需要开省显存模式
推荐级RTX 3080 / 4070 / 408012GB+流畅运行所有模型,批量出图毫无压力
旗舰级RTX 409024GB随便折腾,高分辨率加大模型完全不受限

我手上的RTX 4070跑SDXL模型,设置768x1024分辨率,20步采样大概6到8秒出一张图。跑SD 1.5就更快了,基本3到4秒就能搞定。一天出个两三百张图,显卡温度也就六七十度,完全扛得住。

8GB显存不是说不能用,只是跑SDXL模型的时候你得开启一些省显存的参数设置,出图速度会慢百分之三四十。如果你的预算比较紧张,RTX 4060完全可以入门,先用SD 1.5的模型练手,等以后有钱了再升级显卡也不迟。

没有N卡的话,AMD显卡也能跑,但配置过程要麻烦不少,而且速度普遍比同级别的N卡慢一截。Mac用户的话,M系列芯片也能跑,就是生态支持差一些,很多插件用不了。

安装Stable Diffusion WebUI详细步骤

目前社区里最主流的图形界面还是AUTOMATIC1111开发的Stable Diffusion WebUI。它的社区生态最完善,能找到的教程也最多,遇到问题搜一下基本都有人解答过。如果你是第一次接触SD,从这里开始绝对没错。

第一步:安装Python 3.10.6

去Python官方网站下载3.10.6这个特定版本。注意不要装3.11或者更新的版本,很多依赖库还没适配,装了一定会报错。安装的时候有一个特别重要的步骤:一定要勾选”Add Python to PATH”这个选项,忘了勾选的话后面启动WebUI的时候一定会出问题。

安装完成后,打开命令提示符(按Win+R输入cmd回车),输入python --version,看到输出是Python 3.10.6就说明装对了。

第二步:安装Git

去git-scm.com下载最新版本的Git,安装过程一路点默认选项就行。装好之后同样在命令提示符里输入git --version验证一下,能看到版本号就说明安装成功了。

第三步:下载并启动WebUI

在命令提示符里依次输入以下命令:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
webui-user.bat

第一次启动的时候,脚本会自动下载所有依赖包和一个基础模型文件,整个过程大概需要20到30分钟,具体取决于你的网速。中间可能会卡在某些步骤好几分钟不动,这是正常的,别急着关掉窗口。

全部下载完成后,浏览器会自动打开http://127.0.0.1:7860这个地址,看到WebUI的操作界面就说明你安装成功了。以后每次想用SD,只需要双击运行webui-user.bat就行了。

如果你想更详细地了解SD的各种进阶安装配置和优化技巧,我之前写过一篇更全面的Stable Diffusion完整指南,里面涵盖了更多高级设置和常见问题的解决方案。

备选方案:ComfyUI

如果你已经用过一段时间WebUI,觉得它不够灵活或者出图速度不够快,可以试试ComfyUI。ComfyUI采用节点式界面,看起来像连连看,上手难度比WebUI大不少。但它的优势也很明显:出图速度更快,显存占用更低,支持更复杂的工作流。适合有一定基础、想玩高级操作的用户。

新手不建议一上来就用ComfyUI,学习曲线太陡了。先用WebUI把基础概念搞清楚,再用ComfyUI会顺畅很多。

模型选择:到底该用哪个

SD的模型文件也叫checkpoint,它直接决定了你出图的风格和质量。这可能是新手最容易迷糊的地方了,网上的模型成千上万,根本不知道该下载哪个。

三大版本到底选哪个

版本核心特点显存需求最适合的场景
SD 1.5出图速度快,社区模型最丰富,LoRA资源超多6GB以上快速出图练手、玩LoRA、风格探索
SDXL画质比1.5明显提升,细节更丰富,构图更合理8GB以上正式作品产出、商业用途、高质量需求
SD 3 / 3.5最新架构,文字渲染能力强,人体比例更准确12GB以上追求极致质量、需要图中带文字的场景

我个人的使用经验是:日常快速试想法用SD 1.5,正式出作品用SDXL。SD3虽然质量确实高,但目前社区生态还在完善阶段,能用的好模型数量还是偏少,LoRA资源也不够丰富。

去哪里下载模型

主要有两个来源:

  • Civitai(civitai.com):这是目前最大的SD模型社区,里面的模型按热度排序就能找到大家都在用的好模型。下载的时候注意看清楚模型类型,Checkpoint、LoRA、VAE、Embedding这些都是不同的东西,别放错文件夹了
  • HuggingFace(huggingface.co):这是Stability AI官方发布模型的地方,比较权威的来源。官方基础模型在这里下载最方便

模型下载完成后,把.safetensors格式的文件放到stable-diffusion-webui/models/Stable-diffusion/这个目录下,回到WebUI界面左上角的下拉菜单里就能选到你新加的模型了。记得点一下刷新按钮。

出图基础:txt2img实操指南

打开WebUI之后,默认就是在txt2img(文字生成图片)标签页,这也是你最常用的功能。下面逐个讲解每个参数的含义和推荐设置。

正向提示词怎么写

提示词用英文写效果最好,中文虽然也能跑但质量差很多。基本的写法结构是:

质量词 + 主体描述 + 环境描写 + 光影效果 + 风格指定

给你举个实际例子:

masterpiece, best quality, 1girl, sitting in a cafe window, afternoon golden sunlight, soft lighting, film photography style, shallow depth of field, bokeh background

几个要点:质量词放在最前面权重最高;越重要的描述越往前放;可以用括号加权重,比如(beautiful eyes:1.3)就是把这个特征的权重提高30%。

负面提示词为什么特别重要

很多新手会忽略负面提示词,这是个大错误。负面提示词就是告诉AI”你不应该生成什么”,能大幅减少翻车概率。下面这个通用负面提示词模板你直接复制就行:

worst quality, low quality, normal quality, blurry, deformed, ugly, bad anatomy, bad hands, extra fingers, missing fingers, extra limbs, fused fingers, watermark, text, signature, cropped, out of frame

把这段贴到负面提示词框里,能避免百分之八十以上的常见问题。根据不同场景你还可以追加特定的负面词,比如画人像就加上bad face, asymmetric eyes,画风景就加上oversaturated, artificial looking

关键参数逐个讲解

采样步数(Steps):推荐20到30

步数越高,AI在生成过程中迭代计算的次数越多,图片细节也就越多。但这个收益是递减的,20步到30步的提升远没有10步到20步那么明显。我日常出图就用25步,够用了。低于15步图片容易发糊,高于40步基本看不出区别但白白浪费时间。

提示词相关性(CFG Scale):推荐7到9

这个参数控制生成图片跟你写的提示词之间的匹配程度。设成7是比较通用的数值,画面看起来自然舒服;调高到10以上,图片对比度和饱和度会变高,容易出现色块和不自然的光影;设成5以下的话,图片跟你的提示词关联度就很低了,AI会自由发挥。

采样器(Sampler):首推DPM++ 2M Karras

这是目前社区公认的速度和质量平衡最好的采样器,适合绝大多数场景。其他几个值得了解的:

  • Euler a:出图速度快,风格偏柔和,适合快速试提示词
  • DPM++ SDE Karras:质量比2M稍好一点点,但速度慢百分之三十
  • DDIM:老牌采样器,在img2img模式下表现比较稳定

分辨率怎么设

SD 1.5模型的原始训练分辨率是512x512,所以推荐你在这个基础上调整,比如512x768画竖图,768x512画横图。SDXL的训练分辨率是1024x1024,推荐用1024x1024或者768x1024。

千万不要直接设很高分辨率比如2048x2048,出来的图大概率会出现重复的人体结构或者奇怪的构图。正确的做法是先用小分辨率出图,效果满意之后再开启Hires. fix功能放大。

不同场景的参数推荐表

这是我日常使用的参数配置,经过大量测试总结出来的,你可以直接照搬:

用途推荐模型StepsCFGSampler分辨率
人像写真SDXL RealVisXL257DPM++ 2M Karras768x1024
动漫插画SD 1.5 + Animagine XL208Euler a512x768
风景场景SDXL DreamShaper307.5DPM++ 2M Karras1024x768
产品效果图SDXL 基础模型259DPM++ SDE Karras1024x1024
快速草稿试想法SD 1.5 任意模型157Euler a512x512
商业海报SDXL Juggernaut308DPM++ 2M Karras768x1152

img2img:以图生图的基本用法

txt2img是从零开始凭空生成图片,img2img则是在一张已有图片的基础上进行修改和创作。常见的应用场景包括:

  • 把一张真实照片转换成动漫风格或者油画风格
  • 对已经生成的图片做细节调整,比如换个背景或者改服装颜色
  • 配合ControlNet精确控制人物的姿势和构图

操作很简单:把参考图片拖进img2img区域的图片框里,写好你想要的提示词,然后调整”重绘幅度”(Denoising strength)这个参数。这个数值范围是0到1:

  • 0.3到0.5:保留原图的大部分结构和构图,只做风格化或者细节微调
  • 0.5到0.7:原图的大致轮廓还在,但细节会有比较大的变化
  • 0.7以上:基本等于重新画了,只保留原图的色调和大致方向

进阶控制:ControlNet简介

ControlNet可以说是Stable Diffusion最强大的扩展插件了,没有之一。它让你能够精确控制生成图片的构图、人物姿势、场景深度等等,真正做到”指哪画哪”。

最常用的几种模式:

  • OpenPose:从参考图片中提取人物骨架,然后让AI按照这个骨架姿势生成新的人物。画人物必备,再也不用靠运气碰姿势了
  • Canny / Lineart:提取图片的边缘线条或者线稿,然后基于这个线条结构生成新的图片。特别适合建筑效果图和产品渲染
  • Depth:控制画面中物体的前后景深关系,让生成的图片在空间感上更准确
  • Tile:在做高清放大的时候保持细节的一致性,不会出现放大后细节跑偏的问题

安装方法:在WebUI的Extensions(扩展)页面搜索”sd-webui-controlnet”,点击安装即可。不过ControlNet自身也需要额外的模型文件,要另外下载放到对应的目录里面。

想了解SD和Midjourney到底哪个更适合你的使用场景,可以看看这篇Midjourney vs SD 2026全面对比。如果你更偏好Midjourney那种开箱即用的体验,这篇Midjourney使用教程也值得参考一下。

我的日常出图工作流分享

最后分享一下我自己每天的工作流程,供你参考:

  1. 先用txt2img加低步数(15步)快速测试提示词方向,找到满意的构图和风格
  2. 确定提示词之后,把步数调到25到30,微调CFG数值,正式批量出图
  3. 从生成结果中挑选满意的图片,开启Hires. fix放大两倍获取高清版本
  4. 如果需要精修某些局部细节,把图丢进img2img做针对性调整
  5. 最后用Photoshop或者在线修图工具做最终的后期处理

这样一天下来差不多能出100到200张图,最终真正能用的大概也就10到20张。别指望随便写几个词就能一次出完美结果,多试多调才是正确的方式。提示词的写法需要积累经验,参数的调节需要反复测试,这些都是熟能生巧的事情。

常见问题解答

q: Stable Diffusion安装的时候报错”ModuleNotFoundError”或者”RuntimeError”怎么办? a: 九成以上的情况是Python版本不对或者安装时没加到系统PATH。解决办法是卸载当前的Python,重新安装3.10.6版本,安装的时候务必勾选”Add Python to PATH”选项。如果这样还不行,就把stable-diffusion-webui整个目录删掉,重新用git clone下载一遍。另外检查一下你的网络,有些依赖包需要访问国外服务器,网络不通也会导致安装失败。

q: 生成图片的时候提示显存不足(CUDA out of memory)怎么解决? a: 找到安装目录下的webui-user.bat文件,用记事本打开,找到COMMANDLINE_ARGS那一行,改成set COMMANDLINE_ARGS=--medvram(适用于8GB显存)或者set COMMANDLINE_ARGS=--lowvram(适用于6GB显存)。这样设置会牺牲一些出图速度,但能让程序在显存紧张的情况下正常运行。另外一个办法是生成图片之前关掉其他占用显存的程序,比如浏览器开了很多标签页、正在跑的游戏、其他AI工具等等。

q: 生成的人物图片面部总是很奇怪或者变形怎么办? a: 这是Stable Diffusion的一个老问题了,有几个行之有效的解决方案。第一,在负面提示词里加上”bad anatomy, bad hands, ugly face, deformed face”这些关键词。第二,生成图片的分辨率不要太低,至少保证512x512以上。第三,选择专门优化过人脸表现的模型,比如RealVisXL或者majicMIX realistic。第四,安装ADetailer这个扩展插件,它能在出图后自动检测面部区域并重新生成修复,效果非常好。

想用AI绘画技术赚钱变现的话,可以看看这篇AI绘画变现指南,里面介绍了不少实际可行的变现路径和操作方法。

分享文章:

常见问题

Stable Diffusion怎么用适合新手吗?
完全适合。本文从零开始讲解,不需要任何基础。按照步骤操作,30分钟内就能上手。
需要花钱吗?
大部分工具都有免费版本,基础功能完全够用。如果需要高级功能再考虑付费,不着急。
和其他工具比怎么样?
本文有详细对比。简单来说,没有绝对最好的工具,只有最适合你的。建议先试用再决定。

相关文章