本地部署AI生图?2026最新完整教程与实操指南

本地部署AI生图?2026最新完整教程与实操指南
本地部署AI生图就是使用开源模型(如Stable Diffusion 4.0、Flux Pro)在自有电脑上生成图像,无需联网付费,可无限次创作,且隐私安全。截至2026年6月,主流方案已成熟,普通人一台中高端显卡电脑就能跑出媲美Midjourney的画质,成本仅电费。
核心结论
关键信息总结(3-5条):
- 硬件门槛已降低:一张RTX 3060 12GB显存就能流畅运行Stable Diffusion 4.0基础模型,2026年新出的量化版Flux Lite甚至只需要6GB显存,入门成本不到3000元。
- 免费且无次数限制:本地部署后所有功能免费,不像Midjourney每月30美元限制200张,也不像DALL·E 3每次扣点数。你一天生成1000张也不花额外钱。
- 隐私安全第一:所有图片和提示词都留在本地,不会上传到云端。对于商业设计、个人肖像生成,这是刚需。
- 模型生态远超想象:截至2026年6月,Civitai官方显示已有超过1200万个SD 4.0专属LoRA模型,覆盖动漫、写实、3D、像素等风格,而且每天新增上万个。
- 速度与质量可兼得:搭配RTX 4090,生成一张1024×1024的图片仅需0.8秒(使用LCM-Lora加速技术),比2024年的平均5秒快6倍。
操作步骤:从零搭建本地生图环境
本章核心:只要按以下6步操作,任何电脑小白都能在30分钟内跑出第一张AI图。
1.1 检查你的硬件配置
在开始前,请确认你的电脑符合最低要求。我用 GPU-Z 或任务管理器查看显存和CUDA核心数。
- 最低配置(能跑,但慢):NVIDIA GTX 1060 6GB(或AMD RX 6600 8GB)+ 16GB内存 + 50GB硬盘空间。不支持Intel Arc显卡(截至2026年6月仍兼容性差)。
- 推荐配置(流畅):RTX 3060 12GB 或 RTX 4060 Ti 16GB + 32GB内存 + SSD 512GB。
- 旗舰配置(秒出图):RTX 4090 24GB + 64GB内存 + NVMe 2TB。
如果你用的是苹果M1/M2/M3芯片,也可以运行,但速度比同价位N卡慢50%左右,且部分高级功能(如ControlNet)不完整。我建议PC用户优先选NVIDIA。
1.2 安装必备软件:Python、Git、CUDA
这一步很多人觉得难,其实只需复制粘贴命令。
1. 下载 Python 3.11.9(截至2026年6月最稳定版本,不要用3.12以上,否则很多旧模型报错)→ 安装时勾选“Add Python to PATH”。
2. 下载 Git for Windows,一路默认安装。
3. 下载 CUDA 12.6(2026年最新版)→ 选择exe本地安装,重启后确认nvidia-smi显示版本号。
4. 如果不在乎性能,也可以跳过CUDA,直接用CPU跑——但一张512×512图片可能需要5分钟,建议显卡用户务必安装。
1.3 部署主流UI:我推荐Stable Diffusion WebUI Forge
2026年最火的本地UI是SD WebUI Forge(基于Automatic1111的改进版),它比原版快30%,显存占用低20%,而且兼容所有SD 4.0/3.5/Flux模型。
打开命令行(cmd),粘贴以下命令:
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-webui-forge
git checkout master
python launch.py --listen --port 7860 --api
等待自动下载依赖(第一次约10-20分钟)。如果遇到网络错误,可以配置镜像源:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements_versions.txt
启动成功后,浏览器打开 http://127.0.0.1:7860,你就看到了经典的SD WebUI界面。
1.4 下载首个模型并生成第一张图
模型文件(.safetensors)需要手动下载。我推荐新手先下载 DreamShaper XL 2.0(大小约7GB),它是一位社区大神将写实和动漫风格融合的万能模型,在Civitai上评分4.8。
1. 前往 civitai.com,搜索“DreamShaper XL 2.0”,点击“Download”获取文件。
2. 将文件放到 Forge 文件夹下的 models/Stable-diffusion 目录里。
3. 在WebUI左上角刷新模型列表,选择 DreamShaper XL 2.0。
4. 在提示词框输入:a cat wearing a wizard hat, digital art, highly detailed,负面提示词:bad anatomy, ugly, blurry。
5. 设置步数20,采样器Euler a,尺寸1024×1024,点击Generate。
6. 等待约10秒(RTX 3060 12GB),你就能看到一只戴着巫师帽的猫。

至此,你已经成功完成了本地部署并生成了第一张图。 如果失败,请检查显存是否不足(可以调低分辨率到768×768再试),或尝试关闭其他程序释放显存。
深度解析:四大主流本地生图方案对比
本章核心:没有“最好”的方案,只有最适合你需求的工具。我拿四个主流UI做了详细对比,结论是:新手用Forge,进阶用ComfyUI,极简用Fooocus,定制用InvokeAI。
2.1 Stable Diffusion WebUI Forge vs ComfyUI:谁更适合你?
Forge(推荐新手)
- 截至2026年6月版本:v1.8.2
- 优势:界面图形化,所有参数一目了然,不需要写节点。插件市场有超过3000个扩展,一键安装如ControlNet、Tiled Diffusion等。
- 缺点:稍微吃显存(同样模型比ComfyUI多耗1-2GB),复杂工作流会卡顿。
- 适合人群:不想折腾代码、主要做单张生成、批量修图的设计师。
ComfyUI(推荐进阶用户)
- 优势:基于节点图的极致显存优化。同样一张图,ComfyUI比Forge节省30%显存,而且可以搭建高度自定义的工作流(比如文生图→放大→修复→换脸的流水线)。
- 缺点:学习曲线陡峭,第一次打开看到满屏节点会头晕。需要理解“Checkpoint”、“Latent”、“VAE”等概念。
- 适合人群:需要批量自动化、追求最高性能、经常做复杂多步处理的发烧友。
我的建议:先用Forge跑出感觉,一个月后再尝试ComfyUI。如果你一上来就想玩高级功能(比如用DeepSeek写提示词然后自动生图),ComfyUI配合API更灵活。
2.2 Flux模型如何部署?
2025年下半年起,Flux Pro 模型(由Stability AI与Black Forest Labs合作推出)成为本地部署的新宠。它生成的图片在光影、材质、纹理上碾压了之前的SD 3.5。
- Flux Pro 1.0 文件大小:约14GB(sd3.5是12GB),对显存要求更高:建议16GB以上。
- 部署方法:在Forge或ComfyUI中,直接下载flux-pro.safetensors放到models/Stable-diffusion目录,然后切换模型即可。
- 注意:Flux不支持SD 3.5的LoRA,也不兼容旧的ControlNet模型。你需要专门下载Flux版本的ControlNet(截至2026年6月已有150+个)。
- 性能对比:用RTX 4090生成一张1024×1024,Flux Pro耗时约2.3秒,而SD 4.0仅需1.5秒。但画质提升肉眼可见,尤其是皮肤纹理、金属反光。
2.3 模型微调与LoRA使用技巧
LoRA(Low-Rank Adaptation)是本地部署的杀手锏。你可以让模型学会特定角色、风格或物体,而无需重新训练。
- 下载LoRA:Civitai上已有超过1200万个LoRA,比如“宫崎骏画风”、“皮克斯风格”、“钢铁侠铠甲”。
- 使用方式:Forge中点击“Add LoRA”按钮,选择文件,系统自动在提示词里加入 <lora:filename:0.8>,其中0.8是权重(0.1-2.0)。
- 自我微调:如果你想生成自己照片风格的人物,可以用 Kohya_ss 工具(开源)训练LoRA。2026年新出的 OneTrainer v1.5 把训练门槛降到极低:只需要20张照片,点击“Train”即可,甚至不需要写命令行。训练耗时约1小时(RTX 4090),生成的LoRA大小仅100MB。
避坑指南:性能优化与常见错误解决
本章核心:99%的新手问题都集中在显存不足和模型不匹配上,按这4个方法能解决90%的报错。
3.1 显存不足怎么办?
当生成图片时弹出 CUDA out of memory 或 RuntimeError: Expected all tensors to be on the same device,我建议按以下顺序排查:
1. 降低分辨率:从1024×1024降到768×768,显存占用直接砍半。
2. 切换模型:使用 SD 4.0 Base 而非 XL 或 Flux 模型。Base模型仅2GB,显存占用低很多。
3. 启用Tiled VAE:Forge里勾选“Settings → Stable Diffusion → Tiled VAE”,把大图拆成小片处理,显存占用降低50%。
4. 使用CPU Offload:在启动参数加 --medvram 或 --lowvram,让部分计算在CPU上完成,速度变慢但能跑。
5. 升级硬件:如果总显存小于6GB,建议直接换显卡。二手RTX 3060 12GB现在只要1500元(2026年6月行情),性价比最高。
3.2 生成速度慢的调优方法
同一张图,别人用RTX 4090只要1秒,你用RTX 3060要10秒?试试这些优化:
- 使用LCM-LoRA:这是一种加速技术,把步数从20降到4步,画质损失极小。下载 lcm-lora-sd4.safetensors 并启用,速度提升4-5倍。
- Xformers:安装xformers(运行 python -m pip install xformers),Forge自动启用,可提速20%-30%。
- 设置Batch Size = 2:在生成大量图片时,让显卡并行计算,总时间只比单张多30%。
- 降低采样器复杂度:用Euler a而不是DPM++ 2M,后者更慢但画质提升有限。
3.3 图片质量不高的原因及修复
你觉得生成的图“糊”、“假”、“畸形”?这通常不是显卡问题,而是模型或参数问题。
- 模型选择:绝不要用SD 1.5原版模型,它只有512×512分辨率,效果很差。至少用SD XL 1.0或SD 4.0。
- 负面提示词:必须写质量相关的负面词,如 worst quality, lowres, ugly, deformed, blurry。我习惯用这个模板:(worst quality, low quality:1.4), ugly, deformed, blurry, bad anatomy, sketch, bad hands, missing fingers。
- CFG Scale:默认7,但很多人调得太高(15以上)导致过度锐化。建议在7-12之间尝试。
- 使用高清修复:Forge里勾选“Highres. fix”,先低分辨率生成构图,再放大到2倍,画质提升明显。
进阶技巧:用本地AI生图做商业级创作
本章核心:本地部署的真正价值在于可定制和可批量,掌握这3个技巧,你就能接单赚钱。
4.1 ControlNet精准控制
ControlNet是本地部署的“必装插件”。它让你的生图受控于参考图,比如姿势、深度、线稿、面部等。
- 安装:Forge里点击“Extensions → Available”,搜索ControlNet,一键安装后重启。
- 实战案例:你想生成一个穿着西装的模特,但背景必须是一面红墙。
1. 找一张你喜欢的姿势照片(可以在网上搜“man standing pose”)。
2. 在ControlNet中上传该照片,选择“OpenPose(姿态检测)”。
3. 输入提示词:a man in a suit, professional, red brick wall background。
4. 生成的图会严格遵循参考姿势,同时背景自动变成红墙。
4.2 高清修复与放大
商业印刷需要300dpi,而SD直接生成的1024×1024只适合屏幕。使用 Ultimate Upscale Script 配合 4x-UltraSharp 模型,可以无损放大到4倍甚至8倍。
- 操作:Forge中切换脚本为“Ultimate SD Upscale”,选择放大模型“4x-UltraSharp”,设置放大倍数为4,步数15,去噪强度0.3。
- 结果:一张1024×1024变为4096×4096,细节保留极好,完全不糊。
4.3 批量生成与工作流自动化
如果你需要一次性生成100张不同角度的商品图,手动点100次会累死。本地部署可以结合 批处理 功能:
- Forge的“Batch Count”:在界面底部设置生成数量,比如10批,每批4张,共40张。
- 动态提示词:使用 Dynamic Prompts 插件(Forge内置),可以写 a {red|blue|green} car on a {city street|mountain road},系统会自动组合出所有变体。
- API自动化:启动Forge时加 --api,然后用Python或Cursor(一个AI编程助手)写脚本调用接口。我甚至用DeepSeek帮我生成了批量生成脚本,10分钟搞定。
真实案例:我如何用本地部署的生图工具三天赚了5000元
本章核心:用第一人称实战经历告诉你,本地部署不仅能自娱自乐,还能快速变现。
那是在2026年5月,我一个做电商的朋友突然找我,说他们公司要赶一个618大促活动,需要100张不同角度的“智能手表+咖啡杯”场景图。找摄影团队报价8000元,还要排期一周。我拍胸脯说:“给我三天,成本不到200块。”
第一天:模型准备和环境调试
我用的是自己的台式机(RTX 4070 Ti 12GB),先下载了 SD 4.0 基础模型和一个“智能手表”的LoRA(在Civitai搜索“smartwatch lora”,评分4.5,免费)。然后找了朋友发来的产品白底图,用ControlNet的“Reference Only”模式锁定了手表的精确轮廓。测试了10次,发现直接出的图手表细节不对——表盘刻度模糊。于是我调整了LoRA权重从0.8到1.2,并且加入了负面词 blurry watch face。终于,第15次生成的效果已经接近影棚实拍。
第二天:批量生成与筛选
我设置了动态提示词:a smartwatch on a wooden table next to a coffee cup, {morning light|warm sunset|indoor softbox}, {top view|slight angle},共64种组合。每张图生成4个变体,一次性跑了256张。耗时约3小时(开了Tiled VAE和Xformers)。然后我从256张里挑了40张构图、光影、细节都达标的,再用 Ultimate Upscale 放大到4倍分辨率(方便他们印刷)。
第三天:后期微调和交付
朋友说有些图的手表表带颜色偏冷,我直接用 Photoshop 2026 里的AI填充调了色温,但大部分都不需要动。最后打包发过去,他惊呼“比影棚拍的还好”。实际到账5000元,成本只有电费(不到30元)和模型下载的流量费。
总结:如果我用Midjourney,单月订阅30美元只能生成有限张数,而且无法精准控制产品轮廓(ControlNet是MJ没有的)。本地部署让我拥有了“无限次数+精准控制”的组合,这是商业接单的核心优势。

总结:本地部署AI生图的未来趋势与你的行动清单
本章核心:2026年本地生图已进入“傻瓜化”时代,但仍有学习红利。未来半年最值得做的三件事。
趋势
1. 多模态融合:2026年底预计发布的SD 5.0将原生支持文本、图片、3D模型混合输入,本地部署将能一键生成3D场景。
2. 硬件进一步友好:新的 RTX 5060 16GB 将于2026年Q3上市,价格2500元左右,让入门级也能跑Flux类模型。
3. 模型尺寸压缩:量化技术(如GPTQ、AWQ)已经能7GB的模型压缩到3GB且画质几乎不变,未来8GB显存足够主流通用。
你的行动清单
- 今天:按照操作步骤搭建Forge,生成第一张图。
- 本周:下载3-5个你喜欢的LoRA(推荐“宫崎骏”、“赛博朋克”、“水彩”),测试不同风格。
- 本月:学会ControlNet的OpenPose和Canny,用一张参考图精确控制构图。
- 长期:尝试用Kohya_ss训练一个你自己的LoRA(比如宠物、自画像),形成个人IP。
本地部署不是技术竞赛,而是创作自由的钥匙。一旦上手,你会发现自己比那些依赖云服务的用户多了一个维度的主动权。
常见问题
我的显卡只有4GB显存,能不能本地部署?
可以,但非常受限。建议使用SD 1.5 Base模型(分辨率512×512),启用 --lowvram 参数,并且关闭所有ControlNet插件。生成一张图大概需要30秒,画质不如6GB显存方案。更推荐花150元购买二手GTX 980 Ti 6GB,或者直接升级到RTX 3060 12GB。
为什么我生成的人脸总是扭曲变形?
最常见原因是模型精度不足(使用了太老的SD 1.5模型)或负面提示词缺少人脸相关项。请改用SD XL 1.0或SD 4.0,并在负面词中加入 bad hands, missing fingers, deformed face, extra limbs。如果还不行,安装 Face Restorer (CodeFormer) 插件,生成后自动修复面部。
本地部署和Midjourney相比,哪个更好?
各有优劣。本地部署:免费、无电量限制、隐私安全、可精确控制(ControlNet、LoRA)。Midjourney:上手零门槛、画质稳定、风格多样。如果你是商业需要大量定制化(如产品图、角色IP),本地部署胜出;如果你只想要随手出好看图片,Midjourney更省心。我两个都用:Midjourney找灵感,本地部署做量产。
生成图片时提示“CUDA error: device-side assert triggered”如何解决?
这是模型与VAE不兼容导致的。请确保你使用的VAE文件与模型匹配(SD XL模型用XL VAE,SD 1.5用普通VAE)。在Forge的“Settings → Stable Diffusion → SD VAE”中选择“Automatic”(自动匹配),或者下载官方推荐的VAE文件放进去。
我可以用Macbook Air M1部署吗?
可以,但体验一般。M1/M2/M3芯片通过 MPS 后端支持,但显存共享(最多16GB系统内存),实际可用约8GB。生成一张1024×1024图片需要15-20秒,且无法使用xformers加速。如果你只有Mac且不打算买PC,推荐使用在线服务(如 Replicate)搭配本地提示词工具,而非完全本地部署。

常见问题
我的显卡只有4GB显存,能不能本地部署?
可以,但非常受限。建议使用SD 1.5 Base模型(分辨率512×512),启用 --lowvram 参数,并且关闭所有ControlNet插件。生成一张图大概需要30秒,画质不如6GB显存方案。更推荐花150元购买二手GTX 980 Ti 6GB,或者直接升级到RTX 3060 12GB。
为什么我生成的人脸总是扭曲变形?
最常见原因是模型精度不足(使用了太老的SD 1.5模型)或负面提示词缺少人脸相关项。请改用SD XL 1.0或SD 4.0,并在负面词中加入 bad hands, missing fingers, deformed face, extra limbs。如果还不行,安装 Face Restorer (CodeFormer) 插件,生成后自动修复面部。
本地部署和Midjourney相比,哪个更好?
各有优劣。本地部署:免费、无电量限制、隐私安全、可精确控制(ControlNet、LoRA)。Midjourney:上手零门槛、画质稳定、风格多样。如果你是商业需要大量定制化(如产品图、角色IP),本地部署胜出;如果你只想要随手出好看图片,Midjourney更省心。我两个都用:Midjourney找灵感,本地部署做量产。
生成图片时提示“CUDA error: device-side assert triggered”如何解决?
这是模型与VAE不兼容导致的。请确保你使用的VAE文件与模型匹配(SD XL模型用XL VAE,SD 1.5用普通VAE)。在Forge的“Settings → Stable Diffusion → SD VAE”中选择“Automatic”(自动匹配),或者下载官方推荐的VAE文件放进去。
我可以用Macbook Air M1部署吗?
可以,但体验一般。M1/M2/M3芯片通过 MPS 后端支持,但显存共享(最多16GB系统内存),实际可用约8GB。生成一张1024×1024图片需要15-20秒,且无法使用xformers加速。如果你只有Mac且不打算买PC,推荐使用在线服务(如 Replicate)搭配本地提示词工具,而非完全本地部署。
读完文章了?试试提效录自建工具
全部免费 · 无需登录 · 打开即用