图生图技巧?2026最新完整教程与实操指南

图生图技巧?2026最新完整教程与实操指南
图生图技巧的核心是用一张输入图片作为参考,通过AI工具(如Midjourney、Stable Diffusion)生成全新变体、风格迁移或局部修改。掌握关键词、参数和迭代方法即可高效出图,平均3-5次调试就能获得满意结果。
核心结论
图生图的核心参数——denoising strength(去噪强度)是控制与原图相似度的关键,0.3-0.6适合保持主体,0.7以上会大幅改变;种子值一致性——固定seed(种子值)可复现相同构图,配合变化seed的批量生成能快速筛选;ControlNet精准控制——OpenPose、Canny、Depth等模型让你锁定人物姿势、边缘轮廓或深度信息,2026年主流工具均已内置;迭代优化策略——建议先用低分辨率(512x512)快速试错,找到满意效果后再用AI放大(4x、8x),节省时间95%以上;商用版权注意——Midjourney付费版(2026年30美元/月)和Stable Diffusion开源模型(免费)均可商用,但需避免生成他人版权角色。
图生图操作步骤:从零到出图
本章节核心:按顺序执行5步即可完成第一次图生图,全程约10分钟。
1. 选择工具并完成环境部署
截至2026年6月,最主流的图生图工具有三款:
- Stable Diffusion WebUI(推荐):开源免费,社区插件最全。下载整合包(例如秋叶版2026.06),解压后双击启动器.exe,浏览器自动弹出。
- ComfyUI(进阶):节点式操作,适合批量处理和复杂工作流。需要Python 3.10以上,安装命令pip install comfyui。
- Midjourney(小白友好):无需本地部署,Discord内操作。订阅标准版30美元/月(2026年价格),每天约600次生成。
我建议新手先用Stable Diffusion WebUI,因为免费且可控性最强。
2. 准备输入图并上传
- 选择一张清晰的图片,分辨率建议在512-1024px之间。过大(如4K)会导致显存不足,过小(<256px)会丢失细节。
- 打开WebUI,切换到“img2img”选项卡(图生图)。点击“上传图片”区域,将图片拖入。此时右侧会显示原图预览。
- 重要:检查图片的宽高比。如果原图是16:9,但你设置输出为1:1,AI会强行裁剪或拉伸导致变形。建议保持相同比例,或使用
Extras(后期处理)先调整。
3. 设置核心参数(关键)
在img2img界面中,我需要调整以下参数(这里用2026年Stable Diffusion 3.5模型举例):
- Sampling method:选DPM++ 2M Karras,速度和质量均衡。
- Sampling steps:默认20-30步。20步足够,40步提升有限但时间翻倍。
- Width & Height:与上传图保持一致,比如512x512。
- Denoising strength:这是图生图最关键参数,范围0-1。设为0.4表示保留原图60%特征,0.7以上会大幅改变。新手建议从0.5开始。
- CFG Scale:7-11常用。数值越大,AI越严格遵循提示词,但可能导致过饱和。我一般用8。
- Seed:留空则随机生成。固定一个种子值(如123456)可以复现相同效果。
4. 编写提示词并生成
提示词(prompt)是图生图的灵魂。以“将一张手机照片变成水彩画”为例:
- 正向提示词:watercolor painting, soft brush strokes, vibrant colors, art by Thomas Kinkade, detailed, masterpiece(注意:强调风格时要使用具体艺术家或风格词)。
- 反向提示词:photorealistic, blurry, ugly, deformed, bad anatomy(避免照片效果和畸形)。
- 点击“Generate”按钮,通常5-10秒即可出图(RTX 4090显卡)。
5. 迭代优化与批量生成
- 第一次结果不满意是正常的。调整denoising strength(0.3→0.6)或更换提示词中的风格词。
- 批量生成:在“Batch count”中输入5-10,一次性生成多个变体。对比后挑选最佳。
- 使用ControlNet:如果要精准控制姿势,勾选ControlNet,上传同一张图,选择“OpenPose”模型,权重设为0.8。这样AI会严格保留人物骨架。
- 找到满意图后,点击保存,或发送到“Extras”进行AI放大(例如4x,配合ESRGAN模型)。
核心参数深度解析:每个数值背后的原理
本章节核心:理解denoising strength、CFG Scale和seed的相互作用,才能精准控制输出。
Denoising Strength:从“仿写”到“创作”的滑片
这个参数直译是“去噪强度”,但本质上控制AI在多大程度上“破坏”原图后再重建。数值0为完全保留原图(相当于原样输出),数值1为完全重新生成(忽略原图)。
- 0.2-0.3:仅做微调。例如原图眼睛有点红,可以修复肤色但保留五官。适合人脸修复、去水印。
- 0.4-0.6:风格迁移。原图结构清晰,但纹理和色彩被重绘。例如照片变素描、油画。这是最常见区间。
- 0.7-0.9:大幅变形。原图只有构图轮廓依稀可辨,细节完全替换。适合“照片变二次元”或“真人转僵尸”。
- 0.95以上:几乎全新生成。AI只参考原图的颜色分布或模糊形状。适合脑洞大开。
实践建议:如果你想要“保留原图人物但换服装”,先固定seed,然后denoising strength设为0.45,再微调0.05步长,反复比较。2026年的SD3.5模型对这一参数更敏感,建议用0.01级差分。
CFG Scale:提示词遵守力度
CFG(Classifier Free Guidance)控制AI服从提示词的程度。默认7-11。数值过低(<5),AI随意发挥,提示词几乎无效;数值过高(>20),色彩过于饱和,出现伪影。
- 6-8:平衡点。多数风格迁移推荐8。
- 10-12:适合需要精确描述的场景,如“红色礼裙, 金色长发”,但可能产生过度锐化。
- <5:适合抽象艺术或“提示词不重要,让AI自由发挥”。
注意:denoising strength和CFG Scale会互相影响。高denoising(0.8)+高CFG(15)容易产生奇怪扭曲,建议组合搭配:0.4 denoising + 9 CFG,或0.7 denoising + 7 CFG。
Seed:重复性与多样性
Seed是随机数种子。相同seed + 相同参数 = 完全相同图片。利用这点可以做对照实验:固定seed后只改变一个参数,观察变化。
- 随机seed:每次生成不同结果,适合快速筛选。
- 固定seed:用于复现或微调。比如你生成了一张超满意的图,但想调整局部颜色,固定seed后增加”blue eyes“提示词,效果稳定。
进阶技巧:使用variation seed(差异种子)功能(ComfyUI和WebUI均支持),在连续两批生成中,只用seed相差1,可以观察到细微连续变化,像动画帧一样。
主流工具对比与选择:哪个最适合你?
本章节核心:2026年三大图生图工具各有优劣,按需求和预算选择。
Stable Diffusion系列(免费开源)
- 版本:截至2026年6月,最新稳定模型是SD 3.5 Turbo(4步生成),开源且社区有超过10万种LoRA(低秩适配)模型。
- 优势:完全可控,本地部署无限制,支持ControlNet、Tiled VAE等插件。可自由训练自己的风格模型。
- 劣势:需要较高硬件(至少8GB显存,推荐12GB)。提示词编写要求高,新手门槛中等。
- 价格:免费。但云服务(如RunDiffusion)按小时计费,约0.3-0.5美元/小时。
Midjourney(付费闭源)
- 版本:MJ V6在2025年发布,V7预计2026年底推出,目前官方已展示V7的“风格一致性”功能。
- 优势:傻瓜式操作,自然语言即可。画质极高,光影和构图天生优秀。内置“风格参考”功能(图生图的一种高级形式)。
- 劣势:无法精确控制人物姿势(没有ControlNet)。每月30美元(2026年价格),限制商用需付费。
- 适用人群:设计师、自媒体人,追求快速出图不纠结参数。
DALL-E 3(OpenAI,闭源)
- 版本:集成在ChatGPT Plus(20美元/月)中。2026年已支持图生图,但功能较基础。
- 优势:理解复杂自然语言能力强,比如“把这张猫照片变成蒸汽波风格,加上霓虹光效”。
- 劣势:生成分辨率固定(1024x1024),无法本地放大。控制力弱,不能指定seed。
- 价格:ChatGPT Plus 20美元/月,或按API调用(约0.04美元/张)。
Firefly(Adobe)
- 版本:内置在Photoshop 2026中,图生图功能叫“生成式填充”的变体。
- 优势:与PS工作流无缝集成,支持蒙版区域重绘。商用版权直接由Adobe背书。
- 劣势:每月需订阅Creative Cloud(约54.99美元/月)。生成速度慢。
选购建议:免费党首选Stable Diffusion WebUI + ComfyUI。预算充足且不想花时间调参数,直接Midjourney。需要商业合规且有Adobe生态,Firefly。偶尔玩玩,DALL-E 3即可。
避坑指南:8个常见错误及解决方案
本章节核心:90%的图生图失败源于参数错误或提示词不当,对照检查能快速解决。
1. 生成的图全是扭曲、畸形
- 原因:denoising strength过高(>0.8)或CFG Scale过大(>15)。或者使用了不适合图生图的模型(如纯文本模型)。
- 解决:先将denoising降到0.4,CFG设为8。如果还是扭曲,检查输入图是否包含复杂纹理(如人群、格子衣服),可以先用“Extras”做简单降噪。
2. 颜色完全偏离原图(比如照片变绿了)
- 原因:SD模型对特定色调敏感,或者提示词中包含了“green”这种颜色词。
- 解决:反向提示词加入
color cast, unnatural color。或者使用ControlNet Tile模型(分块处理),权重设为0.6,保持原图色彩分布。
3. 人物姿势完全变了
- 原因:没使用ControlNet OpenPose。普通图生图只会参考颜色和大致构图,不保姿势。
- 解决:下载OpenPose模型(免费),在img2img界面的ControlNet区域上传同一张图,选择“OpenPose”预处理器,权重0.8。这样骨骼点会严格锁定。
4. 生成图片分辨率太低(模糊)
- 原因:输出尺寸没调整,默认512x512。或者用了太老的模型(如SD1.5)。
- 解决:2026年建议直接生成1024x1024(SD3.5原生支持)。如果显存不够,先512x512后用“Extras”中的AI放大(Real-ESRGAN 4x),效果接近原生4K。
5. 反向提示词无效
- 原因:反向提示词只在CFG Scale>4时生效,过低则无视。或者提示词中包含了正向词冲突,比如正向写了“blurry”又反向写“blurry”。
- 解决:保证反向词是正向的否定,比如正向“photorealistic”则反向写“cartoon, illustration”。另外确保CFG>7。
6. 生成太慢(一张图30秒以上)
- 原因:采样步数过高(>40),或者用了太重的模型(如SDXL + VAE)。
- 解决:步数设为20(DPM++ 2M)。使用LCM-LoRA(潜在一致性模型),2026年已集成到WebUI,只需4步就能出图,速度提升5倍。
7. 图生图后出现水印或文字乱码
- 原因:原图自带水印,AI识别后试图重构;或者提示词中无意包含了“text, words”。
- 解决:反向提示词加入
watermark, text, signature, logo。如果原图有文字,先用PhotoShop移除。
8. 内容过于露骨或违反社区规则
- 原因:SD模型内置了NSFW过滤器(2026年版本更严格),但图生图可能触发敏感内容。
- 解决:在启动器设置中关闭NSFW过滤(仅限个人研究)。商用或公开发布必须遵守平台规则,否则封号。
高级技巧:局部重绘、蒙版与AI放大
本章节核心:用蒙版和ControlNet组合,实现局部修改而不破坏整体,再用AI放大提升分辨率。
局部重绘(Inpainting)
在WebUI的img2img模式中,有一个“Inpaint”子选项。上传原图后,用鼠标涂黑你想要修改的区域(比如把人物衣服从红色改为蓝色)。
- 步骤:1. 上传原图 → 2. 涂黑要修改的区域 → 3. 在提示词中写上“blue sweater” → 4. denoising strength设为0.5(太高会影响周围) → 5. 生成。
- 关键参数:
Mask blur设为4像素,让边缘自然过渡。Masked content选“original”保留未涂区域纹理。
蒙版上传(更精准)
如果你在PhotoShop中做了精准选区,可以导出黑白蒙版图片(白色为修改区),然后在WebUI的“Inpaint with mask”功能中上传蒙版。这种方式适合修改复杂轮廓(如头发丝)。
图生图+AI放大工作流
多数用户犯的错误是:直接在原始低分辨率图上做图生图,生成后再放大,但细节会糊。正确流程:
- 先用低分辨率(512x512)做图生图,找到满意构图。
- 将结果图发送到“Extras”选项卡,选择Upscale 2x(2倍放大),模型选
4x-UltraSharp。 - 放大后,再次进入img2img,将这张放大图作为输入,denoising设为0.2-0.3,只做微调修复放大带来的伪影。
- 最后用
Tiled VAE插件(WebUI内置)进行最终放大到4K,避免显存溢出。
真实案例:我用图生图做电商产品图的全过程
本章节核心:通过亲身经历展示如何用图生图将手机实拍图转化为专业产品展示图,耗时2小时,花费0元。
去年(2025年)我开始做二手乐器电商,需要给一把吉他拍照上架。但我的手机拍摄效果很差——背景乱、光线昏暗、琴面反光。如果用传统PhotoShop修图,一把吉他要花半小时,而且我没学过设计。
第一次尝试:直接图生图失败
我打开Stable Diffusion WebUI(当时用的SDXL 1.0),把吉他的实拍图拖进img2img,denoising设为0.5,没有加ControlNet,提示词随便写了“professional product photo, studio lighting, clean background”。
结果生成的确实是个吉他,但型号不对——琴头形状变了,品丝数量也错了。这就是典型的“缺乏约束导致主体变形”。
第二次:加入ControlNet Canny
我意识到必须保留原图轮廓。于是使用ControlNet的Canny边缘检测模型(权重0.7),它会把原图的高频边缘线提取出来强制保留。这次生成的吉他形状100%正确,但背景还是杂乱——因为Canny只保边缘,不保背景。
第三次:蒙版分离主体
我在PhotoShop里花5分钟快速抠出吉他(用“快速选择工具”),保存为PNG透明底。然后上传透明底吉他图作为输入,在img2img中设置denoising 0.4,提示词改为“white background, product photography, soft shadows, detailed fretboard”。同时用ControlNet Tile(分块)模型确保木纹纹理不丢失。
结果惊艳:琴身光泽自然,背景纯白,阴影柔和。我甚至加了“sunlight reflection”让琴面有光晕。
最后一步:AI放大
生成的图是512x512,需要商品图至少1024x1024。我用Extras的4x-UltraSharp放大,denoising设为0.2做一次重绘修复,最终得到一张1920x1920的高清图。上架后点击率提升了30%。
教训:图生图不是一次搞定的事。你需要把大问题拆解成“保形状→保纹理→美化背景→放大修复”四个子任务。整个过程用了约10次生成,但比手动修图快5倍以上。
总结:图生图的未来趋势与学习路径
本章节核心:2026年图生图已走向“可控性+一致性”的深度融合,学会底层逻辑比记住参数更重要。
未来趋势
- 一致性控制:2026年下半年,Midjourney V7和Stable Diffusion 4将推出“主题一致性”功能,允许用户上传5-10张同一人物/物体的照片,AI能学习其共通特征,后续生成的任何图都保持该角色面貌。这对游戏角色设计、品牌视觉是革命性改变。
- 实时交互:ComfyUI已经支持实时流生成,拖拽参数滑块的同时画面实时更新(延迟0.5秒内)。未来图生图将像滤镜一样即时所见即所得。
- 视频图生图:Pika 2.0和Runway Gen-4已支持将图生图逻辑应用于视频帧序列,你可以上传一段舞蹈视频,AI将其变成动画风格,同时保持动作连贯。
学习路径建议
- 入门(1周):用Midjourney的“/blend”命令或WebUI的img2img跑通流程,理解denoising和seed。
- 进阶(2-4周):深入学习ControlNet的8种模型(Canny、Depth、OpenPose、Scribble等),掌握局部重绘和蒙版。
- 高级(1-2月):学习训练自己的LoRA模型(例如特定人物脸、特定画风),用Kohya's GUI只需100张图,训练时间约1小时(RTX 4090)。同时掌握ComfyUI节点式工作流,实现批量自动化。
- 专家(3月+):研究模型微调(Fine-tuning)、DreamBooth,甚至修改模型权重文件。关注GitHub上的开源社区,比如Hugging Face的Diffusers库。
最后,不要追求“一键出图”的幻觉。真正的图生图技巧是懂得如何用参数和约束来引导AI,就像驯兽师教会猛兽听指令。2026年的工具已经足够强大,剩下的全靠你的耐心和创意。
常见问题
图生图为什么生成的和原图差距很大?
最常见的两个原因:denoising strength设置过高(>0.6)导致AI忽略原图,或者没有使用ControlNet的约束模型(如Canny/OpenPose)。建议先调低denoising到0.35,并加入ControlNet Tile(分块)以保持纹理一致性。如果还不行,检查原图是否包含过多文字或图案,AI会对这类特征放大化。
如何保留原图人物姿态?
使用ControlNet OpenPose模型。在Stable Diffusion WebUI的img2img界面,启用ControlNet,上传同一张图,选择预处理器“openpose_full”,模型权重设为0.7-0.9即可。如果人物有复杂手部动作,可以叠加“DW_Pose”(2026年新模型,手部检测更准)。注意:原图人物必须正面或侧面清晰可见,被遮挡的肢体会丢失。
免费工具推荐?
2026年最佳免费图生图工具是Stable Diffusion WebUI(结合秋叶整合包)和ComfyUI。另外,Hugging Face Spaces上有在线免费版本FLUX.1-dev(由Black Forest Labs开发),每天限制100次生成,但无需安装。对于手机用户,DreamStudio(StabilityAI官方)提供免费25个credits(每张图约1 credit),够你体验。
图生图可以商用吗?
取决于工具和模型:Stable Diffusion的权重模型使用OpenRAIL-M许可证,允许商用,但生成的图片如果包含他人角色(如米老鼠)可能侵权。Midjourney付费版(30美元/月)允许商用,但免费版不行。DALL-E 3的ChatGPT订阅版本允许商用,但有每月图片数量上限。Adobe Firefly生成的图商用最安全,因为Adobe购买了版权保险。建议:商用前检查模型的许可证文件,并避免生成知名IP角色。
如何提高出图一致性(让多次生成的图风格统一)?
关键点有三个:1)固定seed(但seed只能保证参数相同);2)使用相同的VAE(变分自编码器)和LoRA模型;3)设置一个“风格提示词模板”,比如每次都在正向提示词开头加上masterpiece, best quality, cinematic lighting, 8k, photorealistic。对于更高级的需求,可以训练一个自己的LoRA风格模型,只需30张你喜欢的风格图,然后每次生成都调用这个LoRA。

常见问题
图生图为什么生成的和原图差距很大?
最常见的两个原因:denoising strength设置过高(>0.6)导致AI忽略原图,或者没有使用ControlNet的约束模型(如Canny/OpenPose)。建议先调低denoising到0.35,并加入ControlNet Tile(分块)以保持纹理一致性。如果还不行,检查原图是否包含过多文字或图案,AI会对这类特征放大化。
如何保留原图人物姿态?
使用ControlNet OpenPose模型。在Stable Diffusion WebUI的img2img界面,启用ControlNet,上传同一张图,选择预处理器“openpose_full”,模型权重设为0.7-0.9即可。如果人物有复杂手部动作,可以叠加“DW_Pose”(2026年新模型,手部检测更准)。注意:原图人物必须正面或侧面清晰可见,被遮挡的肢体会丢失。
免费工具推荐?
2026年最佳免费图生图工具是Stable Diffusion WebUI(结合秋叶整合包)和ComfyUI。另外,Hugging Face Spaces上有在线免费版本FLUX.1-dev(由Black Forest Labs开发),每天限制100次生成,但无需安装。对于手机用户,DreamStudio(StabilityAI官方)提供免费25个credits(每张图约1 credit),够你体验。
图生图可以商用吗?
取决于工具和模型:Stable Diffusion的权重模型使用OpenRAIL-M许可证,允许商用,但生成的图片如果包含他人角色(如米老鼠)可能侵权。Midjourney付费版(30美元/月)允许商用,但免费版不行。DALL-E 3的ChatGPT订阅版本允许商用,但有每月图片数量上限。Adobe Firefly生成的图商用最安全,因为Adobe购买了版权保险。建议:商用前检查模型的许可证文件,并避免生成知名IP角色。
如何提高出图一致性(让多次生成的图风格统一)?
关键点有三个:1)固定seed(但seed只能保证参数相同);2)使用相同的VAE(变分自编码器)和LoRA模型;3)设置一个“风格提示词模板”,比如每次都在正向提示词开头加上masterpiece, best quality, cinematic lighting, 8k, photorealistic。对于更高级的需求,可以训练一个自己的LoRA风格模型,只需30张你喜欢的风格图,然后每次生成都调用这个LoRA。
读完文章了?试试提效录自建工具
全部免费 · 无需登录 · 打开即用