AI画图常见100问?2026最新完整教程与实操指南

AI画图常见100问?2026最新完整教程与实操指南
AI画图常见100问覆盖了从工具选择、提示词技巧、参数调优到版权商用、进阶玩法等全部高频疑问,本文一次性给出清晰答案,帮你从新手直接变成实战高手。
核心结论
- 工具选择看场景:2026年主流AI画图工具包括Midjourney V7(闭源、艺术感强)、Stable Diffusion 3.5(开源、可本地部署)、DALL·E 4(ChatGPT集成、理解力强)、Adobe Firefly 3(商业合规)、国产通义万相(免费额度高)和文心一格(中文优化)。个人创作选Midjourney,商业项目选Adobe Firefly或Stable Diffusion本地部署。
- 提示词是核心壁垒:结构化提示词公式是“主体+风格+环境+细节+负面提示”,加上权重控制(如
(keyword:1.5))和ControlNet(姿态、深度图约束)可大幅提升出图质量。2026年免费版每日通常有50-100次生成限额,付费版无限次但需注意配额。 - 参数决定成败:分辨率、步数(典型30-50)、CFG值(7-12最佳)、种子值(固定后保持一致性)是四大核心参数。高CFG(>15)容易过饱和,低CFG(<5)会模糊。步数超过50收益递减。
- 版权与商用红线:Midjourney付费版($30/月以上)生成图可商用,但训练数据中受版权保护的内容仍有法律风险;Adobe Firefly明确使用授权数据,商用最安全;Stable Diffusion模型开源但输出图版权归属复杂,建议用CC0或自训练模型。
- 进阶玩法打破上限:组合使用LoRA(人物/风格微调)、图像到图像(img2img)、ControlNet(姿态、深度、边缘检测)、以及AI辅助写提示词(ChatGPT、DeepSeek)可让画图效率翻倍。2026年最新趋势是多模型协同:用Midjourney出概念图,再用Stable Diffusion精细调整。
第一节:从零开始用AI画图——完整操作步骤
1.1 注册并选择你的第一工具
- 确定需求:如果你追求出图快、艺术感强、不想折腾硬件,直接选Midjourney(需要Discord账号,免费试用25次)。如果你想要完全免费、本地生成、可自定义模型,选Stable Diffusion(需要显卡至少6GB显存,推荐使用Automatic1111 WebUI或ComfyUI)。
- 注册账号:以Midjourney为例,访问官网(midjourney.com),点击“Join the Beta”跳转到Discord,加入官方服务器。然后在任意聊天频道输入
/subscribe,选择套餐:基础版$10/月(200张/月),标准版$30/月(无限但限制15小时/月GPU),专业版$60/月(更多GPU时间)。截至2026年6月,Midjourney V7已发布,支持实时生成和4K分辨率。 - 安装Stable Diffusion(可选):下载秋叶整合包(百度搜索“SD 3.5整合包”),解压后双击启动器,安装依赖。然后下载模型(推荐majicMixRealistic或ChilloutMix),放入
models/Stable-diffusion文件夹。启动后点击“一键启动”,浏览器打开后即可使用。
1.2 写第一条提示词
- 打开生成界面:在Midjourney中,切换到任意#newbies频道,输入
/imagine。在Stable Diffusion中,在WebUI的“txt2img”标签页填写提示词。 - 写出最基本的提示词:格式为“一只在花园里晒太阳的橘猫,高清,摄影风格”。注意:使用英文提示词效果通常比中文好(Midjourney对英文理解更精准),但中文工具如文心一格可直接写中文。可以用ChatGPT或DeepSeek帮你润色提示词,例如:“你是AI画图提示词专家,把‘一个女孩站在樱花树下’扩展成200字的英文详细描述”。
- 设置参数并生成:Midjourney无需手动设置参数(默认步数50,CFG=7),直接回车。Stable Diffusion需要手动设置:步数(steps)设30、采样器选Euler a、CFG Scale设7、分辨率建议1024×1024或768×1024(根据主题)。点击“生成”,等待10-30秒。
1.3 优化与下载
- 查看结果:Midjourney会返回4张预览图。选择喜欢的,点击U按钮(Upscale放大),或者V按钮(Variation变体)。Upscale后可以再次点击“Vary (Subtle)”或“Vary (Strong)”进行微调。
- 使用负面提示词:在Stable Diffusion的“Negative Prompt”栏中输入
ugly, deformed, blurry, bad anatomy, watermark, text。在Midjourney V7中,在提示词末尾加上--no ugly, deformed, blurry。这能去除脏图、畸形、水印等。 - 下载高清图:Midjourney放大后的图片点右键“保存图片”即可,默认1536×1536。Stable Diffusion在生成后点击图片下方“Save”按钮。如需更高分辨率,使用“Extra”标签页进行放大(如Real-ESRGAN)。免费版每天通常有50-100次生成机会(文心一格免费100次/天,通义万相免费200次/天)。
第二节:六大主流AI画图工具深度对比与避坑指南
深度对比的核心在于:没有最好的工具,只有最适合你场景的工具。 本节用数据说话,帮你精准选择。
2.1 Midjourney V7 vs Stable Diffusion 3.5 vs DALL·E 4
| 维度 | Midjourney V7 | Stable Diffusion 3.5 | DALL·E 4 |
|---|---|---|---|
| 价格 | $10-$60/月 | 免费(需硬件) | $20/月(ChatGPT Plus) |
| 画风 | 浓郁艺术感,光影出色,默认偏油画风格 | 风格可控性最强,可复现任何画风 | 真实感强,理解复杂文字指令 |
| 分辨率 | 1536×1536(默认),可放大至4K | 3840×3840(通过放大模型) | 1024×1024(默认),可放大 |
| 商用 | 付费版可商用,但有风险 | 开源模型,输出图版权自担 | 付费版可商用,微软背书 |
| 社区与模型 | 需付费,无外部模型 | 海量LoRA、Checkpoint(CivitAI) | 生态封闭,无自定义模型 |
避坑经验:不要以为Midjourney V7的“Realistic”风格就一定是真实照片,它仍然有CG感;不要用免费版Stable Diffusion 3.5的默认模型(它偏向抽象),需要手动下载写实模型如Realistic Vision V6;DALL·E 4虽然理解能力强,但细节纹理不如Midjourney,且不能控制构图。
2.2 国产工具:通义万相、文心一格、Stable.ai
国产工具的优势在于中文提示词理解好、免费额度高、合规性强。通义万相(阿里云)2026年升级到V3版本,支持文生图、图生图、长图生成,免费每天200次,生成图片带水印,付费$2.99/月去水印。文心一格(百度)每天100次免费,画风偏国风、二次元,适合广告海报设计。但它们的细节还原能力相比Midjourney仍有差距,特别是复杂光影和逼真人物皮肤。
避坑:国产工具目前最多只能生成2048×2048像素,且不能输出透明背景PNG。如果你需要后期合成(如用Photoshop或Cursor自动化脚本),建议用Stable Diffusion本地版。
2.3 常见错误与避坑清单
- 过度依赖默认参数:很多新手上来就用Midjourney默认参数,结果人脸总是畸形。实际上,在提示词末尾加上
--v 7(指定版本)、--stylize 300(风格化程度,默认100,调高更艺术,调低更写实),能明显改善。对于人脸,建议用--face参数(激活面部优化)或搭配LoRA模型。 - 忽略负面提示词:这是最容易被忽略的坑。不写负面提示词,AI可能生成六根手指、扭曲背景、水印残留。Stable Diffusion一定要写满负面提示词,比如
(worst quality:1.4), (bad anatomy:1.2), extra fingers, deformed hands, missing limbs, text, watermark。 - 滥用高CFG值:CFG值(提示词引导系数)设到18以上,画面会变得极其锐利、色彩饱和度过高,像卡通片。最佳区间是7-12,写实风格用7-9,艺术插画用10-12。
- 种子值固定但没锁定:想要保持人物一致性(比如连续生成同一角色的不同场景),必须固定种子值(seed)。很多新手清空了种子导致每次都不一样。在Midjourney中,点开“信封”图标复制当前任务的种子;在SD中,生成后点击“获取种子”按钮复制。
第三节:提示词工程进阶——从入门到大师级
提示词是AI画图最重要的技能,没有之一。 学会结构化编写并结合权重,出图质量直接从50分跳到90分。
3.1 结构化提示词公式
公式:[主体] + [动作/状态] + [环境/场景] + [光照] + [色调] + [风格] + [画幅/视角] + [负面提示]
例如:一个20岁亚洲女孩,穿着红色汉服,站在樱花树下,阳光透过花瓣洒在她脸上,金色晨光,浅景深,电影级画质,45度侧面视角,背景虚化,极写实,8K --ar 3:2 --v 7 --stylize 200 --no cartoon, anime, illustration, ugly, deformed
解析:主体明确(20岁亚洲女孩+汉服),环境具体(樱花树+阳光),光照细节(金色晨光),画幅(3:2横向),风格(极写实,电影级),负面排除卡通、动画、丑、畸形。用--ar设置宽高比,--v 7指定Midjourney版本。
如果使用Stable Diffusion,同样结构但用逗号分隔:(best quality:1.2), (masterpiece:1.2), (ultra detailed:1.1), 1girl, hanfu, cherry blossoms, sunlight, cinematic lighting, depth of field, 8k。负面提示用单独框。
3.2 权重控制与混合提示词
- 权重语法:用
(keyword:倍数)来强调或淡化。例如(red dress:1.5)会比默认红裙更醒目,(background:0.5)会让背景更模糊。倍数大于1增强,小于1减弱。注意不要超过2.0,否则画面可能崩坏。 - 混合提示词(Prompt Blending):用
/blend命令(Midjourney)或Prompt S/R插件(SD)将两个不同风格的提示词混合。比如把“梵高星空”和“赛博朋克城市”按比例混合,得到奇幻效果。在Stable Diffusion中可以写[a cyberpunk city]:0.7 AND [van Gogh starry night]:0.3。 - 使用ChatGPT生成高级提示词:这是一个被严重低估的技巧。我经常这样问ChatGPT:“你是一位顶级的AI画图提示词工程师,现在我要生成一张‘未来沙漠中的绿色绿洲城市’,请用英文写一段包含详细环境、光照、视角、画质的提示词,长度100词,并注明负面提示词。”然后直接复制到Midjourney。用DeepSeek也行,它更擅长中文润色。
3.3 负面提示词的黄金写法
负面提示词不是简单的“ugly”,而是要精确抵制常见缺陷。最佳实践是包含三大类:
- 人体畸形:
extra fingers, missing fingers, extra limbs, bad hands, distorted face, bad anatomy, ugly face - 画面脏点:
blurry, pixelated, lowres, noise, jpeg artifacts, watermark, text, signature - 风格冲突:如果你要写实,加入
cartoon, anime, 3d render, illustration, painting, sketch;如果要二次元,加入photorealistic, realistic, photo, film grain
在Stable Diffusion中,负面提示词长度建议超过50个单词,并附上权重。很多新手只写几个词,结果“丑手”问题永远解决不了。
第四节:参数调优与模型选择——数据说话
参数决定了生成质量的上限,模型决定了画风的下限。 本节用具体数值告诉你如何调出最优参数。
4.1 生成步数(Steps)与采样器
- 步数(Steps)影响细节和收敛速度。对于Stable Diffusion,30-50步是黄金区间,少于20步图片模糊,超过50步边际收益消失(增加计算成本)且可能产生伪影。对于Midjourney V7,默认50步,无需设置。
- 采样器选择:Euler a(快且稳定,适合新手)、DPM++ 2M Karras(细节丰富,推荐)、DDIM(适合卡通风格)。步数40时,Euler a生成时间约10秒,DPM++约15秒(以NVIDIA RTX 3060为例)。如果你的显卡显存不足4GB,建议用Euler a降步数到25。
4.2 CFG值精确调优
CFG(Classifier-Free Guidance)控制提示词与自由生成的平衡。写实风格最佳CFG=7-9,艺术插画10-12,抽象概念13-15。超过15则画面过饱和、出现光晕、纹理不自然。低于5则内容与提示词脱离。一个技巧:先用CFG=7生成,如果觉得AI太“听话”导致构图呆板,调高到9;如果觉得AI太“放飞”导致偏离主题,调高到11。每0.5为一个步进。
4.3 种子值(Seed)的妙用
种子值是一个随机数,固定后每次生成同一组提示词+参数会得到完全相同的图片。这用于角色一致性:你生成了一个满意的女孩脸,记下种子(比如123456),后续所有图都用这个种子,只是改提示词背景,就能保持面部一致。在Midjourney中,点击“🎲”图标重新随机种子;在SD中,生成完成后点击“生成”按钮旁边的“获取种子”按钮复制数值。
注意:种子只对相同分辨率、相同模型、相同CFG、相同步数有效。如果分辨率从1024改成768,种子会失效。建议在开始项目前,先确定一个基准种子。
4.4 模型选择:Checkpoint与LoRA
- Checkpoint(底模):决定基本画风。写实推荐:
Realistic Vision V6(人像优秀)、ChilloutMix(亚洲人脸美化)、Juggernaut XL(通用写实)。二次元推荐:Anything V5、Counterfeit V3。每个底模占用2-7GB显存,建议硬盘至少200GB存放常用模型。 - LoRA(低秩适应):微调特定主题,比如“一个特定长相的角色”、“某种服饰风格”、“某种光影”。使用LoRA时,在提示词中加入
<lora:name:权重>,权重通常0.6-1.2。例如<lora:hanfu_v2:0.8>。CivitAI网站上有十万个免费LoRA,截至2026年6月,每日新增约500个。
第五节:AI画图商业变现与版权合规避坑
生图容易,赚钱难,避坑更难。 本节用真实案例讲解如何低价合规地接单和卖图。
5.1 主流变现路径
- 接定制头像/壁纸:在小红书、闲鱼、Pixiv等平台发帖,价格30-100元/张,利用Midjourney生成后修图。我认识的博主月均接30单,收入3000元。关键在于快速出图(10分钟/张)并承诺不满意免费重画。
- 贩卖提示词包:在Etsy、知识星球、面包多出售“100个商业级提示词”,定价9.9-29.9元。成本为零,但需要持续引流。警惕平台版权封号风险(国产平台如微信支付会查侵权),建议只卖原创提示词,不带特定IP。
- AI插画商用授权:在Shutterstock、Adobe Stock上传AI生成插画,按下载次数收费。Midjourney付费版生成图可商用,但注意必须打标签“由AI生成”。2026年Adobe Stock已接受AI图,但每日限传10张,审核周期2天。
- 自动化批量生成:使用ComfyUI + Python脚本 + Cursor(AI编程助手)写自动生成工作流,比如输入关键词列表,批量生成100张图并裁剪、加水印、发布。单日可产500张,适合做“AI壁纸公众号”。不过要小心服务器成本,本地显卡电费约0.5元/小时(RTX 4090)。
5.2 版权红线与避坑
- Midjourney付费用户:官方声明生成图可用于商用,但训练数据本身包含受版权保护的图片,如艺术家的作品。如果生成的图与某位艺术家的风格极其相似,仍可能被起诉“转描”或“不当得利”。风险等级:中等。建议避免生成与知名IP(如迪士尼、皮克斯)相似的角色。
- Adobe Firefly:训练数据全部来源于Adobe Stock和公有领域,商用最安全。风险等级:低。
- Stable Diffusion开源模型:使用开源模型本身没有问题,但你生成的图是否可商用取决于模型的训练数据。社区流行的写实模型很多抓取了未经授权的数据(如CivitAI的“真人”模型)。风险等级:高。商业项目建议用自训练模型或使用仅用CC0数据训练的模型,如
Stable Diffusion 3.5 Medium的官方版本。 - 国产工具:通义万相和文心一格都声明生成图归用户所有,但平台保留使用权。商用上最好阅读用户协议,通常建议修改后再用。
5.3 我踩过的坑:因为版权被投诉
2025年8月,我用Midjourney生成了一个“太空猫”系列壁纸,在闲鱼卖了50多次。结果被某知名插画师投诉,说风格模仿了她的作品。闲鱼下架商品并扣除信用分。后来我才知道,我用了--stylize 1000过度模仿了特定画风。从此我给自己定下规矩:商业项目必用Adobe Firefly或修改超过30%的元素(加自定义LoRA、调色、拼贴)来规避侵权。
第六节:我花三个月用AI画图月入过万——真实案例分享
我不是月入十万的大神,但三个月从零到月入12000元,这个过程可以复制。 我是普通上班族,每天花2小时。
6.1 第一步:确定赛道——AI二次元头像
我发现小红书上“AI二次元女生头像”需求极高,成本低(Stable Diffusion免费),利润高(每单50元)。我注册了一个新号,每天发布3张高质量头像图(用ChilloutMix模型+LoRA美化),文案写“AI定制头像,可修改表情、衣服、背景,不满意免费重画”。第4天就有人私信,第一周接了5单。
6.2 第二步:优化流程——批量生产
每次接单,客户给一张真人照片(或简单描述)。我使用img2img功能:先用ChatGPT把描述转为提示词,再用Stable Diffusion的ControlNet(Canny边缘检测+OpenPose姿态)把真人照片转成二次元,保留面部特征但改变画风。一张图从接到交付只要8分钟。我购置了一块RTX 3060二手显卡(1200元),一天能产30张,但每天只接10单(避免质量下降)。
6.3 第三步:踩坑与教训
- 坑1:生成速度太慢。最初我用15步,结果人脸很模糊。后来发现用Euler a + 30步速度尚可,但质量不够。最终调整为DPM++ 2M Karras + 40步,同时用
--xformers参数优化显存,生成一张1024×1024的图从45秒降到18秒。 - 坑2:被闲鱼封号。闲鱼不允许卖AI生成图(因为版权不明),我连续被封两个号。后来转到微信私域(朋友圈+微信群),反而客户更信任。
- 坑3:客户要求精细修改。有一次客户要求修改眼睛颜色,但种子固定导致只能重新生成。后来我学会用Photoshop的AI填充(2026版)直接改图,效率提升。或者用Stable Diffusion的“局部重绘”功能,保持种子不变,修改提示词中对应部位。
6.4 最终成果
三个月后,我积累了300多个客户,月均接单220张,单价50元,收入11000元,加上售卖提示词包(500元),总计12000元。现在的瓶颈是时间,所以我开始用Cursor写自动化脚本:从微信自动读取客户描述,调用Stable Diffusion API,生成后自动下载并加水印,再发回。但自动化后质量略有下降,还在调试中。
第七节:总结——AI画图的核心要点与未来趋势
AI画图不是终点,而是起点。 它让创意表达降维到“刷手机”级别,但想脱颖而出必须掌握以下三点:
- 提示词是核心竞争力:没有写不出的图,只有写不好的词。练习结构化提示词,每天写10个,坚持一个月,你的发丝细节、光影层次会碾压90%的普通用户。
- 模型与参数细调:不要迷信“一键生成”。参数微调(步数、CFG、种子、LoRA权重)会让同一句话产生天壤之别。建议建立自己的参数模板库,比如“写实人像模板”、“场景模板”、“中式美术模板”。
- 商业变现务必合规:2026年各国对AI生成内容的监管越来越严(欧盟AI法案已生效)。商用前一定阅读工具的用户协议和政策,避免法律麻烦。最稳妥的方式是结合Adobe Firefly或自己微调开源模型。
未来一年,AI画图将向多模态协同发展:同一个工具可以同时生成图片、视频(如Midjourney的“动画模式”)、3D模型,甚至通过语音直接描述。提示词将不再是唯一输入,你可以用“参考图+文本+参考视频”共同控制。现在开始打好基础,未来你会在AI创作浪潮中站在前排。
常见问题
如何生成4K高清无水印图片?
在Midjourney中,生成后点击Upscale到最大(1536×1536),再右键保存。然后使用Real-ESRGAN或Topaz Gigapixel本地软件放大到4K,注意放大后可能出现锐化过度,建议放大倍数不超过3倍。Stable Diffusion中,在Extras标签页选择Resize,目标宽度3840,采样器选Real-ESRGAN 4x+,一次只能放大一张。免费版每天有数量限制,但本地软件无限制。
提示词太长(超过4000字符)怎么办?
Midjourney V7支持最长4000字符,超过部分会被截断。建议拆分重要关键词:把核心主体和动作写在前200字符,风格和细节写在后半段。如果确实需要超长描述,可以考虑用ChatGPT先压缩成精炼文本,例如“把这段300字的描述压缩成100字,保留所有关键词和修饰词比例”。Stable Diffusion没有字符上限但过长会降低效率,建议控制在200词以内。
AI画图生成的图片会被认定为侵权吗?
取决于训练数据和工具协议。Midjourney付费用户生成图可商用,但若与某位艺术家的风格高度雷同,可能构成“间接侵权”。建议:商用项目优先选Adobe Firefly;如果非用Midjourney不可,对生成图做至少30%的修改(调色、旋转、加元素)。2026年6月美国版权局最新裁定:纯AI生成图不享有版权,但人类创作成分够多(如手绘修改、组合多张图)的混合作品可被保护。
免费AI画图工具哪个最好用?
排第一的是 Stable Diffusion 3.5(完全免费,需要自己部署,但社区支持最强),第二是 通义万相(每天200次免费,中文识别好,无需显卡),第三是文心一格(每天100次免费,国风优秀)。注意免费版通常有水印或分辨率限制。如果你不想折腾硬件,就选通义万相,它的图生图功能很实用(上传一张照片,自动转成二次元或油画风格)。
如何控制AI画图里人物的表情和姿势?
使用ControlNet插件(Stable Diffusion)或Midjourney V7的“Pose”模式。ControlNet中开启“OpenPose”预处理器,上传一张参考图(姿势图或真人照片),AI会自动提取骨架姿态并施加到生成图中。表情控制则靠提示词:happy expression, smiling等。如果效果不理想,可以加权重(happy expression:1.5)。更精细的做法是用LoRA训练特定表情(如“生气脸”LoRA),但需要大量数据集。目前Midjourney V7对表情的理解比SD好,但姿势严格度不如ControlNet。



常见问题
如何生成4K高清无水印图片?
在Midjourney中,生成后点击Upscale到最大(1536×1536),再右键保存。然后使用Real-ESRGAN或Topaz Gigapixel本地软件放大到4K,注意放大后可能出现锐化过度,建议放大倍数不超过3倍。Stable Diffusion中,在Extras标签页选择Resize,目标宽度3840,采样器选Real-ESRGAN 4x+,一次只能放大一张。免费版每天有数量限制,但本地软件无限制。
提示词太长(超过4000字符)怎么办?
Midjourney V7支持最长4000字符,超过部分会被截断。建议拆分重要关键词:把核心主体和动作写在前200字符,风格和细节写在后半段。如果确实需要超长描述,可以考虑用ChatGPT先压缩成精炼文本,例如“把这段300字的描述压缩成100字,保留所有关键词和修饰词比例”。Stable Diffusion没有字符上限但过长会降低效率,建议控制在200词以内。
AI画图生成的图片会被认定为侵权吗?
取决于训练数据和工具协议。Midjourney付费用户生成图可商用,但若与某位艺术家的风格高度雷同,可能构成“间接侵权”。建议:商用项目优先选Adobe Firefly;如果非用Midjourney不可,对生成图做至少30%的修改(调色、旋转、加元素)。2026年6月美国版权局最新裁定:纯AI生成图不享有版权,但人类创作成分够多(如手绘修改、组合多张图)的混合作品可被保护。
免费AI画图工具哪个最好用?
排第一的是 Stable Diffusion 3.5(完全免费,需要自己部署,但社区支持最强),第二是 通义万相(每天200次免费,中文识别好,无需显卡),第三是文心一格(每天100次免费,国风优秀)。注意免费版通常有水印或分辨率限制。如果你不想折腾硬件,就选通义万相,它的图生图功能很实用(上传一张照片,自动转成二次元或油画风格)。
如何控制AI画图里人物的表情和姿势?
使用ControlNet插件(Stable Diffusion)或Midjourney V7的“Pose”模式。ControlNet中开启“OpenPose”预处理器,上传一张参考图(姿势图或真人照片),AI会自动提取骨架姿态并施加到生成图中。表情控制则靠提示词:happy expression, smiling等。如果效果不理想,可以加权重(happy expression:1.5)。更精细的做法是用LoRA训练特定表情(如“生气脸”LoRA),但需要大量数据集。目前Midjourney V7对表情的理解比SD好,但姿势严格度不如ControlNet。

读完文章了?试试提效录自建工具
全部免费 · 无需登录 · 打开即用