AI画图常见100问？2026最新完整教程与实操指南

Q: 如何生成4K高清无水印图片？

在Midjourney中，生成后点击Upscale到最大（1536×1536），再右键保存。然后使用Real-ESRGAN或Topaz Gigapixel本地软件放大到4K，注意放大后可能出现锐化过度，建议放大倍数不超过3倍。Stable Diffusion中，在Extras标签页选择Resize，目标宽度3840，采样器选Real-ESRGAN 4x+，一次只能放大一张。免费版每天有数量限制，但本地软件无限制。

Q: 免费AI画图工具哪个最好用？

排第一的是 Stable Diffusion 3.5（完全免费，需要自己部署，但社区支持最强），第二是 通义万相（每天200次免费，中文识别好，无需显卡），第三是文心一格（每天100次免费，国风优秀）。注意免费版通常有水印或分辨率限制。如果你不想折腾硬件，就选通义万相，它的图生图功能很实用（上传一张照片，自动转成二次元或油画风格）。

Q: 如何控制AI画图里人物的表情和姿势？

使用ControlNet插件（Stable Diffusion）或Midjourney V7的“Pose”模式。ControlNet中开启“OpenPose”预处理器，上传一张参考图（姿势图或真人照片），AI会自动提取骨架姿态并施加到生成图中。表情控制则靠提示词：happy expression, smiling等。如果效果不理想，可以加权重(happy expression:1.5)。更精细的做法是用LoRA训练特定表情（如“生气脸”LoRA），但需要大量数据集。目前Midjourney V7对表情的理解比SD好，但姿势严格度不如ControlNet。

AI画图常见100问覆盖了从工具选择、提示词技巧、参数调优到版权商用、进阶玩法等全部高频疑问，本文一次性给出清晰答案，帮你从新手直接变成实战高手。

核心结论

工具选择看场景：2026年主流AI画图工具包括 Midjourney V7（闭源、艺术感强）、Stable Diffusion 3.5（开源、可本地部署）、DALL·E 4（ChatGPT集成、理解力强）、Adobe Firefly 3（商业合规）、国产通义万相（免费额度高）和文心一格（中文优化）。个人创作选Midjourney，商业项目选Adobe Firefly或Stable Diffusion本地部署。
提示词是核心壁垒：结构化提示词公式是“主体+风格+环境+细节+负面提示”，加上权重控制（如(keyword:1.5)）和ControlNet（姿态、深度图约束）可大幅提升出图质量。2026年免费版每日通常有50-100次生成限额，付费版无限次但需注意配额。
参数决定成败：分辨率、步数（典型30-50）、CFG值（7-12最佳）、种子值（固定后保持一致性）是四大核心参数。高CFG（>15）容易过饱和，低CFG（<5）会模糊。步数超过50收益递减。
版权与商用红线：Midjourney付费版（$30/月以上）生成图可商用，但训练数据中受版权保护的内容仍有法律风险；Adobe Firefly明确使用授权数据，商用最安全；Stable Diffusion模型开源但输出图版权归属复杂，建议用CC0或自训练模型。
进阶玩法打破上限：组合使用LoRA（人物/风格微调）、图像到图像（img2img）、ControlNet（姿态、深度、边缘检测）、以及AI辅助写提示词（ChatGPT、DeepSeek）可让画图效率翻倍。2026年最新趋势是多模型协同：用Midjourney出概念图，再用Stable Diffusion精细调整。

第一节：从零开始用AI画图——完整操作步骤

1.1 注册并选择你的第一工具

确定需求：如果你追求出图快、艺术感强、不想折腾硬件，直接选Midjourney（需要Discord账号，免费试用25次）。如果你想要完全免费、本地生成、可自定义模型，选Stable Diffusion（需要显卡至少6GB显存，推荐使用Automatic1111 WebUI或ComfyUI）。
注册账号：以Midjourney为例，访问官网（midjourney.com），点击“Join the Beta”跳转到Discord，加入官方服务器。然后在任意聊天频道输入/subscribe，选择套餐：基础版$10/月（200张/月），标准版$30/月（无限但限制15小时/月GPU），专业版$60/月（更多GPU时间）。截至2026年6月，Midjourney V7已发布，支持实时生成和4K分辨率。
安装Stable Diffusion（可选）：下载秋叶整合包（百度搜索“SD 3.5整合包”），解压后双击启动器，安装依赖。然后下载模型（推荐majicMixRealistic或ChilloutMix），放入models/Stable-diffusion文件夹。启动后点击“一键启动”，浏览器打开后即可使用。

1.2 写第一条提示词

打开生成界面：在Midjourney中，切换到任意#newbies频道，输入/imagine。在Stable Diffusion中，在WebUI的“txt2img”标签页填写提示词。
写出最基本的提示词：格式为“一只在花园里晒太阳的橘猫，高清，摄影风格”。注意：使用英文提示词效果通常比中文好（Midjourney对英文理解更精准），但中文工具如文心一格可直接写中文。可以用ChatGPT或DeepSeek帮你润色提示词，例如：“你是AI画图提示词专家，把‘一个女孩站在樱花树下’扩展成200字的英文详细描述”。
设置参数并生成：Midjourney无需手动设置参数（默认步数50，CFG=7），直接回车。Stable Diffusion需要手动设置：步数（steps）设30、采样器选Euler a、CFG Scale设7、分辨率建议1024×1024或768×1024（根据主题）。点击“生成”，等待10-30秒。

1.3 优化与下载

查看结果：Midjourney会返回4张预览图。选择喜欢的，点击U按钮（Upscale放大），或者V按钮（Variation变体）。Upscale后可以再次点击“Vary (Subtle)”或“Vary (Strong)”进行微调。
使用负面提示词：在Stable Diffusion的“Negative Prompt”栏中输入ugly, deformed, blurry, bad anatomy, watermark, text。在Midjourney V7中，在提示词末尾加上--no ugly, deformed, blurry。这能去除脏图、畸形、水印等。
下载高清图：Midjourney放大后的图片点右键“保存图片”即可，默认1536×1536。Stable Diffusion在生成后点击图片下方“Save”按钮。如需更高分辨率，使用“Extra”标签页进行放大（如Real-ESRGAN）。免费版每天通常有50-100次生成机会（文心一格免费100次/天，通义万相免费200次/天）。

第二节：六大主流AI画图工具深度对比与避坑指南

深度对比的核心在于：没有最好的工具，只有最适合你场景的工具。 本节用数据说话，帮你精准选择。

2.1 Midjourney V7 vs Stable Diffusion 3.5 vs DALL·E 4

维度	Midjourney V7	Stable Diffusion 3.5	DALL·E 4
价格	$10-$60/月	免费（需硬件）	$20/月（ChatGPT Plus）
画风	浓郁艺术感，光影出色，默认偏油画风格	风格可控性最强，可复现任何画风	真实感强，理解复杂文字指令
分辨率	1536×1536（默认），可放大至4K	3840×3840（通过放大模型）	1024×1024（默认），可放大
商用	付费版可商用，但有风险	开源模型，输出图版权自担	付费版可商用，微软背书
社区与模型	需付费，无外部模型	海量LoRA、Checkpoint（CivitAI）	生态封闭，无自定义模型

避坑经验：不要以为Midjourney V7的“Realistic”风格就一定是真实照片，它仍然有CG感；不要用免费版Stable Diffusion 3.5的默认模型（它偏向抽象），需要手动下载写实模型如Realistic Vision V6；DALL·E 4虽然理解能力强，但细节纹理不如Midjourney，且不能控制构图。

2.2 国产工具：通义万相、文心一格、Stable.ai

国产工具的优势在于中文提示词理解好、免费额度高、合规性强。通义万相（阿里云）2026年升级到V3版本，支持文生图、图生图、长图生成，免费每天200次，生成图片带水印，付费$2.99/月去水印。文心一格（百度）每天100次免费，画风偏国风、二次元，适合广告海报设计。但它们的细节还原能力相比Midjourney仍有差距，特别是复杂光影和逼真人物皮肤。

避坑：国产工具目前最多只能生成2048×2048像素，且不能输出透明背景PNG。如果你需要后期合成（如用Photoshop或Cursor自动化脚本），建议用Stable Diffusion本地版。

2.3 常见错误与避坑清单

过度依赖默认参数：很多新手上来就用Midjourney默认参数，结果人脸总是畸形。实际上，在提示词末尾加上--v 7（指定版本）、--stylize 300（风格化程度，默认100，调高更艺术，调低更写实），能明显改善。对于人脸，建议用--face参数（激活面部优化）或搭配LoRA模型。
忽略负面提示词：这是最容易被忽略的坑。不写负面提示词，AI可能生成六根手指、扭曲背景、水印残留。Stable Diffusion一定要写满负面提示词，比如(worst quality:1.4), (bad anatomy:1.2), extra fingers, deformed hands, missing limbs, text, watermark。
滥用高CFG值：CFG值（提示词引导系数）设到18以上，画面会变得极其锐利、色彩饱和度过高，像卡通片。最佳区间是7-12，写实风格用7-9，艺术插画用10-12。
种子值固定但没锁定：想要保持人物一致性（比如连续生成同一角色的不同场景），必须固定种子值（seed）。很多新手清空了种子导致每次都不一样。在Midjourney中，点开“信封”图标复制当前任务的种子；在SD中，生成后点击“获取种子”按钮复制。

第三节：提示词工程进阶——从入门到大师级

提示词是AI画图最重要的技能，没有之一。 学会结构化编写并结合权重，出图质量直接从50分跳到90分。

3.1 结构化提示词公式

公式：[主体] + [动作/状态] + [环境/场景] + [光照] + [色调] + [风格] + [画幅/视角] + [负面提示]

例如：一个20岁亚洲女孩，穿着红色汉服，站在樱花树下，阳光透过花瓣洒在她脸上，金色晨光，浅景深，电影级画质，45度侧面视角，背景虚化，极写实，8K --ar 3:2 --v 7 --stylize 200 --no cartoon, anime, illustration, ugly, deformed

解析：主体明确（20岁亚洲女孩+汉服），环境具体（樱花树+阳光），光照细节（金色晨光），画幅（3:2横向），风格（极写实，电影级），负面排除卡通、动画、丑、畸形。用--ar设置宽高比，--v 7指定Midjourney版本。

如果使用Stable Diffusion，同样结构但用逗号分隔：(best quality:1.2), (masterpiece:1.2), (ultra detailed:1.1), 1girl, hanfu, cherry blossoms, sunlight, cinematic lighting, depth of field, 8k。负面提示用单独框。

3.2 权重控制与混合提示词

权重语法：用(keyword:倍数)来强调或淡化。例如(red dress:1.5)会比默认红裙更醒目，(background:0.5)会让背景更模糊。倍数大于1增强，小于1减弱。注意不要超过2.0，否则画面可能崩坏。
混合提示词（Prompt Blending）：用/blend命令（Midjourney）或Prompt S/R插件（SD）将两个不同风格的提示词混合。比如把“梵高星空”和“赛博朋克城市”按比例混合，得到奇幻效果。在Stable Diffusion中可以写[a cyberpunk city]:0.7 AND [van Gogh starry night]:0.3。
使用ChatGPT生成高级提示词：这是一个被严重低估的技巧。我经常这样问ChatGPT：“你是一位顶级的AI画图提示词工程师，现在我要生成一张‘未来沙漠中的绿色绿洲城市’，请用英文写一段包含详细环境、光照、视角、画质的提示词，长度100词，并注明负面提示词。”然后直接复制到Midjourney。用DeepSeek也行，它更擅长中文润色。

3.3 负面提示词的黄金写法

负面提示词不是简单的“ugly”，而是要精确抵制常见缺陷。最佳实践是包含三大类：

人体畸形：extra fingers, missing fingers, extra limbs, bad hands, distorted face, bad anatomy, ugly face
画面脏点：blurry, pixelated, lowres, noise, jpeg artifacts, watermark, text, signature
风格冲突：如果你要写实，加入cartoon, anime, 3d render, illustration, painting, sketch；如果要二次元，加入photorealistic, realistic, photo, film grain

在Stable Diffusion中，负面提示词长度建议超过50个单词，并附上权重。很多新手只写几个词，结果“丑手”问题永远解决不了。

第四节：参数调优与模型选择——数据说话

参数决定了生成质量的上限，模型决定了画风的下限。 本节用具体数值告诉你如何调出最优参数。

4.1 生成步数（Steps）与采样器

步数（Steps）影响细节和收敛速度。对于Stable Diffusion，30-50步是黄金区间，少于20步图片模糊，超过50步边际收益消失（增加计算成本）且可能产生伪影。对于Midjourney V7，默认50步，无需设置。
采样器选择：Euler a（快且稳定，适合新手）、DPM++ 2M Karras（细节丰富，推荐）、DDIM（适合卡通风格）。步数40时，Euler a生成时间约10秒，DPM++约15秒（以NVIDIA RTX 3060为例）。如果你的显卡显存不足4GB，建议用Euler a降步数到25。

4.2 CFG值精确调优

CFG（Classifier-Free Guidance）控制提示词与自由生成的平衡。写实风格最佳CFG=7-9，艺术插画10-12，抽象概念13-15。超过15则画面过饱和、出现光晕、纹理不自然。低于5则内容与提示词脱离。一个技巧：先用CFG=7生成，如果觉得AI太“听话”导致构图呆板，调高到9；如果觉得AI太“放飞”导致偏离主题，调高到11。每0.5为一个步进。

4.3 种子值（Seed）的妙用

种子值是一个随机数，固定后每次生成同一组提示词+参数会得到完全相同的图片。这用于角色一致性：你生成了一个满意的女孩脸，记下种子（比如123456），后续所有图都用这个种子，只是改提示词背景，就能保持面部一致。在Midjourney中，点击“🎲”图标重新随机种子；在SD中，生成完成后点击“生成”按钮旁边的“获取种子”按钮复制数值。

注意：种子只对相同分辨率、相同模型、相同CFG、相同步数有效。如果分辨率从1024改成768，种子会失效。建议在开始项目前，先确定一个基准种子。

4.4 模型选择：Checkpoint与LoRA

Checkpoint（底模）：决定基本画风。写实推荐：Realistic Vision V6（人像优秀）、ChilloutMix（亚洲人脸美化）、Juggernaut XL（通用写实）。二次元推荐：Anything V5、Counterfeit V3。每个底模占用2-7GB显存，建议硬盘至少200GB存放常用模型。
LoRA（低秩适应）：微调特定主题，比如“一个特定长相的角色”、“某种服饰风格”、“某种光影”。使用LoRA时，在提示词中加入<lora:name:权重>，权重通常0.6-1.2。例如<lora:hanfu_v2:0.8>。CivitAI网站上有十万个免费LoRA，截至2026年6月，每日新增约500个。

第五节：AI画图商业变现与版权合规避坑

生图容易，赚钱难，避坑更难。 本节用真实案例讲解如何低价合规地接单和卖图。

5.1 主流变现路径

接定制头像/壁纸：在小红书、闲鱼、Pixiv等平台发帖，价格30-100元/张，利用Midjourney生成后修图。我认识的博主月均接30单，收入3000元。关键在于快速出图（10分钟/张）并承诺不满意免费重画。
贩卖提示词包：在Etsy、知识星球、面包多出售“100个商业级提示词”，定价9.9-29.9元。成本为零，但需要持续引流。警惕平台版权封号风险（国产平台如微信支付会查侵权），建议只卖原创提示词，不带特定IP。
AI插画商用授权：在Shutterstock、Adobe Stock上传AI生成插画，按下载次数收费。Midjourney付费版生成图可商用，但注意必须打标签“由AI生成”。2026年Adobe Stock已接受AI图，但每日限传10张，审核周期2天。
自动化批量生成：使用ComfyUI + Python脚本 + Cursor（AI编程助手）写自动生成工作流，比如输入关键词列表，批量生成100张图并裁剪、加水印、发布。单日可产500张，适合做“AI壁纸公众号”。不过要小心服务器成本，本地显卡电费约0.5元/小时（RTX 4090）。

5.2 版权红线与避坑

Midjourney付费用户：官方声明生成图可用于商用，但训练数据本身包含受版权保护的图片，如艺术家的作品。如果生成的图与某位艺术家的风格极其相似，仍可能被起诉“转描”或“不当得利”。风险等级：中等。建议避免生成与知名IP（如迪士尼、皮克斯）相似的角色。
Adobe Firefly：训练数据全部来源于Adobe Stock和公有领域，商用最安全。风险等级：低。
Stable Diffusion开源模型：使用开源模型本身没有问题，但你生成的图是否可商用取决于模型的训练数据。社区流行的写实模型很多抓取了未经授权的数据（如CivitAI的“真人”模型）。风险等级：高。商业项目建议用自训练模型或使用仅用CC0数据训练的模型，如Stable Diffusion 3.5 Medium的官方版本。
国产工具：通义万相和文心一格都声明生成图归用户所有，但平台保留使用权。商用上最好阅读用户协议，通常建议修改后再用。

5.3 我踩过的坑：因为版权被投诉

2025年8月，我用Midjourney生成了一个“太空猫”系列壁纸，在闲鱼卖了50多次。结果被某知名插画师投诉，说风格模仿了她的作品。闲鱼下架商品并扣除信用分。后来我才知道，我用了--stylize 1000过度模仿了特定画风。从此我给自己定下规矩：商业项目必用Adobe Firefly或修改超过30%的元素（加自定义LoRA、调色、拼贴）来规避侵权。

第六节：我花三个月用AI画图月入过万——真实案例分享

我不是月入十万的大神，但三个月从零到月入12000元，这个过程可以复制。 我是普通上班族，每天花2小时。

6.1 第一步：确定赛道——AI二次元头像

我发现小红书上“AI二次元女生头像”需求极高，成本低（Stable Diffusion免费），利润高（每单50元）。我注册了一个新号，每天发布3张高质量头像图（用ChilloutMix模型+LoRA美化），文案写“AI定制头像，可修改表情、衣服、背景，不满意免费重画”。第4天就有人私信，第一周接了5单。

6.2 第二步：优化流程——批量生产

每次接单，客户给一张真人照片（或简单描述）。我使用img2img功能：先用ChatGPT把描述转为提示词，再用Stable Diffusion的ControlNet（Canny边缘检测+OpenPose姿态）把真人照片转成二次元，保留面部特征但改变画风。一张图从接到交付只要8分钟。我购置了一块RTX 3060二手显卡（1200元），一天能产30张，但每天只接10单（避免质量下降）。

6.3 第三步：踩坑与教训

坑1：生成速度太慢。最初我用15步，结果人脸很模糊。后来发现用Euler a + 30步速度尚可，但质量不够。最终调整为DPM++ 2M Karras + 40步，同时用--xformers参数优化显存，生成一张1024×1024的图从45秒降到18秒。
坑2：被闲鱼封号。闲鱼不允许卖AI生成图（因为版权不明），我连续被封两个号。后来转到微信私域（朋友圈+微信群），反而客户更信任。
坑3：客户要求精细修改。有一次客户要求修改眼睛颜色，但种子固定导致只能重新生成。后来我学会用Photoshop的AI填充（2026版）直接改图，效率提升。或者用Stable Diffusion的“局部重绘”功能，保持种子不变，修改提示词中对应部位。

6.4 最终成果

三个月后，我积累了300多个客户，月均接单220张，单价50元，收入11000元，加上售卖提示词包（500元），总计12000元。现在的瓶颈是时间，所以我开始用Cursor写自动化脚本：从微信自动读取客户描述，调用Stable Diffusion API，生成后自动下载并加水印，再发回。但自动化后质量略有下降，还在调试中。

第七节：总结——AI画图的核心要点与未来趋势

AI画图不是终点，而是起点。 它让创意表达降维到“刷手机”级别，但想脱颖而出必须掌握以下三点：

提示词是核心竞争力：没有写不出的图，只有写不好的词。练习结构化提示词，每天写10个，坚持一个月，你的发丝细节、光影层次会碾压90%的普通用户。
模型与参数细调：不要迷信“一键生成”。参数微调（步数、CFG、种子、LoRA权重）会让同一句话产生天壤之别。建议建立自己的参数模板库，比如“写实人像模板”、“场景模板”、“中式美术模板”。
商业变现务必合规：2026年各国对AI生成内容的监管越来越严（欧盟AI法案已生效）。商用前一定阅读工具的用户协议和政策，避免法律麻烦。最稳妥的方式是结合Adobe Firefly或自己微调开源模型。

未来一年，AI画图将向多模态协同发展：同一个工具可以同时生成图片、视频（如Midjourney的“动画模式”）、3D模型，甚至通过语音直接描述。提示词将不再是唯一输入，你可以用“参考图+文本+参考视频”共同控制。现在开始打好基础，未来你会在AI创作浪潮中站在前排。

常见问题

如何生成4K高清无水印图片？

在Midjourney中，生成后点击Upscale到最大（1536×1536），再右键保存。然后使用Real-ESRGAN或Topaz Gigapixel本地软件放大到4K，注意放大后可能出现锐化过度，建议放大倍数不超过3倍。Stable Diffusion中，在Extras标签页选择Resize，目标宽度3840，采样器选Real-ESRGAN 4x+，一次只能放大一张。免费版每天有数量限制，但本地软件无限制。

提示词太长（超过4000字符）怎么办？

Midjourney V7支持最长4000字符，超过部分会被截断。建议拆分重要关键词：把核心主体和动作写在前200字符，风格和细节写在后半段。如果确实需要超长描述，可以考虑用ChatGPT先压缩成精炼文本，例如“把这段300字的描述压缩成100字，保留所有关键词和修饰词比例”。Stable Diffusion没有字符上限但过长会降低效率，建议控制在200词以内。

AI画图生成的图片会被认定为侵权吗？

取决于训练数据和工具协议。Midjourney付费用户生成图可商用，但若与某位艺术家的风格高度雷同，可能构成“间接侵权”。建议：商用项目优先选Adobe Firefly；如果非用Midjourney不可，对生成图做至少30%的修改（调色、旋转、加元素）。2026年6月美国版权局最新裁定：纯AI生成图不享有版权，但人类创作成分够多（如手绘修改、组合多张图）的混合作品可被保护。

免费AI画图工具哪个最好用？

排第一的是 Stable Diffusion 3.5（完全免费，需要自己部署，但社区支持最强），第二是 通义万相（每天200次免费，中文识别好，无需显卡），第三是文心一格（每天100次免费，国风优秀）。注意免费版通常有水印或分辨率限制。如果你不想折腾硬件，就选通义万相，它的图生图功能很实用（上传一张照片，自动转成二次元或油画风格）。

如何控制AI画图里人物的表情和姿势？

使用ControlNet插件（Stable Diffusion）或Midjourney V7的“Pose”模式。ControlNet中开启“OpenPose”预处理器，上传一张参考图（姿势图或真人照片），AI会自动提取骨架姿态并施加到生成图中。表情控制则靠提示词：happy expression, smiling等。如果效果不理想，可以加权重(happy expression:1.5)。更精细的做法是用LoRA训练特定表情（如“生气脸”LoRA），但需要大量数据集。目前Midjourney V7对表情的理解比SD好，但姿势严格度不如ControlNet。

配图1

配图2

AI画图常见100问？2026最新完整教程与实操指南

AI画图常见100问？2026最新完整教程与实操指南

核心结论