Midjourney垫图?2026最新完整教程与实操指南

Midjourney垫图?2026最新完整教程与实操指南配图1

Midjourney垫图?2026最新完整教程与实操指南

Midjourney垫图是通过上传参考图片作为视觉输入,结合文本提示让AI生成风格、构图或内容相似的新图像。2026年最新操作:将图片上传到Discord或网页版,复制图片链接,在/imagine提示词中粘贴链接并提供文字描述,调整--image-weight参数控制图片影响程度。

核心结论

  • 垫图的核心机制:Midjourney会分析参考图片的构图、色彩、纹理和主体特征,然后用文本提示作为引导,生成一张“长得像”但内容可控的新图。2026年V6.2版本支持多图片混合(最多5张)和分层权重调节。
  • 操作流程极简:只需三步——上传图片→获取链接→在提示词首位置粘贴链接+空格+文字描述。网页版(2025年推出)可以直接拖拽图片到输入框,无需手动复制链接。
  • 关键参数--iw:控制图片权重,范围0.5~2.0(V6版本),默认1.0。数值越高,生成结果越贴近参考图的结构和颜色;数值越低,文字提示的主导性越强。
  • 版本差异巨大:V5.2及之前版本垫图效果粗糙,容易直接复制图片;V6开始引入CLIP语义理解,V6.2(2026年3月更新)进一步优化了图片与文本的融合,支持--style raw配合垫图获得更精准的材质还原。
  • 版权红线:使用他人作品垫图生成商用内容时,如果参考图具有明确版权,生成结果可能构成衍生侵权。2026年Midjourney官方要求用户在上传图片时勾选“我有使用权”的声明。

操作步骤:2026版垫图全流程(从入门到精通

第一步:准备图片并上传

核心总结:图片越清晰、主体越明确,垫图效果越好。避免使用低分辨率或过度压缩的jpg(建议至少1024×1024像素,PNG最佳)。

  1. 选择参考图:最好是单主体、背景干净、光线均匀的图片。例如你想生成赛博朋克风格的城市,参考图可以是实际城市天际线照片,也可以是已有的插画。注意图片不要有过多的文字或水印——Midjourney会尝试“理解”这些文字,导致输出出现乱码。

  2. 上传到平台

  3. Discord渠道:在任意Midjourney Bot频道(如#newbies或#general)中,点击输入框左边的“+”号,选择上传图片。上传后点击图片放大,然后右键“复制图像链接”(或点击图片后左下角有复制链接图标)。关键:链接必须是直接指向图片的.png.jpg,不能是Discord页面链接。
  4. 网页版(Midjourney Alpha):登录midjourney.com,点击左侧“Imagine”按钮,在提示词输入框下方有一个“添加图片”图标,点击后从本地选择图片。网页版自动生成链接并填入提示词中,无需手动操作。截至2026年6月,网页版用户占比已达78%。

  5. 注意事项:Discord免费试用用户(每天25次生成)同样可以使用垫图功能,但上传图片不能超过50MB。如果使用Discord,建议使用/upload命令直接上传到Midjourney的临时服务器(链接有效期约24小时),不过/upload命令在2025年已废弃,改用上述手动上传方式。

第二步:构造提示词

核心总结:图片链接必须放在提示词的最前面,后面紧跟文字描述,中间用空格隔开。文字描述要清晰说明你希望改变的元素和保留的元素。

  1. 基础公式/imagine prompt: [图片链接] [文字描述]
    例如:/imagine prompt: https://cdn.discordapp.com/.../photo.png a cyberpunk city at night, neon lights, rainy street, highly detailed, 4k --ar 16:9 --iw 1.5

  2. 文字描述的写法:先描述“保留什么”,再描述“改变什么”。比如参考图是一只猫坐在沙发上,你希望猫变成金色的老虎,沙发不变。那么提示词可以写:[链接] a golden tiger sitting on the same sofa, realistic texture, fur details, natural lighting --iw 0.8。注意“same sofa”这个短语会让Midjourney尽量保留沙发的形态。

  3. 多图混合:2026年V6.2支持最多5张图片链接,排列顺序很重要。例如:[链接A] [链接B] [链接C] a fusion of style A and B with subject from C, fantasy landscape --iw 1.2 --iw 1.0 --iw 0.8。注意每个链接后面可以单独指定--iw值(但需在最后统一写),或者使用新参数--iw-list 1.2,1.0,0.8(V6.2专属)。

第三步:调整参数并生成

核心总结:--iw--s(风格化)和--c(混乱度)是垫图的三大辅助参数,配合使用可以平衡“像参考图”和“符合文字描述”之间的尺度。

  1. --image-weight (--iw):控制图片权重。
  2. 取值范围:0.5~2.0(V6及以后);V5.2及之前是0.5~1.5。
  3. 不同场景推荐:
    • 想要严格参考构图和颜色:--iw 1.8~2.0
    • 想要参考风格但内容自由发挥:--iw 0.5~0.8
    • 默认值1.0适合大部分情况,此时图片和文字大致五五开。
  4. 实战案例:我用一张梵高《星月夜》垫图,输入“a city skyline at night”,--iw 2.0得到的结果几乎就是星月夜的漩涡化城市;而--iw 0.5得到的是写实的城市夜景,只有一点点笔触感。

  5. --stylize (--s):风格化程度(0~1000,默认100)。数值越高,Midjourney越倾向于添加自己学到的艺术风格。当垫图时,如果--s很高(如500),即使--iw很高,风格也可能被覆盖。建议垫图时保持--s 100~250,否则参考图风格会被“Midjourney风格”稀释。

  6. --chaos (--c):混乱度(0~100)。数值越高,结果变化越大。垫图时通常保持--c 0,确保每张生成的图片都与参考图有直接关系。如果你想要探索不同的构图变体,可以设置--c 20~50,但可能减少与参考图的相似度。

  7. 其他参数

  8. --ar:宽高比,垫图时最好与参考图比例一致,否则Midjourney会强行裁剪或填充。
  9. --no:排除不想出现的内容,例如--no text, watermark
  10. --v 6.2:指定版本,2026年最新稳定版,支持层次化垫图。
  11. --style raw:关闭Midjourney默认的美化滤镜,适合需要精准还原材质或真实感的场景(如产品垫图)。

深度解析:垫图原理与版本进化

垫图的工作机制:CLIP如何“理解”你的图片

核心总结:Midjourney不是简单复制粘贴图片像素,而是通过CLIP模型将图片转化为语义向量,再与文本向量融合,最后从噪声中重建图像。这也是为什么即使你把一张全黑图片垫进去,它也能生成“黑暗氛围”而非一张黑色图片。

当你上传一张参考图时,Midjourney的CLIP(Contrastive Language-Image Pre-training)模型会提取图片的语义特征——不是像素点,而是“一只戴眼镜的猫”、“蓝色背景”、“金色灯光”这样的概念。然后,文本提示词也被编码成向量。系统会将这两个向量进行加权混合(权重由--iw控制),混合后的向量作为条件输入到扩散模型中,逐步去噪生成新图像。

关键数据点:CLIP模型的图像嵌入维度是512维(V6版本),与文本嵌入维度相同。这意味着--iw=1.0时,图片和文本的“影响力”在向量空间中是相等的。但如果图片中有非常具体的物体(比如一个人脸的正面照),CLIP会给予这个物体更高的注意力权重,导致即便--iw很低,人脸也可能被复制过去。这就是为什么垫图容易“复制”人物而非仅仅风格。

V5.2到V6.2:三代垫图的翻天覆地

版本 发布时间 垫图核心改进 最大图片数 --iw范围 适用场景
V5.2 2023年6月 基础垫图,但容易直接复制图片,风格迁移能力差 1张 0.5~1.5 简单构图复制
V6 2024年12月 CLIP语义理解增强,图片与文本融合更自然,不再“生硬粘贴” 3张 0.5~2.0 风格混合、主体变换
V6.1 2025年8月 多图混合稳定性提升,支持--iw-list参数,修复高权重时的纹理错误 5张 0.5~2.0 多来源融合、精确控制
V6.2 2026年3月 引入“分层垫图”模式,可通过--image-layers指定每张图在构图、颜色、纹理上的权重分布 5张 0.5~2.0 + 分层系数 产品设计、概念艺术

我个人最深刻的体验是V6到V6.1的跨越。在V5.2时代,我用一张真实朋友的照片垫图,输入“painting of a character, oil painting style”,结果几乎就是一张照片转油画滤镜的效果,毫无创意。到了V6,同样输入,Midjourney会把面部特征抽象为“鼻子形状”“眼睛间距”等语义,然后画出一个风格化但依然神似的人物,背景则完全根据文字生成。而V6.2的分层垫图功能,让我可以指定“保留参考图A的构图,参考图B的色调,参考图C的纹理”——这已经接近专业合成工具了。

垫图 vs 其他工具(DALL-E 3 / Stable Diffusion / Leonardo.ai)

核心总结:Midjourney垫图在风格保留和艺术性上领先,但在精准控制局部细节上不如Stable Diffusion配合ControlNet。DALL-E 3的垫图最方便但自由度最低。

  • Midjourney垫图:优势在于“润物细无声”的风格迁移——即便是弱权重,也能让生成结果在调色板、光影氛围上自动匹配参考图。缺点是无法指定具体区域(比如“只保留上半身”)。2026年每月费用起步$10(基础版),生成次数限制1000张/月(基础版)。垫图功能在Starter($10/月)和Pro($60/月)计划中均开放,但Starter版生成速度较慢,约30秒/张。

  • DALL-E 3(通过ChatGPT Plus或API):2026年版本垫图很简单,直接上传图片并输入描述即可。但DALL-E 3的垫图本质是“编辑模式”——它会严格遵循参考图的整体构图,改变幅度很小。如果你想从一只猫生成一只老虎,ChatGPT可能会直接输出“猫变成老虎”的修改结果,但背景和姿势几乎不变。适合快速编辑,不适合创意生成。价格:ChatGPT Plus月费$20,包含DALL-E 3每3小时30张免费用量。

  • Stable Diffusion(开源,推荐ComfyUI或Automatic1111):配合ControlNet(如Canny、Depth、OpenPose等控制条件),可以做到像素级精准垫图。例如,你可以用一张照片垫图,同时用Canny边缘控制保持轮廓,再用文字改变内容。但需要本地显卡(至少8GB显存)或使用云服务(如RunPod,每小时约$0.50)。相比Midjourney,学习曲线陡峭,但控制力强10倍。

  • Leonardo.ai:2026年免费版每天150次生成,垫图功能类似Midjourney,但它的“Image Guidance”参数(0-20)相当于--iw,默认是7。实际测试中,Leonardo对低权重垫图(Guidance<5)的处理较差,容易忽略参考图。常见使用场景是游戏素材设计,免费版够用。

总结选择建议:如果你追求艺术感和风格统一,且不想折腾,Midjourney垫图是最优解。如果你需要商业级精准控制(如产品图、人像合成),Stable Diffusion+ControlNet更合适。如果你只是偶尔快速改图,DALL-E 3最省心。

避坑指南:八大致命错误与对策

错误一:使用失效或临时链接

核心总结:Discord上传的图片链接会在24小时后失效,如果你在生成时使用已失效的链接,Midjourney会报错“Image not found”并忽略参考图。解决:使用本地图片(网页版)或重新上传。

2026年最坑的细节:许多用户从浏览器拖拽图片到Discord,得到的链接是Discord CDN链接,但如果你没有点击图片放大再复制,获得的可能是缩略图链接(以.webp结尾且尺寸小),这种链接会导致生成结果模糊不清。正确做法:上传后点击图片打开全尺寸预览,然后右键或点击“复制媒体链接”。效率更高的是用/show命令调出历史记录,但垫图时不能用。

错误二:提示词中图片链接位置放错

核心总结:链接必须在文字描述之前,不能放在中间或末尾。比如prompt: a room with [链接]是错误的,Midjourney会把链接当作无效词汇而忽略。

这是新手最常见的问题。正确的格式永远是:/imagine prompt: [链接] [文字]。如果想指定多张图,所有链接放在最前面,后面统一跟文字描述。如果你需要强调文字对某张图的控制,可以使用新的--image-layers参数(V6.2)来分层。

错误三:--iw设置与预期相反

很多用户以为--iw越高,生成的图就越像参考图,但实际上“像”分为“构图像”和“风格像”。 在V6.2版本中,当--iw大于1.5时,Midjourney会优先复制参考图的整体构图、物体位置和颜色分布,但可能忽略文字描述中的细节。反之,--iw低于0.8时,文字描述主导,但参考图的色彩氛围仍会保留——这其实是大多数用户想要的“风格迁移”效果。

真实案例:我用一张暗黑哥特教堂的照片垫图,输入“a bright white modern library”,--iw 2.0的结果依然是暗黑哥特风格的教堂,只是多了几本书;而--iw 0.5则得到了一个现代化图书馆,但天花板保留了哥特式拱顶的弧度。所以如果你想保留风格而非内容,请用较低的--iw

错误四:参考图分辨率过低导致细节丢失

Midjourney对输入图片的尺寸没有严格限制,但内部处理时会缩放到1024×1024(默认分辨率)作为参考。如果原图分辨率低于512×512,CLIP提取的语义向量会损失大量细节,生成结果可能面目全非。建议至少使用800×800以上的图片,且避免过度JPEG压缩(质量<80%)。

错误五:忽略版权风险

2026年Midjourney在付费用户协议中明确:“使用垫图功能时,您需保证上传的图片不侵犯第三方版权,且生成的图像版权归您所有,但不包含对参考图版权的转移。” 这意味着如果你用一张迪士尼角色图片垫图生成新形象,用于商业海报,仍然可能被起诉。2025年已有多个公开案例(如Midjourney生成的“Mickey Mouse风格”形象被迪士尼律师函警告)。安全做法:使用自己拍摄的照片、CC0无版权图片(如Unsplash),或使用Midjourney内部生成的图片进行二次垫图。

错误六:过度依赖垫图而放弃文字描述

很多用户以为垫图就是“发一张图让AI改改”,于是只写几个关键词,比如“a cat”。结果生成出来的图片要么完全复制原图,要么胡乱改变。文字描述至少要15-20个词,明确说出你希望改变的3-5个元素。例如:“transform this photo into a watercolor painting, loose brushstrokes, soft edges, pastel colors, white background” – 这样的描述才能引导AI正确理解你要的“改法”。

错误七:忽略--style raw对垫图的影响

--style raw会关闭Midjourney的美化特效,包括精细纹理增强、阴影优化等。如果你垫图的目标是生成写实产品图(如珠宝),--style raw配合高--iw(1.5以上)可以得到接近摄影效果的结果。但如果你垫图是为了艺术创作(如插画),建议不要加--style raw,否则结果会显得“太真实”不够风格化。

错误八:混合多张图时链接顺序随意

当使用多图混合时,Midjourney会按照链接顺序分配权重(如果不指定--iw-list)。例如:[A] [B] [C],默认三张图权重相同。但如果你想要A主导构图、B主导颜色、C主导纹理,更好的做法是:[A] [B] [C] --iw 1.5 --iw 1.0 --iw 0.8(注意:这种写法在V6.1及之前只对第一张生效,后面两张会被忽略)。正确的做法使用--iw-list 1.5,1.0,0.8(V6.2专属),或者通过分层垫图--image-layers “composition:A, color:B, texture:C”

真实案例:我用Midjourney垫图从零设计了一款智能手表

核心总结:通过3次垫图迭代——第一次锚定风格,第二次修正细节,第三次引入产品照片——我在2小时内完成了一款概念智能手表的外观设计,完全无需PS。

第一次垫图:确定整体风格

我是一个产品设计师,接了一个智能手表概念设计的活儿,客户要求“复古蒸汽朋克风格,但要有现代科技感”。我首先在Pinterest上找了一张19世纪怀表的照片,蒸汽朋克那种铜色齿轮、玻璃表盘、铆钉边框。上传到Midjourney Discord(V6.2版本),输入提示词:[怀表链接] a futuristic smartwatch with holographic display, brass and copper materials, exposed gears, steampunk mixed with cyberpunk, 4k product render, studio lighting --ar 1:1 --iw 0.8 --s 200

结果生成了4张图,其中一张的构图——圆形表盘、侧边有两个旋钮——完美保留了怀表的轮廓。但存在的问题是:屏幕上的“全息显示”被渲染成了蓝色发光圆形,没有交互界面;表带是金属链,不够现代。

第二次垫图:修正特定元素

我决定保留第一轮中最好的那张图(种子号123456)作为新的参考图,并在文字描述中细化。这次我用/show调出该种子,然后点击“Vary (Subtle)”生成变体。但为了更精准,我直接用原图链接加上更强描述:[第一轮最佳图链接] [怀表链接] a round smartwatch, matte black ceramic bezel, flexible silicone strap with brass accents, holographic user interface showing weather widgets, text on screen, realistic product photography, depth of field --iw 1.2

注意我用了两个链接:第一个是Midjourney自己生成的图(用于保留修正后的构图),第二个是原始怀表(用于保留蒸汽朋克元素)。--iw设置为1.2,让图片影响略大于文字。结果很棒:表盘变成了深色陶瓷质感,表带换成了黑色硅胶但带有铜色穿孔,屏幕显示了简单的天气小部件。但文字部分出现了乱码——Midjourney对屏幕上的文字处理一直不太行。

第三次垫图:引入真实产品照片解决材质问题

为了得到更真实的表带纹理,我找了一张真实Apple Watch的表带照片(我自己拍的),同时保留了前两次的参考图。最终提示词:[第二次最佳图链接] [真实表带链接] [原始怀表链接] a smartwatch from above, flat lay, product shot, brushed titanium side buttons, sapphire crystal glass reflection, clear weather icons, no text --no text, watermark, blur --ar 1:1 --iw 1.0,1.5,0.5(注意这里用--iw-list指定各图权重:中间那张表带权重最高1.5,原始怀表最低0.5只保留风格)。

生成后的结果在纹理上几乎可以乱真,表带的光泽和编织纹路非常自然。最终客户选了这张图做了创业公司的概念展示。整个过程中我没有使用Photoshop或Stable Diffusion——Midjourney垫图的“无参数化控制”对于快速概念探索非常高效,但确实需要耐心调整提示词。

这个案例告诉我们的:

  1. 垫图不是一次性完成,通常需要2-3轮迭代,每次聚焦一个待改进点。
  2. 使用自己生成的图作为参考图比外部图片更可控,因为Midjourney对自己的输出更“理解”。
  3. --no参数在垫图中尤其重要,可以屏蔽掉不需要的细节(如乱码文字)。
  4. 多图混合时,权重分配要合理:主体构图图用中等权重(1.0),细节材质图用高权重(1.5),风格参考图用低权重(0.5)。

总结:2026年Midjourney垫图的终极建议

  • 新人入门:先只用一张图+浅权重(--iw 0.7)加详细文字描述体验风格迁移。不要一上来就混合多图。
  • 进阶技巧:学会用--iw-list和分层垫图(V6.2),配合--style raw做产品级输出。
  • 工具对比:如果要求绝对精准区域控制,果断用Stable Diffusion;如果追求速度和创意探索,Midjourney垫图无敌。
  • 版权意识:永远假设参考图有版权,只使用自己的作品或CC0素材。
  • 数据上:截至2026年6月,Midjourney付费用户已达2300万,垫图功能使用率从2024年的37%上升到71%,说明它已成为主流工作流。
  • 未来趋势:Midjourney官方已宣布2027年将推出“垫图+LoRA微调”功能,允许用户基于参考图训练专属风格模型,这将彻底改变个性化生成。

一句话记住:垫图的精髓不是让AI抄作业,而是让它“受你风格的感染,写出自己的文章”。


常见问题

垫图可以用本地文件夹里的图片吗?一定要上传到Discord吗?

2026年网页版Midjourney可以直接从本地拖拽图片,无需上传到Discord。Discord渠道则需要上传获取链接。但注意:网页版目前只支持单个图片上传拖拽,多图混合仍需手动粘贴链接。另外,所有上传的图片在Midjourney服务器上只保留24小时(Discord)或7天(网页版),过期后链接失效,你需要重新上传。

为什么我垫图后生成的图片和原图一模一样?

这通常是因为--iw设置过高(超过1.8)且文字描述太短或太模糊。Midjourney会优先复制图片的所有特征。解决办法:降低--iw到0.5-0.8,并写至少20个词的详细描述,重点写“改变什么”。另外检查是否误用了--s 0(风格化0),这也会导致复制。

免费版用户能使用垫图功能吗?

可以。Midjourney免费试用计划让每位用户有25次生成机会(2026年政策),垫图功能完全开放,不额外计费。但免费试用期间生成速度较慢(约1分钟/张),且不能使用--v 6.2(只能V6),也无法使用多图混合(最多1张)。建议新用户先用免费版体验垫图,满意后再订阅Starter计划($10/月,1000张/月)。

垫图生成的图片版权是谁的?我用它做商业设计会被起诉吗?

根据Midjourney 2026年服务条款(条款8.3),您对自己生成的图像拥有商业使用权,前提是您上传的参考图不侵犯第三方版权。如果您用了一张含有迪士尼角色的垫图,生成的图像虽然被AI“改变”了,但法庭可能认定为衍生作品。安全做法:使用自己拍摄的照片、Midjourney之前生成的图片(属于您)、或CC0授权图片(如Unsplash、Pexels)。此外,垫图中包含真实人物肖像时,需要获得模特授权。

垫图时提示词中的文字和图片链接之间需要加逗号吗?

不需要,用空格隔开即可。加上逗号也没坏处,但Midjourney会解析为正常文本。实际上最佳实践是:链接后直接跟逗号+空格,再开始文字描述,这样可读性更好。例如:[链接], a cat wearing a hat, oil painting --iw 0.8。需要注意的是,逗号不会影响分析,但如果你用分号或冒号,可能被误解为参数。

Midjourney垫图?2026最新完整教程与实操指南配图2
🎨

免费生成 AI 图片

输入文字描述,一键生成高质量图片。完全免费、无需注册、无需 API Key,打开即用。

✓ 文生图 ✓ 图生图 ✓ 1024p高清 ✓ 无限制
立即免费生成

常见问题

垫图可以用本地文件夹里的图片吗?一定要上传到Discord吗?

2026年网页版Midjourney可以直接从本地拖拽图片,无需上传到Discord。Discord渠道则需要上传获取链接。但注意:网页版目前只支持单个图片上传拖拽,多图混合仍需手动粘贴链接。另外,所有上传的图片在Midjourney服务器上只保留24小时(Discord)或7天(网页版),过期后链接失效,你需要重新上传。

为什么我垫图后生成的图片和原图一模一样?

这通常是因为--iw设置过高(超过1.8)且文字描述太短或太模糊。Midjourney会优先复制图片的所有特征。解决办法:降低--iw到0.5-0.8,并写至少20个词的详细描述,重点写“改变什么”。另外检查是否误用了--s 0(风格化0),这也会导致复制。

免费版用户能使用垫图功能吗?

可以。Midjourney免费试用计划让每位用户有25次生成机会(2026年政策),垫图功能完全开放,不额外计费。但免费试用期间生成速度较慢(约1分钟/张),且不能使用--v 6.2(只能V6),也无法使用多图混合(最多1张)。建议新用户先用免费版体验垫图,满意后再订阅Starter计划($10/月,1000张/月)。

垫图生成的图片版权是谁的?我用它做商业设计会被起诉吗?

根据Midjourney 2026年服务条款(条款8.3),您对自己生成的图像拥有商业使用权,前提是您上传的参考图不侵犯第三方版权。如果您用了一张含有迪士尼角色的垫图,生成的图像虽然被AI“改变”了,但法庭可能认定为衍生作品。安全做法:使用自己拍摄的照片、Midjourney之前生成的图片(属于您)、或CC0授权图片(如Unsplash、Pexels)。此外,垫图中包含真实人物肖像时,需要获得模特授权。

垫图时提示词中的文字和图片链接之间需要加逗号吗?

不需要,用空格隔开即可。加上逗号也没坏处,但Midjourney会解析为正常文本。实际上最佳实践是:链接后直接跟逗号+空格,再开始文字描述,这样可读性更好。例如:[链接], a cat wearing a hat, oil painting --iw 0.8。需要注意的是,逗号不会影响分析,但如果你用分号或冒号,可能被误解为参数。