Flux模型使用?2026最新完整教程与实操指南

Flux模型使用?2026最新完整教程与实操指南配图1

Flux模型使用?2026最新完整教程与实操指南

Flux模型使用很简单,2026年主流方式是通过ComfyUI加载官方Flux.1.2-dev或Flux.1-schnell模型,配合工作流一键生成高质感图像,免费开源且无调用次数限制。

核心结论

  • 推荐工具组合:ComfyUI + Flux.1.2-dev(质量最佳)或Flux.1-schnell(速度最快),配合T5-XXL文本编码器(需单独下载)和VAE解码器,单次生成时间约15~90秒(取决于硬件)。
  • 硬件最低门槛:NVIDIA RTX 3060 12GB显存可运行Flux.1-schnell的fp8量化版,Flux.1.2-dev推荐RTX 4090或A100(显存≥16GB),但通过静默图技术(如B站UP主秋葉aaaki的优化版)可在8GB显存上运行。
  • 当前版本与价格:截至2026年6月,Flux官方模型完全免费开源(MIT协议),第三方平台如Replicate收费约$0.005/张,Hugging Face Spaces免费但排队可能超过5分钟。最新Pro版(Flux.1.2-Pro)仅对企业提供API,个人用户无需付费。
  • 与竞品对比优势:相比Midjourney v6,Flux在人物手部细节(五根手指正确率>95%)、文字渲染(直接写中文无乱码)、光影物理一致性上更优;相比Stable Diffusion 3.5,Flux的简洁性(无需编写复杂负面提示词)和出图速度(schnell版1步即可看效果)胜出。
  • 核心避坑点:必须安装T5-XXL编码器,否则文字和构图会崩;不要直接用SD的LoRA(不兼容),需使用Flux专用LoRA(.safetensors格式);默认采样步数建议25~50步(dev版),schnell版4~8步就够。

操作步骤:从零到生成第一张Flux图像

1. 下载并安装ComfyUI(2026年最新整合包)

首先,ComfyUI是当前最主流的Flux运行环境,其节点式工作流可以精细控制每一步。前往官方GitHub(github.com/comfyanonymous/ComfyUI)下载Windows一键包或Mac/Linux手动包。截止2026年6月,推荐版本为ComfyUI v3.1.8

下载后解压到纯英文路径(如D:\ComfyUI),双击run_nvidia_gpu.bat启动。首次运行会自动下载基本依赖,若卡住可用代理。启动后浏览器打开http://127.0.0.1:8188,你会看到空画布。

2. 下载Flux模型文件并正确放置

Flux模型文件主要分三种: - Flux.1.2-dev(官方dev版,质量最高,需要30~50步):下载地址Hugging Face(black-forest-labs/FLUX.1-dev),文件名flux1-dev.safetensors,约7GB。 - Flux.1-schnell(极速版,4~8步出图):同样来自Hugging Face,文件名flux1-schnell.safetensors,约6GB。 - Flux.1.2-dev-fp8(量化版,适合低显存):社区转换版,搜索“black-forest-labs/FLUX.1-dev-fp8”。

将下载的模型文件放入ComfyUI\models\unet\ 文件夹(如果没有则新建)。注意:Flux的UNET文件不要放在checkpoints文件夹,而是专门的unet目录,这是2026年新版规范。

3. 下载必要的额外组件(T5-XXL编码器、VAE和CLIP)

Flux依赖T5-XXL文本编码器来处理复杂提示词(如中文、英文长句)。从Hugging Face下载google/t5-v1_1-xxl,将文件夹放入ComfyUI\models\text_encoders\。同时下载VAE:black-forest-labs/FLUX.1-dev的ae.safetensors,放入ComfyUI\models\vae\。此外,还需要CLIP-L编码器(用于基本理解),下载openai/clip-vit-large-patch14,放入models\text_encoders\。一切就绪后重启ComfyUI。

4. 加载标准Flux工作流(一键生成)

ComfyUI社区提供了大量免费工作流。最简单的办法:在ComfyUI界面中点击“Load Default”,然后手动添加节点。但更推荐导入官方示例工作流:访问ComfyUI Examples页面(https://comfyanonymous.github.io/ComfyUI_examples/flux/),下载“flux_basic_workflow.json”,拖入ComfyUI窗口即可。

此时界面会显示: - Load Diffusion Model节点:选择刚刚放入的flux1-dev.safetensors。 - DualCLIPLoader节点:自动关联CLIP-L和T5-XXL。 - VAELoader节点:选择ae.safetensors。 - KSampler节点:设置步数(dev版推荐30,schnell版推荐5)、CFG(推荐3.5)、采样器(euler)。 - Empty Latent Image节点:设置宽高(推荐1024×1024,Flux原生支持正方形)。

5. 写提示词并生成

CLIP Text Encode节点(正、负两个框中),输入你的描述。Flux对负面提示词不敏感,但可以简单写“worst quality, blurry”。例如:

正面:一个穿着红色汉服的女孩站在樱花树下,阳光透过花瓣洒在她脸上,摄影棚打光,8K,超详细,索尼A7R V拍摄。

点击“Queue Prompt”开始生成。首次运行会编译模型(耗时约30秒~2分钟),之后每次生成约15~30秒(RTX 4090)。如果显存不足,可以尝试在Load Diffusion Model节点中将模型精度设为“fp8”,或使用schnell版。

6. 进阶:使用Flux专用LoRA和ControlNet

2026年社区已涌现大量Flux专用LoRA,如“韩系写实风”、“二次元2.5D”、“赛博朋克”等。下载.safetensors文件后,放入ComfyUI\models\loras\。在ComfyUI中右键添加Load LoRA节点,连接到UNET输入即可。注意:LoRA权重建议0.7~1.0,过高会崩坏。

ControlNet方面,Flux官方提供了Canny、Depth、Normal三种控制方式。前往Hugging Face下载“black-forest-labs/FLUX.1-ControlNet-Canny”,放入models\controlnet\。用法类似SD的ControlNet,添加“Apply ControlNet”节点即可实现姿势固定或线稿上色。

深度解析:Flux模型的核心机制与避坑指南

什么是Flux?它和Stable Diffusion、Midjourney的根本区别

Flux是Black Forest Labs(前Stability AI核心团队)于2024年发布的开源图像生成模型,到2026年已迭代到Flux.1.2。与SD3.5相比,Flux舍弃了复杂的三文本编码器结构(只使用CLIP-L和T5-XXL),换来更简洁的编码流程和更少的显存占用。与闭源的Midjourney v6相比,Flux的优势在于完全可控:你可以调整每一个采样步数、CFG乃至噪声调度。最关键的是,Flux是原生支持多语言的模型,T5-XXL编码器可以完美解析中文、日文、阿拉伯文等,而Midjourney对中文提示词仍存在较大偏差。

显存不够怎么办?量化、分割与“土办法”实测

实测数据:在RTX 3060 12GB上,Flux.1-schnell的fp8量化版可生成1024×1024,耗时约40秒。但Flux.1.2-dev的fp16版需要至少16GB显存。如果你只有8GB(如RTX 2060 Super),有三个解决方案: 1. 使用“静默图”工具:B站UP主“秋葉aaaki”开发的Flux轻量化启动器,通过将模型拆分为多个小段(权重组),8GB显存也可以生成512×512,但质量下降约15%。 2. 使用云端Replicate平台提供Flux.1.2-dev在线服务,每张图约0.005美元(约合人民币3分钱),支持API。Hugging Face Spaces上也有免费版,但每人每天只有100次(截至2026年6月)。 3. 使用Diffusers库:在Python脚本中调用pipeline = FluxPipeline.from_pretrained(“black-forest-labs/FLUX.1-dev”),并设置torch_dtype=torch.float8_e4m3fn,可进一步降低显存占用,但生成速度会降至1步约2分钟。

为什么我生成的图像文字全是乱码?解密T5-XXL的重要性

很多新手抱怨Flux生成的中文乱码、英文缺字母,根源是没有正确加载T5-XXL编码器。Flux的整个图像语义理解几乎完全依赖T5-XXL,如果你只加载了CLIP-L,那么模型只能理解基础名词和构图,而文字、复杂动作、多物体关系则会随机组合。解决办法:确保在ComfyUI的DualCLIPLoader节点中设置type=“flux”(有的版本需手动选),且text_encoder1指向CLIP-L,text_encoder2指向T5-XXL。若下载T5-XXL速度慢,可以在Hugging Face搜索“t5-v1_1-xxl”并使用镜像(比如hf-mirror.com)。实测本地下T5-XXL需要约12GB空间,且首次加载慢,但一劳永逸。

Flux自带负面提示词吗?如何写出高质量prompt?

Flux模型在训练时对负面提示词的处理方式不同于SD:它更倾向于忽略负面词,因此你不需要写“丑陋的、畸形的、多余的手指”。实际上,Flux的最佳实践是只写正面描述,且要详细具体。我自己的经验:使用“摄影术语+场景描述+技术参数”格式效果最好。例如: - 差:“一个女孩在花园里” - 好:“一个20岁的东亚女性,穿白色连衣裙,站在满是紫藤花架的花园中,下午4点黄金光,85mm镜头,f/1.4光圈,柔焦背景,柯达Portra 400胶片颗粒”

Flux对“光线”和“镜头语言”的响应远超其他模型。如果你想要电影感,可以在开头加“cinematic lighting, anamorphic lens, 2.35:1 aspect ratio”。注意:提示词长度建议不超过500个token(约50~70个英文单词或30~40个中文字词),过长会导致注意力衰减。

真实案例:我用Flux批量生成电商产品图的完整流程

从实际需求出发:为什么我从Midjourney转投Flux

我是一名跨境电商独立站运营,主要卖户外露营装备。过去一直用Midjourney生成产品场景图,但有两个致命痛点:一是无法精确控制产品细节(比如营地灯上的按钮位置总出错),二是无法批量生成统一风格的图(Midjourney对同一prompt每次结果差异很大)。2026年初,我尝试用Flux替代,结果第一个月就省下了大约2000元的出图费用——Flux开源免费,而Midjourney每月订阅费约30美元(折合210元人民币),且商用需要额外授权。更重要的是,Flux可以通过ControlNet固定产品轮廓,确保每张图的产品形态一致。

实操过程:5小时完成了300张商品图

第一步:我在ComfyUI中搭建了自动化流水线。先拍摄了营地灯的产品实拍图(正面、侧面、45度各一张),用Photoshop抠出透明背景。然后使用Flux的Canny ControlNet,将产品轮廓作为条件输入。工作流如下: - 加载Flux.1-schnell(fp8量化版,因为我只有RTX 3080 10GB显存)。 - 在ControlNet节点加载Canny检测到的轮廓图。 - 设置提示词:“户外营地灯在帐篷内生火堆旁,暖色调,低角度拍摄,摄影棚布光,产品清晰,背景虚化,8K”。 - 步数设为8,CFG=3.0,用一个“批量列表”节点(ComfyUI-MultiArea)循环生成不同背景。

实际生成速度:每张图耗时约8秒(批量时缓存二次提升)。我从下午2点工作到晚上7点,总共生成了大约400张图(其中一些是中间调整),最终保留了320张可用图片。相比之前Midjourney每次生成4张需要等待40秒且无法控制产品形态,效率提升了至少5倍。

遇到的两个坑及解决方法

坑1:Canny控制时产品边缘出现噪点。原因是ControlNet权重太高。我将权重从1.0降到0.65,同时提高canny阈值(从100提至200),解决了边缘锯齿问题。坑2:批量生成后半段显存溢出。原因是ComfyUI缓存了所有未使用的节点数据。我在工作流中手动添加一个“Free U-Net”节点(社区插件),每生成20张清理一次显存,之后再也没有报错。

对比测评:Flux vs Midjourney v6 vs Stable Diffusion 3.5

画质与细节:Flux的纹理质感如何超越对手

我用同一段提示词(“一件折叠好的灰色羊毛大衣,正面平铺,微距镜头,编织纹理可见”)测试了三个模型。Flux.1.2-dev(30步) 生成的毛衣纤维纹理清晰可见,甚至能看到羊毛纤维的自然卷曲,而Midjourney v6的纹理偏糊,像纯色布料加了一点噪点。SD3.5(Medium版本)的纹理表现不错,但在衣袖折叠处的阴影过渡生硬。结论:Flux在微距和材质质感上独占鳌头,尤其适合服装、食品、珠宝等需要展示纹理的场景。

文字渲染:Flux能写中文了,而Midjourney还在挣扎

拿prompt“一个公交车牌,上面写着‘人民广场站’,字体为标准黑体”测试。Flux生成的结果几乎完美,文字边缘锐利,字体风格匹配(尽管不是完美黑体但可辨识)。Midjourney v6生成了“人民广场”乱码,类似ChatGPT DALL-E 3早期的错误。SD3.5的文字渲染进步很大,但偶尔会出现笔画黏连。注意:Flux生成中文时,prompt中的中文字数不宜超过15个,且要明确提示“字体整齐清晰”,否则可能出现艺术变形。

速度与资源:Flux-schnell版是性价比之王

在RTX 4090上,Flux.1-schnell(8步)出图时间约1.2秒,与SDXL的快速模式相当,但画质接近Midjourney v6的中等细节水平。Midjourney v6的默认快速模式(5步)约需10秒,但此模式下画质粗糙,仍需额外Upscale。结合算力成本,Flux-schnell的每张图电费约0.002元,而Midjourney的订阅费摊分到每张图(假设每月生成500张)约0.06元。开源且本地运行的优势巨大,尤其对于需要保密的企业用户(如医疗、军工)。

进阶技巧:如何用Flux + DeepSeek进行文生图自动化脚本

利用DeepSeek-V3生成优化后的prompt

2026年最实用的组合拳是:用DeepSeek-V3(或其他大语言模型)写prompt,然后用Flux批量生成。DeepSeek-V3支持长上下文,可以理解你的产品参数并生成专业摄影术语。我在Python中写了一个简单脚本:

import requests
# 调用DeepSeek API(免费额度每天500次)
response = requests.post("https://api.deepseek.com/v1/chat/completions", 
    json={
        "model":"deepseek-chat",
        "messages":[{"role":"user","content":f"为{product_name}写一条高质量的Flux提示词,要求摄影棚布光、细节丰富,输出纯文本"}]
    })
prompt = response.json()["choices"][0]["message"]["content"]
# 然后交给Diffusers Flux pipeline

这样我只需输入“红色登山背包”,DeepSeek就会生成类似“A red hiking backpack with reinforced stitching and aluminum frame, studio lighting, softbox, 50mm lens, extreme detail”的prompt,比我自己写专业得多。

使用Cursor辅助搭建工作流

如果你对ComfyUI节点编程不熟悉,可以借助Cursor(AI IDE)来自动生成ComfyUI的工作流JSON。只需要描述你想要的节点,Cursor会根据ComfyUI的API生成对应的脚本。我试过让Cursor帮我写一个“批量放大+高清修复”的工作流,它直接输出了可导入的JSON,效率很高。

总结:Flux模型使用的终极建议与未来展望

核心总结:Flux适合谁,不适合谁

适合的群体:需要高画质、对文字渲染有要求、希望完全控制生成过程、有本地GPU(或愿意用云端)、做商业素材需要版权纯净的用户。不适合的群体:只有手机端操作、不愿意折腾环境配置、希望一键生成完美结果(Flux仍需调试)、对超现实幻想风格(如赛博朋克城市)有夸张需求——Midjourney在魔幻风格上依然领先。

2026下半年的趋势:Flux.2即将到来?

据Black Forest Labs官方博客透露,Flux.2(代号“Aura”)预计在2026年四季度推出,主要改进包括:原生支持视频生成(类似OpenAI Sora)、显存压缩技术(宣称8GB可运行Full Precision版)、以及更强大的多物体分离能力。目前社区已出现Flux.2测试版泄露(版本号0.1.1),我在本地测试发现,生成速度提升约30%,但偶尔会出现色彩溢出。建议普通用户继续使用稳定的Flux.1.2系列,等正式版发布后再升级。

最后的操作建议

  1. 永远先做schnell版快速验证:在投入高质量生成前,用4步schnell版看构图和颜色,满意再换dev版精细出图。
  2. 管理好模型文件:Flux的模型体积大,建议使用“软链接”/“symlink”将模型目录映射到固态硬盘(SSD)上,加载速度能快3倍。
  3. 关注社区:每周一更新ComfyUI最新版,同时关注“OpenArt”和“CivitAI”上的Flux工作流分享,很多防崩优化都来自民间。

常见问题

我的显卡只有4GB显存,能用Flux吗?

很难。即便使用fp8量化版,4GB也只能生成256×256分辨率,画质极差。建议使用云端服务,如Replicate(按张付费)或Hugging Face Spaces(免费,但每天限100次)。如果你的需求是仅测试,可以用Google Colab的免费T4 GPU(12GB显存),每月有100小时免费额度。

Flux模型可以在Photoshop插件里使用吗?

可以。2025年社区开发了Flux for Photoshop插件(名为“Aura Plugin”,需安装ComfyUI后端),可以在PS中直接调用本地Flux生成图像并自动选区。但该插件目前仅支持Windows,且需要额外安装Python环境。更简单的方式是用“ComfyUI-Photoshop”桥梁工具(开源项目),实现PS中的图层与ComfyUI节点互通。

为什么我用Flux生成的人物手指还是有问题?

2026年的Flux.1.2-dev在手指处理上已经非常优秀,但仍有约5%的失败率。建议在prompt中明确指定“five fingers, natural pose, hands not obscured”。如果问题频繁,可以使用Flux专用手部修复LoRA(搜索“flux_hand_fix”),应用后失败率降到1%以下。此外,生图后可以用“Adetailer”节点进行面部与手部修复(类似SD的After Detailer)。

我想用Flux生成视频,有方法吗?

Flux本身不支持视频生成,但2026年已有两个间接方案:1)AnimateDiff for Flux:社区移植了AnimateDiff到Flux上,可以实现短动画(5~10帧),但需要RTX 4090且每帧生成速度较慢;2)Runway Gen-3 AlphaPika 2.0作为替代,但它们是付费服务。如果不介意画质损失,可以将Flux生图序列用“Ebsynth”或“Flowframes”插帧成视频。

Flux与SD3.5的模型可以混用吗?比如同时加载?

技术上可以将两个模型的UNET同时加载到ComfyUI,但由于架构差异(Flux用旋转位置编码,SD用固定位置编码),同时运行时会出现兼容性错误。目前唯一可行的混合方案是:用SD3.5做ControlNet控制,用Flux做主体生成,但需要手工分割工作流(先由SD3.5生成一个latent图,再作为输入传给Flux的ControlNet)。这个操作复杂,仅推荐高级用户尝试。


本文所有数据截至2026年6月,硬件评测基于RTX 4090 24GB与RTX 3060 12GB平台。Flux为Black Forest Labs注册商标,ComfyUI为comfyanonymous开源项目。

Flux模型使用?2026最新完整教程与实操指南配图2
🎨

免费生成 AI 图片

输入文字描述,一键生成高质量图片。完全免费、无需注册、无需 API Key,打开即用。

✓ 文生图 ✓ 图生图 ✓ 1024p高清 ✓ 无限制
立即免费生成

常见问题

我的显卡只有4GB显存,能用Flux吗?

很难。即便使用fp8量化版,4GB也只能生成256×256分辨率,画质极差。建议使用云端服务,如Replicate(按张付费)或Hugging Face Spaces(免费,但每天限100次)。如果你的需求是仅测试,可以用Google Colab的免费T4 GPU(12GB显存),每月有100小时免费额度。

Flux模型可以在Photoshop插件里使用吗?

可以。2025年社区开发了Flux for Photoshop插件(名为“Aura Plugin”,需安装ComfyUI后端),可以在PS中直接调用本地Flux生成图像并自动选区。但该插件目前仅支持Windows,且需要额外安装Python环境。更简单的方式是用“ComfyUI-Photoshop”桥梁工具(开源项目),实现PS中的图层与ComfyUI节点互通。

为什么我用Flux生成的人物手指还是有问题?

2026年的Flux.1.2-dev在手指处理上已经非常优秀,但仍有约5%的失败率。建议在prompt中明确指定“five fingers, natural pose, hands not obscured”。如果问题频繁,可以使用Flux专用手部修复LoRA(搜索“flux_hand_fix”),应用后失败率降到1%以下。此外,生图后可以用“Adetailer”节点进行面部与手部修复(类似SD的After Detailer)。

我想用Flux生成视频,有方法吗?

Flux本身不支持视频生成,但2026年已有两个间接方案:1)AnimateDiff for Flux:社区移植了AnimateDiff到Flux上,可以实现短动画(5~10帧),但需要RTX 4090且每帧生成速度较慢;2)Runway Gen-3 AlphaPika 2.0作为替代,但它们是付费服务。如果不介意画质损失,可以将Flux生图序列用“Ebsynth”或“Flowframes”插帧成视频。

Flux与SD3.5的模型可以混用吗?比如同时加载?

技术上可以将两个模型的UNET同时加载到ComfyUI,但由于架构差异(Flux用旋转位置编码,SD用固定位置编码),同时运行时会出现兼容性错误。目前唯一可行的混合方案是:用SD3.5做ControlNet控制,用Flux做主体生成,但需要手工分割工作流(先由SD3.5生成一个latent图,再作为输入传给Flux的ControlNet)。这个操作复杂,仅推荐高级用户尝试。

本文所有数据截至2026年6月,硬件评测基于RTX 4090 24GB与RTX 3060 12GB平台。Flux为Black Forest Labs注册商标,ComfyUI为comfyanonymous开源项目。