Flux图像模型教程:超越SD和MJ的开源生图新选择,安装配置与参数详解
前言:为什么Flux值得关注
作为一个AI绘画爱好者,我见证了从DALL-E到Stable Diffusion再到Midjourney的每一次技术迭代。但2024年底Black Forest Labs发布的Flux模型,真正让我感到惊艳。这个由Stable Diffusion原班团队打造的新模型,在多个维度上实现了对前辈的超越。

到了2026年,Flux已经成为开源AI绘画领域的主流选择之一。它最大的优势在于:图像质量堪比Midjourney,但完全开源可控;文字渲染能力远超SD系列;提示词理解准确,不需要复杂的提示词工程。
如果你是AI绘画的新手,建议先看看这篇AI绘画应用推荐了解整体生态。如果你已经在用SD或MJ,那Flux绝对值得你花时间来学习。
一、Flux模型家族介绍
1.1 Black Forest Labs是谁
Black Forest Labs由Stable Diffusion的原始创建者Robin Rombach和其他核心成员于2024年创立。他们离开Stability AI后,带着对AI图像生成的深刻理解,打造了Flux这个全新架构的模型。
公司名字来自德国黑森林地区,代表了团队对精密工艺的追求。截至2026年,Black Forest Labs已经获得了数亿美元的融资,成为AI图像生成领域最重要的公司之一。
1.2 Flux模型版本对比
Flux目前有三个主要版本,各有不同的定位:
| 版本 | 参数量 | 许可证 | 生成速度 | 图像质量 | 适用场景 |
|---|---|---|---|---|---|
| Flux.1-pro | 120亿 | 商业API | 较快 | 最高 | 商业应用、高端需求 |
| Flux.1-dev | 120亿 | 非商业 | 中等 | 高 | 研究、个人创作 |
| Flux.1-schnell | 120亿 | Apache 2.0 | 最快 | 中高 | 商用项目、快速出图 |
版本选择建议:
- 个人学习和研究:选Flux.1-dev,质量最好
- 商业项目:选Flux.1-schnell,免费商用
- 不想折腾硬件:用Flux.1-pro的API服务
1.3 Flux vs Stable Diffusion vs Midjourney
这是我做了一个月的对比测试后的总结:
| 对比维度 | Flux.1-dev | SDXL | SD3 | Midjourney v6 |
|---|---|---|---|---|
| 图像质量 | 9.0/10 | 7.5/10 | 8.0/10 | 9.0/10 |
| 提示词理解 | 9.0/10 | 6.5/10 | 7.5/10 | 8.5/10 |
| 文字渲染 | 8.5/10 | 3.0/10 | 5.0/10 | 7.5/10 |
| 人体比例 | 9.0/10 | 6.0/10 | 7.5/10 | 8.5/10 |
| 生成速度 | 7.0/10 | 8.5/10 | 8.0/10 | 7.0/10 |
| 生态丰富度 | 6.5/10 | 9.5/10 | 6.0/10 | 7.0/10 |
| 开源程度 | 开源 | 开源 | 部分开源 | 闭源 |
| 硬件要求 | 高 | 中 | 中高 | 无需硬件 |
| 使用成本 | 免费 | 免费 | 免费 | 月付$10起 |
从表格可以看出,Flux在图像质量和提示词理解方面已经追平甚至超越了Midjourney,同时保持了开源的优势。不过SDXL的生态系统依然是最丰富的。如果你对SD感兴趣,可以看看这篇Stable Diffusion完整指南。
二、环境准备与安装
2.1 硬件要求
在开始安装之前,先确认你的硬件是否满足要求:
| 配置等级 | 显卡 | 显存 | 内存 | 硬盘 | 效果 |
|---|---|---|---|---|---|
| 最低配置 | GTX 1070 | 8GB | 16GB | 50GB | 需要量化,速度慢 |
| 推荐配置 | RTX 3060 | 12GB | 32GB | 100GB | 正常使用,速度适中 |
| 理想配置 | RTX 4090 | 24GB | 64GB | 200GB | 全精度运行,速度快 |
| 云端方案 | A100/H100 | 40-80GB | - | - | 最佳体验 |
硬盘空间说明:
- Flux.1-dev完整模型:约23GB
- Flux.1-schnell完整模型:约23GB
- FP8量化版本:约12GB
- T5-XXL文本编码器:约10GB
- CLIP文本编码器:约2GB
2.2 方案一:使用ComfyUI安装(推荐)
ComfyUI是目前运行Flux最推荐的界面,它的节点式工作流非常适合Flux的架构。
安装步骤:
第一步:安装ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
如果你已经安装了ComfyUI,确保更新到最新版本:
cd ComfyUI
git pull
pip install -r requirements.txt
第二步:下载Flux模型文件
从HuggingFace下载以下文件:
-
Flux模型权重(选择dev或schnell版本)
- 路径:
ComfyUI/models/unet/
- 路径:
-
T5-XXL文本编码器
- 路径:
ComfyUI/models/clip/
- 路径:
-
CLIP-L文本编码器
- 路径:
ComfyUI/models/clip/
- 路径:
-
VAE文件
- 路径:
ComfyUI/models/vae/
- 路径:
第三步:安装必要的自定义节点
cd ComfyUI/custom_nodes
git clone https://github.com/ltdrdata/ComfyUI-Manager.git
通过ComfyUI Manager安装以下节点:
- ComfyUI-FluxPipeline
- ComfyUI-GGUF(如果使用量化模型)
第四步:启动ComfyUI
cd ComfyUI
python main.py --listen 0.0.0.0 --port 8188
如果你需要更详细的ComfyUI教程,推荐看看这篇ComfyUI完整教程。
2.3 方案二:使用Forge UI安装
Forge UI是Automatic1111 WebUI的一个优化分支,对Flux的支持也比较好。
安装步骤:
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-webui-forge
Windows用户直接运行update.bat和run.bat。
将Flux模型文件放入models/Stable-diffusion/目录,启动后在模型选择下拉菜单中选择Flux。
2.4 方案三:使用Diffusers(Python开发)
如果你更喜欢用代码来控制生成过程,可以使用HuggingFace的Diffusers库:
from diffusers import FluxPipeline
import torch
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.bfloat16
)
pipe.to("cuda")
# 生成图像
image = pipe(
prompt="a cat sitting on a windowsill, photorealistic",
num_inference_steps=28,
guidance_scale=3.5,
width=1024,
height=1024
).images[0]
image.save("output.png")
2.5 云端方案:无需本地显卡
如果你没有高性能显卡,也有多种云端方案可以运行Flux:
| 平台 | 价格 | 特点 |
|---|---|---|
| Google Colab Pro | $10-50/月 | 简单易用,有免费额度 |
| RunPod | $0.2-0.7/小时 | 按需付费,灵活 |
| Vast.ai | $0.1-0.5/小时 | 最便宜的GPU租赁 |
| Replicate API | $0.003/张 | 按张付费,无需配置 |
| fal.ai | $0.003/张 | 速度快,API友好 |
三、核心参数详解
3.1 采样器(Sampler)选择
Flux对采样器的敏感度比SD低很多,大多数采样器都能得到不错的结果。
| 采样器 | 推荐指数 | 说明 |
|---|---|---|
| Euler | 推荐 | 默认选择,效果稳定 |
| Euler Ancestral | 推荐 | 细节更丰富 |
| DPM++ 2M | 可用 | 速度稍快 |
| DDIM | 可用 | 适合img2img |
我的建议: 直接用Euler就好,Flux不像SD那样对采样器那么敏感。
3.2 采样步数(Steps)
这是影响生成质量和速度的关键参数:
| 步数 | 质量 | 速度 | 适用场景 |
|---|---|---|---|
| 4-8步 | 一般 | 极快 | schnell版本快速预览 |
| 15-20步 | 良好 | 快 | 日常使用 |
| 25-30步 | 优秀 | 中等 | 推荐设置 |
| 40-50步 | 极佳 | 慢 | 高质量出图 |
推荐设置:
- Flux.1-dev:25-30步
- Flux.1-schnell:4-8步(专门优化了少步生成)
3.3 引导比例(Guidance Scale / CFG)
Flux使用了一种新的引导机制,和传统的CFG有所不同:
| 引导比例 | 效果 | 适用场景 |
|---|---|---|
| 1.0-2.0 | 创意性强,与提示词关联弱 | 艺术创作、探索 |
| 2.5-3.5 | 平衡创意和准确性 | 推荐默认值 |
| 4.0-5.0 | 严格遵循提示词 | 精确控制需求 |
| 7.0+ | 过度约束,可能失真 | 不推荐 |
重要区别: Flux.1-dev使用的guidance_scale通常在2.5-4.0之间效果最好,而SDXL通常需要7.0左右。Flux.1-schnell甚至不需要guidance(设为0即可)。
3.4 分辨率设置
Flux原生支持多种分辨率,不局限于正方形:
| 分辨率 | 宽高比 | 适用场景 |
|---|---|---|
| 1024x1024 | 1:1 | 社交媒体头像 |
| 1152x896 | 约4:3 | 通用场景 |
| 1344x768 | 16:9 | 横版壁纸、视频封面 |
| 768x1344 | 9:16 | 手机壁纸、短视频封面 |
| 896x1152 | 3:4 | 人像摄影风格 |
注意: Flux的总像素数建议控制在1024x1024=1M像素左右。过高的分辨率可能导致显存不足或生成质量下降。
3.5 提示词技巧
Flux的提示词理解和SD有很大不同:
Flux提示词的优势:
- 支持自然语言描述,不需要关键词堆砌
- 理解复杂的场景描述
- 能正确处理空间关系(左边、右边、前面、后面)
- 文字渲染能力强,可以直接指定文字内容
提示词示例:
好的提示词(自然语言风格):
"A young woman sitting in a cozy coffee shop, reading a book.
Warm afternoon light streams through the window. On the table
there's a cappuccino with a book titled 'The Art of AI'."
不好的提示词(SD风格关键词堆砌):
"woman, coffee shop, book, warm light, cappuccino,
masterpiece, best quality, 8k, highly detailed"
如果你想深入学习提示词技巧,可以参考这篇ChatGPT提示词技巧,虽然工具不同但提示词的底层逻辑是相通的。
四、Flux LoRA与模型微调
4.1 LoRA概述
LoRA(Low-Rank Adaptation)是Flux生态中最重要的扩展方式。通过LoRA,你可以:
- 训练特定风格的生成能力
- 添加特定人物或角色的面孔
- 实现特定的艺术效果
- 控制特定的构图方式
4.2 哪里获取Flux LoRA
截至2026年,主要的Flux LoRA来源:
| 平台 | LoRA数量 | 质量 | 特点 |
|---|---|---|---|
| Civitai | 5000+ | 高 | 社区最活跃,分类详细 |
| HuggingFace | 2000+ | 中高 | 学术和开源项目为主 |
| LibLib | 1000+ | 中高 | 中文社区,中文提示词友好 |
| Tensor.art | 800+ | 中 | 在线运行,免本地资源 |
4.3 使用LoRA的方法
在ComfyUI中使用Flux LoRA:
- 下载LoRA文件到
ComfyUI/models/loras/目录 - 在工作流中添加”Load LoRA”节点
- 连接LoRA节点到Flux模型
- 设置LoRA权重(通常0.5-1.0)
LoRA权重建议:
- 风格类LoRA:0.6-0.8(避免过度影响)
- 人物类LoRA:0.7-1.0(需要较高的还原度)
- 概念类LoRA:0.5-0.7(适度融合)
4.4 训练自己的LoRA
如果你想训练自己的Flux LoRA,推荐使用ai-toolkit或kohya_ss:
训练数据准备:
- 15-30张高质量图片
- 统一尺寸(512x512或768x768)
- 多角度、多光线、多背景
训练参数建议:
- 学习率:1e-4
- 训练步数:1000-3000
- 秩(Rank):16-32
- 批次大小:1-2(受限于显存)
训练一个基本的风格LoRA大约需要1-2小时(RTX 4090)。
五、Flux ControlNet与控制技术
5.1 ControlNet概述
ControlNet让你可以精确控制图像的结构、姿态和构图。Flux的ControlNet生态在2026年已经相当成熟。
5.2 可用的控制类型
| 控制类型 | 功能 | 适用场景 |
|---|---|---|
| Canny | 边缘检测控制 | 保持原始结构 |
| Depth | 深度图控制 | 空间关系控制 |
| OpenPose | 人体姿态控制 | 人物精确控制 |
| Lineart | 线稿控制 | 漫画/插画上色 |
| Scribble | 涂鸦控制 | 快速概念设计 |
| Normal | 法线图控制 | 3D转2D |
5.3 ControlNet使用步骤(ComfyUI)
- 下载Flux版本的ControlNet模型
- 放入
ComfyUI/models/controlnet/目录 - 加载控制图(姿态图、边缘图等)
- 添加Apply ControlNet节点
- 调整控制强度(通常0.5-0.8)
5.4 Flux Fill(局部重绘)
Flux的局部重绘(Inpainting)功能非常强大:
- 在ComfyUI中加载原图
- 用蒙版标记要修改的区域
- 输入描述修改内容的提示词
- Flux会自动生成与周围环境一致的新内容
适用场景:
- 修复人物手指问题
- 更换服装或配饰
- 修改背景元素
- 添加新的物体
六、高级工作流与批量生成
6.1 ComfyUI工作流优化
一个高效的Flux工作流应该包括:
文本编码器加载 → 提示词编码 → 噪声生成
↓ ↓
VAE加载 → 采样器 → 潜空间去噪 → VAE解码 → 图像输出
↑
模型加载
优化技巧:
- 使用FP8量化模型减少显存占用
- 开启模型缓存避免重复加载
- 使用批处理节点一次生成多张
- 设置自动保存路径和命名规则
6.2 批量生成策略
当你需要批量生成图片时(比如电商产品图、社交媒体内容):
方法一:提示词列表批量生成
准备一个CSV文件,包含所有提示词变体:
prompt,seed,filename
"red sports car on highway",42,car_red_01
"blue sports car on highway",42,car_blue_01
"white sports car on highway",42,car_white_01
方法二:种子遍历
固定提示词,遍历不同的随机种子,找到最满意的结果后再精调。
方法三:参数网格搜索
同时变化多个参数,找到最佳参数组合。
6.3 图像放大(Upscaling)
Flux生成的1024x1024图片可以通过以下方式放大:
| 方法 | 放大倍数 | 质量 | 速度 |
|---|---|---|---|
| ESRGAN | 2-4x | 高 | 快 |
| Flux img2img | 2x | 最高 | 慢 |
| Real-ESRGAN | 4x | 高 | 中等 |
| Topaz AI | 4x | 高 | 快 |
推荐工作流:
- 用Flux生成1024x1024基础图
- 用ESRGAN放大到2048x2048
- 用Flux img2img进行细节增强
- 最终输出4096x4096高清图
七、Flux在各领域的应用
7.1 电商产品图
Flux非常适合生成电商产品图:
- 白底产品图:干净的背景,专业的光影
- 场景化展示:产品在使用场景中的效果
- 模特穿搭:展示服装上身效果
7.2 社交媒体内容
- 小红书封面:3:4竖版构图
- 微信公众号头图:16:9横版
- 抖音/快手封面:9:16竖版
- B站封面:16:9横版
7.3 概念设计与原型
- 游戏概念图:角色、场景、道具
- 建筑可视化:室内效果图、建筑外观
- 产品原型:工业设计概念展示
7.4 创意广告
- 品牌海报:结合文字渲染能力
- 广告素材:快速生成多版本A/B测试
- 活动宣传:节日主题、促销素材
如果你想用AI工具做电商,可以参考这篇AI电商工具指南,里面有更多关于AI在电商领域的应用。
八、Flux图像后期处理与工作流整合
8.1 后期处理工具推荐
Flux生成的图像虽然质量很高,但适当的后期处理能让作品更上一层楼。我常用的后期处理工具包括:
| 工具 | 用途 | 价格 | 推荐度 |
|---|---|---|---|
| Photoshop | 精细修图和合成 | 订阅制 | 必备 |
| Lightroom | 批量调色 | 订阅制 | 推荐 |
| Topaz Photo AI | AI放大和降噪 | 一次购买 | 强烈推荐 |
| GIMP | 免费替代PS | 免费 | 可选 |
| DaVinci Resolve | 视频调色 | 免费/付费 | 视频用户推荐 |
8.2 从Flux到成品的完整流程
我以制作一张商业海报为例,展示完整的工作流:
- 概念阶段:用Flux schnell版本快速生成多个概念(4步,快速预览)
- 选定方向:确定最满意的概念方向
- 精细生成:用Flux dev版本,30步高质量生成
- 局部修正:用Flux Fill修复不满意的部分(手指、文字等)
- 放大处理:用ESRGAN放大到印刷分辨率
- 后期调色:在Photoshop中进行最终调色和排版
- 文字添加:手动添加标题和文案(Flux文字渲染虽有提升但仍建议手动)
8.3 批量生产工作流
对于需要大量素材的场景(比如电商产品图),我建立了这样的批量生产流程:
- 准备CSV文件,包含所有产品的描述和参数
- 用Python脚本调用ComfyUI API批量生成
- 自动保存结果并按产品名命名
- 用脚本批量放大到目标尺寸
- 最终人工审核和微调
这个流程一天可以生产数百张高质量产品图,效率是传统摄影的十倍以上。如果你想用AI工具提升工作效率,可以看看这篇提效工具合集。
8.4 常见问题与性能优化
显存不足怎么办
| 解决方案 | 效果 | 代价 |
|---|---|---|
| 使用FP8量化 | 显存减半 | 质量轻微下降 |
| 使用GGUF量化 | 显存减60% | 速度变慢 |
| 降低分辨率 | 显存线性减少 | 图像变小 |
| 开启模型分块 | 可用低显存卡 | 速度显著下降 |
| 使用云端GPU | 无限制 | 需要付费 |
8.2 生成速度慢怎么优化
- 使用Flux.1-schnell代替dev版本
- 减少采样步数(20步通常足够)
- 使用更高效的采样器
- 开启torch.compile加速
- 升级显卡或使用云端方案
8.3 图像质量问题排查
| 问题 | 可能原因 | 解决方案 |
|---|---|---|
| 模糊不清 | 步数太少 | 增加到25步以上 |
| 颜色失真 | VAE问题 | 检查VAE是否正确加载 |
| 提示词不遵循 | CFG太低 | 提高guidance scale |
| 人体变形 | 模型限制 | 使用ControlNet修正 |
| 文字乱码 | 提示词问题 | 用引号包裹文字内容 |
九、Flux生态展望
9.1 2026年的发展趋势
Flux生态在2026年有几个值得关注的方向:
- 更多LoRA和控制模型:社区不断贡献新的扩展
- 视频生成:Flux团队正在研发视频模型
- 3D生成:从2D到3D的扩展
- 移动端部署:更激进的量化方案
- 实时生成:LCM等技术让生成接近实时
9.2 与其他工具的结合
Flux可以和很多工具形成强大的工作流:
- Flux + Photoshop:AI生成 + 精细后期
- Flux + Blender:AI概念 + 3D实现
- Flux + After Effects:AI素材 + 动态合成
- Flux + AI视频生成工具:静态图 + 动态视频
十、总结与建议
Flux代表了开源AI图像生成的新高度。它在保持开源可控的同时,达到了接近甚至超越Midjourney的图像质量。对于认真做AI绘画的人来说,Flux是2026年最值得投入时间的模型。
我的学习路径建议:
- 先用在线平台体验Flux的效果(Tensor.art、Replicate)
- 本地安装ComfyUI,跑通基础工作流
- 掌握参数调优,理解每个参数的影响
- 学习使用LoRA,扩展生成能力
- 掌握ControlNet,实现精确控制
- 构建自己的高效工作流
如果你想系统学习AI工具,推荐看看我的AI工具合集和Midjourney使用指南,和本文形成互补。
希望这篇Flux教程能帮你快速上手这个强大的AI图像生成模型。如果有任何问题,欢迎留言讨论!