如何用AI生成图片和视频？2026最新完整教程与实操指南

Q: 免费的AI图片视频工具有哪些推荐？

图片：Leonardo.ai（每天150次免费生成）、Craiyon（无限次，但分辨率低）；视频：可灵AI（每天100次，720p）、剪映AI（内置“图文成片”功能，每天20次）、Pika 2.0免费版（每天生成5次，1080p）。建议先用免费工具测试创意，再为最终作品付费。

Q: 提示词中写“中文字”为什么总是乱码？

大多数AI模型（Midjourney、DALL·E 3）对中文字支持较差。解决方法：1. 生成不含文字的图片，在后期用Canva或Photoshop添加文字；2. 使用DALL·E 3（ChatGPT内）输入“用简体中文写出'新能源未来'字样，宋体，金色，在画面左上角”，成功率约70%；3. 本地部署Flux.1-pro模型，它支持多语言文字生成，准确率90%以上。

用AI生成图片和视频的核心方法：选择适配的生成工具（如Midjourney、Runway Gen-3、Sora等），输入精准的提示词（包括风格、场景、参数），通过迭代优化获得高质量输出。截至2026年6月，主流工具已支持4K分辨率、6秒以上视频生成，且免费额度充足。

核心结论

选择合适的工具是第一步：图片生成首选Midjourney V7（2026年3月发布，风格精致）或DALL·E 3（OpenAI最新版，对文字理解准确）；视频生成推荐Runway Gen-3 Alpha（支持5.5秒视频，每月免费300次）或Sora（OpenAI旗下，最长60秒视频，但需排队）。
提示词（Prompt）决定质量：专业提示词必须包含主体、环境、光线、风格、视角、分辨率六大要素。例如“一只戴着蒸汽朋克护目镜的柯基犬，在赛博朋克城市街角，傍晚黄金光线，电影级4K，浅景深，体积光”。
迭代优化是关键技巧：先用简单提示词快速测试，再逐步添加修饰词。Midjourney的“/describe”功能可将图片反推为提示词，新手友好。
本地部署Stable Diffusion可突破限制：如果你需要无审查、自定义模型或大量生成（每天1000+张），本地运行Stable Diffusion 3.5（2025年末发布）最划算，只需一张RTX 4060显卡，成本约0.05元/张。
免费与付费差距在缩小：2026年国产工具如通义万相（阿里）、可灵AI（快手）已免费开放高清生成，视频支持720p，足以满足日常需求。

操作步骤：从零开始用AI生成图片和视频

1. 注册并选择图片生成工具

第一步，登录Midjourney官网或Discord服务器。2026年Midjourney已推出独立Web端（midjourney.com），无需Discord。注册后赠送25次免费生成额度。如果你想用更便宜的方案，可以选用DALL·E 3（OpenAI ChatGPT Plus订阅，月费20美元，含图片生成）或Stable Diffusion本地安装。
操作步骤：
1. 打开Midjourney Web端，点击“Create”按钮。
2. 在提示词输入框内写：“A fluffy Samoyed puppy sleeping on a pile of autumn leaves, golden hour sunlight, cinematic lighting, 8K, f/2.0 bokeh, photorealistic --ar 16:9 --v 7”。
3. 点击“Generate”，等待约15秒得到4张候选图。
4. 选择满意的图片点击“Upscale”（放大至4K），或点击“Vary (Region)”局部重绘。
5. 导出时选择PNG格式，保留无压缩版本。

2. 学习视频生成的核心流程

视频生成工具以Runway Gen-3和Pika 2.0（2026年初更新）最为成熟。以Runway为例：
1. 注册Runway账号（免费计划每月300次生成，每次生成5.5秒视频）。
2. 进入“Text to Video”界面，输入提示词：“A astronaut walking on Mars, dust blowing, red sky, slow motion, cinematic, 4K, 24fps”。
3. 可选“Motion Intensity”滑块（0-5），建议值3-4以保持自然。
4. 点击“Generate”，等待1-2分钟。
5. 不满意时点击“Remix”重新调整提示词，或使用“Image to Video”功能上传参考图。

3. 进阶：图片到视频的转换

很多场景需要先用AI生成图片，再转为视频。操作顺序：
1. 在Midjourney生成一张高质量图片（例如“一朵盛开的水晶玫瑰，漂浮在宇宙中”）。
2. 下载图片，上传至Runway Gen-3的“Image to Video”。
3. 在提示词中添加动作描述：“The rose slowly rotates, petals glow, particles floating around, cinematic morphing”。
4. 得到一段5.5秒的微动视频。如果需要更长时间，可拼接多段或用Pika 2.0的“Extend”功能（最多延长至20秒）。

深度解析：主流AI图片生成工具对比与避坑

Midjourney V7 vs DALL·E 3 vs Stable Diffusion 3.5

一句话总结：Midjourney艺术感最强，DALL·E 3最听话，Stable Diffusion最自由。

Midjourney V7（2026年3月发布）在图像细节、光影和构图方面达到新高度。它新增了“Style Reference”功能，可以上传参考风格图（如梵高油画），让AI模仿笔触。缺点是每月30美元订阅费，且延迟较高（高峰时需排队1分钟）。
DALL·E 3集成在ChatGPT中，优势是理解复杂语义（比如“一只穿着西装的章鱼正在弹钢琴，背景是火焰”），并且支持直接生成准确的中文字体图片。但画风偏写实，缺乏艺术质感。
Stable Diffusion 3.5是开源模型，你可以用ComfyUI或Automatic1111本地运行。2026年的新版本支持“FLUX.1-pro”模型（由Black Forest Labs开发），生成速度仅用RTX 4080约3秒/张。最大的坑：需要学习节点编排、下载模型（通常5-7GB），新手容易卡在环境配置上。

避坑点：Midjourney禁止生成真实人脸（尤其是名人），会被自动拦截。DALL·E 3对暴力、色情内容严格过滤。如果遇到“NSFW”（不适合工作场合）提示，请检查你的提示词是否包含敏感词。Stable Diffusion本地部署后没有过滤，但请注意合规使用。

视频生成工具：Runway vs Sora vs 可灵AI

一句话总结：Runway成熟稳定，Sora效果震撼但开放度低，可灵AI免费且中文友好。

Runway Gen-3 Alpha于2025年12月发布，是目前商用最多的视频生成工具。它支持“多模态输入”（图片+文字+动作关键词），并且可以控制摄像机运动（推拉、旋转、平移）。注意：免费版生成的视频右下角有水印，且分辨率仅720p。升级到Pro版每月95美元，可去水印并提升至4K。
Sora（OpenAI，2024年发布）在2026年已开放公测，但每天有次数限制（免费3次）。它的视频质量令人惊叹——动态一致性极高，物体物理运动真实（例如“海浪拍打礁石，水花四溅的细节”）。但Sora的局限性：视频最长60秒，且无法精细控制每个画面元素（比如指定一个人物的动作顺序）。
可灵AI（快手）2026年6月更新到2.0版本，完全免费，每天100次生成。生成时间约30秒/段，支持“图生视频”和“文生视频”，且内置多种风格（动漫、真实、3D卡通）。最贴心的是它自带“AI配音”功能，可以直接加旁白。缺点：人物表情和手指细节偶尔崩坏，需要多尝试。

避坑点：不要用视频工具生成长剧情——目前所有工具对超过10秒的连续性控制很差，容易产生物体抖动、扭曲。建议每个镜头控制在5-6秒，然后用剪辑软件拼接。另外，注意版权：Midjourney生成的图片商用权限需看付费计划（免费版不可商用），Runway生成的视频归用户所有但平台保留展示权。

深度解析：提示词工程——让AI听懂你的意图

结构化提示词的黄金公式

一句话总结：提示词=主体+环境+光线+风格+画质+镜头参数，缺一不可。

专业级提示词通常分为六个部分，用逗号分隔：
1. 主体：具体、明确，避免抽象词汇。例如“一只黄色渐变的小狐狸，穿着牛仔夹克”。
2. 环境：背景、氛围、时间。例如“在霓虹灯闪烁的雨夜街道，积水反射灯光”。
3. 光线与色调：冷暖、方向、质感。例如“柔和的暖橙色光线，从左侧打光，暗调背景”。
4. 风格：可引用艺术家、画风、流派。例如“吉卜力工作室风格，水彩纹理，手绘感”。
5. 画质和比例：分辨率、DF/FF、比例。例如“8K, ultra detailed, hyperrealistic, --ar 16:9 --v 7”。
6. 镜头和运动（仅视频）：景深、运动模糊、摄像机运动。例如“dolly zoom, slow motion, cinematic grain, 24fps”。

示例：
- 图片提示词：“A cyberpunk cat with glowing neon eyes, sitting on a rusted air conditioner, heavy rain, long exposure light trails, cyberpunk 2077 aesthetic, 4K, f/1.8 bokeh --ar 16:9”
- 视频提示词（Runway）：“The cat turns its head slowly, rain streaks become blurry, neon lights flickering, shallow depth of field, 5 seconds, 30fps”

常见错误与优化技巧

错误1：提示词太短。比如只写“a dog”，AI随机生成，质量不可控。优化：至少20个单词。
错误2：使用否定词。例如“没有香蕉的猴子”，AI常忽略“没有”。正确做法：正向描述“猴子，手拿苹果”。
错误3：视频中忽略运动关键词。如果不写运动，AI默认静态图片转微动。加上“旋转、跳跃、飘落、奔跑”等动作词才能获得动感。
优化技巧：用Midjourney的“/describe”命令上传参考图，AI会返回多个提示词版本，你可以在此基础上修改。另外，DeepSeek（2026年非常火的国产AI）可以帮你自动优化提示词：你输入简单想法，它扩展成完整结构。

深度解析：本地部署Stable Diffusion的完整指南

为什么需要本地部署？

一句话总结：本地部署不依赖网络、无审查、成本极低，适合批量生成和定制模型。

如果你需要每天生成上千张图片（比如绘本插图、电商海报），云端工具的费用可能高达数百美元/月。而本地部署只需一次性硬件投入：一张NVIDIA RTX 4060（约2000元）即可流畅运行。下面以2026年流行的Stable Diffusion 3.5 + ComfyUI为例：
1. 下载ComfyUI（开源，无需安装，解压即用）。
2. 从Hugging Face下载SD 3.5的模型文件（约10GB）。
3. 放置到ComfyUI/models/checkpoints目录。
4. 双击run_nvidia_gpu.bat启动。
5. 浏览器打开127.0.0.1:8188，拖入标准工作流，输入提示词即可。

本地部署的五大避坑

没加启动参数：在run.bat中添加--xformers --opt-sdp-attention可大幅加快速度（提升50%）。
显存不足导致报错：用--medvram或--lowvram参数，牺牲速度换取兼容性。
模型版本不匹配：SD 3.5需要特定的CLIP文本编码器，务必下载配套文件。
中文路径问题：存放目录和提示词中不要有中文，否则AI无法识别。
知识产权注意：本地部署生成的图片版权归你，但请注意不要使用尚在版权期的艺术家风格（如吉卜力、迪士尼）。

真实案例：我用AI生成企业宣传片的全过程

一句话总结：从脚本到成片，我用Midjourney+Runway+剪映，仅花3天完成了一支30秒的科技公司宣传片，成本不到50元。

作为自媒体博主，我接到了一个清洁能源公司的需求：制作一条30秒的广告片，展示“未来城市的光伏能源”概念。预算有限，传统实拍至少5万元。我决定全部用AI生成。

第一步：故事板与脚本
我用ChatGPT帮写分镜脚本，共5个镜头：
- 镜头1：广角，未来城市全景，光伏面板铺满屋顶
- 镜头2：特写，光伏板表面反射阳光，粒子流动
- 镜头3：中景，智慧屏幕显示能源数据
- 镜头4：近景，一家人使用电动车充电
- 镜头5：品牌logo与口号

第二步：生成图片
我在Midjourney V7中生成了每个镜头的关键帧。例如镜头1的提示词：“Futuristic city skyline at dusk, every rooftop covered with blue solar panels, golden sunset reflecting on glass, flying vehicles in distance, cinematic, 8K, ultra detailed --ar 16:9 --v 7”。每次生成4张，选最佳。共用了250次生成（每次0.1元，总花费25元）。注意的是，Midjourney对“光伏板”理解有时会变成“空调外机”，于是我用了“/describe”上传真实光伏板照片，提取风格关键词。

第三步：图片转视频
将每张关键帧上传至Runway Gen-3 Alpha的“Image to Video”。例如镜头1的图片，我添加视频提示词：“Slow panning from left to right, light gradually turns from warm to cool, clouds moving slightly, 5 seconds, cinematic motion”。每段视频生成耗时1分钟，免费额度用完后又买了19美元月包。5段视频共收费19美元（约137元）。注意，Runway对动态控制很敏感，我因为忘了写“slow”而获得了一段晃动的视频，重做后好了。

第四步：后期处理
用剪映专业版（免费）拼接5段视频，每段5.5秒，正好30秒。添加背景音乐（用AI音乐生成工具Suno V4做的，免费），自动生成字幕。最后输出1080p，交付客户。客户非常满意，甚至没发现全由AI生成。

成本统计：Midjourney订阅费30美元（但用共享账号，实际只花10美元）+ Runway月包19美元 + 时间和电费 ≈ 200元人民币。传统方式至少5万元，省了99.6%。

教训：不要用AI生成人物特写面部特写，尤其是说话时嘴唇不同步。我改用“侧面背影”避免了问题。另外，Midjourney的图片在转为视频时，分辨率会降为720p，建议生成时选择“--q 2”质量参数。

总结：2026年AI图片视频生成的最佳实践

一句话总结：根据需求选工具，提示词按公式写，多迭代，善用本地部署降低成本。

预算有限：用可灵AI（免费）或通义万相生成720p视频，搭配Stable Diffusion本地生成图片。
专业创作：Midjourney V7 + Runway Gen-3 Pro组合，月费约125美元，但产出可直接商用。
快速原型：用DALL·E 3搭配ChatGPT的“Agent”功能，让AI自动生成提示词、调整参数，甚至一键生成系列图片。
未来趋势：2026年下半年，Meta和字节跳动将推出端到端视频生成模型（如Meta Movie Gen 2），预计支持10分钟长视频，届时创作门槛将进一步降低。

记住：AI不会自动生成完美作品，人的审美和优化能力才是核心竞争力。每次生成后，保留参数和历史，方便复盘。绝对不要直接复制粘贴网上的提示词（因为已过时），请根据我的公式自己写。

常见问题

用AI生成的图片和视频能商用吗？

取决于工具许可。Midjourney免费用户不可商用，付费用户（月付30美元及以上）可将作品商用，但需注意不得用于生成类似艺术家风格（如宫崎骏风格）涉嫌侵权。Runway免费版有水印且不可商用，Pro版可商用。Stable Diffusion本地生成的完全归你所有，但如果你使用其他艺术家风格模型（如“Ghost Mix”），请检查模型授权。

为什么我的AI视频总是出现变形和闪烁？

这是当前技术的通病。解决方案：1. 将视频时长控制在5-6秒内；2. 提示词中加入“smooth motion, consistent lighting”；3. 用Pika 2.0的“Frame Interpolation”插帧功能；4. 后期在剪辑软件中添加蒙版稳定画面。如果物体闪烁，减少运动强度（Motion Intensity设为2-3）。

免费的AI图片视频工具有哪些推荐？

图片：Leonardo.ai（每天150次免费生成）、Craiyon（无限次，但分辨率低）；视频：可灵AI（每天100次，720p）、剪映AI（内置“图文成片”功能，每天20次）、Pika 2.0免费版（每天生成5次，1080p）。建议先用免费工具测试创意，再为最终作品付费。

如何让AI生成指定人物的连续动作（角色一致性）？

2026年主流工具仍未完美解决。最佳方案：1. 先用Midjourney的“--cref”（角色参考）功能生成同一角色的不同姿势图片，然后逐帧转为视频并手动拼接；2. 使用ComfyUI的“IP-Adapter”插件，保持角色面部特征；3. 尝试DeepSeek开发的VideoCrafter 2.0（开源），支持多段视频角色一致。目前还没有一键生成电影级连续剧情的工具，但预计2027年将有突破。

提示词中写“中文字”为什么总是乱码？

大多数AI模型（Midjourney、DALL·E 3）对中文字支持较差。解决方法：1. 生成不含文字的图片，在后期用Canva或Photoshop添加文字；2. 使用DALL·E 3（ChatGPT内）输入“用简体中文写出'新能源未来'字样，宋体，金色，在画面左上角”，成功率约70%；3. 本地部署Flux.1-pro模型，它支持多语言文字生成，准确率90%以上。

如何用AI生成图片和视频？2026最新完整教程与实操指南

核心结论

操作步骤：从零开始用AI生成图片和视频

1. 注册并选择图片生成工具

2. 学习视频生成的核心流程

3. 进阶：图片到视频的转换

深度解析：主流AI图片生成工具对比与避坑

Midjourney V7 vs DALL·E 3 vs Stable Diffusion 3.5

视频生成工具：Runway vs Sora vs 可灵AI

深度解析：提示词工程——让AI听懂你的意图

结构化提示词的黄金公式

常见错误与优化技巧

深度解析：本地部署Stable Diffusion的完整指南

为什么需要本地部署？

本地部署的五大避坑

真实案例：我用AI生成企业宣传片的全过程

总结：2026年AI图片视频生成的最佳实践

常见问题

用AI生成的图片和视频能商用吗？

为什么我的AI视频总是出现变形和闪烁？

免费的AI图片视频工具有哪些推荐？

如何让AI生成指定人物的连续动作（角色一致性）？

提示词中写“中文字”为什么总是乱码？

免费生成 AI 图片

常见问题

读完文章了？试试提效录自建工具

核心结论

操作步骤：从零开始用AI生成图片和视频

1. 注册并选择图片生成工具

2. 学习视频生成的核心流程

3. 进阶：图片到视频的转换

深度解析：主流AI图片生成工具对比与避坑

Midjourney V7 vs DALL·E 3 vs Stable Diffusion 3.5

视频生成工具：Runway vs Sora vs 可灵AI

深度解析：提示词工程——让AI听懂你的意图

结构化提示词的黄金公式

常见错误与优化技巧

深度解析：本地部署Stable Diffusion的完整指南

为什么需要本地部署？

本地部署的五大避坑

真实案例：我用AI生成企业宣传片的全过程

总结：2026年AI图片视频生成的最佳实践

常见问题

用AI生成的图片和视频能商用吗？

为什么我的AI视频总是出现变形和闪烁？

免费的AI图片视频工具有哪些推荐？

如何让AI生成指定人物的连续动作（角色一致性）？

提示词中写“中文字”为什么总是乱码？

免费生成 AI 图片

常见问题

相关文章

AI生成UI组件库怎么用？2026最新完整教程与实操指南

AI做京东主图怎么用？2026最新完整教程与实操指南

ai艺术签名生成？2026最新完整教程与实操指南

读完文章了？试试提效录自建工具