如何用AI生成图片和视频?2026最新完整教程与实操指南

用AI生成图片和视频的核心方法:选择适配的生成工具(如Midjourney、Runway Gen-3、Sora等),输入精准的提示词(包括风格、场景、参数),通过迭代优化获得高质量输出。截至2026年6月,主流工具已支持4K分辨率、6秒以上视频生成,且免费额度充足。
核心结论
- 选择合适的工具是第一步:图片生成首选Midjourney V7(2026年3月发布,风格精致)或DALL·E 3(OpenAI最新版,对文字理解准确);视频生成推荐Runway Gen-3 Alpha(支持5.5秒视频,每月免费300次)或Sora(OpenAI旗下,最长60秒视频,但需排队)。
- 提示词(Prompt)决定质量:专业提示词必须包含主体、环境、光线、风格、视角、分辨率六大要素。例如“一只戴着蒸汽朋克护目镜的柯基犬,在赛博朋克城市街角,傍晚黄金光线,电影级4K,浅景深,体积光”。
- 迭代优化是关键技巧:先用简单提示词快速测试,再逐步添加修饰词。Midjourney的“/describe”功能可将图片反推为提示词,新手友好。
- 本地部署Stable Diffusion可突破限制:如果你需要无审查、自定义模型或大量生成(每天1000+张),本地运行Stable Diffusion 3.5(2025年末发布)最划算,只需一张RTX 4060显卡,成本约0.05元/张。
- 免费与付费差距在缩小:2026年国产工具如通义万相(阿里)、可灵AI(快手)已免费开放高清生成,视频支持720p,足以满足日常需求。
操作步骤:从零开始用AI生成图片和视频
1. 注册并选择图片生成工具
第一步,登录Midjourney官网或Discord服务器。2026年Midjourney已推出独立Web端(midjourney.com),无需Discord。注册后赠送25次免费生成额度。如果你想用更便宜的方案,可以选用DALL·E 3(OpenAI ChatGPT Plus订阅,月费20美元,含图片生成)或Stable Diffusion本地安装。
操作步骤:
1. 打开Midjourney Web端,点击“Create”按钮。
2. 在提示词输入框内写:“A fluffy Samoyed puppy sleeping on a pile of autumn leaves, golden hour sunlight, cinematic lighting, 8K, f/2.0 bokeh, photorealistic --ar 16:9 --v 7”。
3. 点击“Generate”,等待约15秒得到4张候选图。
4. 选择满意的图片点击“Upscale”(放大至4K),或点击“Vary (Region)”局部重绘。
5. 导出时选择PNG格式,保留无压缩版本。
2. 学习视频生成的核心流程
视频生成工具以Runway Gen-3和Pika 2.0(2026年初更新)最为成熟。以Runway为例:
1. 注册Runway账号(免费计划每月300次生成,每次生成5.5秒视频)。
2. 进入“Text to Video”界面,输入提示词:“A astronaut walking on Mars, dust blowing, red sky, slow motion, cinematic, 4K, 24fps”。
3. 可选“Motion Intensity”滑块(0-5),建议值3-4以保持自然。
4. 点击“Generate”,等待1-2分钟。
5. 不满意时点击“Remix”重新调整提示词,或使用“Image to Video”功能上传参考图。
3. 进阶:图片到视频的转换
很多场景需要先用AI生成图片,再转为视频。操作顺序:
1. 在Midjourney生成一张高质量图片(例如“一朵盛开的水晶玫瑰,漂浮在宇宙中”)。
2. 下载图片,上传至Runway Gen-3的“Image to Video”。
3. 在提示词中添加动作描述:“The rose slowly rotates, petals glow, particles floating around, cinematic morphing”。
4. 得到一段5.5秒的微动视频。如果需要更长时间,可拼接多段或用Pika 2.0的“Extend”功能(最多延长至20秒)。
深度解析:主流AI图片生成工具对比与避坑
Midjourney V7 vs DALL·E 3 vs Stable Diffusion 3.5
一句话总结:Midjourney艺术感最强,DALL·E 3最听话,Stable Diffusion最自由。
- Midjourney V7(2026年3月发布)在图像细节、光影和构图方面达到新高度。它新增了“Style Reference”功能,可以上传参考风格图(如梵高油画),让AI模仿笔触。缺点是每月30美元订阅费,且延迟较高(高峰时需排队1分钟)。
- DALL·E 3集成在ChatGPT中,优势是理解复杂语义(比如“一只穿着西装的章鱼正在弹钢琴,背景是火焰”),并且支持直接生成准确的中文字体图片。但画风偏写实,缺乏艺术质感。
- Stable Diffusion 3.5是开源模型,你可以用ComfyUI或Automatic1111本地运行。2026年的新版本支持“FLUX.1-pro”模型(由Black Forest Labs开发),生成速度仅用RTX 4080约3秒/张。最大的坑:需要学习节点编排、下载模型(通常5-7GB),新手容易卡在环境配置上。
避坑点:Midjourney禁止生成真实人脸(尤其是名人),会被自动拦截。DALL·E 3对暴力、色情内容严格过滤。如果遇到“NSFW”(不适合工作场合)提示,请检查你的提示词是否包含敏感词。Stable Diffusion本地部署后没有过滤,但请注意合规使用。
视频生成工具:Runway vs Sora vs 可灵AI
一句话总结:Runway成熟稳定,Sora效果震撼但开放度低,可灵AI免费且中文友好。
- Runway Gen-3 Alpha于2025年12月发布,是目前商用最多的视频生成工具。它支持“多模态输入”(图片+文字+动作关键词),并且可以控制摄像机运动(推拉、旋转、平移)。注意:免费版生成的视频右下角有水印,且分辨率仅720p。升级到Pro版每月95美元,可去水印并提升至4K。
- Sora(OpenAI,2024年发布)在2026年已开放公测,但每天有次数限制(免费3次)。它的视频质量令人惊叹——动态一致性极高,物体物理运动真实(例如“海浪拍打礁石,水花四溅的细节”)。但Sora的局限性:视频最长60秒,且无法精细控制每个画面元素(比如指定一个人物的动作顺序)。
- 可灵AI(快手)2026年6月更新到2.0版本,完全免费,每天100次生成。生成时间约30秒/段,支持“图生视频”和“文生视频”,且内置多种风格(动漫、真实、3D卡通)。最贴心的是它自带“AI配音”功能,可以直接加旁白。缺点:人物表情和手指细节偶尔崩坏,需要多尝试。
避坑点:不要用视频工具生成长剧情——目前所有工具对超过10秒的连续性控制很差,容易产生物体抖动、扭曲。建议每个镜头控制在5-6秒,然后用剪辑软件拼接。另外,注意版权:Midjourney生成的图片商用权限需看付费计划(免费版不可商用),Runway生成的视频归用户所有但平台保留展示权。
深度解析:提示词工程——让AI听懂你的意图
结构化提示词的黄金公式
一句话总结:提示词=主体+环境+光线+风格+画质+镜头参数,缺一不可。
专业级提示词通常分为六个部分,用逗号分隔:
1. 主体:具体、明确,避免抽象词汇。例如“一只黄色渐变的小狐狸,穿着牛仔夹克”。
2. 环境:背景、氛围、时间。例如“在霓虹灯闪烁的雨夜街道,积水反射灯光”。
3. 光线与色调:冷暖、方向、质感。例如“柔和的暖橙色光线,从左侧打光,暗调背景”。
4. 风格:可引用艺术家、画风、流派。例如“吉卜力工作室风格,水彩纹理,手绘感”。
5. 画质和比例:分辨率、DF/FF、比例。例如“8K, ultra detailed, hyperrealistic, --ar 16:9 --v 7”。
6. 镜头和运动(仅视频):景深、运动模糊、摄像机运动。例如“dolly zoom, slow motion, cinematic grain, 24fps”。
示例:
- 图片提示词:“A cyberpunk cat with glowing neon eyes, sitting on a rusted air conditioner, heavy rain, long exposure light trails, cyberpunk 2077 aesthetic, 4K, f/1.8 bokeh --ar 16:9”
- 视频提示词(Runway):“The cat turns its head slowly, rain streaks become blurry, neon lights flickering, shallow depth of field, 5 seconds, 30fps”
常见错误与优化技巧
错误1:提示词太短。比如只写“a dog”,AI随机生成,质量不可控。优化:至少20个单词。
错误2:使用否定词。例如“没有香蕉的猴子”,AI常忽略“没有”。正确做法:正向描述“猴子,手拿苹果”。
错误3:视频中忽略运动关键词。如果不写运动,AI默认静态图片转微动。加上“旋转、跳跃、飘落、奔跑”等动作词才能获得动感。
优化技巧:用Midjourney的“/describe”命令上传参考图,AI会返回多个提示词版本,你可以在此基础上修改。另外,DeepSeek(2026年非常火的国产AI)可以帮你自动优化提示词:你输入简单想法,它扩展成完整结构。
深度解析:本地部署Stable Diffusion的完整指南
为什么需要本地部署?
一句话总结:本地部署不依赖网络、无审查、成本极低,适合批量生成和定制模型。
如果你需要每天生成上千张图片(比如绘本插图、电商海报),云端工具的费用可能高达数百美元/月。而本地部署只需一次性硬件投入:一张NVIDIA RTX 4060(约2000元)即可流畅运行。下面以2026年流行的Stable Diffusion 3.5 + ComfyUI为例:
1. 下载ComfyUI(开源,无需安装,解压即用)。
2. 从Hugging Face下载SD 3.5的模型文件(约10GB)。
3. 放置到ComfyUI/models/checkpoints目录。
4. 双击run_nvidia_gpu.bat启动。
5. 浏览器打开127.0.0.1:8188,拖入标准工作流,输入提示词即可。
本地部署的五大避坑
- 没加启动参数:在
run.bat中添加--xformers --opt-sdp-attention可大幅加快速度(提升50%)。 - 显存不足导致报错:用
--medvram或--lowvram参数,牺牲速度换取兼容性。 - 模型版本不匹配:SD 3.5需要特定的CLIP文本编码器,务必下载配套文件。
- 中文路径问题:存放目录和提示词中不要有中文,否则AI无法识别。
- 知识产权注意:本地部署生成的图片版权归你,但请注意不要使用尚在版权期的艺术家风格(如吉卜力、迪士尼)。
真实案例:我用AI生成企业宣传片的全过程
一句话总结:从脚本到成片,我用Midjourney+Runway+剪映,仅花3天完成了一支30秒的科技公司宣传片,成本不到50元。
作为自媒体博主,我接到了一个清洁能源公司的需求:制作一条30秒的广告片,展示“未来城市的光伏能源”概念。预算有限,传统实拍至少5万元。我决定全部用AI生成。
第一步:故事板与脚本
我用ChatGPT帮写分镜脚本,共5个镜头:
- 镜头1:广角,未来城市全景,光伏面板铺满屋顶
- 镜头2:特写,光伏板表面反射阳光,粒子流动
- 镜头3:中景,智慧屏幕显示能源数据
- 镜头4:近景,一家人使用电动车充电
- 镜头5:品牌logo与口号
第二步:生成图片
我在Midjourney V7中生成了每个镜头的关键帧。例如镜头1的提示词:“Futuristic city skyline at dusk, every rooftop covered with blue solar panels, golden sunset reflecting on glass, flying vehicles in distance, cinematic, 8K, ultra detailed --ar 16:9 --v 7”。每次生成4张,选最佳。共用了250次生成(每次0.1元,总花费25元)。注意的是,Midjourney对“光伏板”理解有时会变成“空调外机”,于是我用了“/describe”上传真实光伏板照片,提取风格关键词。
第三步:图片转视频
将每张关键帧上传至Runway Gen-3 Alpha的“Image to Video”。例如镜头1的图片,我添加视频提示词:“Slow panning from left to right, light gradually turns from warm to cool, clouds moving slightly, 5 seconds, cinematic motion”。每段视频生成耗时1分钟,免费额度用完后又买了19美元月包。5段视频共收费19美元(约137元)。注意,Runway对动态控制很敏感,我因为忘了写“slow”而获得了一段晃动的视频,重做后好了。
第四步:后期处理
用剪映专业版(免费)拼接5段视频,每段5.5秒,正好30秒。添加背景音乐(用AI音乐生成工具Suno V4做的,免费),自动生成字幕。最后输出1080p,交付客户。客户非常满意,甚至没发现全由AI生成。
成本统计:Midjourney订阅费30美元(但用共享账号,实际只花10美元)+ Runway月包19美元 + 时间和电费 ≈ 200元人民币。传统方式至少5万元,省了99.6%。
教训:不要用AI生成人物特写面部特写,尤其是说话时嘴唇不同步。我改用“侧面背影”避免了问题。另外,Midjourney的图片在转为视频时,分辨率会降为720p,建议生成时选择“--q 2”质量参数。
总结:2026年AI图片视频生成的最佳实践
一句话总结:根据需求选工具,提示词按公式写,多迭代,善用本地部署降低成本。
- 预算有限:用可灵AI(免费)或通义万相生成720p视频,搭配Stable Diffusion本地生成图片。
- 专业创作:Midjourney V7 + Runway Gen-3 Pro组合,月费约125美元,但产出可直接商用。
- 快速原型:用DALL·E 3搭配ChatGPT的“Agent”功能,让AI自动生成提示词、调整参数,甚至一键生成系列图片。
- 未来趋势:2026年下半年,Meta和字节跳动将推出端到端视频生成模型(如Meta Movie Gen 2),预计支持10分钟长视频,届时创作门槛将进一步降低。
记住:AI不会自动生成完美作品,人的审美和优化能力才是核心竞争力。每次生成后,保留参数和历史,方便复盘。绝对不要直接复制粘贴网上的提示词(因为已过时),请根据我的公式自己写。
常见问题
用AI生成的图片和视频能商用吗?
取决于工具许可。Midjourney免费用户不可商用,付费用户(月付30美元及以上)可将作品商用,但需注意不得用于生成类似艺术家风格(如宫崎骏风格)涉嫌侵权。Runway免费版有水印且不可商用,Pro版可商用。Stable Diffusion本地生成的完全归你所有,但如果你使用其他艺术家风格模型(如“Ghost Mix”),请检查模型授权。
为什么我的AI视频总是出现变形和闪烁?
这是当前技术的通病。解决方案:1. 将视频时长控制在5-6秒内;2. 提示词中加入“smooth motion, consistent lighting”;3. 用Pika 2.0的“Frame Interpolation”插帧功能;4. 后期在剪辑软件中添加蒙版稳定画面。如果物体闪烁,减少运动强度(Motion Intensity设为2-3)。
免费的AI图片视频工具有哪些推荐?
图片:Leonardo.ai(每天150次免费生成)、Craiyon(无限次,但分辨率低);视频:可灵AI(每天100次,720p)、剪映AI(内置“图文成片”功能,每天20次)、Pika 2.0免费版(每天生成5次,1080p)。建议先用免费工具测试创意,再为最终作品付费。
如何让AI生成指定人物的连续动作(角色一致性)?
2026年主流工具仍未完美解决。最佳方案:1. 先用Midjourney的“--cref”(角色参考)功能生成同一角色的不同姿势图片,然后逐帧转为视频并手动拼接;2. 使用ComfyUI的“IP-Adapter”插件,保持角色面部特征;3. 尝试DeepSeek开发的VideoCrafter 2.0(开源),支持多段视频角色一致。目前还没有一键生成电影级连续剧情的工具,但预计2027年将有突破。
提示词中写“中文字”为什么总是乱码?
大多数AI模型(Midjourney、DALL·E 3)对中文字支持较差。解决方法:1. 生成不含文字的图片,在后期用Canva或Photoshop添加文字;2. 使用DALL·E 3(ChatGPT内)输入“用简体中文写出'新能源未来'字样,宋体,金色,在画面左上角”,成功率约70%;3. 本地部署Flux.1-pro模型,它支持多语言文字生成,准确率90%以上。

常见问题
用AI生成的图片和视频能商用吗?
取决于工具许可。Midjourney免费用户不可商用,付费用户(月付30美元及以上)可将作品商用,但需注意不得用于生成类似艺术家风格(如宫崎骏风格)涉嫌侵权。Runway免费版有水印且不可商用,Pro版可商用。Stable Diffusion本地生成的完全归你所有,但如果你使用其他艺术家风格模型(如“Ghost Mix”),请检查模型授权。
为什么我的AI视频总是出现变形和闪烁?
这是当前技术的通病。解决方案:1. 将视频时长控制在5-6秒内;2. 提示词中加入“smooth motion, consistent lighting”;3. 用Pika 2.0的“Frame Interpolation”插帧功能;4. 后期在剪辑软件中添加蒙版稳定画面。如果物体闪烁,减少运动强度(Motion Intensity设为2-3)。
免费的AI图片视频工具有哪些推荐?
图片:Leonardo.ai(每天150次免费生成)、Craiyon(无限次,但分辨率低);视频:可灵AI(每天100次,720p)、剪映AI(内置“图文成片”功能,每天20次)、Pika 2.0免费版(每天生成5次,1080p)。建议先用免费工具测试创意,再为最终作品付费。
如何让AI生成指定人物的连续动作(角色一致性)?
2026年主流工具仍未完美解决。最佳方案:1. 先用Midjourney的“--cref”(角色参考)功能生成同一角色的不同姿势图片,然后逐帧转为视频并手动拼接;2. 使用ComfyUI的“IP-Adapter”插件,保持角色面部特征;3. 尝试DeepSeek开发的VideoCrafter 2.0(开源),支持多段视频角色一致。目前还没有一键生成电影级连续剧情的工具,但预计2027年将有突破。
提示词中写“中文字”为什么总是乱码?
大多数AI模型(Midjourney、DALL·E 3)对中文字支持较差。解决方法:1. 生成不含文字的图片,在后期用Canva或Photoshop添加文字;2. 使用DALL·E 3(ChatGPT内)输入“用简体中文写出'新能源未来'字样,宋体,金色,在画面左上角”,成功率约70%;3. 本地部署Flux.1-pro模型,它支持多语言文字生成,准确率90%以上。
读完文章了?试试提效录自建工具
全部免费 · 无需登录 · 打开即用