AI图片转视频提示词怎么写?适合商品图、照片和短视频预览的中文模板

AI 图片转视频提示词,先写“画面怎么动”,再写“什么不能变”。截至 2026 年 5 月 19 日,ImageToVideoAIFree 的图片转视频入口适合用 PNG、JPG、JPEG 或 WEBP 图片先做短预览测试,图片控制在 10 MB 内,先用 480p、2s 这类轻量结果看主体稳不稳。提示词的目标不是显得专业,而是让模型少猜、少乱动、少把商品或人物变形。
先记住一个公式

最稳的图片转视频提示词,可以按这个顺序写:
画面比例 + 镜头运动 + 主体状态 + 背景变化 + 光线/风格 + 需要保持稳定的细节
比如一张商品图,可以写成:
竖版短视频构图,镜头缓慢推进,商品保持在画面中心,背景有轻微景深变化,柔和自然光,保持包装边缘和颜色稳定
这句话不花哨,但比“高级感、电影感、震撼、爆款”更有用。AI 视频模型需要明确动作和限制,而不是一串情绪词。
提示词里最重要的是动作
很多人写图片转视频提示词时,会先写风格:高级、唯美、真实、电影感。问题是,这些词不能告诉模型画面怎么动。
更好的做法是先选一个动作:
| 想要的效果 | 更稳的动作写法 | 不建议一开始写 |
|---|---|---|
| 商品展示 | 镜头缓慢推进,商品保持居中 | 快速旋转、360 度展示 |
| 人像照片 | 轻微眨眼,头发有一点自然飘动 | 大幅转头、换表情、换衣服 |
| 风景图 | 云层缓慢移动,镜头轻微前移 | 镜头飞越整个城市 |
| 小红书种草 | 柔和光线扫过主体,背景轻微虚化 | 炫酷转场、强烈闪光 |
| 祝福视频 | 镜头轻轻拉近,人物或物体保持自然 | 人物大幅跳舞或夸张动作 |
动作越大,画面越容易坏。第一版先写“缓慢、轻微、自然、保持主体稳定”,生成可用预览后,再逐步加一点变化。
可直接改的 6 个中文模板
下面这些模板适合先做第一版预览。你可以把方括号里的内容换成自己的图片场景。
商品图模板
竖版短视频构图,镜头缓慢推进,[商品]保持在画面中心,背景轻微虚化,柔和电商布光,保持包装边缘、颜色和主体形状稳定
适合淘宝详情页、小红书种草、抖音商品短视频。包装、瓶身、首饰、数码配件都可以先用这个版本测试。
人像照片模板
近景人像构图,镜头轻微推进,人物保持自然表情,头发和衣服有轻微自然动感,背景柔和,保持五官和脸型稳定
适合头像照片、纪念照、祝福视频。不要第一版就要求大幅转头或明显换表情。
老照片动起来模板
复古照片质感,镜头轻轻拉近,人物保持原有姿态,背景有轻微空间感,画面自然修复但不过度改变五官和服装
老照片最怕“修过头”。提示词里要写清楚“保持原有姿态”和“不过度改变”。
宠物照片模板
温暖生活场景,镜头缓慢靠近,宠物轻微眨眼或抬头,背景自然虚化,保持毛色、脸部轮廓和身体比例稳定
宠物照片尽量不要一开始写“奔跑、跳跃、转圈”。先从眨眼、抬头、轻微动作开始。
活动海报模板
竖版宣传视频构图,海报主体保持清晰,背景有轻微动态光效,镜头缓慢推进,保持主要图形和文字区域稳定,文字后期单独添加
如果海报里有很多字,不要指望 AI 视频把所有文字都保持清楚。重要信息建议后期重新加。
祝福视频模板
温暖祝福视频氛围,镜头轻轻拉近,照片主体保持自然,背景有柔和光斑和轻微动感,保持人物脸部稳定,画面不要夸张变形
适合生日、婚礼、节日、朋友圈祝福。语气要自然,不要把普通照片写成大片预告片。
平台不同,提示词也要不同
同一个图片素材,发到不同平台时,提示词重点也要变。
抖音更看第一秒,可以写“竖版短视频构图、镜头缓慢推进、主体居中”。小红书更看氛围,可以写“自然光、生活感、背景轻微虚化”。淘宝详情页更看商品信息,提示词要强调“包装边缘稳定、主体形状稳定、颜色稳定”。
如果你准备把图片直接做成视频,可以先打开 图片转视频生成器 跑一版。只有文字想法、还没有图片时,再考虑用 AI 视频生成器 从描述开始做。
提示词改不动时,先检查图片
提示词不是万能的。如果图片本身很乱,模型会猜错主体。
先检查这 5 件事:
- 主体是不是太小。
- 商品边缘或人物脸部是不是被裁掉。
- 背景里是不是有太多文字、贴纸、杂物。
- 你是不是要求模型保持小字清楚。
- 你是不是同时要求推进、旋转、换角度、加光效。
一个简单判断:如果人一眼都看不清主体,提示词再长也很难稳定。
遇到变形时,先把提示词改短:
镜头缓慢推进,主体保持居中,背景轻微变化,保持主体形状稳定
如果这个版本还变形,优先换图,不要继续加形容词。
什么时候用参考图或运动控制
如果你只是想让一张图动起来,用 图片转视频生成器 就够了。
如果你有第二张参考图,比如想保持某种布光、场景、人物风格,可以看 参考图生成视频。它更适合需要风格一致的内容。
如果你已经有一段喜欢的镜头运动,希望把类似运动套到自己的图片上,可以看 运动控制。这种方法适合更明确的创作需求,比如同一套商品视频都要保持相似镜头节奏。
想找更多动作灵感,可以看看 AI 视频特效,但不要直接把夸张特效套到商品图或证件照上。可用性比炫更重要。
常见错误
只写风格,不写动作。 “高级感、真实、电影感”不能替代“镜头缓慢推进、背景轻微虚化”。
动作太多。 一条提示词里同时写旋转、推近、转场、光效,模型很容易乱。
没有写稳定限制。 商品图要写“保持包装边缘稳定”,人像要写“保持五官和脸型稳定”。
让 AI 保持小字。 价格、促销字、活动规则建议后期加,不要放在 AI 视频里赌清晰度。
第一版就追求成片。 第一版只是测试。先用短预览检查主体,再决定是否继续做更长版本。
发布前检查
生成后不要只看“动起来了”。至少检查 6 个问题:
- 主体在第一秒能不能看清?
- 商品、脸部、宠物或海报主体有没有变形?
- 颜色有没有明显跑偏?
- 动作是不是符合平台:抖音更直接,小红书更自然,淘宝更稳定?
- 需要准确显示的文字是不是后期添加?
- 结尾有没有清楚的下一步,比如引导用户查看商品、收藏笔记或打开工具?
如果你已经有一张要测试的图,直接打开 图片转视频生成器,用“镜头运动 + 主体状态 + 稳定限制”的短提示词先跑一版。第一版稳定了,再加光线、氛围和平台尺寸;第一版不稳,先换图或减小动作。
常见问题
AI 图片转视频提示词要写多长?
第一版不用太长。通常 1 句话就够:画面比例、镜头运动、主体状态、背景变化、稳定限制。结果稳定后,再逐步加风格。
中文提示词好还是英文提示词好?
如果你要做中文平台内容,用中文提示词更方便改。关键不是语言,而是动作和限制是否清楚。
商品图提示词最重要的一句是什么?
写清楚“保持包装边缘、颜色和主体形状稳定”。商品视频的第一目标是让商品可信,不是让镜头最炫。
为什么我写了提示词,视频还是乱动?
通常有两个原因:图片主体不清楚,或者提示词要求的动作太多。先换更清楚的图,再把动作减少到一个。
可以把价格和促销文字写进提示词吗?
不建议。价格、优惠、规格、活动规则最好后期添加,这样文字更清楚,也更容易按抖音、小红书或淘宝详情页改版。

David
Founder of GPT Image 2. Passionate about AI and technology. Exploring the boundaries of generative models and sharing insights with the community.