Seedance 2.0 多模态引用完全指南:正确使用自然语言驱动图片 / 视频 / 音频参考
用自然语言在 seedance-2.0-reference-to-video 中驱动最多 9 张图 + 3 段视频 + 3 段音频。附 10 个可直接套用的 prompt 模板,并澄清坊间流传的 @Tag 语法误区。

先澄清一个常见误区: 网络上一度流传 Seedance 2.0 支持
@Image1、@Video1、@Audio1之类的标签语法。实际的 API 并没有这套语法。 Seedance 2.0 的seedance-2.0-reference-to-video模型接受最多 9 张图 + 3 段视频 + 3 段音频作为参考素材,但你要通过自然语言在prompt中说明每份素材的作用,而不是用任何特殊符号。本文教你怎么写出有效的自然语言 prompt 来精确驱动多模态生成。
大多数 AI 视频生成器接受一段文本提示词,输出什么全凭模型自由发挥。Seedance 2.0 的 reference-to-video 模式让你在一次请求中同时提供多份参考素材:图片定义风格或角色、视频传达运镜节奏、音频决定情绪和节拍。这是它区别于 Sora 2、Kling 3.0、Veo 3.1 的关键能力之一。
本指南会告诉你:
reference-to-video的真实 API 结构与输入限制- 如何在
prompt中用自然语言 "指派" 每份素材的角色 - 10 个可直接复制的 prompt 模板
- 常见错误与调试技巧
如果你想边看边跑 API,免费获取 EvoLink API Key 只需 30 秒。
一、真实的 API 结构(先把地基打稳)
reference-to-video 的接口结构非常简单:
{
"model": "seedance-2.0-reference-to-video",
"prompt": "……",
"image_urls": ["…", "…"],
"video_urls": ["…"],
"audio_urls": ["…"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
核心规则:
| 维度 | 限制 |
|---|---|
image_urls | 0–9 张,JPEG/PNG/WebP,单边 300–6000 px,单张 ≤ 30 MB |
video_urls | 0–3 段,MP4/MOV,单段 2–15 秒,合计 ≤ 15 秒,480p–720p |
audio_urls | 0–3 段,WAV/MP3,单段 2–15 秒,合计 ≤ 15 秒 |
| 请求体合计 | ≤ 64 MB(不支持 Base64 内联) |
| 强制要求 | 不能只传 audio_urls,必须同时有图片或视频作为视觉锚点 |
quality | 只开放 480p 和 720p 两档(不支持 1080p) |
prompt | 中文 ≤ 500 字符,英文 ≤ 1000 单词 |
没有的东西:
- ❌
@Image1/@Video1/@Audio1这类标签语法 - ❌ 单独字段指定"首帧" / "风格参考" / "角色参考"
- ❌ 给单份素材设置角色的 JSON 字段
Seedance 2.0 的设计哲学是"让 prompt 本身承担角色分配"——你用自然语言告诉模型"图片 1 是角色,视频 1 用来驱动运镜,音频 1 是配乐",模型会按数组顺序理解你的指代。
二、自然语言驱动的核心写法
把 prompt 拆成两段:素材角色分配 + 场景描述。
[素材角色分配] ——用两三句话说明每份素材的用途
[场景描述] ——用完整画面描述说出你想看到的内容
举例,一次包含 1 张图片 + 1 段视频 + 1 段音频的请求:
参考图片 1 中的美术风格和用色;
参考视频 1 的镜头运动和节奏;
以音频 1 作为整段视频的背景音乐。
场景:年轻骑手穿越雨后的东京街头,
霓虹灯映在湿漉漉的柏油路面上,
镜头从骑手身后推进到侧面特写,节奏随音乐起伏。
几个关键点:
- 使用**"图片 1 / 视频 1 / 音频 1"这类表述,关键是让模型知道你在指代数组中的哪一份素材**。中英文都可以,写成
image 1 / video 1 / audio 1一样有效。 - 指代必须按数组顺序。如果你在
image_urls里放了两张图,prompt 中的"图片 1"会对应image_urls[0],"图片 2"对应image_urls[1]。顺序混乱会让模型理解错位。 - 每份素材只分配一个主要角色。尝试同时让一张图"既是首帧、又是角色、又是风格"会让模型不知所措。
- 场景描述要具体。仅说"拍一个酷炫的画面"等于没说。
三、10 个可直接套用的 prompt 模板
下面的模板都基于真实 API 行为,你可以直接替换素材 URL 和关键细节。
模板 1: 单图作为首帧驱动(最简)
用于:静态图片 + 轻量动态
{
"model": "seedance-2.0-image-to-video",
"prompt": "以提供的图片作为视频的第一帧,镜头缓慢向前推进,画面中的人物抬起头微笑,风吹动她的头发。",
"image_urls": ["https://example.com/portrait.jpg"],
"duration": 5,
"quality": "720p"
}
注意:单图驱动更适合用
seedance-2.0-image-to-video,而不是reference-to-video。前者对"首帧行为"有专门优化。
模板 2: 首尾帧过渡
{
"model": "seedance-2.0-image-to-video",
"prompt": "从第一张图平滑过渡到第二张图。中间通过镜头平移和光线变化连接两个场景。",
"image_urls": [
"https://example.com/sunrise.jpg",
"https://example.com/sunset.jpg"
],
"duration": 6,
"quality": "720p",
"aspect_ratio": "16:9"
}
模板 3: 美术风格迁移(多图参考)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "整体美术风格参考所提供的 3 张图片的用色、光线和质感。场景:盛夏傍晚的小镇集市,人来人往,暖色调光线。",
"image_urls": [
"https://example.com/style-1.jpg",
"https://example.com/style-2.jpg",
"https://example.com/style-3.jpg"
],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
模板 4: 角色一致性
{
"model": "seedance-2.0-reference-to-video",
"prompt": "视频中的女性角色外观与图片 1 中的人物保持一致。场景:她走进一家老式咖啡馆,点了一杯拿铁,坐到靠窗位置翻开一本书。",
"image_urls": ["https://example.com/character-ref.jpg"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
提示:不支持真实人脸。使用虚拟人物或插画风格角色。
模板 5: 运镜复现(视频参考)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "参考视频 1 的环绕镜头运动和速度曲线。主体替换为一座古典雕塑,背景为黄昏的博物馆大厅。",
"video_urls": ["https://example.com/orbit-shot.mp4"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
模板 6: 音乐驱动节奏(音频参考)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "以音频 1 作为整段背景音乐,镜头切换节奏与音乐节拍同步。场景:城市夜景快切,霓虹、雨滴、人影、出租车前灯依次闪过。",
"image_urls": ["https://example.com/city-mood.jpg"],
"audio_urls": ["https://example.com/synthwave.mp3"],
"duration": 10,
"quality": "720p"
}
注意:不能只传
audio_urls,必须配合至少 1 张图或 1 段视频作为视觉锚点。
模板 7: 三模态完整组合
{
"model": "seedance-2.0-reference-to-video",
"prompt": "视频中的角色外观参考图片 1;参考视频 1 的第一人称视角和镜头节奏;以音频 1 作为整段背景音乐。场景:年轻骑手穿越雨后的东京街头,霓虹反射在路面上。",
"image_urls": ["https://example.com/rider.jpg"],
"video_urls": ["https://example.com/pov.mp4"],
"audio_urls": ["https://example.com/bgm.mp3"],
"duration": 10,
"quality": "720p",
"aspect_ratio": "16:9"
}
模板 8: 商品广告(保持产品外观)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "视频中的运动鞋外观与图片 1 中完全一致,包括鞋面配色、鞋带和 logo。场景:鞋子在透明亚克力台面上缓慢旋转 360°,柔光影棚布光,背景为渐变灰色。",
"image_urls": ["https://example.com/sneaker.jpg"],
"duration": 6,
"quality": "720p",
"aspect_ratio": "1:1"
}
模板 9: 纯文本(无参考素材)
reference-to-video 也可以不传任何素材,此时等价于纯文生视频——但既然如此,更推荐直接用 seedance-2.0-text-to-video(成本更低):
{
"model": "seedance-2.0-text-to-video",
"prompt": "微距镜头对准一只停在叶片上的玻璃蛙,焦点从它光滑的皮肤缓缓过渡到完全透明的腹部,可以清楚看到一颗鲜红的心脏正在有力地跳动。",
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
模板 10: 对白生成(把台词放在双引号中)
Seedance 2.0 会识别双引号内的内容并专门优化语音生成:
{
"model": "seedance-2.0-text-to-video",
"prompt": "她停下脚步,转身对男孩说:\"你终于明白了。\"镜头给到她的面部特写,表情由坚定转为温柔。",
"duration": 6,
"quality": "720p",
"generate_audio": true
}
四、常见错误与调试
错误 1: 使用 @Image1 等伪标签语法
症状:模型完全忽视你的指代,输出与素材无关的内容。
原因:API 没有这套语法。@Image1 只是 prompt 中的普通字符串,不会被解析成指代。
解法:改为自然语言"图片 1"、"视频 1"、"音频 1"或 "image 1", "video 1" 等。
错误 2: 让同一份素材扮演多个角色
❌ 图片 1 既是首帧,又是角色参考,又是风格参考
✅ 图片 1 作为场景首帧;图片 2 作为角色外观参考
错误 3: 素材顺序与 prompt 中的指代不一致
如果你在 prompt 中先说"视频 1"再说"视频 2",那么 video_urls[0] 就必须是你心目中的"视频 1"。重新排列数组会让"指代"错位。
错误 4: 只传 audio_urls 没有视觉锚点
会直接返回 invalid_request。至少要传 1 张图片或 1 段视频。
错误 5: 使用 quality: "1080p"
Seedance 2.0 API 不支持 1080p。合法值只有 480p 和 720p。
错误 6: 使用旧的伪 model ID "model": "seedance-2.0"
必须使用完整的 model ID,如 seedance-2.0-reference-to-video。完整矩阵见 模型总览。
五、何时该用 reference-to-video,何时不该
应该使用 reference-to-video 的场景:
- 需要同时引用超过 2 张图片(image-to-video 上限是 2 张)
- 需要用视频作为运镜参考
- 需要用音频驱动视觉节奏
- 需要同时迁移美术风格 + 保持角色一致
不应该使用 reference-to-video 的场景:
- 只有纯文本 prompt → 用 text-to-video,成本更低
- 只有 1–2 张图片,想让它"动起来" → 用 image-to-video,对"首帧行为"有专门优化
- 需要快速迭代大量候选 → 用对应的 Fast 系列
六、下一步
- 参考生视频 API 完整参考 — 所有参数、限制、响应结构
- 模型总览 — 6 个 Seedance 2.0 模型的选型决策
- 快速入门 — 5 分钟跑通第一个请求
- 免费获取 API Key — 30 秒注册
如果你读到的其他教程提到了
@Image1、@Video1、@Audio1这类标签语法,请直接忽略——那不是 Seedance 2.0 真实的 API 行为。请以 官方文档 为准。