Seedance 2.0 多模态引用指南：reference-to-video 自然语言 prompt 模板

先澄清一个常见误区： 网络上一度流传 Seedance 2.0 支持 @Image1、@Video1、@Audio1 之类的标签语法。实际的 API 并没有这套语法。 Seedance 2.0 的 seedance-2.0-reference-to-video 模型接受最多 9 张图 + 3 段视频 + 3 段音频作为参考素材，但你要通过自然语言在 prompt 中说明每份素材的作用，而不是用任何特殊符号。
本文教你怎么写出有效的自然语言 prompt 来精确驱动多模态生成。

大多数 AI 视频生成器接受一段文本提示词，输出什么全凭模型自由发挥。Seedance 2.0 的 reference-to-video 模式让你在一次请求中同时提供多份参考素材：图片定义风格或角色、视频传达运镜节奏、音频决定情绪和节拍。这是它区别于 Sora 2、Kling 3.0、Veo 3.1 的关键能力之一。

本指南会告诉你：

reference-to-video 的真实 API 结构与输入限制
如何在 prompt 中用自然语言 "指派" 每份素材的角色
10 个可直接复制的 prompt 模板
常见错误与调试技巧

如果你想边看边跑 API，免费获取 EvoLink API Key 只需 30 秒。

一、真实的 API 结构(先把地基打稳)

reference-to-video 的接口结构非常简单：

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "……",
  "image_urls": ["…", "…"],
  "video_urls": ["…"],
  "audio_urls": ["…"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

核心规则：

维度	限制
`image_urls`	0–9 张，JPEG/PNG/WebP，单边 300–6000 px，单张 ≤ 30 MB
`video_urls`	0–3 段，MP4/MOV，单段 2–15 秒，合计 ≤ 15 秒，480p–720p
`audio_urls`	0–3 段，WAV/MP3，单段 2–15 秒，合计 ≤ 15 秒
请求体合计	≤ 64 MB(不支持 Base64 内联)
强制要求	不能只传 `audio_urls`，必须同时有图片或视频作为视觉锚点
`quality`	只开放 `480p` 和 `720p` 两档(不支持 1080p)
`prompt`	中文 ≤ 500 字符，英文 ≤ 1000 单词

没有的东西：

❌ @Image1 / @Video1 / @Audio1 这类标签语法
❌ 单独字段指定"首帧" / "风格参考" / "角色参考"
❌ 给单份素材设置角色的 JSON 字段

Seedance 2.0 的设计哲学是"让 prompt 本身承担角色分配"——你用自然语言告诉模型"图片 1 是角色，视频 1 用来驱动运镜，音频 1 是配乐"，模型会按数组顺序理解你的指代。

二、自然语言驱动的核心写法

把 prompt 拆成两段：素材角色分配 + 场景描述。

[素材角色分配] ——用两三句话说明每份素材的用途
[场景描述] ——用完整画面描述说出你想看到的内容

举例，一次包含 1 张图片 + 1 段视频 + 1 段音频的请求：

参考图片 1 中的美术风格和用色；
参考视频 1 的镜头运动和节奏；
以音频 1 作为整段视频的背景音乐。

场景：年轻骑手穿越雨后的东京街头，
霓虹灯映在湿漉漉的柏油路面上，
镜头从骑手身后推进到侧面特写，节奏随音乐起伏。

几个关键点：

使用**"图片 1 / 视频 1 / 音频 1"这类表述，关键是让模型知道你在指代数组中的哪一份素材**。中英文都可以，写成 image 1 / video 1 / audio 1 一样有效。
指代必须按数组顺序。如果你在 image_urls 里放了两张图，prompt 中的"图片 1"会对应 image_urls[0]，"图片 2"对应 image_urls[1]。顺序混乱会让模型理解错位。
每份素材只分配一个主要角色。尝试同时让一张图"既是首帧、又是角色、又是风格"会让模型不知所措。
场景描述要具体。仅说"拍一个酷炫的画面"等于没说。

三、10 个可直接套用的 prompt 模板

下面的模板都基于真实 API 行为，你可以直接替换素材 URL 和关键细节。

模板 1: 单图作为首帧驱动(最简)

用于：静态图片 + 轻量动态

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "以提供的图片作为视频的第一帧，镜头缓慢向前推进，画面中的人物抬起头微笑，风吹动她的头发。",
  "image_urls": ["https://example.com/portrait.jpg"],
  "duration": 5,
  "quality": "720p"
}

注意：单图驱动更适合用 seedance-2.0-image-to-video，而不是 reference-to-video。前者对"首帧行为"有专门优化。

模板 2: 首尾帧过渡

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "从第一张图平滑过渡到第二张图。中间通过镜头平移和光线变化连接两个场景。",
  "image_urls": [
    "https://example.com/sunrise.jpg",
    "https://example.com/sunset.jpg"
  ],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

模板 3: 美术风格迁移(多图参考)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "整体美术风格参考所提供的 3 张图片的用色、光线和质感。场景：盛夏傍晚的小镇集市，人来人往，暖色调光线。",
  "image_urls": [
    "https://example.com/style-1.jpg",
    "https://example.com/style-2.jpg",
    "https://example.com/style-3.jpg"
  ],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

模板 4: 角色一致性

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "视频中的女性角色外观与图片 1 中的人物保持一致。场景：她走进一家老式咖啡馆，点了一杯拿铁，坐到靠窗位置翻开一本书。",
  "image_urls": ["https://example.com/character-ref.jpg"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

提示：不支持真实人脸。使用虚拟人物或插画风格角色。

模板 5: 运镜复现(视频参考)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "参考视频 1 的环绕镜头运动和速度曲线。主体替换为一座古典雕塑，背景为黄昏的博物馆大厅。",
  "video_urls": ["https://example.com/orbit-shot.mp4"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

模板 6: 音乐驱动节奏(音频参考)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "以音频 1 作为整段背景音乐，镜头切换节奏与音乐节拍同步。场景：城市夜景快切，霓虹、雨滴、人影、出租车前灯依次闪过。",
  "image_urls": ["https://example.com/city-mood.jpg"],
  "audio_urls": ["https://example.com/synthwave.mp3"],
  "duration": 10,
  "quality": "720p"
}

注意：不能只传 audio_urls，必须配合至少 1 张图或 1 段视频作为视觉锚点。

模板 7: 三模态完整组合

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "视频中的角色外观参考图片 1；参考视频 1 的第一人称视角和镜头节奏；以音频 1 作为整段背景音乐。场景：年轻骑手穿越雨后的东京街头，霓虹反射在路面上。",
  "image_urls": ["https://example.com/rider.jpg"],
  "video_urls": ["https://example.com/pov.mp4"],
  "audio_urls": ["https://example.com/bgm.mp3"],
  "duration": 10,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

模板 8: 商品广告(保持产品外观)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "视频中的运动鞋外观与图片 1 中完全一致，包括鞋面配色、鞋带和 logo。场景：鞋子在透明亚克力台面上缓慢旋转 360°，柔光影棚布光，背景为渐变灰色。",
  "image_urls": ["https://example.com/sneaker.jpg"],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "1:1"
}

模板 9: 纯文本(无参考素材)

reference-to-video 也可以不传任何素材，此时等价于纯文生视频——但既然如此，更推荐直接用 seedance-2.0-text-to-video(成本更低)：

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "微距镜头对准一只停在叶片上的玻璃蛙，焦点从它光滑的皮肤缓缓过渡到完全透明的腹部，可以清楚看到一颗鲜红的心脏正在有力地跳动。",
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

模板 10: 对白生成(把台词放在双引号中)

Seedance 2.0 会识别双引号内的内容并专门优化语音生成：

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "她停下脚步，转身对男孩说：\"你终于明白了。\"镜头给到她的面部特写，表情由坚定转为温柔。",
  "duration": 6,
  "quality": "720p",
  "generate_audio": true
}

四、常见错误与调试

错误 1: 使用 `@Image1` 等伪标签语法

症状：模型完全忽视你的指代，输出与素材无关的内容。

原因：API 没有这套语法。@Image1 只是 prompt 中的普通字符串，不会被解析成指代。

解法：改为自然语言"图片 1"、"视频 1"、"音频 1"或 "image 1", "video 1" 等。

错误 2: 让同一份素材扮演多个角色

❌ 图片 1 既是首帧，又是角色参考，又是风格参考
✅ 图片 1 作为场景首帧；图片 2 作为角色外观参考

需要同时引用超过 2 张图片（image-to-video 上限是 2 张）
需要用视频作为运镜参考
需要用音频驱动视觉节奏
需要同时迁移美术风格 + 保持角色一致

不应该使用 reference-to-video 的场景：

只有纯文本 prompt → 用 text-to-video，成本更低
只有 1–2 张图片，想让它"动起来" → 用 image-to-video，对"首帧行为"有专门优化
需要快速迭代大量候选 → 用对应的 Fast 系列

六、下一步

参考生视频 API 完整参考 — 所有参数、限制、响应结构
模型总览 — 6 个 Seedance 2.0 模型的选型决策
快速入门 — 5 分钟跑通第一个请求
免费获取 API Key — 30 秒注册

如果你读到的其他教程提到了 @Image1、@Video1、@Audio1 这类标签语法，请直接忽略——那不是 Seedance 2.0 真实的 API 行为。请以官方文档为准。

Seedance 2.0 多模态引用完全指南：正确使用自然语言驱动图片 / 视频 / 音频参考