Seedance 2.0 多模态引用:@Tags 完全指南
掌握 Seedance 2.0 的 @Tag 引用系统。学习图像、视频和音频标签语法,附带真实示例和提示词模板。免费开始使用。

大多数 AI 视频生成器接受一段文本提示词,然后随意输出结果。Seedance 2.0 的工作方式完全不同。你上传图像、视频和音频文件,然后使用 @tags 精确指定每个文件的作用——作为首帧、定义镜头运动、设定音乐节奏,或提供角色参考。
这套 @tag 引用系统正是 Seedance 2.0 区别于 Sora 2、Kling 3.0 和 Veo 3.1 的关键。这些竞品都无法提供如此精细的多模态控制。
本指南涵盖每种 @tag 类型、语法规则、文件限制,以及可以立即使用的真实提示词示例。如果你想跟着 API 调用一起实操,免费获取 EvoLink API Key——只需 30 秒。
什么是 @Tag 引用系统?
传统的文本生成视频是一个单输入、单输出的过程:你写一段提示词,模型按自己的方式去理解。Seedance 2.0 将其升级为 多输入、定向输出 的流程。
对比如下:
| 方式 | 输入 | 控制程度 | 结果 |
|---|---|---|---|
| 纯文本 | "一个女人在舞台上跳舞" | 低——模型决定一切 | 随机的女人、随机的舞蹈、随机的舞台 |
| 使用 @tags | @Image1(角色)+ @Video1(舞蹈参考)+ 提示词 | 高——你掌控每个元素 | 你指定的角色表演你参考的那段舞蹈 |
@tag 系统就像电影导演的分镜表。每个上传的文件通过提示词中的自然语言获得角色分配:
@Image1 as the first frame— 锁定开场画面@Video1 for camera movement reference— 复制镜头运动@Audio1 as background music— 设定配乐和节奏
单次生成最多可组合 12 个文件(9 张图像 + 3 个视频 + 3 个音频),每个文件都通过标签指定其特定用途。
@Tag 语法规则——完整参考
基本语法
格式非常简单:@ + 素材类型 + 编号。
@Image1, @Image2, @Image3 ... @Image9
@Video1, @Video2, @Video3
@Audio1, @Audio2, @Audio3
在提示词中引用这些标签,并用自然语言描述它们的作用:
@Image1 as the first frame, @Image2 as character reference,
reference @Video1's camera movement and tracking shots,
use @Audio1 for background music tempo.
注意: 在即梦平台上,标签使用中文格式:
@图片1、@视频1、@音频1。通过 API 调用时,统一使用@Image1、@Video1、@Audio1。
文件限制与格式
| 素材类型 | 最大数量 | 支持格式 | 大小限制 | 备注 |
|---|---|---|---|---|
| 图像 | 9 | JPEG, PNG, WebP, BMP, TIFF, GIF | 每个 30 MB | 分辨率越高,输出效果越好 |
| 视频 | 3 | MP4, MOV | 每个 50 MB | 总时长:2-15 秒,分辨率:480p-720p |
| 音频 | 3 | MP3, WAV | 每个 15 MB | 总时长不超过 15 秒 |
| 合计 | 12 个 | — | — | 可在限制范围内任意组合 |
两种输入模式
Seedance 2.0 有两种生成模式。你的输入决定使用哪一种:
- 首帧/末帧模式 — 仅上传一张起始图像(可选添加结束图像)配合文本提示词。简单快速。
- 全方位引用模式 — 上传图像、视频和音频的任意组合,并通过 @tag 分配角色。这才是完整功能所在。
规则: 如果你上传了任何视频或音频引用,或超过 2 张图像,就必须使用全方位引用模式。
图像 @Tags——控制视觉身份
图像引用是最灵活的 @tag 类型。同一张图像可以根据你在提示词中的描述方式发挥完全不同的作用。
图像引用类型
| 用途 | 提示词模式 | 示例 |
|---|---|---|
| 首帧 | @Image1 as the first frame | 锁定视频的精确开场画面 |
| 末帧 | @Image2 as the last frame | 定义过渡的结束画面 |
| 角色身份 | @Image1 is the main character | 全程保持面部/身体的一致性 |
| 风格参考 | reference @Image1's art style | 应用绘画风格、色彩方案或视觉美学 |
| 场景/环境 | scene references @Image3 | 设定地点、背景、建筑 |
| 物体参考 | the product in @Image1 | 保持广告中产品的细节一致 |
| 构图 | framing references @Image1 | 复制镜头角度和画面布局 |
示例:梵高风格迁移
提示词:
A young woman with long blonde hair in a blue dress stands on a hilltop,
gazing at a Provençal village at sunset. Entirely rendered in @Image1's
post-impressionist art style — thick impasto brushstrokes, swirling textures,
rich yellows and blues.
输入: 一张梵高画作作为 @Image1
效果: 模型以梵高标志性的风格渲染整个场景——不是简单的滤镜叠加,而是真正的风格迁移,在整段视频中保持笔触纹理。
视频:使用 @Image 引用进行风格迁移——梵高后印象主义渲染
示例:产品广告
提示词:
Commercial showcase of the handbag in @Image2.
Side profile references @Image1.
Surface material texture references @Image3.
Display all product details with cinematic camera movement.
Grand orchestral background music.
输入: 3 张图像——侧面视图、产品主图、材质特写
效果: 一段精美的产品视频,精确保持参考图像中的材质纹理和比例——不会出现 AI 对产品细节的幻觉。
多图角色一致性
当你需要同一角色在多个镜头中保持一致时,上传多个不同角度的参考图像:
@Image1 and @Image2 define the main character's appearance.
The character walks through @Image3's environment,
wearing the outfit from @Image4.
为角色提供的参考图像越多,输出的一致性就越高。这解决了单图生成中常见的"面部变形"问题。
视频 @Tags——复制镜头与运动
视频引用释放了 Seedance 2.0 最令人印象深刻的能力:精确复制镜头运动和物理动作。上传一个参考视频,模型就能复制其中的精确镜头语言、动作编排或视觉特效。
视频引用类型
| 用途 | 提示词模式 | 复制内容 |
|---|---|---|
| 镜头运动 | reference @Video1's camera movement | 平移、俯仰、推轨、跟踪、变焦模式 |
| 动作/编排 | perform the actions from @Video1 | 肢体动作、舞步、打斗编排 |
| 视觉特效 | reference @Video1's transition effects | 粒子特效、风格转场、VFX |
| 节奏/节拍 | match @Video1's editing rhythm | 剪辑节奏、节拍同步、速度 |
| 完整复制 | completely reference @Video1 | 一切——镜头、动作、特效、节奏 |
示例:电影级镜头复制
提示词:
Reference @Image1's character. He is in @Image2's elevator.
Completely reference @Video1's camera movements and the protagonist's
facial expressions. Hitchcock zoom when the character is frightened,
then several orbiting shots inside the elevator.
The elevator door opens, tracking shot follows him out.
Exterior scene references @Image3.
输入: 3 张图像(角色、电梯内景、外景)+ 1 个参考视频(包含所需镜头运动)
效果: 模型精确复制参考视频中的希区柯克变焦、环绕镜头运动和跟踪镜头——并将其应用到完全不同的角色和场景中。
可复制的镜头技术
Seedance 2.0 能够从参考视频中复制以下镜头运动:
- 希区柯克变焦(推轨变焦/眩晕效果)
- 360 度环绕拍摄
- 一镜到底连续长镜头(无剪辑)
- 机械臂多角度跟踪
- 低角度英雄镜头
- 手持追逐镜头
- 鱼眼镜头畸变
- 推拉节奏运动
提示词技巧: 具体说明要从参考视频中复制哪个方面。"Reference @Video1's camera movement" 比单纯的 "reference @Video1" 更好——它告诉模型聚焦于镜头语言,而不是试图复制所有内容。查看我们的专门镜头运动教程获取 camera reference examples 和完整 Python 代码。
示例:跑酷动作
视频:动态跑酷配合电影级跟踪镜头——使用镜头运动参考生成
音频 @Tags——基于引用的声音设计
Seedance 2.0 为每段视频生成原生音频——音效、环境音、音乐甚至对白。音频 @tags 让你控制最终的声音效果。
音频引用类型
| 用途 | 提示词模式 | 复制内容 |
|---|---|---|
| 背景音乐 | use @Audio1 for background music | 音乐风格、节奏、乐器 |
| 音效 | sound effects reference @Audio1 | 特定的声音纹理和时机 |
| 旁白/解说风格 | narration voice references @Video1 | 声调、语速、口音 |
| 节拍同步 | match @Audio1's rhythm for editing cuts | 音乐节拍驱动视觉转场 |
节拍同步(MV 模式)
音频功能中最强大的特性之一:上传一段音乐,模型会将视觉剪辑和转场同步到节拍上。
提示词:
@Image1 through @Image7 as scene references.
Match @Video1's visual rhythm and beat synchronization.
Each image appears on a music beat with dynamic transitions.
Enhance visual impact with dramatic lighting changes on each cut.
效果: 模型创建 MV 风格的剪辑,场景转换、镜头运动和灯光变化都精确地在参考音频的节拍上发生。
使用视频中的音频作为引用
你不需要单独的音频文件——可以直接引用已上传视频中的音轨:
Background music references @Video1's audio.
当你想复制现有视频的声音设计,同时改变画面内容时,这非常实用。
示例:角色对话
视频:AI 生成的角色对话,包含自然语音演技和咖啡馆环境音
Seedance 2.0 支持多语言对话生成,包括英语、中文、西班牙语、韩语等。直接在提示词中写入对白,模型会生成匹配的口型同步和语音演绎。
进阶组合——多模态实战配方
@tags 的真正威力在于组合多种模态。以下是三种经过验证的常见制作场景配方。
配方 1:电影短片
目标: 具有特定角色、镜头运动和配乐的电影级场景
文件:
- @Image1:角色面部/身体参考
- @Image2:环境/场景参考
- @Video1:镜头运动参考(如电影中的跟踪镜头)
- @Audio1:背景音乐
提示词:
@Image1's character walks through @Image2's environment.
Camera movement follows @Video1's tracking shot pattern.
Background music uses @Audio1.
Cinematic lighting, shallow depth of field, 24fps film grain.
文件分配: 2 张图像 + 1 个视频 + 1 个音频 = 已使用 4/12 个文件
配方 2:电商产品视频
目标: 从静态产品照片生成专业产品展示
文件:
- @Image1:产品主图
- @Image2:产品侧视图
- @Image3:材质/纹理特写
- @Video1:镜头运动参考(环绕产品拍摄)
提示词:
Commercial showcase of the product in @Image2.
Side profile references @Image1.
Surface material and texture reference @Image3.
Camera movement references @Video1's orbiting rotation.
Studio lighting, reflective dark surface, premium aesthetic.
文件分配: 3 张图像 + 1 个视频 = 已使用 4/12 个文件
配方 3:多角色动画
目标: 两个角色互动并带有编排好的动作
文件:
- @Image1、@Image2:角色 A(正面 + 侧面参考)
- @Image3、@Image4:角色 B(正面 + 侧面参考)
- @Image5:背景/场景参考
- @Video1:动作编排参考
提示词:
@Image1 and @Image2 define Character A (spear wielder).
@Image3 and @Image4 define Character B (dual swords).
They fight in @Image5's autumn forest, mimicking @Video1's
combat choreography. White dust rises on impact.
Dramatic star-filled night sky.
文件分配: 5 张图像 + 1 个视频 = 已使用 6/12 个文件
12 个文件的分配策略
你有 12 个插槽。以下是如何分配以获得最佳效果:
| 优先级 | 分配方案 | 原因 |
|---|---|---|
| 角色身份 | 每个角色 2-3 张图像 | 角度越多,一致性越好 |
| 镜头/运动参考 | 1 个视频 | 一个好的参考就够了 |
| 场景/环境 | 1-2 张图像 | 构建世界观 |
| 音频/音乐 | 1 个音频或视频(取其音轨) | 设定氛围 |
| 风格参考 | 1 张图像(如需要) | 仅在需要非写实风格时使用 |
| 预留 | 保留 2-3 个插槽 | 用于迭代和补充细节 |
进阶技巧: 不要用满 12 个插槽。先从 4-6 个文件开始,只在输出需要更高精度时才添加更多。过多的引用文件可能会让模型混乱。
API 调用示例
以下是通过 API 进行多模态生成的完整示例:
import requests
response = requests.post(
"https://api.evolink.ai/v1/videos/generations",
headers={"Authorization": "Bearer YOUR_EVOLINK_API_KEY"},
json={
"model": "seedance-2.0",
"prompt": (
"@Image1 as the main character. "
"@Image2 as the environment. "
"Reference @Video1's tracking shot and camera movement. "
"The character walks through a misty forest at dawn. "
"Cinematic lighting, shallow depth of field."
),
"image_urls": [
"https://your-cdn.com/character.jpg",
"https://your-cdn.com/forest.jpg"
],
"video_urls": [
"https://your-cdn.com/tracking-shot.mp4"
],
"duration": 10,
"quality": "1080p",
"generate_audio": true
}
)
task_id = response.json()["id"]
print(f"Generation started: {task_id}")
轮询获取结果:
import time
while True:
status = requests.get(
f"https://api.evolink.ai/v1/tasks/{task_id}",
headers={"Authorization": "Bearer YOUR_EVOLINK_API_KEY"}
)
result = status.json()
if result["status"] == "completed":
print(f"Video ready: {result['results'][0]}")
break
elif result["status"] == "failed":
print(f"Error: {result.get('error', 'Unknown error')}")
break
time.sleep(5)
使用你的 EvoLink API Key 运行此代码。注册免费,无需信用卡。
常见错误及修复方法
未指定 @tag 的用途
错误示范: @Image1 @Video1 generate a video of a dancer
正确示范: @Image1 as the dancer's appearance reference. @Video1 for dance choreography and camera movement. Generate the dancer performing on a stage.
模型需要明确的角色分配。没有角色分配时,它只能靠猜——而且经常猜错。
输入文件分辨率过低
如果你的 @Image1 只有 480p,输出就会显得模糊。务必使用:
- 图像:2K 或更高分辨率
- 视频:720p,干净的画面,无压缩伪影
- 音频:128kbps 以上的 MP3 或无损 WAV
试图用满 12 个文件插槽
更多引用不等于更好的输出。从 3-5 个文件开始,只在必要时添加更多。过多的冲突引用会让模型困惑。
上传真实人脸照片
平台限制: Seedance 2.0 目前不支持上传包含真实人脸的图像或视频。系统会自动拦截这类上传。请改用插画、动漫风格或其他风格化的角色参考。
素材编号混淆
当你上传 3 张图像和 2 个视频时,它们是独立编号的:
- 图像:@Image1、@Image2、@Image3
- 视频:@Video1、@Video2
不要写 @File3 或 @Asset5——使用按类型的独立编号。
视频延伸时设置了错误的时长
当你要将现有视频延伸 5 秒时,生成时长应设为 5 秒(新增部分),而不是总时长。延伸内容会拼接到原片之后。
常见问题
单次生成最多能上传多少个文件?
最多 12 个文件:最多 9 张图像、3 个视频和 3 个音频片段。视频的总时长必须在 2 到 15 秒之间。音频片段的总时长不超过 15 秒。
能通过 API 使用 @tags 吗?
可以。调用 API 时,在 JSON 请求体中传入 image_urls、video_urls 和 audio_urls 数组。每个数组包含引用文件的直接 URL。@tag 编号(@Image1、@Image2...)对应每个数组中 URL 的顺序。提示词文本使用与界面相同的 @tag 语法。
如果不给 @tag 分配角色会怎样?
模型会根据文件内容和提示词上下文尝试推断用途。但这种推断并不可靠。务必明确说明每个标签的角色——例如使用 @Image1 as the first frame,而不是在没有上下文的情况下仅提及 @Image1。
能引用已上传视频中的音频吗?
可以。在提示词中使用 background music references @Video1's audio。模型会从视频中提取音轨作为声音参考,无需单独上传音频文件。
支持哪些图像和视频格式?
图像:JPEG、PNG、WebP、BMP、TIFF、GIF(每个最大 30 MB)。视频:MP4、MOV(每个最大 50 MB,480p-720p 分辨率)。音频:MP3、WAV(每个最大 15 MB)。
开始使用 @Tags
@tag 引用系统是 Seedance 2.0 成为当前最可控 AI 视频生成器的关键。你不再需要描述你想要的效果然后祈祷好运,而是直接向模型展示你的意图——然后像指挥摄制组一样导演它。
核心原则:
- 每个 @tag 都需要一个角色。 不要只上传文件——告诉模型每个文件的具体作用。
- 从少量开始,逐步增加精度。 先用 3-4 个引用文件。只在输出需要时才添加更多。
- 具体说明要复制什么。 "Reference @Video1's camera movement" 比 "reference @Video1" 效果更好。
准备好导演你自己的 AI 视频了吗?在 EvoLink 免费开始——一个 API Key 即可使用 Seedance 2.0 和所有主流 AI 视频模型,智能路由为你节省 20-70% 的费用。
继续学习:
- Seedance 2.0 提示词指南 — 掌握提示词写作基础
最后更新:2026 年 2 月 20 日 | Written by J, Growth Lead at EvoLink