Seedance 2.0 マルチモーダルリファレンス:@Tags 完全ガイド
Seedance 2.0 の @tag リファレンスシステムを徹底解説。画像・動画・音声のタグ構文を実例とプロンプトテンプレート付きで学べます。無料で今すぐ始めましょう。

ほとんどのAI動画生成ツールは、テキストプロンプトを入力すると、モデルが勝手に判断した結果を返します。Seedance 2.0 は異なるアプローチを取ります。画像、動画、音声ファイルをアップロードし、@tags を使って各ファイルの役割を正確に指示できます。最初のフレームとして使う、カメラワークを定義する、音楽のテンポを設定する、キャラクターのリファレンスにする、といった指定が可能です。
この @tag リファレンスシステムこそが、Seedance 2.0 を Sora 2、Kling 3.0、Veo 3.1 と差別化するポイントです。このレベルのマルチモーダル制御を提供しているツールは他にありません。
本ガイドでは、すべての @tag タイプ、構文ルール、ファイル制限、そしてすぐに使える実際のプロンプト例を解説します。API コールを試したい方は、EvoLink の無料 API キーを取得してください。30秒で完了します。
@Tag リファレンスシステムとは?
従来のテキストからビデオへの生成は、1入力・1出力のプロセスでした。プロンプトを書くと、モデルが自由に解釈して出力します。Seedance 2.0 はこれを多入力・方向付き出力のプロセスに変えました。
違いを見てみましょう:
| アプローチ | 入力 | 制御レベル | 結果 |
|---|---|---|---|
| テキストのみ | 「女性がステージで踊る」 | 低 — モデルがすべてを決定 | ランダムな女性、ランダムなダンス、ランダムなステージ |
| @tags 使用 | @Image1(キャラクター)+ @Video1(ダンスリファレンス)+ プロンプト | 高 — 各要素を指示可能 | 指定したキャラクターが、リファレンスの通りのダンスを実行 |
@tag システムは映画監督のショットリストのように機能します。アップロードした各ファイルに、プロンプト内の自然言語で役割が割り当てられます:
@Image1 as the first frame— オープニングのビジュアルを固定@Video1 for camera movement reference— シネマトグラフィーをコピー@Audio1 as background music— サウンドトラックとリズムを設定
1回の生成で最大 12ファイル(画像9枚 + 動画3本 + 音声クリップ3つ)を組み合わせ、それぞれに特定の目的をタグ付けできます。
@Tag 構文ルール — 完全リファレンス
基本構文
形式はシンプルです:@ + アセットタイプ + 番号。
@Image1, @Image2, @Image3 ... @Image9
@Video1, @Video2, @Video3
@Audio1, @Audio2, @Audio3
プロンプト内でこれらのタグを参照し、自然言語で役割を記述します:
@Image1 as the first frame, @Image2 as character reference,
reference @Video1's camera movement and tracking shots,
use @Audio1 for background music tempo.
注意: Jimeng(即梦)プラットフォームでは、タグは中国語形式を使用します:
@图片1、@视频1、@音频1。API 経由では@Image1、@Video1、@Audio1を使用してください。
ファイル制限とフォーマット
| アセットタイプ | 最大数 | フォーマット | サイズ制限 | 備考 |
|---|---|---|---|---|
| 画像 | 9 | JPEG, PNG, WebP, BMP, TIFF, GIF | 各30 MB | 高解像度ほど出力品質が向上 |
| 動画 | 3 | MP4, MOV | 各50 MB | 合計時間:2〜15秒、解像度:480p〜720p |
| 音声 | 3 | MP3, WAV | 各15 MB | 合計時間:15秒以下 |
| 合計 | 12ファイル | — | — | 制限内で任意の組み合わせが可能 |
2つのエントリーモード
Seedance 2.0 には2つの生成モードがあります。入力内容によって使い分けます:
- 最初/最後のフレームモード — 開始画像(+ オプションの終了画像)とテキストプロンプトのみをアップロード。シンプルで高速。
- オールラウンドリファレンスモード — 画像、動画、音声を任意に組み合わせ、@tag で役割を指定してアップロード。フルパワーを発揮するのはこちら。
ルール: 動画や音声のリファレンスをアップロードする場合、または画像を3枚以上アップロードする場合は、オールラウンドリファレンスモードを使用する必要があります。
画像 @Tags — ビジュアルアイデンティティの制御
画像リファレンスは最も汎用性の高い @tag タイプです。1枚の画像でも、プロンプトでの記述方法次第で多くの異なる目的に使用できます。
画像のリファレンスタイプ
| 目的 | プロンプトパターン | 例 |
|---|---|---|
| 最初のフレーム | @Image1 as the first frame | 動画のオープニングビジュアルを正確に固定 |
| 最後のフレーム | @Image2 as the last frame | トランジション用の終了ビジュアルを定義 |
| キャラクターID | @Image1 is the main character | 動画全体で顔・体の一貫性を維持 |
| スタイルリファレンス | reference @Image1's art style | 絵画スタイル、カラーパレット、視覚的美学を適用 |
| シーン/環境 | scene references @Image3 | ロケーション、背景、建築を設定 |
| オブジェクトリファレンス | the product in @Image1 | コマーシャル用の製品ディテールを維持 |
| 構図 | framing references @Image1 | カメラアングルとレイアウトをコピー |
例:ゴッホ風のスタイル転送
プロンプト:
A young woman with long blonde hair in a blue dress stands on a hilltop,
gazing at a Provençal village at sunset. Entirely rendered in @Image1's
post-impressionist art style — thick impasto brushstrokes, swirling textures,
rich yellows and blues.
入力: ゴッホの絵画1枚を @Image1 として使用
結果: モデルがシーン全体をゴッホの特徴的なスタイルで描画します。フィルターの重ね合わせではなく、動画全体を通じてブラシストロークの質感を維持した本格的なスタイル転送です。
動画:@Image リファレンスを使用したスタイル転送 — ゴッホ風ポスト印象派レンダリング
例:商品コマーシャル
プロンプト:
Commercial showcase of the handbag in @Image2.
Side profile references @Image1.
Surface material texture references @Image3.
Display all product details with cinematic camera movement.
Grand orchestral background music.
入力: 3枚の画像 — サイドビュー、メイン商品写真、素材クローズアップ
結果: リファレンス画像から正確な素材の質感とプロポーションを維持した、洗練された商品動画。製品ディテールにAIのハルシネーションが発生しません。
複数画像でのキャラクター一貫性
同じキャラクターを複数のショットで使用する場合は、異なる角度からの複数のリファレンス画像をアップロードします:
@Image1 and @Image2 define the main character's appearance.
The character walks through @Image3's environment,
wearing the outfit from @Image4.
キャラクターのリファレンス画像が多いほど、出力の一貫性が向上します。これにより、単一画像生成で問題となる「顔の変形」問題が解決されます。
動画 @Tags — カメラワークとモーションの複製
動画リファレンスは、Seedance 2.0 の最も印象的な機能を引き出します:カメラワークと物理的な動きの精密な複製。リファレンス動画をアップロードすると、モデルが正確なシネマトグラフィー、アクションの振り付け、ビジュアルエフェクトをコピーします。
動画のリファレンスタイプ
| 目的 | プロンプトパターン | コピーされる内容 |
|---|---|---|
| カメラワーク | reference @Video1's camera movement | パン、チルト、ドリー、トラッキング、ズームパターン |
| アクション/振り付け | perform the actions from @Video1 | 体の動き、ダンスステップ、格闘の振り付け |
| ビジュアルエフェクト | reference @Video1's transition effects | パーティクルエフェクト、スタイルトランジション、VFX |
| リズム/ペーシング | match @Video1's editing rhythm | カットのタイミング、ビート同期、テンポ |
| 完全複製 | completely reference @Video1 | すべて — カメラ、アクション、エフェクト、ペーシング |
例:シネマティックカメラ複製
プロンプト:
Reference @Image1's character. He is in @Image2's elevator.
Completely reference @Video1's camera movements and the protagonist's
facial expressions. Hitchcock zoom when the character is frightened,
then several orbiting shots inside the elevator.
The elevator door opens, tracking shot follows him out.
Exterior scene references @Image3.
入力: 3枚の画像(キャラクター、エレベーター内装、外観シーン)+ 1本のリファレンス動画(希望するカメラワーク付き)
結果: モデルがリファレンス動画から正確なヒッチコックズーム、軌道カメラ移動、トラッキングショットを再現し、まったく異なるキャラクターと設定に適用します。
複製可能なカメラテクニック
Seedance 2.0 はリファレンス動画から以下のカメラワークを再現できます:
- ヒッチコックズーム(ドリーズーム / めまいエフェクト)
- 被写体周囲の360°オービット
- ワンショット長回し(カットなし)
- メカニカルアームによるマルチアングルトラッキング
- ローアングルヒーローショット
- 手持ちカメラのチェイスショット
- 魚眼レンズディストーション
- プッシュプルのリズミカルな動き
プロンプトのコツ: リファレンス動画のどの側面をコピーするか具体的に指定しましょう。「reference @Video1's camera movement」は単なる「reference @Video1」よりも効果的です。モデルにすべてをコピーしようとさせるのではなく、シネマトグラフィーに集中させることができます。完全な Python コードによる camera reference examples については、専用のカメラムーブメントチュートリアルをご覧ください。
例:アクションパルクール
動画:シネマティックトラッキングショットによるダイナミックなパルクール — カメラワークリファレンスを使用して生成
音声 @Tags — リファレンスによるサウンドデザイン
Seedance 2.0 はすべての動画にネイティブ音声を生成します — 効果音、環境音、音楽、さらには台詞まで。音声 @tags を使えば、サウンドをコントロールできます。
音声のリファレンスタイプ
| 目的 | プロンプトパターン | コピーされる内容 |
|---|---|---|
| BGM | use @Audio1 for background music | 音楽スタイル、テンポ、楽器 |
| 効果音 | sound effects reference @Audio1 | 特定のサウンドテクスチャとタイミング |
| ボイス/ナレーションスタイル | narration voice references @Video1 | 声のトーン、話すペース、アクセント |
| ビート同期 | match @Audio1's rhythm for editing cuts | 音楽のビートがビジュアルトランジションを駆動 |
ビート同期(ミュージックビデオモード)
最も強力な音声機能の1つ:音楽トラックをアップロードすると、モデルがビジュアルのカットやトランジションをビートに同期させます。
プロンプト:
@Image1 through @Image7 as scene references.
Match @Video1's visual rhythm and beat synchronization.
Each image appears on a music beat with dynamic transitions.
Enhance visual impact with dramatic lighting changes on each cut.
結果: モデルがミュージックビデオスタイルの編集を作成し、シーンの切り替え、カメラの動き、ライティングの変化がリファレンス音声のビートに正確に合わせて発生します。
アップロード動画の音声をリファレンスとして使用
別の音声ファイルは不要です。アップロードした動画の音声トラックをリファレンスにできます:
Background music references @Video1's audio.
これは、既存の動画のサウンドデザインを複製しつつビジュアルを変更したい場合に便利です。
例:キャラクターの台詞
動画:自然な声の演技と環境カフェサウンドによるAI生成キャラクターダイアログ
Seedance 2.0 は英語、中国語、スペイン語、韓国語など、多言語での台詞生成をサポートしています。プロンプトに台詞を直接書くと、モデルがリップシンクと声の演技を生成します。
高度な組み合わせ — マルチモーダルレシピ
@tags の真の力は、複数のモダリティを組み合わせた時に発揮されます。一般的な制作シナリオに対応する3つの実証済みレシピを紹介します。
レシピ 1:シネマティック短編映画
目標: 特定のキャラクター、カメラワーク、サウンドトラックによる映画品質のシーン
ファイル:
- @Image1: キャラクターの顔/体のリファレンス
- @Image2: 環境/ロケーションリファレンス
- @Video1: カメラワークリファレンス(例:映画のトラッキングショット)
- @Audio1: BGMトラック
プロンプト:
@Image1's character walks through @Image2's environment.
Camera movement follows @Video1's tracking shot pattern.
Background music uses @Audio1.
Cinematic lighting, shallow depth of field, 24fps film grain.
ファイル配分: 画像2枚 + 動画1本 + 音声1つ = 12枠中4枠使用
レシピ 2:ECサイト商品動画
目標: 静止画の商品写真からプロフェッショナルな商品ショーケースを作成
ファイル:
- @Image1: 商品メインショット
- @Image2: 商品サイドビュー
- @Image3: 素材/テクスチャのクローズアップ
- @Video1: カメラワークリファレンス(商品を周回するショット)
プロンプト:
Commercial showcase of the product in @Image2.
Side profile references @Image1.
Surface material and texture reference @Image3.
Camera movement references @Video1's orbiting rotation.
Studio lighting, reflective dark surface, premium aesthetic.
ファイル配分: 画像3枚 + 動画1本 = 12枠中4枠使用
レシピ 3:マルチキャラクターアニメーション
目標: 振り付けされたアクションで2人のキャラクターが交流
ファイル:
- @Image1, @Image2: キャラクターA(正面 + 横のリファレンス)
- @Image3, @Image4: キャラクターB(正面 + 横のリファレンス)
- @Image5: 背景/シーンリファレンス
- @Video1: アクション振り付けリファレンス
プロンプト:
@Image1 and @Image2 define Character A (spear wielder).
@Image3 and @Image4 define Character B (dual swords).
They fight in @Image5's autumn forest, mimicking @Video1's
combat choreography. White dust rises on impact.
Dramatic star-filled night sky.
ファイル配分: 画像5枚 + 動画1本 = 12枠中6枠使用
12ファイル枠:配分戦略
12枠を有効に使うための配分方法:
| 優先度 | 配分 | 理由 |
|---|---|---|
| キャラクターID | キャラクターごとに2〜3枚の画像 | 角度が多いほど一貫性が向上 |
| カメラ/モーションリファレンス | 動画1本 | 良いリファレンスが1つあれば十分 |
| シーン/環境 | 画像1〜2枚 | 世界観を設定 |
| 音声/音楽 | 音声1つまたは動画1本(音声トラック用) | 雰囲気を設定 |
| スタイルリファレンス | 画像1枚(必要な場合) | 非リアルスタイルの場合のみ |
| 予備 | 2〜3枠を空けておく | イテレーションと追加ディテール用 |
プロのコツ: 12枠すべてを使う必要はありません。4〜6ファイルから始めて、出力にさらなる精度が必要な場合にのみ追加しましょう。リファレンスを過剰に入れるとモデルが混乱する可能性があります。
API コール例
マルチモーダル生成の API コール例:
import requests
response = requests.post(
"https://api.evolink.ai/v1/videos/generations",
headers={"Authorization": "Bearer YOUR_EVOLINK_API_KEY"},
json={
"model": "seedance-2.0",
"prompt": (
"@Image1 as the main character. "
"@Image2 as the environment. "
"Reference @Video1's tracking shot and camera movement. "
"The character walks through a misty forest at dawn. "
"Cinematic lighting, shallow depth of field."
),
"image_urls": [
"https://your-cdn.com/character.jpg",
"https://your-cdn.com/forest.jpg"
],
"video_urls": [
"https://your-cdn.com/tracking-shot.mp4"
],
"duration": 10,
"quality": "1080p",
"generate_audio": true
}
)
task_id = response.json()["id"]
print(f"Generation started: {task_id}")
結果のポーリング:
import time
while True:
status = requests.get(
f"https://api.evolink.ai/v1/tasks/{task_id}",
headers={"Authorization": "Bearer YOUR_EVOLINK_API_KEY"}
)
result = status.json()
if result["status"] == "completed":
print(f"Video ready: {result['results'][0]}")
break
elif result["status"] == "failed":
print(f"Error: {result.get('error', 'Unknown error')}")
break
time.sleep(5)
このコードを EvoLink API キーで実行してください。サインアップは無料で、クレジットカードは不要です。
よくあるミスとその修正方法
@tag の目的を指定しない
悪い例: @Image1 @Video1 generate a video of a dancer
良い例: @Image1 as the dancer's appearance reference. @Video1 for dance choreography and camera movement. Generate the dancer performing on a stage.
モデルには明示的な役割の割り当てが必要です。指定しないとモデルが推測しますが、たいてい間違った結果になります。
低解像度の入力ファイル
@Image1 が 480p の場合、出力はぼやけたものになります。以下を常に心がけましょう:
- 画像:2K以上の解像度
- 動画:720p、圧縮アーティファクトのないクリーンな映像
- 音声:128kbps以上のMP3またはロスレスWAV
12ファイル枠すべてを使おうとする
リファレンスが多ければ良い出力が得られるわけではありません。3〜5ファイルから始めて、必要な場合にのみ追加しましょう。矛盾するリファレンスが多すぎるとモデルが混乱します。
リアルな人物の顔写真をアップロードする
プラットフォームの制限: Seedance 2.0 は現在、リアルな人物の顔を含む画像や動画のアップロードをサポートしていません。システムが自動的にこれらのアップロードをブロックします。イラスト風、アニメ風、またはスタイライズされたキャラクターリファレンスを使用してください。
アセット番号の混同
画像3枚と動画2本をアップロードした場合、番号は独立して付けられます:
- 画像:@Image1, @Image2, @Image3
- 動画:@Video1, @Video2
@File3 や @Asset5 とは書かないでください。タイプ別の番号付けを使用します。
動画延長時のデュレーション設定ミス
既存の動画を5秒延長する場合、生成デュレーションは5秒(新しい部分)に設定します。合計の長さではありません。延長分はオリジナルに追加されます。
FAQ
1回の生成で何ファイルまでアップロードできますか?
合計12ファイルまで:画像は最大9枚、動画は3本、音声クリップは3つ。動画の合計時間は2〜15秒の範囲内である必要があります。音声クリップの合計は15秒まで可能です。
API 経由で @tags を使用できますか?
はい。API を呼び出す際、JSON リクエストボディに image_urls、video_urls、audio_urls 配列を渡します。各配列にはリファレンスファイルの直接 URL を含めます。@tag の番号付け(@Image1、@Image2...)は各配列内の URL の順序に対応します。プロンプトテキストでは、UIと同じ @tag 構文を使用します。
@tag に役割を割り当てないとどうなりますか?
モデルはファイルの内容とプロンプトのコンテキストから目的を推測しようとします。しかし、これは信頼性が低い方法です。常に各タグの役割を明示的に記述してください。例えば、@Image1 をコンテキストなしで言及するだけでなく、@Image1 as the first frame のように記述します。
アップロードした動画ファイルの音声をリファレンスにできますか?
はい。プロンプトで background music references @Video1's audio と記述します。モデルが動画から音声トラックを抽出し、別の音声ファイルを必要とせずにサウンドリファレンスとして使用します。
対応している画像・動画フォーマットは?
画像:JPEG, PNG, WebP, BMP, TIFF, GIF(各最大30 MB)。動画:MP4, MOV(各最大50 MB、480p〜720p解像度)。音声:MP3, WAV(各最大15 MB)。
@Tags で制作を始めよう
@tag リファレンスシステムは、Seedance 2.0 を現在利用可能な最もコントローラブルなAI動画生成ツールにしている要素です。欲しいものを言葉で説明して結果を祈る代わりに、モデルに正確に意図を見せた上で、映画クルーのように指揮を執ることができます。
重要な原則:
- すべての @tag には役割が必要。 ファイルをアップロードするだけでなく、各ファイルの役割をモデルに伝えましょう。
- 小さく始めて、精度を追加。 3〜4つのリファレンスから始めて、出力に必要な場合にのみ追加します。
- 何をコピーするか具体的に指定。 「reference @Video1's camera movement」は「reference @Video1」よりも効果的です。
AI動画の監督を始めませんか? EvoLink で無料スタート — Seedance 2.0 と主要なAI動画モデルすべてに対応する1つの API キーで、スマートルーティングにより20〜70%のコスト削減が可能です。
学習を続ける:
- Seedance 2.0 プロンプトガイド — プロンプトライティングの基礎をマスター
最終更新:2026年2月20日 | Written by J, Growth Lead at EvoLink