Seedance 2.0 マルチモーダル参照ガイド: 自然言語で画像・動画・音声リファレンスを駆動する
seedance-2.0-reference-to-video で最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを自然言語だけで指示する方法。コピペで使えるプロンプトテンプレート 10 種と、@Tag 構文にまつわる誤解を解消します。

まずはよくある誤解を解いておきましょう。 Seedance 2.0 は
@Image1、@Video1、@Audio1のようなタグ構文をサポートしているという噂がありますが、実際の API にそのような構文は存在しません。Seedance 2.0 のseedance-2.0-reference-to-videoモデルは最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを参照素材として受け付けますが、各素材の用途は 自然言語 でpromptの中に記述します。特殊な記号は一切使いません。本記事では、マルチモーダル生成を的確にコントロールするための、効果的な自然言語プロンプトの書き方を解説します。
ほとんどの AI 動画ジェネレーターは単一のテキストプロンプトを受け取り、その解釈をモデルに任せます。Seedance 2.0 の reference-to-video モードでは、1 回のリクエストで複数の参照素材を同時に渡せます。スタイルやキャラクターを定義する画像、カメラワークやテンポを伝える動画、ムードやリズムを設定する音声といった具合です。これは Sora 2、Kling 3.0、Veo 3.1 との差別化ポイントとなる重要な機能の一つです。
このガイドで扱う内容:
reference-to-videoの実際の API 構造と入力制限prompt内で自然言語を使って各素材に「役割を割り当てる」方法- すぐにコピーできるプロンプトテンプレート 10 種
- よくある間違いとデバッグのヒント
読みながら API を試したい場合は、EvoLink の無料 API キーを取得 してください。30 秒で完了します。
1. 実際の API 構造(まずは基礎をしっかり押さえる)
reference-to-video のリクエストボディは非常にシンプルです。
{
"model": "seedance-2.0-reference-to-video",
"prompt": "…",
"image_urls": ["…", "…"],
"video_urls": ["…"],
"audio_urls": ["…"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
コアルール:
| 項目 | 制限 |
|---|---|
image_urls | 0〜9 枚、JPEG/PNG/WebP、各辺 300〜6000 px、各 30 MB 以下 |
video_urls | 0〜3 本、MP4/MOV、各 2〜15 秒、合計 15 秒以下、480p〜720p |
audio_urls | 0〜3 本、WAV/MP3、各 2〜15 秒、合計 15 秒以下 |
| リクエストボディ | 合計 64 MB 以下(Base64 インライン埋め込み不可) |
| 厳守すべき制約 | 音声のみの指定は不可 — 必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含める |
quality | 480p と 720p のみ(1080p は非対応) |
prompt | 中国語 500 文字以下または英語 1000 ワード以下 |
存在しないもの:
- ❌
@Image1/@Video1/@Audio1のタグ構文 - ❌ 素材を「ファーストフレーム」「スタイル参照」「キャラクター参照」として指定する専用フィールド
- ❌ 素材ごとに役割を割り当てるための JSON フィールド
Seedance 2.0 の設計思想は「役割の割り当てはプロンプト自身に担わせる」というものです。「image 1 がキャラクター、video 1 がカメラワーク、audio 1 がサウンドトラック」といった具合に平易な言葉でモデルに伝えれば、モデルは配列内の順序に従って参照を解釈します。
2. 基本的な記述パターン
プロンプトは 2 つのセクションに分けて書きます。素材の役割割り当て + シーン記述 です。
[素材の役割割り当て] — 各素材の役割を 2〜3 文で明記する
[シーン記述] — 仕上げたい映像を具体的に記述する
例として、画像 1 枚 + 動画 1 本 + 音声 1 本の場合は次のようになります。
Use image 1 for the art style and color palette;
replicate video 1's camera movement and pacing;
use audio 1 as background music throughout.
Scene: a young rider weaving through the streets of Tokyo after rain,
neon lights reflecting on the wet asphalt,
the camera pushing forward from behind the rider into a side close-up,
pacing rising and falling with the music.
ポイント:
- 「image 1 / video 1 / audio 1」 という表現を使うこと。重要なのは どの配列インデックスを指しているか をモデルに正しく伝えることです
- 参照は 配列の順序 に従う必要があります。
image_urlsに 2 枚入れた場合、「image 1」はimage_urls[0]、「image 2」はimage_urls[1]に対応します。順序を入れ替えるとモデルが混乱します - 1 つの素材には主要な役割を 1 つだけ割り当てる。1 枚の画像に「ファーストフレーム」「キャラクター」「スタイル」を全部兼ねさせようとすると、混乱の原因になります
- シーン記述は具体的に書く。「かっこいい何かを撮って」のような指示では意味がありません
3. そのまま使える 10 種のプロンプトテンプレート
以下の各テンプレートは実際の API 挙動に基づいています。素材の URL や主要な部分はご自身のものに置き換えてください。
テンプレート 1: 1 枚の画像をファーストフレームとして使用(最もシンプル)
用途: 静止画 + 軽い動き
{
"model": "seedance-2.0-image-to-video",
"prompt": "Use the provided image as the first frame. The camera slowly pushes in, the person lifts her head and smiles, wind moves her hair gently.",
"image_urls": ["https://example.com/portrait.jpg"],
"duration": 5,
"quality": "720p"
}
ヒント: 画像 1 枚から動画を生成するなら、
reference-to-videoよりもseedance-2.0-image-to-videoの方が適しています。ファーストフレーム処理に特化した最適化が施されているためです。
テンプレート 2: ファースト・ラストフレームのトランジション
{
"model": "seedance-2.0-image-to-video",
"prompt": "Smoothly transition from the first image to the second. Use camera panning and lighting changes to bridge the two scenes.",
"image_urls": [
"https://example.com/sunrise.jpg",
"https://example.com/sunset.jpg"
],
"duration": 6,
"quality": "720p",
"aspect_ratio": "16:9"
}
テンプレート 3: アートスタイル転送(複数画像参照)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "The overall art style references the color palette, lighting, and texture of the 3 provided images. Scene: a small-town summer market at dusk, crowds moving through warm amber light.",
"image_urls": [
"https://example.com/style-1.jpg",
"https://example.com/style-2.jpg",
"https://example.com/style-3.jpg"
],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
テンプレート 4: キャラクターの一貫性
{
"model": "seedance-2.0-reference-to-video",
"prompt": "The female character's appearance stays consistent with image 1. Scene: she walks into a vintage cafe, orders a latte, sits by the window, and opens a book.",
"image_urls": ["https://example.com/character-ref.jpg"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
ヒント: 実在の人物の顔はサポートされていません。架空のキャラクターやイラスト風のスタイルを使用してください。
テンプレート 5: カメラワークの再現(動画参照)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "Replicate video 1's orbital camera movement and velocity curve. Subject replaced with a classical sculpture in a museum hall at dusk.",
"video_urls": ["https://example.com/orbit-shot.mp4"],
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
テンプレート 6: 音楽に合わせたテンポ制御(音声参照)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "Use audio 1 as the soundtrack for the entire video; shot changes sync with the beat. Scene: fast cuts of city night life — neon, raindrops, silhouettes, cab headlights flashing past.",
"image_urls": ["https://example.com/city-mood.jpg"],
"audio_urls": ["https://example.com/synthwave.mp3"],
"duration": 10,
"quality": "720p"
}
注意: 音声のみの指定は不可です。必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含めてください。
テンプレート 7: 3 モーダルをすべて組み合わせた例
{
"model": "seedance-2.0-reference-to-video",
"prompt": "The character's appearance references image 1; replicate video 1's first-person perspective and camera pacing; use audio 1 as background music throughout. Scene: a young rider weaving through rain-soaked Tokyo streets, neon reflections on the asphalt.",
"image_urls": ["https://example.com/rider.jpg"],
"video_urls": ["https://example.com/pov.mp4"],
"audio_urls": ["https://example.com/bgm.mp3"],
"duration": 10,
"quality": "720p",
"aspect_ratio": "16:9"
}
テンプレート 8: 商品広告(商品の外観を維持)
{
"model": "seedance-2.0-reference-to-video",
"prompt": "The sneaker's appearance stays identical to image 1 — upper color, laces, and logo all match. Scene: the shoe rotates slowly on a transparent acrylic pedestal, soft studio lighting, gray gradient background.",
"image_urls": ["https://example.com/sneaker.jpg"],
"duration": 6,
"quality": "720p",
"aspect_ratio": "1:1"
}
テンプレート 9: テキストのみ(参照素材なし)
reference-to-video は参照素材なしでも実行できますが、その場合は seedance-2.0-text-to-video を直接使う方が低コストでシンプルです。
{
"model": "seedance-2.0-text-to-video",
"prompt": "A macro lens focuses on a green glass frog on a leaf. The focus gradually shifts from its smooth skin to its completely transparent abdomen, where a bright red heart is beating powerfully and rhythmically.",
"duration": 8,
"quality": "720p",
"aspect_ratio": "16:9"
}
テンプレート 10: セリフ生成(セリフを半角ダブルクォートで囲む)
Seedance 2.0 は半角ダブルクォート内のテキストを認識し、専用の音声合成処理を実行します。
{
"model": "seedance-2.0-text-to-video",
"prompt": "She stops, turns to the boy, and says: \"You finally understood.\" Close-up on her face, expression shifting from determination to warmth.",
"duration": 6,
"quality": "720p",
"generate_audio": true
}
4. よくある間違いとデバッグ
間違い 1: @Image1 のような疑似タグ構文の使用
症状: モデルが参照素材を完全に無視し、素材とは無関係な映像を出力してしまう。
原因: API にはそのような構文は存在しません。@Image1 はプロンプト内の単なる文字列として扱われ、参照として解釈されることはありません。
対処法: 「image 1」「video 1」「audio 1」のように自然言語で記述してください。
間違い 2: 1 つの素材に複数の役割を担わせる
❌ image 1 がファーストフレームであり、キャラクター参照であり、スタイル参照でもある
✅ image 1 がシーンの冒頭、image 2 がキャラクター参照を担当する
間違い 3: 配列の順序がプロンプト内の参照と一致しない
プロンプトで「video 1」「video 2」と書く場合、video_urls[0] が自分の意図する「video 1」でなければなりません。配列を並び替えると参照の対応関係がずれてしまいます。
間違い 4: ビジュアルアンカーなしで audio_urls だけを送信する
invalid_request エラーが返ります。必ず画像 1 枚または動画 1 本以上を含めてください。
間違い 5: quality: "1080p" の使用
Seedance 2.0 API は 1080p に対応していません。指定できるのは 480p と 720p のみです。
間違い 6: 古い架空のモデル ID "model": "seedance-2.0" を使用する
seedance-2.0-reference-to-video のような完全なモデル ID を指定する必要があります。全モデルの一覧は モデル概要 を参照してください。
5. reference-to-video を使うべきとき(と使うべきでないとき)
reference-to-video を使うべきケース:
- 3 枚以上の画像 を参照する必要がある(image-to-video は 2 枚まで)
- 動画をカメラワークの参照として使用したい
- 音声で映像のテンポを制御したい
- スタイル転送とキャラクターの一貫性を同時に実現したい
reference-to-video を使う必要がないケース:
- テキストプロンプトだけで済む場合 → text-to-video の方が低コストです
- 1〜2 枚の画像を「動かしたい」だけの場合 → image-to-video はファーストフレーム処理に特化した最適化が施されています
- 多数の候補を素早く試したい場合 → 対応する Fast モデル を使用してください
6. 次のステップ
- Reference-to-Video API 完全リファレンス — 全パラメータ、制限、レスポンススキーマ
- モデル概要 — Seedance 2.0 の 6 モデルから選ぶためのガイド
- クイックスタート — 5 分で最初のリクエストを実行
- 無料 API キーを取得 — 30 秒で登録完了
@Image1、@Video1、@Audio1のようなタグ構文に言及している他のチュートリアルを見かけても、無視して構いません。それは実際の Seedance 2.0 API の動作とは異なります。信頼できる情報源は 公式ドキュメント のみです。