February 20, 2026

Seedance 2.0 マルチモーダル参照ガイド: 自然言語で画像・動画・音声リファレンスを駆動する

seedance-2.0-reference-to-video で最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを自然言語だけで指示する方法。コピペで使えるプロンプトテンプレート 10 種と、@Tag 構文にまつわる誤解を解消します。

Seedance 2.0 マルチモーダル参照ガイド: 自然言語で画像・動画・音声リファレンスを駆動する

まずはよくある誤解を解いておきましょう。 Seedance 2.0 は @Image1@Video1@Audio1 のようなタグ構文をサポートしているという噂がありますが、実際の API にそのような構文は存在しません。Seedance 2.0 の seedance-2.0-reference-to-video モデルは最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを参照素材として受け付けますが、各素材の用途は 自然言語prompt の中に記述します。特殊な記号は一切使いません。

本記事では、マルチモーダル生成を的確にコントロールするための、効果的な自然言語プロンプトの書き方を解説します。

ほとんどの AI 動画ジェネレーターは単一のテキストプロンプトを受け取り、その解釈をモデルに任せます。Seedance 2.0 の reference-to-video モードでは、1 回のリクエストで複数の参照素材を同時に渡せます。スタイルやキャラクターを定義する画像、カメラワークやテンポを伝える動画、ムードやリズムを設定する音声といった具合です。これは Sora 2、Kling 3.0、Veo 3.1 との差別化ポイントとなる重要な機能の一つです。

このガイドで扱う内容:

  1. reference-to-video の実際の API 構造と入力制限
  2. prompt 内で自然言語を使って各素材に「役割を割り当てる」方法
  3. すぐにコピーできるプロンプトテンプレート 10 種
  4. よくある間違いとデバッグのヒント

読みながら API を試したい場合は、EvoLink の無料 API キーを取得 してください。30 秒で完了します。


1. 実際の API 構造(まずは基礎をしっかり押さえる)

reference-to-video のリクエストボディは非常にシンプルです。

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "…",
  "image_urls": ["…", "…"],
  "video_urls": ["…"],
  "audio_urls": ["…"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

コアルール:

項目制限
image_urls0〜9 枚、JPEG/PNG/WebP、各辺 300〜6000 px、各 30 MB 以下
video_urls0〜3 本、MP4/MOV、各 2〜15 秒、合計 15 秒以下、480p〜720p
audio_urls0〜3 本、WAV/MP3、各 2〜15 秒、合計 15 秒以下
リクエストボディ合計 64 MB 以下(Base64 インライン埋め込み不可)
厳守すべき制約音声のみの指定は不可 — 必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含める
quality480p720p のみ(1080p は非対応)
prompt中国語 500 文字以下または英語 1000 ワード以下

存在しないもの:

  • @Image1 / @Video1 / @Audio1 のタグ構文
  • ❌ 素材を「ファーストフレーム」「スタイル参照」「キャラクター参照」として指定する専用フィールド
  • ❌ 素材ごとに役割を割り当てるための JSON フィールド

Seedance 2.0 の設計思想は「役割の割り当てはプロンプト自身に担わせる」というものです。「image 1 がキャラクター、video 1 がカメラワーク、audio 1 がサウンドトラック」といった具合に平易な言葉でモデルに伝えれば、モデルは配列内の順序に従って参照を解釈します。


2. 基本的な記述パターン

プロンプトは 2 つのセクションに分けて書きます。素材の役割割り当て + シーン記述 です。

[素材の役割割り当て] — 各素材の役割を 2〜3 文で明記する
[シーン記述]         — 仕上げたい映像を具体的に記述する

例として、画像 1 枚 + 動画 1 本 + 音声 1 本の場合は次のようになります。

Use image 1 for the art style and color palette;
replicate video 1's camera movement and pacing;
use audio 1 as background music throughout.

Scene: a young rider weaving through the streets of Tokyo after rain,
neon lights reflecting on the wet asphalt,
the camera pushing forward from behind the rider into a side close-up,
pacing rising and falling with the music.

ポイント:

  • 「image 1 / video 1 / audio 1」 という表現を使うこと。重要なのは どの配列インデックスを指しているか をモデルに正しく伝えることです
  • 参照は 配列の順序 に従う必要があります。image_urls に 2 枚入れた場合、「image 1」は image_urls[0]、「image 2」は image_urls[1] に対応します。順序を入れ替えるとモデルが混乱します
  • 1 つの素材には主要な役割を 1 つだけ割り当てる。1 枚の画像に「ファーストフレーム」「キャラクター」「スタイル」を全部兼ねさせようとすると、混乱の原因になります
  • シーン記述は具体的に書く。「かっこいい何かを撮って」のような指示では意味がありません

3. そのまま使える 10 種のプロンプトテンプレート

以下の各テンプレートは実際の API 挙動に基づいています。素材の URL や主要な部分はご自身のものに置き換えてください。

テンプレート 1: 1 枚の画像をファーストフレームとして使用(最もシンプル)

用途: 静止画 + 軽い動き

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Use the provided image as the first frame. The camera slowly pushes in, the person lifts her head and smiles, wind moves her hair gently.",
  "image_urls": ["https://example.com/portrait.jpg"],
  "duration": 5,
  "quality": "720p"
}

ヒント: 画像 1 枚から動画を生成するなら、reference-to-video よりも seedance-2.0-image-to-video の方が適しています。ファーストフレーム処理に特化した最適化が施されているためです。

テンプレート 2: ファースト・ラストフレームのトランジション

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Smoothly transition from the first image to the second. Use camera panning and lighting changes to bridge the two scenes.",
  "image_urls": [
    "https://example.com/sunrise.jpg",
    "https://example.com/sunset.jpg"
  ],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 3: アートスタイル転送(複数画像参照)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The overall art style references the color palette, lighting, and texture of the 3 provided images. Scene: a small-town summer market at dusk, crowds moving through warm amber light.",
  "image_urls": [
    "https://example.com/style-1.jpg",
    "https://example.com/style-2.jpg",
    "https://example.com/style-3.jpg"
  ],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 4: キャラクターの一貫性

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The female character's appearance stays consistent with image 1. Scene: she walks into a vintage cafe, orders a latte, sits by the window, and opens a book.",
  "image_urls": ["https://example.com/character-ref.jpg"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

ヒント: 実在の人物の顔はサポートされていません。架空のキャラクターやイラスト風のスタイルを使用してください。

テンプレート 5: カメラワークの再現(動画参照)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Replicate video 1's orbital camera movement and velocity curve. Subject replaced with a classical sculpture in a museum hall at dusk.",
  "video_urls": ["https://example.com/orbit-shot.mp4"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 6: 音楽に合わせたテンポ制御(音声参照)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Use audio 1 as the soundtrack for the entire video; shot changes sync with the beat. Scene: fast cuts of city night life — neon, raindrops, silhouettes, cab headlights flashing past.",
  "image_urls": ["https://example.com/city-mood.jpg"],
  "audio_urls": ["https://example.com/synthwave.mp3"],
  "duration": 10,
  "quality": "720p"
}

注意: 音声のみの指定は不可です。必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含めてください。

テンプレート 7: 3 モーダルをすべて組み合わせた例

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The character's appearance references image 1; replicate video 1's first-person perspective and camera pacing; use audio 1 as background music throughout. Scene: a young rider weaving through rain-soaked Tokyo streets, neon reflections on the asphalt.",
  "image_urls": ["https://example.com/rider.jpg"],
  "video_urls": ["https://example.com/pov.mp4"],
  "audio_urls": ["https://example.com/bgm.mp3"],
  "duration": 10,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 8: 商品広告(商品の外観を維持)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The sneaker's appearance stays identical to image 1 — upper color, laces, and logo all match. Scene: the shoe rotates slowly on a transparent acrylic pedestal, soft studio lighting, gray gradient background.",
  "image_urls": ["https://example.com/sneaker.jpg"],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "1:1"
}

テンプレート 9: テキストのみ(参照素材なし)

reference-to-video は参照素材なしでも実行できますが、その場合は seedance-2.0-text-to-video を直接使う方が低コストでシンプルです。

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "A macro lens focuses on a green glass frog on a leaf. The focus gradually shifts from its smooth skin to its completely transparent abdomen, where a bright red heart is beating powerfully and rhythmically.",
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 10: セリフ生成(セリフを半角ダブルクォートで囲む)

Seedance 2.0 は半角ダブルクォート内のテキストを認識し、専用の音声合成処理を実行します。

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "She stops, turns to the boy, and says: \"You finally understood.\" Close-up on her face, expression shifting from determination to warmth.",
  "duration": 6,
  "quality": "720p",
  "generate_audio": true
}

4. よくある間違いとデバッグ

間違い 1: @Image1 のような疑似タグ構文の使用

症状: モデルが参照素材を完全に無視し、素材とは無関係な映像を出力してしまう。

原因: API にはそのような構文は存在しません。@Image1 はプロンプト内の単なる文字列として扱われ、参照として解釈されることはありません。

対処法: 「image 1」「video 1」「audio 1」のように自然言語で記述してください。

間違い 2: 1 つの素材に複数の役割を担わせる

❌ image 1 がファーストフレームであり、キャラクター参照であり、スタイル参照でもある
✅ image 1 がシーンの冒頭、image 2 がキャラクター参照を担当する

間違い 3: 配列の順序がプロンプト内の参照と一致しない

プロンプトで「video 1」「video 2」と書く場合、video_urls[0] が自分の意図する「video 1」でなければなりません。配列を並び替えると参照の対応関係がずれてしまいます。

間違い 4: ビジュアルアンカーなしで audio_urls だけを送信する

invalid_request エラーが返ります。必ず画像 1 枚または動画 1 本以上を含めてください。

間違い 5: quality: "1080p" の使用

Seedance 2.0 API は 1080p に対応していません。指定できるのは 480p720p のみです。

間違い 6: 古い架空のモデル ID "model": "seedance-2.0" を使用する

seedance-2.0-reference-to-video のような完全なモデル ID を指定する必要があります。全モデルの一覧は モデル概要 を参照してください。


5. reference-to-video を使うべきとき(と使うべきでないとき)

reference-to-video を使うべきケース:

  • 3 枚以上の画像 を参照する必要がある(image-to-video は 2 枚まで)
  • 動画をカメラワークの参照として使用したい
  • 音声で映像のテンポを制御したい
  • スタイル転送とキャラクターの一貫性を同時に実現したい

reference-to-video を使う必要がないケース:

  • テキストプロンプトだけで済む場合 → text-to-video の方が低コストです
  • 1〜2 枚の画像を「動かしたい」だけの場合 → image-to-video はファーストフレーム処理に特化した最適化が施されています
  • 多数の候補を素早く試したい場合 → 対応する Fast モデル を使用してください

6. 次のステップ

@Image1@Video1@Audio1 のようなタグ構文に言及している他のチュートリアルを見かけても、無視して構いません。それは実際の Seedance 2.0 API の動作とは異なります。信頼できる情報源は 公式ドキュメント のみです。

Ready to get started?

Top up and start generating cinematic AI videos in minutes.