February 20, 2026

Seedance 2.0 マルチモーダル参照ガイド: 自然言語で画像・動画・音声リファレンスを駆動する

seedance-2.0-reference-to-video で最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを自然言語だけで指示する方法。コピペで使えるプロンプトテンプレート 10 種と、@Tag 構文にまつわる誤解を解消します。

まずはよくある誤解を解いておきましょう。 Seedance 2.0 は @Image1、@Video1、@Audio1 のようなタグ構文をサポートしているという噂がありますが、実際の API にそのような構文は存在しません。Seedance 2.0 の seedance-2.0-reference-to-video モデルは最大 9 枚の画像 + 3 本の動画 + 3 つの音声クリップを参照素材として受け付けますが、各素材の用途は 自然言語 で prompt の中に記述します。特殊な記号は一切使いません。
本記事では、マルチモーダル生成を的確にコントロールするための、効果的な自然言語プロンプトの書き方を解説します。

ほとんどの AI 動画ジェネレーターは単一のテキストプロンプトを受け取り、その解釈をモデルに任せます。Seedance 2.0 の reference-to-video モードでは、1 回のリクエストで複数の参照素材を同時に渡せます。スタイルやキャラクターを定義する画像、カメラワークやテンポを伝える動画、ムードやリズムを設定する音声といった具合です。これは Sora 2、Kling 3.0、Veo 3.1 との差別化ポイントとなる重要な機能の一つです。

このガイドで扱う内容：

reference-to-video の実際の API 構造と入力制限
prompt 内で自然言語を使って各素材に「役割を割り当てる」方法
すぐにコピーできるプロンプトテンプレート 10 種
よくある間違いとデバッグのヒント

読みながら API を試したい場合は、EvoLink の無料 API キーを取得してください。30 秒で完了します。

1. 実際の API 構造（まずは基礎をしっかり押さえる）

reference-to-video のリクエストボディは非常にシンプルです。

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "…",
  "image_urls": ["…", "…"],
  "video_urls": ["…"],
  "audio_urls": ["…"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

コアルール:

項目	制限
`image_urls`	0〜9 枚、JPEG/PNG/WebP、各辺 300〜6000 px、各 30 MB 以下
`video_urls`	0〜3 本、MP4/MOV、各 2〜15 秒、合計 15 秒以下、480p〜720p
`audio_urls`	0〜3 本、WAV/MP3、各 2〜15 秒、合計 15 秒以下
リクエストボディ	合計 64 MB 以下（Base64 インライン埋め込み不可）
厳守すべき制約	音声のみの指定は不可 — 必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含める
`quality`	`480p` と `720p` のみ（1080p は非対応）
`prompt`	中国語 500 文字以下または英語 1000 ワード以下

存在しないもの:

❌ @Image1 / @Video1 / @Audio1 のタグ構文
❌ 素材を「ファーストフレーム」「スタイル参照」「キャラクター参照」として指定する専用フィールド
❌ 素材ごとに役割を割り当てるための JSON フィールド

Seedance 2.0 の設計思想は「役割の割り当てはプロンプト自身に担わせる」というものです。「image 1 がキャラクター、video 1 がカメラワーク、audio 1 がサウンドトラック」といった具合に平易な言葉でモデルに伝えれば、モデルは配列内の順序に従って参照を解釈します。

2. 基本的な記述パターン

プロンプトは 2 つのセクションに分けて書きます。素材の役割割り当て + シーン記述 です。

[素材の役割割り当て] — 各素材の役割を 2〜3 文で明記する
[シーン記述]         — 仕上げたい映像を具体的に記述する

例として、画像 1 枚 + 動画 1 本 + 音声 1 本の場合は次のようになります。

Use image 1 for the art style and color palette;
replicate video 1's camera movement and pacing;
use audio 1 as background music throughout.

Scene: a young rider weaving through the streets of Tokyo after rain,
neon lights reflecting on the wet asphalt,
the camera pushing forward from behind the rider into a side close-up,
pacing rising and falling with the music.

ポイント：

「image 1 / video 1 / audio 1」 という表現を使うこと。重要なのは どの配列インデックスを指しているか をモデルに正しく伝えることです
参照は 配列の順序 に従う必要があります。image_urls に 2 枚入れた場合、「image 1」は image_urls[0]、「image 2」は image_urls[1] に対応します。順序を入れ替えるとモデルが混乱します
1 つの素材には主要な役割を 1 つだけ割り当てる。1 枚の画像に「ファーストフレーム」「キャラクター」「スタイル」を全部兼ねさせようとすると、混乱の原因になります
シーン記述は具体的に書く。「かっこいい何かを撮って」のような指示では意味がありません

3. そのまま使える 10 種のプロンプトテンプレート

以下の各テンプレートは実際の API 挙動に基づいています。素材の URL や主要な部分はご自身のものに置き換えてください。

テンプレート 1: 1 枚の画像をファーストフレームとして使用（最もシンプル）

用途: 静止画 + 軽い動き

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Use the provided image as the first frame. The camera slowly pushes in, the person lifts her head and smiles, wind moves her hair gently.",
  "image_urls": ["https://example.com/portrait.jpg"],
  "duration": 5,
  "quality": "720p"
}

ヒント: 画像 1 枚から動画を生成するなら、reference-to-video よりも seedance-2.0-image-to-video の方が適しています。ファーストフレーム処理に特化した最適化が施されているためです。

テンプレート 2: ファースト・ラストフレームのトランジション

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Smoothly transition from the first image to the second. Use camera panning and lighting changes to bridge the two scenes.",
  "image_urls": [
    "https://example.com/sunrise.jpg",
    "https://example.com/sunset.jpg"
  ],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 3: アートスタイル転送（複数画像参照）

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The overall art style references the color palette, lighting, and texture of the 3 provided images. Scene: a small-town summer market at dusk, crowds moving through warm amber light.",
  "image_urls": [
    "https://example.com/style-1.jpg",
    "https://example.com/style-2.jpg",
    "https://example.com/style-3.jpg"
  ],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 4: キャラクターの一貫性

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The female character's appearance stays consistent with image 1. Scene: she walks into a vintage cafe, orders a latte, sits by the window, and opens a book.",
  "image_urls": ["https://example.com/character-ref.jpg"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

ヒント: 実在の人物の顔はサポートされていません。架空のキャラクターやイラスト風のスタイルを使用してください。

テンプレート 5: カメラワークの再現（動画参照）

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Replicate video 1's orbital camera movement and velocity curve. Subject replaced with a classical sculpture in a museum hall at dusk.",
  "video_urls": ["https://example.com/orbit-shot.mp4"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 6: 音楽に合わせたテンポ制御（音声参照）

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Use audio 1 as the soundtrack for the entire video; shot changes sync with the beat. Scene: fast cuts of city night life — neon, raindrops, silhouettes, cab headlights flashing past.",
  "image_urls": ["https://example.com/city-mood.jpg"],
  "audio_urls": ["https://example.com/synthwave.mp3"],
  "duration": 10,
  "quality": "720p"
}

注意: 音声のみの指定は不可です。必ず画像 1 枚または動画 1 本以上をビジュアルアンカーとして含めてください。

テンプレート 7: 3 モーダルをすべて組み合わせた例

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The character's appearance references image 1; replicate video 1's first-person perspective and camera pacing; use audio 1 as background music throughout. Scene: a young rider weaving through rain-soaked Tokyo streets, neon reflections on the asphalt.",
  "image_urls": ["https://example.com/rider.jpg"],
  "video_urls": ["https://example.com/pov.mp4"],
  "audio_urls": ["https://example.com/bgm.mp3"],
  "duration": 10,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 8: 商品広告（商品の外観を維持）

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The sneaker's appearance stays identical to image 1 — upper color, laces, and logo all match. Scene: the shoe rotates slowly on a transparent acrylic pedestal, soft studio lighting, gray gradient background.",
  "image_urls": ["https://example.com/sneaker.jpg"],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "1:1"
}

テンプレート 9: テキストのみ（参照素材なし）

reference-to-video は参照素材なしでも実行できますが、その場合は seedance-2.0-text-to-video を直接使う方が低コストでシンプルです。

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "A macro lens focuses on a green glass frog on a leaf. The focus gradually shifts from its smooth skin to its completely transparent abdomen, where a bright red heart is beating powerfully and rhythmically.",
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

テンプレート 10: セリフ生成（セリフを半角ダブルクォートで囲む）

Seedance 2.0 は半角ダブルクォート内のテキストを認識し、専用の音声合成処理を実行します。

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "She stops, turns to the boy, and says: \"You finally understood.\" Close-up on her face, expression shifting from determination to warmth.",
  "duration": 6,
  "quality": "720p",
  "generate_audio": true
}

4. よくある間違いとデバッグ

間違い 1: `@Image1` のような疑似タグ構文の使用

症状: モデルが参照素材を完全に無視し、素材とは無関係な映像を出力してしまう。

原因: API にはそのような構文は存在しません。@Image1 はプロンプト内の単なる文字列として扱われ、参照として解釈されることはありません。

対処法: 「image 1」「video 1」「audio 1」のように自然言語で記述してください。

間違い 2: 1 つの素材に複数の役割を担わせる

❌ image 1 がファーストフレームであり、キャラクター参照であり、スタイル参照でもある
✅ image 1 がシーンの冒頭、image 2 がキャラクター参照を担当する

3 枚以上の画像 を参照する必要がある（image-to-video は 2 枚まで）
動画をカメラワークの参照として使用したい
音声で映像のテンポを制御したい
スタイル転送とキャラクターの一貫性を同時に実現したい

reference-to-video を使う必要がないケース:

テキストプロンプトだけで済む場合 → text-to-video の方が低コストです
1〜2 枚の画像を「動かしたい」だけの場合 → image-to-video はファーストフレーム処理に特化した最適化が施されています
多数の候補を素早く試したい場合 → 対応する Fast モデルを使用してください

6. 次のステップ

Reference-to-Video API 完全リファレンス — 全パラメータ、制限、レスポンススキーマ
モデル概要 — Seedance 2.0 の 6 モデルから選ぶためのガイド
クイックスタート — 5 分で最初のリクエストを実行
無料 API キーを取得 — 30 秒で登録完了

@Image1、@Video1、@Audio1 のようなタグ構文に言及している他のチュートリアルを見かけても、無視して構いません。それは実際の Seedance 2.0 API の動作とは異なります。信頼できる情報源は公式ドキュメントのみです。

Ready to get started?

Top up and start generating cinematic AI videos in minutes.

詳細を見る

← Back to Blog