マルチモーダルリファレンス

Seedance 2.0 は、プロンプト内でアップロードした画像、ビデオ、オーディオファイルに特定の役割を割り当てることができる強力な @ タグ参照システムをサポートしています。これにより、生成されるビデオをきめ細かくクリエイティブに制御できます。

@タグ構文

プロンプト内で @ タグを使用して、各 URL 配列内の位置に対応するアップロードファイルを参照します。

タグ形式マッピング先
@Image1 ~ @Image9image_urls[0] ~ image_urls[8]@Image1 as first frame
@Video1 ~ @Video3video_urls[0] ~ video_urls[2]replicate @Video1 camera movement
@Audio1 ~ @Audio3audio_urls[0] ~ audio_urls[2]@Audio1 for BGM rhythm

タグは 1 始まりのインデックスです。@Image1image_urls の最初の URL を、@Image2 は2番目を参照します。

ファイル制限

タイプ最大数対応フォーマット最大サイズ長さ
画像9.jpeg.png.webp.bmp.tiff.gif各 30MB--
ビデオ3.mp4.mov各 50MB合計 2~15 秒
オーディオ3.mp3.wav各 15MB合計 15 秒以下

合計制限: 1 リクエストあたり全モダリティ合わせて 12 ファイルです。

顔の制限: リアルな人間の顔のアップロードは自動的に拒否されます。

画像 @タグの役割

画像参照を使用して、生成されるビデオのビジュアル要素を制御します。

役割プロンプトパターン説明
先頭フレーム@Image1 as first frame画像をビデオのオープニングフレームとして使用します
末尾フレーム@Image2 as last frame画像をビデオのクロージングフレームとして使用します
キャラクター参照@Image1 as characterビデオ全体でキャラクターの外見を維持します
スタイル参照@Image1 as style referenceビジュアルスタイル(色、雰囲気、美的表現)を適用します
シーン参照@Image1 as scene背景や環境の参照として使用します
オブジェクト参照@Image1 as objectビデオに登場させる特定のオブジェクトを参照します
構図@Image1 as composition reference画像のレイアウトとフレーミングに従います

ビデオ @タグの役割

ビデオ参照を使用して、モーション、タイミング、カメラワークを転写します。

役割プロンプトパターン説明
カメラの動きreplicate @Video1 camera movementカメラ軌跡(パン、ティルト、ズーム、ドリー)をコピーします
振り付けreplicate @Video1 choreography身体/オブジェクトのモーションパターンを再現します
エフェクトreplicate @Video1 effectsビジュアルエフェクトとトランジションを転写します
リズムmatch @Video1 rhythmカット編集のタイミングとモーションのペーシングを同期します
完全再現replicate @Video1全体のモーション、カメラ、ペーシングを再現します
オーディオ抽出use @Video1 audio参照ビデオからオーディオトラックを抽出して使用します

オーディオ @タグの役割

オーディオ参照を使用して、ビデオのリズムとサウンドトラックを制御します。

役割プロンプトパターン説明
BGM@Audio1 for BGM rhythm音楽のビートに合わせてモーションエネルギーとカットを同期します
効果音@Audio1 as sound effectsオーディオキューにビジュアルイベントを合わせます
ビート同期sync to @Audio1 beat音楽のビートにモーションのピークを合わせます

API の例

画像、ビデオ、オーディオ参照を組み合わせた完全なマルチモーダルリクエストです。

import requests

response = requests.post(
    "https://api.evolink.ai/v1/videos/generations",
    headers={
        "Authorization": "Bearer YOUR_API_KEY",
        "Content-Type": "application/json"
    },
    json={
        "model": "seedance-2.0",
        "prompt": (
            "@Image1 as first frame, @Image2 as character reference. "
            "Replicate @Video1 camera movement. "
            "Sync to @Audio1 beat. "
            "A cinematic tracking shot through a neon-lit alley at night."
        ),
        "image_urls": [
            "https://example.com/scene-start.jpg",
            "https://example.com/character-ref.jpg"
        ],
        "video_urls": [
            "https://example.com/camera-reference.mp4"
        ],
        "audio_urls": [
            "https://example.com/soundtrack.mp3"
        ],
        "duration": 10,
        "quality": "1080p",
        "aspect_ratio": "16:9"
    }
)

print(response.json())

よくあるパターン

キャラクターの一貫性

明確なキャラクター参照画像を提供することで、異なるシーン間で同じキャラクターを維持します。

@Image1 as character reference. The woman walks through a busy market, picking up an apple, examining it closely.

カメラの再現

参照ビデオのカメラ軌跡を、まったく新しいシーンにそのままコピーします。

@Image1 as first frame. Replicate @Video1 camera movement. A sweeping drone shot over snow-covered mountains.

ミュージックビデオ

オーディオトラックのビートとリズムに合わせてビジュアルを生成します。

@Image1 as style reference. Sync to @Audio1 beat. Fast cuts of urban street scenes, neon lights, dancing figures.

ルールと制限事項

  • タグは配列の位置と一致する必要があります — @Image1 は常に image_urls[0] です
  • URL 配列で提供されたファイル数を超えるファイルは参照できません
  • 全モダリティ合わせて合計 12 ファイルが上限です
  • リアルな人間の顔の画像は自動的に拒否されます
  • ビデオ参照を使用すると生成コストが増加します
  • すべての URL はサーバーから直接アクセス可能である必要があります(認証なし、ログインページへのリダイレクトなし)
  • プロンプトの長さ制限: @ タグのテキストを含めて 2000 トークンです

関連ドキュメント