Seedance 2.0 멀티모달 레퍼런스 가이드: reference-to-video 프롬프트 템플릿

먼저 흔한 오해부터 정리하겠습니다. Seedance 2.0이 @Image1, @Video1, @Audio1 같은 태그 문법을 지원한다는 이야기가 돌고 있습니다. 실제 API에는 그런 문법이 존재하지 않습니다. Seedance 2.0의 seedance-2.0-reference-to-video 모델은 참조 자료로 최대 이미지 9개 + 비디오 3개 + 오디오 클립 3개를 받지만, 각 자료의 용도를 지정할 때는 특별한 기호가 아니라 prompt 안의 자연어로 설명하면 됩니다.
이 글에서는 멀티모달 생성을 정밀하게 제어하는 효과적인 자연어 프롬프트 작성법을 소개합니다.

대부분의 AI 영상 생성기는 단일 텍스트 프롬프트만 받아 모델이 자유롭게 해석하도록 맡깁니다. 반면 Seedance 2.0의 reference-to-video 모드는 한 번의 요청에서 여러 참조 자료를 함께 제공할 수 있습니다. 스타일이나 캐릭터를 정의하는 이미지, 카메라 페이싱을 전달하는 비디오, 분위기와 리듬을 설정하는 오디오까지 말이죠. 이는 Sora 2, Kling 3.0, Veo 3.1과 차별화되는 핵심 기능 중 하나입니다.

이 가이드에서 다루는 내용은 다음과 같습니다.

reference-to-video의 실제 API 구조와 입력 한도
prompt 안에서 자연어로 각 자료에 "역할을 부여"하는 방법
그대로 복사해 쓸 수 있는 10가지 프롬프트 템플릿
흔한 실수와 디버깅 팁

글을 읽으면서 API를 직접 호출해 보고 싶다면 무료 EvoLink API 키를 발급받으세요. 30초면 충분합니다.

1. 실제 API 구조 (기초부터 정확하게)

reference-to-video의 요청 본문은 매우 단순합니다.

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "…",
  "image_urls": ["…", "…"],
  "video_urls": ["…"],
  "audio_urls": ["…"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

핵심 규칙:

항목	한도
`image_urls`	이미지 0~~9개. JPEG/PNG/WebP. 한 변 300~~6000 px. 30 MB 이하
`video_urls`	클립 0~~3개. MP4/MOV. 클립당 2~~15초. 합계 15초 이하. 480p~720p
`audio_urls`	클립 0~~3개. WAV/MP3. 클립당 2~~15초. 합계 15초 이하
요청 본문	전체 64 MB 이하 (Base64 인라인 불가)
필수 제약	오디오 단독 제공 불가. 시각 앵커로 이미지 1개 또는 비디오 1개를 반드시 함께 포함
`quality`	`480p`와 `720p`만 지원 (1080p는 미지원)
`prompt`	한글·중국어 기준 500자 이하 또는 영문 1,000단어 이하

존재하지 않는 것:

❌ @Image1 / @Video1 / @Audio1 식의 태그 문법
❌ 자료를 "첫 프레임" / "스타일 참조" / "캐릭터 참조"로 지정하는 전용 필드
❌ 자료별로 역할을 지정하는 JSON 필드

Seedance 2.0의 설계 철학은 "프롬프트 자체가 역할 부여를 맡게 한다"입니다. 모델에게 평이한 언어로 "image 1은 캐릭터, video 1은 카메라 워크, audio 1은 사운드트랙"이라고 알려주면, 모델은 배열에 담긴 순서에 따라 각 참조 자료를 이해합니다.

2. 핵심 작성 패턴

프롬프트는 자료 역할 부여 + 장면 묘사, 이 두 부분으로 나누어 작성합니다.

[자료 역할 부여] — 각 자료가 맡을 역할을 두세 문장으로 명시
[장면 묘사]      — 원하는 장면을 구체적으로 묘사

이미지 1개 + 비디오 1개 + 오디오 1개를 함께 쓰는 예시입니다.

Use image 1 for the art style and color palette;
replicate video 1's camera movement and pacing;
use audio 1 as background music throughout.

Scene: a young rider weaving through the streets of Tokyo after rain,
neon lights reflecting on the wet asphalt,
the camera pushing forward from behind the rider into a side close-up,
pacing rising and falling with the music.

핵심 포인트는 다음과 같습니다.

"image 1 / video 1 / audio 1" 형태의 표현을 사용하세요. 중요한 것은 모델에게 어느 배열 인덱스를 가리키는지 명확히 전달하는 것입니다.
참조 자료는 반드시 배열 순서를 따라야 합니다. image_urls에 이미지 두 장을 넣으면 "image 1"은 image_urls[0]에, "image 2"는 image_urls[1]에 매핑됩니다. 순서가 섞이면 모델이 혼동을 일으킵니다.
자료 하나에는 주된 역할 하나만 부여하세요. 한 이미지를 "첫 프레임이자 캐릭터이자 스타일"로 동시에 쓰려 하면 오히려 결과가 엉망이 됩니다.
장면 묘사는 구체적으로 작성하세요. "멋진 거 찍어줘" 같은 표현은 아무런 도움이 되지 않습니다.

3. 그대로 복사해 쓸 수 있는 10가지 프롬프트 템플릿

아래 모든 템플릿은 실제 API 동작을 반영합니다. 자료 URL과 핵심 디테일만 본인 것으로 바꿔서 사용하시면 됩니다.

템플릿 1: 단일 이미지를 첫 프레임 드라이버로 사용 (가장 단순)

사용 시기: 정지 이미지 + 가벼운 모션

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Use the provided image as the first frame. The camera slowly pushes in, the person lifts her head and smiles, wind moves her hair gently.",
  "image_urls": ["https://example.com/portrait.jpg"],
  "duration": 5,
  "quality": "720p"
}

팁: 단일 이미지를 활용할 때는 reference-to-video보다 seedance-2.0-image-to-video가 더 적합합니다. 첫 프레임 동작에 특화된 최적화가 적용되어 있기 때문입니다.

템플릿 2: 첫-마지막 프레임 전환

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Smoothly transition from the first image to the second. Use camera panning and lighting changes to bridge the two scenes.",
  "image_urls": [
    "https://example.com/sunrise.jpg",
    "https://example.com/sunset.jpg"
  ],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

템플릿 3: 아트 스타일 전이 (다중 이미지 참조)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The overall art style references the color palette, lighting, and texture of the 3 provided images. Scene: a small-town summer market at dusk, crowds moving through warm amber light.",
  "image_urls": [
    "https://example.com/style-1.jpg",
    "https://example.com/style-2.jpg",
    "https://example.com/style-3.jpg"
  ],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

템플릿 4: 캐릭터 일관성

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The female character's appearance stays consistent with image 1. Scene: she walks into a vintage cafe, orders a latte, sits by the window, and opens a book.",
  "image_urls": ["https://example.com/character-ref.jpg"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

팁: 사실적인 사람 얼굴은 지원하지 않습니다. 가상 캐릭터나 일러스트 스타일을 사용하세요.

템플릿 5: 카메라 워크 복제 (비디오 참조)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Replicate video 1's orbital camera movement and velocity curve. Subject replaced with a classical sculpture in a museum hall at dusk.",
  "video_urls": ["https://example.com/orbit-shot.mp4"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

템플릿 6: 음악 기반 페이싱 (오디오 참조)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Use audio 1 as the soundtrack for the entire video; shot changes sync with the beat. Scene: fast cuts of city night life — neon, raindrops, silhouettes, cab headlights flashing past.",
  "image_urls": ["https://example.com/city-mood.jpg"],
  "audio_urls": ["https://example.com/synthwave.mp3"],
  "duration": 10,
  "quality": "720p"
}

참고: 오디오만 단독으로 제공할 수는 없습니다. 시각적 앵커로 이미지 1개 또는 비디오 1개를 반드시 포함하세요.

템플릿 7: 세 가지 모달리티 완전 합성

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The character's appearance references image 1; replicate video 1's first-person perspective and camera pacing; use audio 1 as background music throughout. Scene: a young rider weaving through rain-soaked Tokyo streets, neon reflections on the asphalt.",
  "image_urls": ["https://example.com/rider.jpg"],
  "video_urls": ["https://example.com/pov.mp4"],
  "audio_urls": ["https://example.com/bgm.mp3"],
  "duration": 10,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

템플릿 8: 제품 광고 (제품 외관 보존)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The sneaker's appearance stays identical to image 1 — upper color, laces, and logo all match. Scene: the shoe rotates slowly on a transparent acrylic pedestal, soft studio lighting, gray gradient background.",
  "image_urls": ["https://example.com/sneaker.jpg"],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "1:1"
}

템플릿 9: 순수 텍스트 (참조 자료 없음)

reference-to-video도 참조 자료 없이 실행할 수 있지만, 그런 경우에는 seedance-2.0-text-to-video를 직접 사용하는 편이 더 저렴하고 단순합니다.

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "A macro lens focuses on a green glass frog on a leaf. The focus gradually shifts from its smooth skin to its completely transparent abdomen, where a bright red heart is beating powerfully and rhythmically.",
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

템플릿 10: 대사 생성 (대사를 큰따옴표로 감싸기)

Seedance 2.0은 일반 큰따옴표(straight quotes) 안의 내용을 인식해 전용 음성 합성을 실행합니다.

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "She stops, turns to the boy, and says: \"You finally understood.\" Close-up on her face, expression shifting from determination to warmth.",
  "duration": 6,
  "quality": "720p",
  "generate_audio": true
}

4. 흔한 실수와 디버깅

실수 1: `@Image1` 같은 가짜 태그 문법 사용

증상: 모델이 참조 자료를 완전히 무시하고, 입력한 자료와 무관한 결과물을 내놓습니다.

원인: API에 그런 문법 자체가 존재하지 않습니다. @Image1은 프롬프트 안에서 단순한 문자열로 처리될 뿐, 참조로 파싱되지 않습니다.

해결: "image 1", "video 1", "audio 1"처럼 자연어 표현으로 바꿔 쓰세요.

실수 2: 자료 하나에 여러 역할을 한꺼번에 부여

❌ Image 1은 첫 프레임이자 캐릭터 참조이자 스타일 참조
✅ Image 1은 장면을 여는 첫 프레임, Image 2는 캐릭터 참조

이미지를 2장 넘게(3장 이상) 참조해야 할 때 (image-to-video는 최대 2장까지 지원)
카메라 워크의 참조 자료로 비디오가 필요할 때
시각적 페이싱을 주도할 오디오가 필요할 때
스타일 전이와 캐릭터 일관성을 동시에 적용해야 할 때

reference-to-video를 사용하지 말아야 할 때:

텍스트 프롬프트만 있을 때 → text-to-video가 더 저렴합니다.
이미지 1~2장을 "살아 움직이게" 만들고 싶을 때 → 첫 프레임 동작에 특화된 image-to-video를 사용하세요.
여러 후보를 빠르게 반복 실험해야 할 때 → 이에 대응하는 Fast 모델을 사용하세요.

6. 다음 단계

Reference-to-Video API 전체 레퍼런스 — 모든 파라미터, 한도, 응답 스키마
모델 개요 — Seedance 2.0의 6개 모델을 선택하는 의사결정 가이드
빠른 시작 — 5분 안에 첫 요청 실행하기
무료 API 키 받기 — 30초 만에 가입

다른 튜토리얼에서 @Image1, @Video1, @Audio1 같은 태그 문법을 언급하는 것을 본다면 무시해도 좋습니다. 이는 실제 Seedance 2.0 API의 동작이 아닙니다. 공식 문서가 가장 정확한 기준입니다.

Seedance 2.0 멀티모달 레퍼런스 가이드: 자연어로 이미지/비디오/오디오 참조 제어하기