Guía de referencia multimodal de Seedance 2.0: plantillas de prompt para reference-to-video

Antes que nada, despejemos un mito habitual. Existe el rumor de que Seedance 2.0 admite una sintaxis de etiquetas tipo @Image1, @Video1, @Audio1. La API real no tiene esa sintaxis. El modelo seedance-2.0-reference-to-video de Seedance 2.0 acepta hasta 9 imágenes + 3 vídeos + 3 clips de audio como activos de referencia, pero el papel de cada activo se describe mediante lenguaje natural dentro del prompt, no con ningún símbolo especial.
Este artículo te enseña a redactar prompts en lenguaje natural eficaces que guíen la generación multimodal con precisión.

La mayoría de los generadores de vídeo con IA aceptan un único prompt de texto y dejan que el modelo lo interprete libremente. El modo reference-to-video de Seedance 2.0 te permite proporcionar varios activos de referencia en una sola solicitud: imágenes para definir estilo o personajes, vídeos para transmitir el ritmo de la cámara y audio para fijar la atmósfera y la cadencia. Esta es una de las capacidades clave que lo diferencian de Sora 2, Kling 3.0 y Veo 3.1.

Esta guía cubre:

La estructura real de la API y los límites de entrada de reference-to-video
Cómo "asignar roles" a cada activo usando lenguaje natural en tu prompt
10 plantillas de prompt listas para copiar
Errores comunes y consejos de depuración

Para ejecutar la API mientras lees, obtén una API key gratuita de EvoLink: tarda 30 segundos.

1. La estructura real de la API (sienta bien las bases)

El cuerpo de solicitud de reference-to-video es muy sencillo:

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "…",
  "image_urls": ["…", "…"],
  "video_urls": ["…"],
  "audio_urls": ["…"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Reglas básicas:

Dimensión	Límite
`image_urls`	0–9 imágenes, JPEG/PNG/WebP, 300–6000 px por lado, ≤ 30 MB cada una
`video_urls`	0–3 clips, MP4/MOV, 2–15 s cada uno, ≤ 15 s en total, 480p–720p
`audio_urls`	0–3 clips, WAV/MP3, 2–15 s cada uno, ≤ 15 s en total
Cuerpo de la solicitud	≤ 64 MB en total (sin incrustación en Base64)
Restricción dura	No se permite enviar solo audio: incluye siempre al menos 1 imagen o 1 vídeo como anclaje visual
`quality`	Solo `480p` y `720p` (no se admite 1080p)
`prompt`	≤ 500 caracteres chinos o ≤ 1000 palabras en inglés

Lo que NO existe:

❌ Sintaxis de etiquetas @Image1 / @Video1 / @Audio1
❌ Un campo dedicado para marcar un activo como "primer fotograma" / "referencia de estilo" / "referencia de personaje"
❌ Campos JSON para asignar roles por activo

La filosofía de diseño de Seedance 2.0 es "deja que el propio prompt asuma la asignación de roles": tú le dices al modelo, en lenguaje llano, "la imagen 1 es el personaje, el vídeo 1 marca el movimiento de cámara, el audio 1 es la banda sonora", y el modelo entiende tus referencias por su orden en los arrays.

2. El patrón de redacción fundamental

Divide tu prompt en dos secciones: asignación de roles a los activos + descripción de la escena.

[Asignación de roles] — dos o tres frases que indican el papel de cada activo
[Descripción de la escena] — descripción visual completa de lo que quieres ver

Ejemplo, con 1 imagen + 1 vídeo + 1 audio:

Usa la imagen 1 para el estilo artístico y la paleta de color;
replica el movimiento de cámara y el ritmo del vídeo 1;
usa el audio 1 como música de fondo durante todo el vídeo.

Escena: un joven motorista serpenteando por las calles de Tokio
después de la lluvia, las luces de neón reflejándose en el asfalto mojado,
la cámara avanza desde detrás del motorista hasta un primer plano lateral,
el ritmo sube y baja con la música.

Puntos clave:

Usa "imagen 1 / vídeo 1 / audio 1": lo importante es indicarle al modelo a qué índice del array te refieres.
Las referencias deben respetar el orden del array. Si pones dos imágenes en image_urls, "imagen 1" se asocia a image_urls[0] e "imagen 2" a image_urls[1]. Alterar el orden confunde al modelo.
Asigna un único papel principal por activo. Intentar que una sola imagen sea "el primer fotograma, el personaje y el estilo a la vez" es una receta para el caos.
Sé específico en la descripción de la escena. "Graba algo interesante" no sirve de nada.

3. Diez plantillas de prompt listas para copiar

Cada plantilla refleja el comportamiento real de la API. Sustituye las URLs y los detalles clave por los tuyos.

Plantilla 1: una sola imagen como guía del primer fotograma (la más sencilla)

Úsala para: imagen estática + movimiento ligero

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Use the provided image as the first frame. The camera slowly pushes in, the person lifts her head and smiles, wind moves her hair gently.",
  "image_urls": ["https://example.com/portrait.jpg"],
  "duration": 5,
  "quality": "720p"
}

Consejo: La generación a partir de una sola imagen funciona mejor con seedance-2.0-image-to-video que con reference-to-video: cuenta con una optimización específica para el comportamiento del primer fotograma.

Plantilla 2: transición primer-último fotograma

{
  "model": "seedance-2.0-image-to-video",
  "prompt": "Smoothly transition from the first image to the second. Use camera panning and lighting changes to bridge the two scenes.",
  "image_urls": [
    "https://example.com/sunrise.jpg",
    "https://example.com/sunset.jpg"
  ],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Plantilla 3: transferencia de estilo artístico (referencia con varias imágenes)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The overall art style references the color palette, lighting, and texture of the 3 provided images. Scene: a small-town summer market at dusk, crowds moving through warm amber light.",
  "image_urls": [
    "https://example.com/style-1.jpg",
    "https://example.com/style-2.jpg",
    "https://example.com/style-3.jpg"
  ],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Plantilla 4: consistencia de personaje

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The female character appearance stays consistent with image 1. Scene: she walks into a vintage cafe, orders a latte, sits by the window, and opens a book.",
  "image_urls": ["https://example.com/character-ref.jpg"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Consejo: No se admiten caras humanas realistas. Usa personajes virtuales o estilos ilustrados.

Plantilla 5: replicación de cámara (referencia de vídeo)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Replicate video 1 orbital camera movement and velocity curve. Subject replaced with a classical sculpture in a museum hall at dusk.",
  "video_urls": ["https://example.com/orbit-shot.mp4"],
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Plantilla 6: ritmo guiado por música (referencia de audio)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "Use audio 1 as the soundtrack for the entire video; shot changes sync with the beat. Scene: fast cuts of city night life — neon, raindrops, silhouettes, cab headlights flashing past.",
  "image_urls": ["https://example.com/city-mood.jpg"],
  "audio_urls": ["https://example.com/synthwave.mp3"],
  "duration": 10,
  "quality": "720p"
}

Nota: No se permite enviar solo audio: debes incluir al menos 1 imagen o 1 vídeo como anclaje visual.

Plantilla 7: composición trimodal completa

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The character appearance references image 1; replicate video 1 first-person perspective and camera pacing; use audio 1 as background music throughout. Scene: a young rider weaving through rain-soaked Tokyo streets, neon reflections on the asphalt.",
  "image_urls": ["https://example.com/rider.jpg"],
  "video_urls": ["https://example.com/pov.mp4"],
  "audio_urls": ["https://example.com/bgm.mp3"],
  "duration": 10,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Plantilla 8: anuncio de producto (preservando la apariencia del producto)

{
  "model": "seedance-2.0-reference-to-video",
  "prompt": "The sneaker appearance stays identical to image 1 — upper color, laces, and logo all match. Scene: the shoe rotates slowly on a transparent acrylic pedestal, soft studio lighting, gray gradient background.",
  "image_urls": ["https://example.com/sneaker.jpg"],
  "duration": 6,
  "quality": "720p",
  "aspect_ratio": "1:1"
}

Plantilla 9: solo texto (sin activos de referencia)

reference-to-video también puede ejecutarse sin referencias, pero en ese caso es más barato y sencillo usar directamente seedance-2.0-text-to-video:

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "A macro lens focuses on a green glass frog on a leaf. The focus gradually shifts from its smooth skin to its completely transparent abdomen, where a bright red heart is beating powerfully and rhythmically.",
  "duration": 8,
  "quality": "720p",
  "aspect_ratio": "16:9"
}

Plantilla 10: generación de diálogo (coloca el habla entre comillas dobles)

Seedance 2.0 reconoce el contenido entre comillas dobles rectas y ejecuta una síntesis de voz dedicada:

{
  "model": "seedance-2.0-text-to-video",
  "prompt": "She stops, turns to the boy, and says: \"You finally understood.\" Close-up on her face, expression shifting from determination to warmth.",
  "duration": 6,
  "quality": "720p",
  "generate_audio": true
}

4. Errores comunes y depuración

Error 1: usar la pseudosintaxis tipo `@Image1`

Síntoma: El modelo ignora completamente tus referencias y produce contenido no relacionado con tus activos.

Causa: La API no tiene esa sintaxis. @Image1 se trata como una cadena cualquiera dentro del prompt y no se interpreta como referencia.

Solución: Cambia al lenguaje natural — "imagen 1", "vídeo 1", "audio 1".

Error 2: hacer que un mismo activo cumpla varios roles

❌ La imagen 1 es el primer fotograma, la referencia de personaje Y la referencia de estilo
✅ La imagen 1 abre la escena; la imagen 2 aporta la referencia de personaje

Necesites referenciar más de 2 imágenes (image-to-video se limita a 2)
Necesites un vídeo como referencia cinematográfica
Necesites audio para guiar el ritmo visual
Necesites transferencia de estilo + consistencia de personaje al mismo tiempo

No uses reference-to-video cuando:

Solo tengas un prompt de texto → usa text-to-video, es más barato
Tengas 1 o 2 imágenes y quieras que "cobren vida" → usa image-to-video, que tiene optimización dedicada al comportamiento de primer fotograma
Necesites iterar rápidamente sobre muchos candidatos → usa el modelo Fast correspondiente

6. Próximos pasos

Referencia completa de la API Reference-to-Video — Todos los parámetros, límites y esquema de respuesta
Visión general de modelos — Guía de decisión entre los 6 modelos de Seedance 2.0
Inicio rápido — Ejecuta tu primera solicitud en 5 minutos
Consigue una API key gratuita — Registro en 30 segundos

Si te encuentras con cualquier otro tutorial que mencione la sintaxis de etiquetas @Image1, @Video1, @Audio1, ignóralo: ese no es el comportamiento real de la API de Seedance 2.0. La documentación oficial es la única fuente fiable.

Guía de referencia multimodal de Seedance 2.0: usar lenguaje natural para guiar referencias de imagen / vídeo / audio