Generación de video en streaming · Ya disponible

Vidu S1 API — Crea Humanos Digitales de IA en Tiempo Real que Ven, Escuchan y Responden

Vidu S1 es un modelo de generación de video en streaming de nivel comercial para conversaciones bidireccionales de voz y video en vivo. Dale a tus usuarios un personaje de IA que actúa, percibe emociones y les hace compañía — todo a través de una sola API limpia.

Obtener Clave de API Ver Guía de Integración

1,000 créditos de prueba gratis para nuevos usuarios · Sin lock-in de SDK del lado del modelo

2h+

De generación continua sin pérdida de calidad

50+

Voces predefinidas, de cálidas a cinematográficas

Idiomas compatibles con todas las voces

1,000

Créditos de prueba gratis para nuevos usuarios

Sobre Vidu S1

¿Qué Es Vidu S1?

Vidu S1 es un modelo de generación de video en streaming creado para humanos digitales interactivos en tiempo real. A diferencia de los modelos que renderizan clips offline, Vidu S1 genera el video mientras la conversación sucede: el usuario habla, el personaje lo ve y lo escucha, y responde casi en tiempo real — con expresión, voz y personalidad.

La Vidu S1 API empaqueta esta capacidad en un flujo de trabajo simple para desarrolladores: crea una sesión por HTTP, transmite audio y video mediante AliRTC y controla todo por WebSocket. De compañeros de IA a presentadores de live commerce, los equipos usan la Vidu S1 API para lanzar humanos digitales de nivel de producción en días, no meses.

Por qué Vidu S1

Vidu S1 — El Primer Personaje Digital Interactivo de Nivel Comercial

No es un rostro parlante prerrenderizado. Es un personaje de video generativo que interactúa, actúa y percibe — en casi tiempo real.

Interacción de Nivel Comercial

El primer personaje digital listo para producción con percepción bidireccional: interactúa, actúa y reacciona a lo que ve y escucha de tus usuarios.

Duración Interactiva Ilimitada

La primera tecnología de video generativo del mundo con interacción de duración ilimitada — de 1 minuto a 2 horas de generación continua sin degradación de calidad.

Respuesta en Casi Tiempo Real

Velocidad de inferencia líder en la industria, con gran seguimiento de instrucciones y comprensión semántica, para conversaciones naturales a través de la pantalla con retraso mínimo.

Personas con Memoria

Define cualquier persona inicial: humano real, personaje de anime o mascota adorable. La memoria de corto plazo mantiene las conversaciones personales, consistentes y cálidas.

Percepción Multimodal

Voz, texto y video en una misma sesión. El personaje capta con precisión la apariencia, la expresión y el estado emocional del usuario.

Salida en Alta Resolución

Generación de video interactivo en tiempo real de alta calidad, lista para productos de consumo en redes sociales, e-commerce, gaming y educación.

Salto Generacional

Avatares Prerrenderizados vs. Generación en Streaming

Los pipelines tradicionales de humanos digitales reproducen clips renderizados. Vidu S1 genera video en vivo mientras la conversación sucede.

Pipeline tradicional

Humanos digitales prerrenderizados

Minutos de renderizado offline antes de la reproducción
Clips cortos y fijos unidos entre sí
Transmisión unidireccional — sin conversación real
Ciego: sin ninguna percepción del usuario
Guiones fijos, idénticos para cada espectador

Vidu S1

Generación en streaming de Vidu S1

Inferencia en streaming en casi tiempo real
De 1 minuto a 2 horas de video continuo
Conversación bidireccional en vivo con voz + video
Ve la apariencia, la expresión y la emoción del usuario
Persona personalizada con memoria de corto plazo

Capacidad	Pipeline tradicional	Vidu S1 API
Latencia	Minutos (renderizado offline)	Streaming en casi tiempo real
Duración de sesión	Clips fijos de pocos segundos	1 min – 2 h continuos, sin pérdida de calidad
Interacción	Reproducción unidireccional	Diálogo bidireccional de voz + video
Percepción	Ninguna	Reconoce la apariencia y la emoción del usuario
Personalidad	Guion fijo	Persona personalizada + memoria de corto plazo

Integración

Vidu S1 API — En Vivo en 6 Pasos

Tres canales impulsan cada sesión: HTTP para la gestión de sesiones, AliRTC para el transporte de audio/video y WebSocket para la señalización de control.

Crea una Sesión

Una sola llamada POST con la persona, la imagen de avatar y la voz de tu personaje devuelve el ID de sesión y las credenciales RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Únete al Canal RTC

Únete al canal AliRTC con el token devuelto, publica el micrófono de tu usuario (y la cámara en modo video) y suscríbete al stream del personaje.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

Abre el WebSocket

Conecta el canal de control persistente. La autenticación va en la query string — los navegadores no pueden establecer headers personalizados en WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Espera a que Esté Listo

Un ack de éxito significa que el personaje está en vivo. NOT_READY es normal en modo video — reconecta con backoff exponencial (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Mantén la Sesión Activa

El servidor envía pings cada 5 segundos; responde en menos de 15. Escucha los mensajes de desconexión forzada (type 6) y maneja cada motivo de corte.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Cuelga y Consulta la Facturación

Envía el mensaje de colgado, cierra el WebSocket, sal del canal RTC — y luego consulta el estado final y los segundos facturados.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

La API de un Vistazo

Una API compacta y predecible. Hosts: api.vidu.cn (China) y api.vidu.com (internacional).

Método	Ruta	Propósito
POST	`/live/v1/lives`	Crear una sesión de personaje digital
GET	`/live/v1/lives/{live_id}`	Consultar estado y facturación de la sesión
WSS	`/live/ws/live/connect`	Señalización de control (init / hangup)
POST	`/live/v1/voices/clone`	Crear una voz clonada personalizada
GET	`/live/v1/voices`	Listar voces del sistema y personalizadas

API HTTP

Crea y consulta sesiones. Autenticación simple por token con tu clave de API.

Canal AliRTC

Todo el audio y video en tiempo real fluye por AliRTC — no por HTTP. Una sola integración de SDK en el cliente.

Señalización WebSocket

Un canal de control ligero para disponibilidad, heartbeats y eventos de colgado.

Ciclo de Vida de la Sesión

Cuatro Estados, Totalmente Observables

Cada sesión sigue una máquina de estados predecible: fácil de monitorear, de facturar y de depurar.

waiting

Sesión creada, sala abierta, personaje preparándose

on_live

Ambos extremos listos — comienzan la conversación y la facturación

ending

Colgado recibido, la sesión se cierra de forma ordenada

ended

Finalizada — consulta los segundos facturados en cualquier momento

Casos de Uso

Dónde Despliegan Vidu S1 los Equipos

Seis industrias ya están poniendo personajes digitales interactivos frente a usuarios reales.

Mujer sonriendo durante una conversación en video con un compañero de IA

Compañía con IA

Personajes siempre disponibles, con persona y memoria, que conversan cara a cara, reaccionan al estado de ánimo y construyen vínculos duraderos.

Ídolos Virtuales

Ídolos de anime o realistas que presentan shows en vivo, responden preguntas de los fans y actúan durante horas sin descanso.

Capacitación y Educación

Tutores y formadores que explican, demuestran y se adaptan a las preguntas de cada estudiante en tiempo real.

Agente de atención al cliente con auriculares que representa soporte con IA

Atención al Cliente con IA

Una cara amable para el soporte: percibe la frustración, responde con naturalidad y transfiere el caso sin fricciones cuando hace falta.

Comercio en Vivo

Presentadores digitales que muestran productos las 24 horas y responden las preguntas de los compradores al instante.

Entretenimiento Interactivo

Personajes jugables y experiencias narrativas donde la historia reacciona a la voz y al rostro del jugador.

Biblioteca de Voces

50+ Voces a Solo un Parámetro

Cada voz habla 28 idiomas. Cambia de personalidad con un solo campo — o clona la tuya.

Tina

Dulce y cálida — resuelve problemas sin dudarlo (predeterminada)

Serena

Suave y cálida

Harvey

Profunda y aterciopelada, añejada como el café y los libros antiguos

Maia

Una mezcla de intelecto y calidez

Jennifer

Voz femenina americana premium, calidad cinematográfica

Aiden

Universitario americano al que le encanta cocinar

Mione

Británica madura e intelectual, cercana como la chica de al lado

Sohee

Hermana mayor coreana, cálida y expresiva

Ono Anna

Amiga de la infancia traviesa, llegada de Japón

Emilien

Hermano mayor francés y romántico

Sonrisa

Energía latinoamericana cálida y entusiasta

Kiki

Dulce chica de Hong Kong, cantonés nativo

🌍 28 Idiomas Listos para Usar

Chino, inglés, japonés, coreano, francés, alemán, español, portugués, ruso, árabe, hindi, tailandés, vietnamita, indonesio, turco y más — además de dialectos regionales como cantonés, sichuanés, hokkien y mandarín taiwanés.

🧬 API de Clonación de Voz

¿Necesitas una voz de marca o el timbre de una persona específica? Crea voces clonadas personalizadas y gestiónalas junto a las voces del sistema mediante POST /live/v1/voices/clone

Precios

Precios Transparentes Basados en Uso

Paga solo por el tiempo de conversación en vivo. Los modos de audio y video cuestan exactamente lo mismo.

Prueba Gratis

1,000 créditos

Para cada nuevo usuario — suficiente para unos 11 minutos de interacción en vivo.

Acceso completo a la API, sin funciones bloqueadas
Las 50+ voces y los 28 idiomas
Modos de llamada de audio y video
Persona e imagen de avatar personalizadas

Empieza Gratis

Más Popular

Pago por Uso

3 créditos / 2 s

Medición simple: la facturación empieza solo cuando el personaje realmente entra en vivo.

Mismo precio para los modos de audio y video
Se descuenta cada 6 s, redondeado a intervalos de 2 s
Sesiones de hasta 600 s, renovables automáticamente
La facturación empieza en on_live, nunca antes
Saldo mínimo: 45 créditos por sesión

Obtener Clave de API

Enterprise

A medida

Soluciones a medida para plataformas de redes sociales, e-commerce, gaming y educación.

Gerente de cuenta dedicado
Diseño personalizado de personaje y persona
Acompañamiento en la clonación de voz
Revisión de arquitectura para tu escenario

Habla con Nosotros

Precio unitario del crédito: 0.03125. Una sesión se desconecta automáticamente al alcanzar la duración máxima (600 s); cuando el saldo llega a cero, el servidor cierra la conexión automáticamente.

FAQ

Vidu S1 API — Preguntas Frecuentes

Los detalles que los ingenieros realmente preguntan antes de integrar.

¿Qué es Vidu S1?

Vidu S1 es un modelo comercial de generación de video en streaming para humanos digitales interactivos en tiempo real. Con la Vidu S1 API, los desarrolladores crean sesiones en vivo donde un personaje de IA ve, escucha y habla con los usuarios — generación de duración ilimitada, más de 50 voces y 28 idiomas.

¿Cuándo empieza la facturación y cómo se mide el uso?

La facturación empieza en el momento en que el personaje digital está listo y la sesión entra en on_live — exactamente cuando conn_init_ack.success devuelve true. La tarifa es de 3 créditos por cada 2 segundos, descontados cada 6 segundos y redondeados hacia arriba al intervalo de 2 segundos más cercano. Los modos de audio y video cuestan lo mismo.

¿Puedo interactuar con el personaje digital solo por HTTP?

No. HTTP se usa para crear y consultar sesiones. El audio y el video en tiempo real se transmiten por el canal AliRTC (una integración de SDK aparte), y el control de la sesión corre sobre una conexión de señalización WebSocket. Los tres canales juntos forman una sesión en vivo.

¿Qué debo hacer cuando el WebSocket devuelve NOT_READY?

NOT_READY es esperado en modo video — el lado del personaje aún se está preparando. Cierra la conexión, espera un momento, reconecta y reenvía el mensaje de init, usando backoff exponencial (2s → 4s → 8s). Si en cambio recibes LIVE_CONN_INIT_FAILED, es permanente: crea una nueva sesión.

¿Cuánto puede durar una sola sesión?

La duración máxima de una sesión es de 600 segundos; el servidor desconecta automáticamente al alcanzarla. Para experiencias más largas, crea una nueva sesión y reconecta — el modelo subyacente soporta generación continua desde 1 minuto hasta 2 horas sin pérdida de calidad.

¿Qué pasa cuando mi saldo de créditos llega a cero?

El servidor cierra la conexión automáticamente con el motivo de colgado credit_insufficient. Además, cada nueva sesión requiere un saldo mínimo de 45 créditos para iniciar, así que recarga antes de salir en vivo con usuarios reales.

¿Qué idiomas y voces están disponibles?

50+ voces predefinidas, cada una compatible con 28 idiomas, incluidos inglés, chino, japonés, coreano, francés, alemán, español, portugués, ruso, árabe e hindi. También hay voces de dialectos regionales (cantonés, sichuanés, hokkien, mandarín taiwanés y más), y puedes clonar voces personalizadas a través de la API.

¿Qué host de API debo usar?

Usa api.vidu.cn para despliegues en China continental y api.vidu.com para los internacionales. La autenticación es un header simple: Authorization: Token vda_xxx. Para conexiones WebSocket, pasa el token en el parámetro de query authorization, ya que los navegadores no pueden establecer headers personalizados en WebSockets.

¿Qué imágenes de avatar puedo usar para el personaje?

Una sola imagen con una persona — de cuerpo entero o medio cuerpo, en cualquier estilo (fotorrealista, anime, mascota). PNG, JPG, JPEG o WEBP de hasta 50 MB, enviada como URL o Base64. Combinada con un prompt de persona en texto libre, define cómo se ve y se comporta tu personaje.

Pon un Personaje de IA que Se Siente Vivo en Tu Producto

Obtén tu clave de API, usa tus 1,000 créditos gratis y ten un humano digital en tiempo real hablando con tus usuarios esta misma semana.

O consigue tu clave de API al instante en apimart.ai