Generación de video en streaming · Ya disponible

Vidu S1 API — Crea Humanos Digitales de IA en Tiempo Real que Ven, Escuchan y Responden

Vidu S1 es un modelo de generación de video en streaming de nivel comercial para conversaciones bidireccionales de voz y video en vivo. Dale a tus usuarios un personaje de IA que actúa, percibe emociones y les hace compañía — todo a través de una sola API limpia.

1,000 créditos de prueba gratis para nuevos usuarios · Sin lock-in de SDK del lado del modelo

2h+
De generación continua sin pérdida de calidad
50+
Voces predefinidas, de cálidas a cinematográficas
28
Idiomas compatibles con todas las voces
1,000
Créditos de prueba gratis para nuevos usuarios
Sobre Vidu S1

¿Qué Es Vidu S1?

Vidu S1 es un modelo de generación de video en streaming creado para humanos digitales interactivos en tiempo real. A diferencia de los modelos que renderizan clips offline, Vidu S1 genera el video mientras la conversación sucede: el usuario habla, el personaje lo ve y lo escucha, y responde casi en tiempo real — con expresión, voz y personalidad.

La Vidu S1 API empaqueta esta capacidad en un flujo de trabajo simple para desarrolladores: crea una sesión por HTTP, transmite audio y video mediante AliRTC y controla todo por WebSocket. De compañeros de IA a presentadores de live commerce, los equipos usan la Vidu S1 API para lanzar humanos digitales de nivel de producción en días, no meses.

Por qué Vidu S1

Vidu S1 — El Primer Personaje Digital Interactivo de Nivel Comercial

No es un rostro parlante prerrenderizado. Es un personaje de video generativo que interactúa, actúa y percibe — en casi tiempo real.

Interacción de Nivel Comercial

El primer personaje digital listo para producción con percepción bidireccional: interactúa, actúa y reacciona a lo que ve y escucha de tus usuarios.

Duración Interactiva Ilimitada

La primera tecnología de video generativo del mundo con interacción de duración ilimitada — de 1 minuto a 2 horas de generación continua sin degradación de calidad.

Respuesta en Casi Tiempo Real

Velocidad de inferencia líder en la industria, con gran seguimiento de instrucciones y comprensión semántica, para conversaciones naturales a través de la pantalla con retraso mínimo.

Personas con Memoria

Define cualquier persona inicial: humano real, personaje de anime o mascota adorable. La memoria de corto plazo mantiene las conversaciones personales, consistentes y cálidas.

Percepción Multimodal

Voz, texto y video en una misma sesión. El personaje capta con precisión la apariencia, la expresión y el estado emocional del usuario.

Salida en Alta Resolución

Generación de video interactivo en tiempo real de alta calidad, lista para productos de consumo en redes sociales, e-commerce, gaming y educación.

Salto Generacional

Avatares Prerrenderizados vs. Generación en Streaming

Los pipelines tradicionales de humanos digitales reproducen clips renderizados. Vidu S1 genera video en vivo mientras la conversación sucede.

Pipeline tradicional

Humanos digitales prerrenderizados

  • Minutos de renderizado offline antes de la reproducción
  • Clips cortos y fijos unidos entre sí
  • Transmisión unidireccional — sin conversación real
  • Ciego: sin ninguna percepción del usuario
  • Guiones fijos, idénticos para cada espectador
Vidu S1

Generación en streaming de Vidu S1

  • Inferencia en streaming en casi tiempo real
  • De 1 minuto a 2 horas de video continuo
  • Conversación bidireccional en vivo con voz + video
  • Ve la apariencia, la expresión y la emoción del usuario
  • Persona personalizada con memoria de corto plazo
CapacidadPipeline tradicionalVidu S1 API
LatenciaMinutos (renderizado offline)Streaming en casi tiempo real
Duración de sesiónClips fijos de pocos segundos1 min – 2 h continuos, sin pérdida de calidad
InteracciónReproducción unidireccionalDiálogo bidireccional de voz + video
PercepciónNingunaReconoce la apariencia y la emoción del usuario
PersonalidadGuion fijoPersona personalizada + memoria de corto plazo
Integración

Vidu S1 API — En Vivo en 6 Pasos

Tres canales impulsan cada sesión: HTTP para la gestión de sesiones, AliRTC para el transporte de audio/video y WebSocket para la señalización de control.

1

Crea una Sesión

Una sola llamada POST con la persona, la imagen de avatar y la voz de tu personaje devuelve el ID de sesión y las credenciales RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Únete al Canal RTC

Únete al canal AliRTC con el token devuelto, publica el micrófono de tu usuario (y la cámara en modo video) y suscríbete al stream del personaje.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

Abre el WebSocket

Conecta el canal de control persistente. La autenticación va en la query string — los navegadores no pueden establecer headers personalizados en WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Espera a que Esté Listo

Un ack de éxito significa que el personaje está en vivo. NOT_READY es normal en modo video — reconecta con backoff exponencial (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Mantén la Sesión Activa

El servidor envía pings cada 5 segundos; responde en menos de 15. Escucha los mensajes de desconexión forzada (type 6) y maneja cada motivo de corte.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Cuelga y Consulta la Facturación

Envía el mensaje de colgado, cierra el WebSocket, sal del canal RTC — y luego consulta el estado final y los segundos facturados.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

La API de un Vistazo

Una API compacta y predecible. Hosts: api.vidu.cn (China) y api.vidu.com (internacional).

MétodoRutaPropósito
POST/live/v1/livesCrear una sesión de personaje digital
GET/live/v1/lives/{live_id}Consultar estado y facturación de la sesión
WSS/live/ws/live/connectSeñalización de control (init / hangup)
POST/live/v1/voices/cloneCrear una voz clonada personalizada
GET/live/v1/voicesListar voces del sistema y personalizadas

API HTTP

Crea y consulta sesiones. Autenticación simple por token con tu clave de API.

Canal AliRTC

Todo el audio y video en tiempo real fluye por AliRTC — no por HTTP. Una sola integración de SDK en el cliente.

Señalización WebSocket

Un canal de control ligero para disponibilidad, heartbeats y eventos de colgado.

Ciclo de Vida de la Sesión

Cuatro Estados, Totalmente Observables

Cada sesión sigue una máquina de estados predecible: fácil de monitorear, de facturar y de depurar.

1

waiting

Sesión creada, sala abierta, personaje preparándose

2

on_live

Ambos extremos listos — comienzan la conversación y la facturación

3

ending

Colgado recibido, la sesión se cierra de forma ordenada

4

ended

Finalizada — consulta los segundos facturados en cualquier momento

Casos de Uso

Dónde Despliegan Vidu S1 los Equipos

Seis industrias ya están poniendo personajes digitales interactivos frente a usuarios reales.

Mujer sonriendo durante una conversación en video con un compañero de IA

Compañía con IA

Personajes siempre disponibles, con persona y memoria, que conversan cara a cara, reaccionan al estado de ánimo y construyen vínculos duraderos.

Luces de escenario de concierto que representan actuaciones en vivo de ídolos virtuales

Ídolos Virtuales

Ídolos de anime o realistas que presentan shows en vivo, responden preguntas de los fans y actúan durante horas sin descanso.

Aula que representa capacitación y educación impulsadas por IA

Capacitación y Educación

Tutores y formadores que explican, demuestran y se adaptan a las preguntas de cada estudiante en tiempo real.

Agente de atención al cliente con auriculares que representa soporte con IA

Atención al Cliente con IA

Una cara amable para el soporte: percibe la frustración, responde con naturalidad y transfiere el caso sin fricciones cuando hace falta.

Pantalla de compra online que representa el comercio en vivo por streaming

Comercio en Vivo

Presentadores digitales que muestran productos las 24 horas y responden las preguntas de los compradores al instante.

Setup gamer con luces neón que representa el entretenimiento interactivo

Entretenimiento Interactivo

Personajes jugables y experiencias narrativas donde la historia reacciona a la voz y al rostro del jugador.

Biblioteca de Voces

50+ Voces a Solo un Parámetro

Cada voz habla 28 idiomas. Cambia de personalidad con un solo campo — o clona la tuya.

Tina

Dulce y cálida — resuelve problemas sin dudarlo (predeterminada)

Serena

Suave y cálida

Harvey

Profunda y aterciopelada, añejada como el café y los libros antiguos

Maia

Una mezcla de intelecto y calidez

Jennifer

Voz femenina americana premium, calidad cinematográfica

Aiden

Universitario americano al que le encanta cocinar

Mione

Británica madura e intelectual, cercana como la chica de al lado

Sohee

Hermana mayor coreana, cálida y expresiva

Ono Anna

Amiga de la infancia traviesa, llegada de Japón

Emilien

Hermano mayor francés y romántico

Sonrisa

Energía latinoamericana cálida y entusiasta

Kiki

Dulce chica de Hong Kong, cantonés nativo

🌍 28 Idiomas Listos para Usar

Chino, inglés, japonés, coreano, francés, alemán, español, portugués, ruso, árabe, hindi, tailandés, vietnamita, indonesio, turco y más — además de dialectos regionales como cantonés, sichuanés, hokkien y mandarín taiwanés.

🧬 API de Clonación de Voz

¿Necesitas una voz de marca o el timbre de una persona específica? Crea voces clonadas personalizadas y gestiónalas junto a las voces del sistema mediante POST /live/v1/voices/clone

Precios

Precios Transparentes Basados en Uso

Paga solo por el tiempo de conversación en vivo. Los modos de audio y video cuestan exactamente lo mismo.

Prueba Gratis

1,000 créditos

Para cada nuevo usuario — suficiente para unos 11 minutos de interacción en vivo.

  • Acceso completo a la API, sin funciones bloqueadas
  • Las 50+ voces y los 28 idiomas
  • Modos de llamada de audio y video
  • Persona e imagen de avatar personalizadas
Empieza Gratis

Enterprise

A medida

Soluciones a medida para plataformas de redes sociales, e-commerce, gaming y educación.

  • Gerente de cuenta dedicado
  • Diseño personalizado de personaje y persona
  • Acompañamiento en la clonación de voz
  • Revisión de arquitectura para tu escenario
Habla con Nosotros

Precio unitario del crédito: 0.03125. Una sesión se desconecta automáticamente al alcanzar la duración máxima (600 s); cuando el saldo llega a cero, el servidor cierra la conexión automáticamente.

FAQ

Vidu S1 API — Preguntas Frecuentes

Los detalles que los ingenieros realmente preguntan antes de integrar.

Vidu S1 es un modelo comercial de generación de video en streaming para humanos digitales interactivos en tiempo real. Con la Vidu S1 API, los desarrolladores crean sesiones en vivo donde un personaje de IA ve, escucha y habla con los usuarios — generación de duración ilimitada, más de 50 voces y 28 idiomas.
La facturación empieza en el momento en que el personaje digital está listo y la sesión entra en on_live — exactamente cuando conn_init_ack.success devuelve true. La tarifa es de 3 créditos por cada 2 segundos, descontados cada 6 segundos y redondeados hacia arriba al intervalo de 2 segundos más cercano. Los modos de audio y video cuestan lo mismo.
No. HTTP se usa para crear y consultar sesiones. El audio y el video en tiempo real se transmiten por el canal AliRTC (una integración de SDK aparte), y el control de la sesión corre sobre una conexión de señalización WebSocket. Los tres canales juntos forman una sesión en vivo.
NOT_READY es esperado en modo video — el lado del personaje aún se está preparando. Cierra la conexión, espera un momento, reconecta y reenvía el mensaje de init, usando backoff exponencial (2s → 4s → 8s). Si en cambio recibes LIVE_CONN_INIT_FAILED, es permanente: crea una nueva sesión.
La duración máxima de una sesión es de 600 segundos; el servidor desconecta automáticamente al alcanzarla. Para experiencias más largas, crea una nueva sesión y reconecta — el modelo subyacente soporta generación continua desde 1 minuto hasta 2 horas sin pérdida de calidad.
El servidor cierra la conexión automáticamente con el motivo de colgado credit_insufficient. Además, cada nueva sesión requiere un saldo mínimo de 45 créditos para iniciar, así que recarga antes de salir en vivo con usuarios reales.
50+ voces predefinidas, cada una compatible con 28 idiomas, incluidos inglés, chino, japonés, coreano, francés, alemán, español, portugués, ruso, árabe e hindi. También hay voces de dialectos regionales (cantonés, sichuanés, hokkien, mandarín taiwanés y más), y puedes clonar voces personalizadas a través de la API.
Usa api.vidu.cn para despliegues en China continental y api.vidu.com para los internacionales. La autenticación es un header simple: Authorization: Token vda_xxx. Para conexiones WebSocket, pasa el token en el parámetro de query authorization, ya que los navegadores no pueden establecer headers personalizados en WebSockets.
Una sola imagen con una persona — de cuerpo entero o medio cuerpo, en cualquier estilo (fotorrealista, anime, mascota). PNG, JPG, JPEG o WEBP de hasta 50 MB, enviada como URL o Base64. Combinada con un prompt de persona en texto libre, define cómo se ve y se comporta tu personaje.

Pon un Personaje de IA que Se Siente Vivo en Tu Producto

Obtén tu clave de API, usa tus 1,000 créditos gratis y ten un humano digital en tiempo real hablando con tus usuarios esta misma semana.

O consigue tu clave de API al instante en apimart.ai