Vidu S1 API — Crea Humanos Digitales de IA en Tiempo Real que Ven, Escuchan y Responden
Vidu S1 es un modelo de generación de video en streaming de nivel comercial para conversaciones bidireccionales de voz y video en vivo. Dale a tus usuarios un personaje de IA que actúa, percibe emociones y les hace compañía — todo a través de una sola API limpia.
1,000 créditos de prueba gratis para nuevos usuarios · Sin lock-in de SDK del lado del modelo
¿Qué Es Vidu S1?
Vidu S1 es un modelo de generación de video en streaming creado para humanos digitales interactivos en tiempo real. A diferencia de los modelos que renderizan clips offline, Vidu S1 genera el video mientras la conversación sucede: el usuario habla, el personaje lo ve y lo escucha, y responde casi en tiempo real — con expresión, voz y personalidad.
La Vidu S1 API empaqueta esta capacidad en un flujo de trabajo simple para desarrolladores: crea una sesión por HTTP, transmite audio y video mediante AliRTC y controla todo por WebSocket. De compañeros de IA a presentadores de live commerce, los equipos usan la Vidu S1 API para lanzar humanos digitales de nivel de producción en días, no meses.
Vidu S1 — El Primer Personaje Digital Interactivo de Nivel Comercial
No es un rostro parlante prerrenderizado. Es un personaje de video generativo que interactúa, actúa y percibe — en casi tiempo real.
Interacción de Nivel Comercial
El primer personaje digital listo para producción con percepción bidireccional: interactúa, actúa y reacciona a lo que ve y escucha de tus usuarios.
Duración Interactiva Ilimitada
La primera tecnología de video generativo del mundo con interacción de duración ilimitada — de 1 minuto a 2 horas de generación continua sin degradación de calidad.
Respuesta en Casi Tiempo Real
Velocidad de inferencia líder en la industria, con gran seguimiento de instrucciones y comprensión semántica, para conversaciones naturales a través de la pantalla con retraso mínimo.
Personas con Memoria
Define cualquier persona inicial: humano real, personaje de anime o mascota adorable. La memoria de corto plazo mantiene las conversaciones personales, consistentes y cálidas.
Percepción Multimodal
Voz, texto y video en una misma sesión. El personaje capta con precisión la apariencia, la expresión y el estado emocional del usuario.
Salida en Alta Resolución
Generación de video interactivo en tiempo real de alta calidad, lista para productos de consumo en redes sociales, e-commerce, gaming y educación.
Avatares Prerrenderizados vs. Generación en Streaming
Los pipelines tradicionales de humanos digitales reproducen clips renderizados. Vidu S1 genera video en vivo mientras la conversación sucede.
Humanos digitales prerrenderizados
- Minutos de renderizado offline antes de la reproducción
- Clips cortos y fijos unidos entre sí
- Transmisión unidireccional — sin conversación real
- Ciego: sin ninguna percepción del usuario
- Guiones fijos, idénticos para cada espectador
Generación en streaming de Vidu S1
- Inferencia en streaming en casi tiempo real
- De 1 minuto a 2 horas de video continuo
- Conversación bidireccional en vivo con voz + video
- Ve la apariencia, la expresión y la emoción del usuario
- Persona personalizada con memoria de corto plazo
| Capacidad | Pipeline tradicional | Vidu S1 API |
|---|---|---|
| Latencia | Minutos (renderizado offline) | Streaming en casi tiempo real |
| Duración de sesión | Clips fijos de pocos segundos | 1 min – 2 h continuos, sin pérdida de calidad |
| Interacción | Reproducción unidireccional | Diálogo bidireccional de voz + video |
| Percepción | Ninguna | Reconoce la apariencia y la emoción del usuario |
| Personalidad | Guion fijo | Persona personalizada + memoria de corto plazo |
Vidu S1 API — En Vivo en 6 Pasos
Tres canales impulsan cada sesión: HTTP para la gestión de sesiones, AliRTC para el transporte de audio/video y WebSocket para la señalización de control.
Crea una Sesión
Una sola llamada POST con la persona, la imagen de avatar y la voz de tu personaje devuelve el ID de sesión y las credenciales RTC.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Únete al Canal RTC
Únete al canal AliRTC con el token devuelto, publica el micrófono de tu usuario (y la cámara en modo video) y suscríbete al stream del personaje.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
Abre el WebSocket
Conecta el canal de control persistente. La autenticación va en la query string — los navegadores no pueden establecer headers personalizados en WebSockets.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Espera a que Esté Listo
Un ack de éxito significa que el personaje está en vivo. NOT_READY es normal en modo video — reconecta con backoff exponencial (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sMantén la Sesión Activa
El servidor envía pings cada 5 segundos; responde en menos de 15. Escucha los mensajes de desconexión forzada (type 6) y maneja cada motivo de corte.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Cuelga y Consulta la Facturación
Envía el mensaje de colgado, cierra el WebSocket, sal del canal RTC — y luego consulta el estado final y los segundos facturados.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"La API de un Vistazo
Una API compacta y predecible. Hosts: api.vidu.cn (China) y api.vidu.com (internacional).
| Método | Ruta | Propósito |
|---|---|---|
| POST | /live/v1/lives | Crear una sesión de personaje digital |
| GET | /live/v1/lives/{live_id} | Consultar estado y facturación de la sesión |
| WSS | /live/ws/live/connect | Señalización de control (init / hangup) |
| POST | /live/v1/voices/clone | Crear una voz clonada personalizada |
| GET | /live/v1/voices | Listar voces del sistema y personalizadas |
API HTTP
Crea y consulta sesiones. Autenticación simple por token con tu clave de API.
Canal AliRTC
Todo el audio y video en tiempo real fluye por AliRTC — no por HTTP. Una sola integración de SDK en el cliente.
Señalización WebSocket
Un canal de control ligero para disponibilidad, heartbeats y eventos de colgado.
Cuatro Estados, Totalmente Observables
Cada sesión sigue una máquina de estados predecible: fácil de monitorear, de facturar y de depurar.
waiting
Sesión creada, sala abierta, personaje preparándose
on_live
Ambos extremos listos — comienzan la conversación y la facturación
ending
Colgado recibido, la sesión se cierra de forma ordenada
ended
Finalizada — consulta los segundos facturados en cualquier momento
Dónde Despliegan Vidu S1 los Equipos
Seis industrias ya están poniendo personajes digitales interactivos frente a usuarios reales.
Compañía con IA
Personajes siempre disponibles, con persona y memoria, que conversan cara a cara, reaccionan al estado de ánimo y construyen vínculos duraderos.
Ídolos Virtuales
Ídolos de anime o realistas que presentan shows en vivo, responden preguntas de los fans y actúan durante horas sin descanso.
Capacitación y Educación
Tutores y formadores que explican, demuestran y se adaptan a las preguntas de cada estudiante en tiempo real.
Atención al Cliente con IA
Una cara amable para el soporte: percibe la frustración, responde con naturalidad y transfiere el caso sin fricciones cuando hace falta.
Comercio en Vivo
Presentadores digitales que muestran productos las 24 horas y responden las preguntas de los compradores al instante.
Entretenimiento Interactivo
Personajes jugables y experiencias narrativas donde la historia reacciona a la voz y al rostro del jugador.
50+ Voces a Solo un Parámetro
Cada voz habla 28 idiomas. Cambia de personalidad con un solo campo — o clona la tuya.
Dulce y cálida — resuelve problemas sin dudarlo (predeterminada)
Suave y cálida
Profunda y aterciopelada, añejada como el café y los libros antiguos
Una mezcla de intelecto y calidez
Voz femenina americana premium, calidad cinematográfica
Universitario americano al que le encanta cocinar
Británica madura e intelectual, cercana como la chica de al lado
Hermana mayor coreana, cálida y expresiva
Amiga de la infancia traviesa, llegada de Japón
Hermano mayor francés y romántico
Energía latinoamericana cálida y entusiasta
Dulce chica de Hong Kong, cantonés nativo
🌍 28 Idiomas Listos para Usar
Chino, inglés, japonés, coreano, francés, alemán, español, portugués, ruso, árabe, hindi, tailandés, vietnamita, indonesio, turco y más — además de dialectos regionales como cantonés, sichuanés, hokkien y mandarín taiwanés.
🧬 API de Clonación de Voz
¿Necesitas una voz de marca o el timbre de una persona específica? Crea voces clonadas personalizadas y gestiónalas junto a las voces del sistema mediante POST /live/v1/voices/clone
Precios Transparentes Basados en Uso
Paga solo por el tiempo de conversación en vivo. Los modos de audio y video cuestan exactamente lo mismo.
Prueba Gratis
Para cada nuevo usuario — suficiente para unos 11 minutos de interacción en vivo.
- Acceso completo a la API, sin funciones bloqueadas
- Las 50+ voces y los 28 idiomas
- Modos de llamada de audio y video
- Persona e imagen de avatar personalizadas
Pago por Uso
Medición simple: la facturación empieza solo cuando el personaje realmente entra en vivo.
- Mismo precio para los modos de audio y video
- Se descuenta cada 6 s, redondeado a intervalos de 2 s
- Sesiones de hasta 600 s, renovables automáticamente
- La facturación empieza en on_live, nunca antes
- Saldo mínimo: 45 créditos por sesión
Enterprise
Soluciones a medida para plataformas de redes sociales, e-commerce, gaming y educación.
- Gerente de cuenta dedicado
- Diseño personalizado de personaje y persona
- Acompañamiento en la clonación de voz
- Revisión de arquitectura para tu escenario
Precio unitario del crédito: 0.03125. Una sesión se desconecta automáticamente al alcanzar la duración máxima (600 s); cuando el saldo llega a cero, el servidor cierra la conexión automáticamente.
Vidu S1 API — Preguntas Frecuentes
Los detalles que los ingenieros realmente preguntan antes de integrar.
Pon un Personaje de IA que Se Siente Vivo en Tu Producto
Obtén tu clave de API, usa tus 1,000 créditos gratis y ten un humano digital en tiempo real hablando con tus usuarios esta misma semana.
O consigue tu clave de API al instante en apimart.ai