Vidu S1 API — Crie Humanos Digitais de IA em Tempo Real que Veem, Ouvem e Respondem
O Vidu S1 é um modelo de geração de vídeo em streaming de nível comercial para conversas de voz e vídeo bidirecionais e ao vivo. Dê aos seus usuários um personagem de IA que atua, percebe emoções e faz companhia — tudo por uma única API limpa.
1,000 créditos de teste grátis para novos usuários · Sem lock-in de SDK no lado do modelo
O Que É o Vidu S1?
O Vidu S1 é um modelo de geração de vídeo em streaming criado para humanos digitais interativos em tempo real. Diferente de modelos que renderizam clipes offline, o Vidu S1 gera o vídeo enquanto a conversa acontece: o usuário fala, o personagem o vê e ouve e responde em quase tempo real — com expressão, voz e personalidade.
A Vidu S1 API empacota essa capacidade em um fluxo de trabalho simples para desenvolvedores: crie uma sessão via HTTP, transmita áudio e vídeo pelo AliRTC e controle tudo por WebSocket. De companheiros de IA a apresentadores de live commerce, as equipes usam a Vidu S1 API para lançar humanos digitais de nível de produção em dias, não meses.
Vidu S1 — O Primeiro Personagem Digital Interativo de Nível Comercial
Não é um rosto falante pré-renderizado. É um personagem de vídeo generativo que interage, atua e percebe — em quase tempo real.
Interação de Nível Comercial
O primeiro personagem digital pronto para produção com percepção bidirecional: ele interage, atua e reage ao que vê e ouve dos seus usuários.
Duração Interativa Ilimitada
A primeira tecnologia de vídeo generativo do mundo com interação de duração ilimitada — de 1 minuto a 2 horas de geração contínua sem degradação de qualidade.
Resposta em Quase Tempo Real
Velocidade de inferência líder do setor, com forte aderência a instruções e compreensão semântica, permitindo conversas naturais através da tela com atraso mínimo.
Personas com Memória
Defina qualquer persona inicial — pessoa real, personagem de anime ou pet fofo. A memória de curto prazo mantém as conversas pessoais, consistentes e calorosas.
Percepção Multimodal
Voz, texto e vídeo em uma única sessão. O personagem capta com precisão a aparência, a expressão e o estado emocional do usuário.
Saída em Alta Resolução
Geração de vídeo interativo em tempo real com alta qualidade, pronta para produtos voltados ao consumidor em redes sociais, e-commerce, games e educação.
Avatares Pré-Renderizados vs. Geração em Streaming
Os pipelines tradicionais de humanos digitais reproduzem clipes renderizados. O Vidu S1 gera vídeo ao vivo enquanto a conversa acontece.
Humanos digitais pré-renderizados
- Minutos de renderização offline antes da reprodução
- Clipes curtos e fixos costurados entre si
- Transmissão em mão única — sem conversa de verdade
- Cego: nenhuma percepção do usuário
- Roteiros fixos, idênticos para todos os espectadores
Geração em streaming do Vidu S1
- Inferência em streaming em quase tempo real
- De 1 minuto a 2 horas de vídeo contínuo
- Conversa bidirecional ao vivo com voz + vídeo
- Vê a aparência, a expressão e a emoção do usuário
- Persona personalizada com memória de curto prazo
| Capacidade | Pipeline tradicional | Vidu S1 API |
|---|---|---|
| Latência | Minutos (renderização offline) | Streaming em quase tempo real |
| Duração da sessão | Clipes fixos de poucos segundos | 1 min – 2 h contínuos, sem perda de qualidade |
| Interação | Reprodução em mão única | Diálogo bidirecional com voz + vídeo |
| Percepção | Nenhuma | Reconhece aparência e emoção do usuário |
| Personalidade | Roteiro fixo | Persona personalizada + memória de curto prazo |
Vidu S1 API — No Ar em 6 Passos
Três canais sustentam cada sessão: HTTP para gerenciamento de sessões, AliRTC para transporte de áudio/vídeo e WebSocket para sinalização de controle.
Crie uma Sessão
Uma única chamada POST com a persona, a imagem de avatar e a voz do seu personagem retorna o ID da sessão e as credenciais RTC.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Entre no Canal RTC
Entre no canal AliRTC com o token retornado, publique o microfone do usuário (e a câmera no modo de vídeo) e assine o stream do personagem.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
Abra o WebSocket
Conecte o canal de controle persistente. A autenticação vai na query string — navegadores não conseguem definir headers personalizados em WebSockets.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Aguarde Ficar Pronto
Um ack de sucesso significa que o personagem está no ar. NOT_READY é normal no modo de vídeo — reconecte com backoff exponencial (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sMantenha a Sessão Ativa
O servidor envia pings a cada 5 segundos; responda em até 15. Fique atento às mensagens de desconexão forçada (type 6) e trate cada motivo de encerramento.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Encerre e Consulte a Cobrança
Envie a mensagem de encerramento, feche o WebSocket, saia do canal RTC — e então consulte o status final e os segundos cobrados.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"A API em um Relance
Uma API compacta e previsível. Hosts: api.vidu.cn (China) e api.vidu.com (internacional).
| Método | Caminho | Finalidade |
|---|---|---|
| POST | /live/v1/lives | Criar uma sessão de personagem digital |
| GET | /live/v1/lives/{live_id} | Consultar status e cobrança da sessão |
| WSS | /live/ws/live/connect | Sinalização de controle (init / hangup) |
| POST | /live/v1/voices/clone | Criar uma voz clonada personalizada |
| GET | /live/v1/voices | Listar vozes do sistema e personalizadas |
API HTTP
Crie e consulte sessões. Autenticação simples por token com a sua chave de API.
Canal AliRTC
Todo o áudio e vídeo em tempo real passa pelo AliRTC — não por HTTP. Uma única integração de SDK no cliente.
Sinalização WebSocket
Um canal de controle leve para prontidão, heartbeats e eventos de encerramento.
Quatro Estados, Totalmente Observáveis
Cada sessão segue uma máquina de estados previsível — fácil de monitorar, de cobrar e de depurar.
waiting
Sessão criada, sala aberta, personagem em preparação
on_live
Ambos os lados prontos — começam a conversa e a cobrança
ending
Encerramento recebido, sessão fechando de forma controlada
ended
Finalizada — consulte os segundos cobrados a qualquer momento
Onde as Equipes Usam o Vidu S1
Seis setores já estão colocando personagens digitais interativos na frente de usuários reais.
Companhia com IA
Personagens sempre disponíveis, com persona e memória, que conversam cara a cara, reagem ao humor do usuário e criam vínculos duradouros.
Ídolos Virtuais
Ídolos de anime ou realistas que apresentam shows ao vivo, respondem perguntas dos fãs e se apresentam por horas sem pausa.
Treinamento e Educação
Tutores e instrutores que explicam, demonstram e se adaptam às perguntas de cada aluno em tempo real.
Atendimento ao Cliente com IA
Um rosto amigável para o suporte: percebe a frustração, responde com naturalidade e transfere o atendimento com fluidez quando necessário.
Live Commerce
Apresentadores digitais que mostram produtos 24 horas por dia e respondem às perguntas dos compradores na hora.
Entretenimento Interativo
Personagens jogáveis e experiências narrativas em que a história reage à voz e ao rosto do jogador.
50+ Vozes a Um Parâmetro de Distância
Todas as vozes falam 28 idiomas. Troque de personalidade com um único campo — ou clone a sua própria voz.
Doce e acolhedora — resolve problemas sem hesitar (padrão)
Suave e acolhedora
Grave e aveludada, envelhecida como café e livros antigos
Uma mistura de intelecto e calor humano
Voz feminina americana premium, qualidade cinematográfica
Universitário americano que adora cozinhar
Britânica madura e intelectual, com jeito de garota da casa ao lado
Irmã mais velha coreana, calorosa e expressiva
Amiga de infância travessa vinda do Japão
Irmão mais velho francês e romântico
Energia latino-americana calorosa e entusiasmada
Doce garota de Hong Kong, cantonês nativo
🌍 28 Idiomas Prontos para Usar
Chinês, inglês, japonês, coreano, francês, alemão, espanhol, português, russo, árabe, hindi, tailandês, vietnamita, indonésio, turco e mais — além de dialetos regionais como cantonês, sichuanês, hokkien e mandarim taiwanês.
🧬 API de Clonagem de Voz
Precisa de uma voz de marca ou do timbre de uma pessoa específica? Crie vozes clonadas personalizadas e gerencie-as junto com as vozes do sistema via POST /live/v1/voices/clone
Preços Transparentes, Baseados no Uso
Pague apenas pelo tempo de conversa ao vivo. Os modos de áudio e vídeo custam exatamente o mesmo.
Teste Grátis
Para todo novo usuário — o suficiente para cerca de 11 minutos de interação ao vivo.
- Acesso completo à API, sem recursos bloqueados
- Todas as 50+ vozes e os 28 idiomas
- Modos de chamada de áudio e vídeo
- Persona e imagem de avatar personalizadas
Pague pelo Uso
Medição simples: a cobrança só começa quando o personagem realmente entra no ar.
- Mesmo preço para os modos de áudio e vídeo
- Débito a cada 6 s, arredondado em intervalos de 2 s
- Sessões de até 600 s, renováveis automaticamente
- A cobrança começa em on_live, nunca antes
- Saldo mínimo: 45 créditos por sessão
Enterprise
Soluções personalizadas para plataformas de redes sociais, e-commerce, games e educação.
- Gerente de conta dedicado
- Design personalizado de personagem e persona
- Suporte de onboarding para clonagem de voz
- Revisão de arquitetura para o seu cenário
Preço unitário do crédito: 0.03125. A sessão é desconectada automaticamente ao atingir a duração máxima (600 s); quando o saldo chega a zero, o servidor encerra a conexão automaticamente.
Vidu S1 API — Perguntas Frequentes
Os detalhes que os engenheiros realmente perguntam antes de integrar.
Coloque um Personagem de IA Vivo de Verdade no Seu Produto
Obtenha sua chave de API, use seus 1,000 créditos grátis e tenha um humano digital em tempo real conversando com seus usuários ainda esta semana.
Ou obtenha sua chave de API na hora em apimart.ai