Geração de vídeo em streaming · No ar agora

Vidu S1 API — Crie Humanos Digitais de IA em Tempo Real que Veem, Ouvem e Respondem

O Vidu S1 é um modelo de geração de vídeo em streaming de nível comercial para conversas de voz e vídeo bidirecionais e ao vivo. Dê aos seus usuários um personagem de IA que atua, percebe emoções e faz companhia — tudo por uma única API limpa.

1,000 créditos de teste grátis para novos usuários · Sem lock-in de SDK no lado do modelo

2h+
De geração contínua sem perda de qualidade
50+
Vozes predefinidas, do acolhedor ao cinematográfico
28
Idiomas suportados por todas as vozes
1,000
Créditos de teste grátis para novos usuários
Sobre o Vidu S1

O Que É o Vidu S1?

O Vidu S1 é um modelo de geração de vídeo em streaming criado para humanos digitais interativos em tempo real. Diferente de modelos que renderizam clipes offline, o Vidu S1 gera o vídeo enquanto a conversa acontece: o usuário fala, o personagem o vê e ouve e responde em quase tempo real — com expressão, voz e personalidade.

A Vidu S1 API empacota essa capacidade em um fluxo de trabalho simples para desenvolvedores: crie uma sessão via HTTP, transmita áudio e vídeo pelo AliRTC e controle tudo por WebSocket. De companheiros de IA a apresentadores de live commerce, as equipes usam a Vidu S1 API para lançar humanos digitais de nível de produção em dias, não meses.

Por que o Vidu S1

Vidu S1 — O Primeiro Personagem Digital Interativo de Nível Comercial

Não é um rosto falante pré-renderizado. É um personagem de vídeo generativo que interage, atua e percebe — em quase tempo real.

Interação de Nível Comercial

O primeiro personagem digital pronto para produção com percepção bidirecional: ele interage, atua e reage ao que vê e ouve dos seus usuários.

Duração Interativa Ilimitada

A primeira tecnologia de vídeo generativo do mundo com interação de duração ilimitada — de 1 minuto a 2 horas de geração contínua sem degradação de qualidade.

Resposta em Quase Tempo Real

Velocidade de inferência líder do setor, com forte aderência a instruções e compreensão semântica, permitindo conversas naturais através da tela com atraso mínimo.

Personas com Memória

Defina qualquer persona inicial — pessoa real, personagem de anime ou pet fofo. A memória de curto prazo mantém as conversas pessoais, consistentes e calorosas.

Percepção Multimodal

Voz, texto e vídeo em uma única sessão. O personagem capta com precisão a aparência, a expressão e o estado emocional do usuário.

Saída em Alta Resolução

Geração de vídeo interativo em tempo real com alta qualidade, pronta para produtos voltados ao consumidor em redes sociais, e-commerce, games e educação.

Salto Geracional

Avatares Pré-Renderizados vs. Geração em Streaming

Os pipelines tradicionais de humanos digitais reproduzem clipes renderizados. O Vidu S1 gera vídeo ao vivo enquanto a conversa acontece.

Pipeline tradicional

Humanos digitais pré-renderizados

  • Minutos de renderização offline antes da reprodução
  • Clipes curtos e fixos costurados entre si
  • Transmissão em mão única — sem conversa de verdade
  • Cego: nenhuma percepção do usuário
  • Roteiros fixos, idênticos para todos os espectadores
Vidu S1

Geração em streaming do Vidu S1

  • Inferência em streaming em quase tempo real
  • De 1 minuto a 2 horas de vídeo contínuo
  • Conversa bidirecional ao vivo com voz + vídeo
  • Vê a aparência, a expressão e a emoção do usuário
  • Persona personalizada com memória de curto prazo
CapacidadePipeline tradicionalVidu S1 API
LatênciaMinutos (renderização offline)Streaming em quase tempo real
Duração da sessãoClipes fixos de poucos segundos1 min – 2 h contínuos, sem perda de qualidade
InteraçãoReprodução em mão únicaDiálogo bidirecional com voz + vídeo
PercepçãoNenhumaReconhece aparência e emoção do usuário
PersonalidadeRoteiro fixoPersona personalizada + memória de curto prazo
Integração

Vidu S1 API — No Ar em 6 Passos

Três canais sustentam cada sessão: HTTP para gerenciamento de sessões, AliRTC para transporte de áudio/vídeo e WebSocket para sinalização de controle.

1

Crie uma Sessão

Uma única chamada POST com a persona, a imagem de avatar e a voz do seu personagem retorna o ID da sessão e as credenciais RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Entre no Canal RTC

Entre no canal AliRTC com o token retornado, publique o microfone do usuário (e a câmera no modo de vídeo) e assine o stream do personagem.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

Abra o WebSocket

Conecte o canal de controle persistente. A autenticação vai na query string — navegadores não conseguem definir headers personalizados em WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Aguarde Ficar Pronto

Um ack de sucesso significa que o personagem está no ar. NOT_READY é normal no modo de vídeo — reconecte com backoff exponencial (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Mantenha a Sessão Ativa

O servidor envia pings a cada 5 segundos; responda em até 15. Fique atento às mensagens de desconexão forçada (type 6) e trate cada motivo de encerramento.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Encerre e Consulte a Cobrança

Envie a mensagem de encerramento, feche o WebSocket, saia do canal RTC — e então consulte o status final e os segundos cobrados.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

A API em um Relance

Uma API compacta e previsível. Hosts: api.vidu.cn (China) e api.vidu.com (internacional).

MétodoCaminhoFinalidade
POST/live/v1/livesCriar uma sessão de personagem digital
GET/live/v1/lives/{live_id}Consultar status e cobrança da sessão
WSS/live/ws/live/connectSinalização de controle (init / hangup)
POST/live/v1/voices/cloneCriar uma voz clonada personalizada
GET/live/v1/voicesListar vozes do sistema e personalizadas

API HTTP

Crie e consulte sessões. Autenticação simples por token com a sua chave de API.

Canal AliRTC

Todo o áudio e vídeo em tempo real passa pelo AliRTC — não por HTTP. Uma única integração de SDK no cliente.

Sinalização WebSocket

Um canal de controle leve para prontidão, heartbeats e eventos de encerramento.

Ciclo de Vida da Sessão

Quatro Estados, Totalmente Observáveis

Cada sessão segue uma máquina de estados previsível — fácil de monitorar, de cobrar e de depurar.

1

waiting

Sessão criada, sala aberta, personagem em preparação

2

on_live

Ambos os lados prontos — começam a conversa e a cobrança

3

ending

Encerramento recebido, sessão fechando de forma controlada

4

ended

Finalizada — consulte os segundos cobrados a qualquer momento

Casos de Uso

Onde as Equipes Usam o Vidu S1

Seis setores já estão colocando personagens digitais interativos na frente de usuários reais.

Mulher sorrindo durante uma conversa em vídeo com um companheiro de IA

Companhia com IA

Personagens sempre disponíveis, com persona e memória, que conversam cara a cara, reagem ao humor do usuário e criam vínculos duradouros.

Luzes de palco de show representando apresentações ao vivo de ídolos virtuais

Ídolos Virtuais

Ídolos de anime ou realistas que apresentam shows ao vivo, respondem perguntas dos fãs e se apresentam por horas sem pausa.

Sala de aula representando treinamento e educação com IA

Treinamento e Educação

Tutores e instrutores que explicam, demonstram e se adaptam às perguntas de cada aluno em tempo real.

Atendente com headset representando suporte com IA

Atendimento ao Cliente com IA

Um rosto amigável para o suporte: percebe a frustração, responde com naturalidade e transfere o atendimento com fluidez quando necessário.

Checkout de compras online representando live commerce

Live Commerce

Apresentadores digitais que mostram produtos 24 horas por dia e respondem às perguntas dos compradores na hora.

Setup gamer neon representando entretenimento interativo

Entretenimento Interativo

Personagens jogáveis e experiências narrativas em que a história reage à voz e ao rosto do jogador.

Biblioteca de Vozes

50+ Vozes a Um Parâmetro de Distância

Todas as vozes falam 28 idiomas. Troque de personalidade com um único campo — ou clone a sua própria voz.

Tina

Doce e acolhedora — resolve problemas sem hesitar (padrão)

Serena

Suave e acolhedora

Harvey

Grave e aveludada, envelhecida como café e livros antigos

Maia

Uma mistura de intelecto e calor humano

Jennifer

Voz feminina americana premium, qualidade cinematográfica

Aiden

Universitário americano que adora cozinhar

Mione

Britânica madura e intelectual, com jeito de garota da casa ao lado

Sohee

Irmã mais velha coreana, calorosa e expressiva

Ono Anna

Amiga de infância travessa vinda do Japão

Emilien

Irmão mais velho francês e romântico

Sonrisa

Energia latino-americana calorosa e entusiasmada

Kiki

Doce garota de Hong Kong, cantonês nativo

🌍 28 Idiomas Prontos para Usar

Chinês, inglês, japonês, coreano, francês, alemão, espanhol, português, russo, árabe, hindi, tailandês, vietnamita, indonésio, turco e mais — além de dialetos regionais como cantonês, sichuanês, hokkien e mandarim taiwanês.

🧬 API de Clonagem de Voz

Precisa de uma voz de marca ou do timbre de uma pessoa específica? Crie vozes clonadas personalizadas e gerencie-as junto com as vozes do sistema via POST /live/v1/voices/clone

Preços

Preços Transparentes, Baseados no Uso

Pague apenas pelo tempo de conversa ao vivo. Os modos de áudio e vídeo custam exatamente o mesmo.

Teste Grátis

1,000 créditos

Para todo novo usuário — o suficiente para cerca de 11 minutos de interação ao vivo.

  • Acesso completo à API, sem recursos bloqueados
  • Todas as 50+ vozes e os 28 idiomas
  • Modos de chamada de áudio e vídeo
  • Persona e imagem de avatar personalizadas
Começar Grátis

Enterprise

Sob medida

Soluções personalizadas para plataformas de redes sociais, e-commerce, games e educação.

  • Gerente de conta dedicado
  • Design personalizado de personagem e persona
  • Suporte de onboarding para clonagem de voz
  • Revisão de arquitetura para o seu cenário
Fale Conosco

Preço unitário do crédito: 0.03125. A sessão é desconectada automaticamente ao atingir a duração máxima (600 s); quando o saldo chega a zero, o servidor encerra a conexão automaticamente.

FAQ

Vidu S1 API — Perguntas Frequentes

Os detalhes que os engenheiros realmente perguntam antes de integrar.

O Vidu S1 é um modelo comercial de geração de vídeo em streaming para humanos digitais interativos em tempo real. Com a Vidu S1 API, desenvolvedores criam sessões ao vivo em que um personagem de IA vê, ouve e conversa com os usuários — geração de duração ilimitada, mais de 50 vozes e 28 idiomas.
A cobrança começa no momento em que o personagem digital fica pronto e a sessão entra em on_live — exatamente quando conn_init_ack.success retorna true. A tarifa é de 3 créditos a cada 2 segundos, debitada a cada 6 segundos e arredondada para cima no intervalo de 2 segundos mais próximo. Os modos de áudio e vídeo custam o mesmo.
Não. O HTTP é usado para criar e consultar sessões. O áudio e o vídeo em tempo real são transmitidos pelo canal AliRTC (uma integração de SDK separada), e o controle da sessão roda sobre uma conexão de sinalização WebSocket. Os três canais juntos formam uma sessão ao vivo.
NOT_READY é esperado no modo de vídeo — o lado do personagem ainda está se preparando. Feche a conexão, aguarde um instante, reconecte e reenvie a mensagem de init, usando backoff exponencial (2s → 4s → 8s). Se em vez disso receber LIVE_CONN_INIT_FAILED, o erro é permanente: crie uma nova sessão.
A duração máxima de uma sessão é de 600 segundos; o servidor desconecta automaticamente ao atingi-la. Para experiências mais longas, crie uma nova sessão e reconecte — o modelo em si suporta geração contínua de 1 minuto até 2 horas sem perda de qualidade.
O servidor encerra a conexão automaticamente com o motivo de encerramento credit_insufficient. Cada nova sessão também exige um saldo mínimo de 45 créditos para começar, então recarregue antes de entrar no ar com usuários reais.
50+ vozes predefinidas, cada uma com suporte a 28 idiomas, incluindo inglês, chinês, japonês, coreano, francês, alemão, espanhol, português, russo, árabe e hindi. Vozes de dialetos regionais (cantonês, sichuanês, hokkien, mandarim taiwanês e outros) também estão disponíveis, e você pode clonar vozes personalizadas pela API.
Use api.vidu.cn para implantações na China continental e api.vidu.com para as internacionais. A autenticação é um header simples: Authorization: Token vda_xxx. Em conexões WebSocket, passe o token no parâmetro de query authorization, já que navegadores não permitem headers personalizados em WebSockets.
Uma única imagem com uma pessoa — corpo inteiro ou meio corpo, em qualquer estilo (fotorrealista, anime, pet). PNG, JPG, JPEG ou WEBP de até 50 MB, enviada como URL ou Base64. Combinada com um prompt de persona em texto livre, ela define a aparência e o comportamento do seu personagem.

Coloque um Personagem de IA Vivo de Verdade no Seu Produto

Obtenha sua chave de API, use seus 1,000 créditos grátis e tenha um humano digital em tempo real conversando com seus usuários ainda esta semana.

Ou obtenha sua chave de API na hora em apimart.ai