Geração de vídeo em streaming · No ar agora

Vidu S1 API — Crie Humanos Digitais de IA em Tempo Real que Veem, Ouvem e Respondem

O Vidu S1 é um modelo de geração de vídeo em streaming de nível comercial para conversas de voz e vídeo bidirecionais e ao vivo. Dê aos seus usuários um personagem de IA que atua, percebe emoções e faz companhia — tudo por uma única API limpa.

Obter Chave de API Ver Guia de Integração

1,000 créditos de teste grátis para novos usuários · Sem lock-in de SDK no lado do modelo

2h+

De geração contínua sem perda de qualidade

50+

Vozes predefinidas, do acolhedor ao cinematográfico

Idiomas suportados por todas as vozes

1,000

Créditos de teste grátis para novos usuários

Sobre o Vidu S1

O Que É o Vidu S1?

O Vidu S1 é um modelo de geração de vídeo em streaming criado para humanos digitais interativos em tempo real. Diferente de modelos que renderizam clipes offline, o Vidu S1 gera o vídeo enquanto a conversa acontece: o usuário fala, o personagem o vê e ouve e responde em quase tempo real — com expressão, voz e personalidade.

A Vidu S1 API empacota essa capacidade em um fluxo de trabalho simples para desenvolvedores: crie uma sessão via HTTP, transmita áudio e vídeo pelo AliRTC e controle tudo por WebSocket. De companheiros de IA a apresentadores de live commerce, as equipes usam a Vidu S1 API para lançar humanos digitais de nível de produção em dias, não meses.

Por que o Vidu S1

Vidu S1 — O Primeiro Personagem Digital Interativo de Nível Comercial

Não é um rosto falante pré-renderizado. É um personagem de vídeo generativo que interage, atua e percebe — em quase tempo real.

Interação de Nível Comercial

O primeiro personagem digital pronto para produção com percepção bidirecional: ele interage, atua e reage ao que vê e ouve dos seus usuários.

Duração Interativa Ilimitada

A primeira tecnologia de vídeo generativo do mundo com interação de duração ilimitada — de 1 minuto a 2 horas de geração contínua sem degradação de qualidade.

Resposta em Quase Tempo Real

Velocidade de inferência líder do setor, com forte aderência a instruções e compreensão semântica, permitindo conversas naturais através da tela com atraso mínimo.

Personas com Memória

Defina qualquer persona inicial — pessoa real, personagem de anime ou pet fofo. A memória de curto prazo mantém as conversas pessoais, consistentes e calorosas.

Percepção Multimodal

Voz, texto e vídeo em uma única sessão. O personagem capta com precisão a aparência, a expressão e o estado emocional do usuário.

Saída em Alta Resolução

Geração de vídeo interativo em tempo real com alta qualidade, pronta para produtos voltados ao consumidor em redes sociais, e-commerce, games e educação.

Salto Geracional

Avatares Pré-Renderizados vs. Geração em Streaming

Os pipelines tradicionais de humanos digitais reproduzem clipes renderizados. O Vidu S1 gera vídeo ao vivo enquanto a conversa acontece.

Pipeline tradicional

Humanos digitais pré-renderizados

Minutos de renderização offline antes da reprodução
Clipes curtos e fixos costurados entre si
Transmissão em mão única — sem conversa de verdade
Cego: nenhuma percepção do usuário
Roteiros fixos, idênticos para todos os espectadores

Vidu S1

Geração em streaming do Vidu S1

Inferência em streaming em quase tempo real
De 1 minuto a 2 horas de vídeo contínuo
Conversa bidirecional ao vivo com voz + vídeo
Vê a aparência, a expressão e a emoção do usuário
Persona personalizada com memória de curto prazo

Capacidade	Pipeline tradicional	Vidu S1 API
Latência	Minutos (renderização offline)	Streaming em quase tempo real
Duração da sessão	Clipes fixos de poucos segundos	1 min – 2 h contínuos, sem perda de qualidade
Interação	Reprodução em mão única	Diálogo bidirecional com voz + vídeo
Percepção	Nenhuma	Reconhece aparência e emoção do usuário
Personalidade	Roteiro fixo	Persona personalizada + memória de curto prazo

Integração

Vidu S1 API — No Ar em 6 Passos

Três canais sustentam cada sessão: HTTP para gerenciamento de sessões, AliRTC para transporte de áudio/vídeo e WebSocket para sinalização de controle.

Crie uma Sessão

Uma única chamada POST com a persona, a imagem de avatar e a voz do seu personagem retorna o ID da sessão e as credenciais RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Entre no Canal RTC

Entre no canal AliRTC com o token retornado, publique o microfone do usuário (e a câmera no modo de vídeo) e assine o stream do personagem.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

Abra o WebSocket

Conecte o canal de controle persistente. A autenticação vai na query string — navegadores não conseguem definir headers personalizados em WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Aguarde Ficar Pronto

Um ack de sucesso significa que o personagem está no ar. NOT_READY é normal no modo de vídeo — reconecte com backoff exponencial (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Mantenha a Sessão Ativa

O servidor envia pings a cada 5 segundos; responda em até 15. Fique atento às mensagens de desconexão forçada (type 6) e trate cada motivo de encerramento.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Encerre e Consulte a Cobrança

Envie a mensagem de encerramento, feche o WebSocket, saia do canal RTC — e então consulte o status final e os segundos cobrados.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

A API em um Relance

Uma API compacta e previsível. Hosts: api.vidu.cn (China) e api.vidu.com (internacional).

Método	Caminho	Finalidade
POST	`/live/v1/lives`	Criar uma sessão de personagem digital
GET	`/live/v1/lives/{live_id}`	Consultar status e cobrança da sessão
WSS	`/live/ws/live/connect`	Sinalização de controle (init / hangup)
POST	`/live/v1/voices/clone`	Criar uma voz clonada personalizada
GET	`/live/v1/voices`	Listar vozes do sistema e personalizadas

API HTTP

Crie e consulte sessões. Autenticação simples por token com a sua chave de API.

Canal AliRTC

Todo o áudio e vídeo em tempo real passa pelo AliRTC — não por HTTP. Uma única integração de SDK no cliente.

Sinalização WebSocket

Um canal de controle leve para prontidão, heartbeats e eventos de encerramento.

Ciclo de Vida da Sessão

Quatro Estados, Totalmente Observáveis

Cada sessão segue uma máquina de estados previsível — fácil de monitorar, de cobrar e de depurar.

waiting

Sessão criada, sala aberta, personagem em preparação

on_live

Ambos os lados prontos — começam a conversa e a cobrança

ending

Encerramento recebido, sessão fechando de forma controlada

ended

Finalizada — consulte os segundos cobrados a qualquer momento

Casos de Uso

Onde as Equipes Usam o Vidu S1

Seis setores já estão colocando personagens digitais interativos na frente de usuários reais.

Mulher sorrindo durante uma conversa em vídeo com um companheiro de IA

Companhia com IA

Personagens sempre disponíveis, com persona e memória, que conversam cara a cara, reagem ao humor do usuário e criam vínculos duradouros.

Ídolos Virtuais

Ídolos de anime ou realistas que apresentam shows ao vivo, respondem perguntas dos fãs e se apresentam por horas sem pausa.

Treinamento e Educação

Tutores e instrutores que explicam, demonstram e se adaptam às perguntas de cada aluno em tempo real.

Atendente com headset representando suporte com IA

Atendimento ao Cliente com IA

Um rosto amigável para o suporte: percebe a frustração, responde com naturalidade e transfere o atendimento com fluidez quando necessário.

Live Commerce

Apresentadores digitais que mostram produtos 24 horas por dia e respondem às perguntas dos compradores na hora.

Entretenimento Interativo

Personagens jogáveis e experiências narrativas em que a história reage à voz e ao rosto do jogador.

Biblioteca de Vozes

50+ Vozes a Um Parâmetro de Distância

Todas as vozes falam 28 idiomas. Troque de personalidade com um único campo — ou clone a sua própria voz.

Tina

Doce e acolhedora — resolve problemas sem hesitar (padrão)

Serena

Suave e acolhedora

Harvey

Grave e aveludada, envelhecida como café e livros antigos

Maia

Uma mistura de intelecto e calor humano

Jennifer

Voz feminina americana premium, qualidade cinematográfica

Aiden

Universitário americano que adora cozinhar

Mione

Britânica madura e intelectual, com jeito de garota da casa ao lado

Sohee

Irmã mais velha coreana, calorosa e expressiva

Ono Anna

Amiga de infância travessa vinda do Japão

Emilien

Irmão mais velho francês e romântico

Sonrisa

Energia latino-americana calorosa e entusiasmada

Kiki

Doce garota de Hong Kong, cantonês nativo

🌍 28 Idiomas Prontos para Usar

Chinês, inglês, japonês, coreano, francês, alemão, espanhol, português, russo, árabe, hindi, tailandês, vietnamita, indonésio, turco e mais — além de dialetos regionais como cantonês, sichuanês, hokkien e mandarim taiwanês.

🧬 API de Clonagem de Voz

Precisa de uma voz de marca ou do timbre de uma pessoa específica? Crie vozes clonadas personalizadas e gerencie-as junto com as vozes do sistema via POST /live/v1/voices/clone

Preços

Preços Transparentes, Baseados no Uso

Pague apenas pelo tempo de conversa ao vivo. Os modos de áudio e vídeo custam exatamente o mesmo.

Teste Grátis

1,000 créditos

Para todo novo usuário — o suficiente para cerca de 11 minutos de interação ao vivo.

Acesso completo à API, sem recursos bloqueados
Todas as 50+ vozes e os 28 idiomas
Modos de chamada de áudio e vídeo
Persona e imagem de avatar personalizadas

Começar Grátis

Mais Popular

Pague pelo Uso

3 créditos / 2 s

Medição simples: a cobrança só começa quando o personagem realmente entra no ar.

Mesmo preço para os modos de áudio e vídeo
Débito a cada 6 s, arredondado em intervalos de 2 s
Sessões de até 600 s, renováveis automaticamente
A cobrança começa em on_live, nunca antes
Saldo mínimo: 45 créditos por sessão

Obter Chave de API

Enterprise

Sob medida

Soluções personalizadas para plataformas de redes sociais, e-commerce, games e educação.

Gerente de conta dedicado
Design personalizado de personagem e persona
Suporte de onboarding para clonagem de voz
Revisão de arquitetura para o seu cenário

Fale Conosco

Preço unitário do crédito: 0.03125. A sessão é desconectada automaticamente ao atingir a duração máxima (600 s); quando o saldo chega a zero, o servidor encerra a conexão automaticamente.

FAQ

Vidu S1 API — Perguntas Frequentes

Os detalhes que os engenheiros realmente perguntam antes de integrar.

O que é o Vidu S1?

O Vidu S1 é um modelo comercial de geração de vídeo em streaming para humanos digitais interativos em tempo real. Com a Vidu S1 API, desenvolvedores criam sessões ao vivo em que um personagem de IA vê, ouve e conversa com os usuários — geração de duração ilimitada, mais de 50 vozes e 28 idiomas.

Quando a cobrança começa e como o uso é medido?

A cobrança começa no momento em que o personagem digital fica pronto e a sessão entra em on_live — exatamente quando conn_init_ack.success retorna true. A tarifa é de 3 créditos a cada 2 segundos, debitada a cada 6 segundos e arredondada para cima no intervalo de 2 segundos mais próximo. Os modos de áudio e vídeo custam o mesmo.

Posso interagir com o personagem digital apenas via HTTP?

Não. O HTTP é usado para criar e consultar sessões. O áudio e o vídeo em tempo real são transmitidos pelo canal AliRTC (uma integração de SDK separada), e o controle da sessão roda sobre uma conexão de sinalização WebSocket. Os três canais juntos formam uma sessão ao vivo.

O que devo fazer quando o WebSocket retorna NOT_READY?

NOT_READY é esperado no modo de vídeo — o lado do personagem ainda está se preparando. Feche a conexão, aguarde um instante, reconecte e reenvie a mensagem de init, usando backoff exponencial (2s → 4s → 8s). Se em vez disso receber LIVE_CONN_INIT_FAILED, o erro é permanente: crie uma nova sessão.

Quanto tempo pode durar uma única sessão?

A duração máxima de uma sessão é de 600 segundos; o servidor desconecta automaticamente ao atingi-la. Para experiências mais longas, crie uma nova sessão e reconecte — o modelo em si suporta geração contínua de 1 minuto até 2 horas sem perda de qualidade.

O que acontece quando meu saldo de créditos chega a zero?

O servidor encerra a conexão automaticamente com o motivo de encerramento credit_insufficient. Cada nova sessão também exige um saldo mínimo de 45 créditos para começar, então recarregue antes de entrar no ar com usuários reais.

Quais idiomas e vozes estão disponíveis?

50+ vozes predefinidas, cada uma com suporte a 28 idiomas, incluindo inglês, chinês, japonês, coreano, francês, alemão, espanhol, português, russo, árabe e hindi. Vozes de dialetos regionais (cantonês, sichuanês, hokkien, mandarim taiwanês e outros) também estão disponíveis, e você pode clonar vozes personalizadas pela API.

Qual host de API devo usar?

Use api.vidu.cn para implantações na China continental e api.vidu.com para as internacionais. A autenticação é um header simples: Authorization: Token vda_xxx. Em conexões WebSocket, passe o token no parâmetro de query authorization, já que navegadores não permitem headers personalizados em WebSockets.

Quais imagens de avatar posso usar para o personagem?

Uma única imagem com uma pessoa — corpo inteiro ou meio corpo, em qualquer estilo (fotorrealista, anime, pet). PNG, JPG, JPEG ou WEBP de até 50 MB, enviada como URL ou Base64. Combinada com um prompt de persona em texto livre, ela define a aparência e o comportamento do seu personagem.

Coloque um Personagem de IA Vivo de Verdade no Seu Produto

Obtenha sua chave de API, use seus 1,000 créditos grátis e tenha um humano digital em tempo real conversando com seus usuários ainda esta semana.

Ou obtenha sua chave de API na hora em apimart.ai