Génération vidéo en streaming · Disponible dès maintenant

Vidu S1 API — Créez des humains numériques IA en temps réel qui voient, entendent et répondent

Vidu S1 est un modèle de génération vidéo en streaming de niveau commercial pour des conversations voix et vidéo bidirectionnelles en direct. Offrez à vos utilisateurs un personnage IA qui joue, perçoit les émotions et leur tient compagnie — via une seule API épurée.

Obtenir une clé API Voir le guide d'intégration

1,000 crédits d'essai gratuits pour les nouveaux utilisateurs · Aucun verrouillage SDK côté modèle

2h+

De génération continue sans perte de qualité

50+

Voix prédéfinies, des plus chaleureuses aux plus cinématographiques

Langues prises en charge par chaque voix

1,000

Crédits d'essai gratuits pour les nouveaux utilisateurs

À propos de Vidu S1

Qu'est-ce que Vidu S1 ?

Vidu S1 est un modèle de génération vidéo en streaming conçu pour les humains numériques interactifs en temps réel. Contrairement aux modèles qui rendent des clips hors ligne, Vidu S1 génère la vidéo pendant que la conversation a lieu : l'utilisateur parle, le personnage le voit, l'entend et répond en quasi temps réel — avec expressions, voix et personnalité.

La Vidu S1 API encapsule cette capacité dans un workflow développeur simple : créez une session en HTTP, transportez l'audio et la vidéo via AliRTC et pilotez tout par WebSocket. Des compagnons IA aux présentateurs de live commerce, les équipes utilisent la Vidu S1 API pour lancer des humains numériques de niveau production en quelques jours.

Pourquoi Vidu S1

Vidu S1 — Le premier personnage numérique interactif de niveau commercial

Pas une tête parlante pré-rendue. Un personnage vidéo génératif qui interagit, joue et perçoit — en quasi temps réel.

Interaction de niveau commercial

Le premier personnage numérique prêt pour la production avec perception bidirectionnelle : il interagit, joue et réagit à ce qu'il voit et entend de vos utilisateurs.

Durée d'interaction illimitée

La première technologie de vidéo générative au monde à prendre en charge une interaction de durée illimitée — de 1 minute à 2 heures de génération continue sans dégradation de la qualité.

Réponse en quasi temps réel

Une vitesse d'inférence de pointe, un excellent suivi des instructions et une vraie compréhension sémantique, pour une conversation naturelle à travers l'écran avec un délai minimal.

Des personas avec de la mémoire

Définissez n'importe quel persona initial — humain réaliste, personnage d'anime ou adorable animal. La mémoire à court terme rend les conversations personnelles, cohérentes et chaleureuses.

Perception multimodale

Voix, texte et vidéo dans une même session. Le personnage capte avec précision l'apparence, l'expression et l'état émotionnel de l'utilisateur.

Sortie haute résolution

Une génération vidéo interactive en temps réel de haute qualité, prête pour des produits grand public dans le social, l'e-commerce, le jeu et l'éducation.

Saut générationnel

Avatars pré-rendus vs génération en streaming

Les pipelines traditionnels d'humains numériques rejouent des clips déjà rendus. Vidu S1 génère la vidéo en direct, au fil de la conversation.

Pipeline traditionnel

Humains numériques pré-rendus

Des minutes de rendu hors ligne avant la lecture
Des clips courts et figés, assemblés bout à bout
Diffusion à sens unique — aucune vraie conversation
Aveugle : aucune perception de l'utilisateur
Scripts figés, identiques pour chaque spectateur

Vidu S1

Génération en streaming Vidu S1

Inférence en streaming quasi temps réel
De 1 minute à 2 heures de vidéo continue
Conversation voix + vidéo bidirectionnelle en direct
Voit l'apparence, l'expression et les émotions de l'utilisateur
Persona personnalisé avec mémoire à court terme

Capacité	Pipeline traditionnel	Vidu S1 API
Latence	Des minutes (rendu hors ligne)	Streaming quasi temps réel
Durée de session	Clips figés de quelques secondes	1 min – 2 h en continu, sans perte de qualité
Interaction	Lecture à sens unique	Dialogue voix + vidéo bidirectionnel
Perception	Aucune	Reconnaissance de l'apparence et des émotions
Personnalité	Script figé	Persona personnalisé + mémoire à court terme

Intégration

Vidu S1 API — En direct en 6 étapes

Trois canaux alimentent chaque session : HTTP pour la gestion des sessions, AliRTC pour le transport audio/vidéo, WebSocket pour la signalisation de contrôle.

Créez une session

Un seul appel POST avec le persona, l'image d'avatar et la voix de votre personnage renvoie un ID de session et les identifiants RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Rejoignez le canal RTC

Rejoignez le canal AliRTC avec le token renvoyé, publiez le micro de votre utilisateur (et la caméra en mode vidéo), puis abonnez-vous au flux du personnage.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

Ouvrez le WebSocket

Connectez le canal de contrôle persistant. L'authentification passe par la query string — les navigateurs ne peuvent pas définir d'en-têtes personnalisés sur les WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Attendez que tout soit prêt

Un ack de succès signifie que le personnage est en direct. NOT_READY est normal en mode vidéo — reconnectez-vous avec un backoff exponentiel (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Maintenez la session active

Le serveur envoie un ping toutes les 5 secondes ; répondez sous 15. Écoutez les messages de déconnexion forcée (type 6) et gérez chaque motif de raccrochage.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Raccrochez et interrogez la facturation

Envoyez le message hangup, fermez le WebSocket, quittez le canal RTC — puis interrogez le statut final et les secondes facturées.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

L'API en un coup d'œil

Une API compacte et prévisible. Hôtes : api.vidu.cn (Chine) et api.vidu.com (international).

Méthode	Chemin	Rôle
POST	`/live/v1/lives`	Créer une session de personnage numérique
GET	`/live/v1/lives/{live_id}`	Interroger le statut et la facturation d'une session
WSS	`/live/ws/live/connect`	Signalisation de contrôle (init / hangup)
POST	`/live/v1/voices/clone`	Créer une voix clonée personnalisée
GET	`/live/v1/voices`	Lister les voix système et personnalisées

API HTTP

Créez et interrogez les sessions. Authentification simple par token avec votre clé API.

Canal AliRTC

Tout l'audio et la vidéo en temps réel transitent par AliRTC — pas par HTTP. Une seule intégration SDK côté client.

Signalisation WebSocket

Un canal de contrôle léger pour la disponibilité, les heartbeats et les événements de raccrochage.

Cycle de vie des sessions

Quatre états, entièrement observables

Chaque session suit une machine à états prévisible — facile à monitorer, facile à facturer, facile à déboguer.

waiting

Session créée, salle ouverte, personnage en préparation

on_live

Les deux côtés sont prêts — la conversation et la facturation commencent

ending

Hangup reçu, la session se termine proprement

ended

Terminée — interrogez les secondes facturées à tout moment

Cas d'usage

Où les équipes déploient Vidu S1

Six secteurs mettent déjà des personnages numériques interactifs face à de vrais utilisateurs.

Femme souriante en pleine conversation vidéo avec un compagnon IA

Compagnie IA

Des personnages toujours disponibles, avec persona et mémoire, qui discutent en face à face, réagissent aux humeurs et tissent des liens durables.

Idoles virtuelles

Des idoles anime ou réalistes qui animent des lives, répondent aux questions des fans et se produisent pendant des heures sans pause.

Salle de classe évoquant la formation et l'éducation propulsées par l'IA

Formation et éducation

Des tuteurs et formateurs qui expliquent, démontrent et s'adaptent aux questions de chaque apprenant en temps réel.

Agent de service client avec casque évoquant le support IA

Service client IA

Un visage accueillant pour le support : il perçoit la frustration, répond naturellement et passe la main en douceur quand il le faut.

Paiement d'achat en ligne évoquant le commerce en live-stream

Live shopping

Des présentateurs numériques qui présentent les produits 24 h/24 et répondent aux questions des acheteurs à l'instant où elles sont posées.

Divertissement interactif

Des personnages jouables et des expériences immersives où l'histoire réagit à la voix et au visage du joueur.

Bibliothèque de voix

50+ voix, à un paramètre près

Chaque voix parle 28 langues. Changez de personnalité avec un simple champ — ou clonez la vôtre.

Tina

Douce et chaleureuse — résout les problèmes sans hésiter (par défaut)

Serena

Tendre et chaleureuse

Harvey

Profond et suave, patiné comme le café et les vieux livres

Maia

Un mélange d'intelligence et de chaleur

Jennifer

Voix féminine américaine premium, qualité cinématographique

Aiden

Étudiant américain passionné de cuisine

Mione

Britannique mûre et intellectuelle, la fille d'à côté

Sohee

Grande sœur coréenne chaleureuse et expressive

Ono Anna

Amie d'enfance espiègle venue du Japon

Emilien

Grand frère français romantique

Sonrisa

Énergie latino-américaine chaleureuse et enthousiaste

Kiki

Douce jeune fille de Hong Kong, cantonais natif

🌍 28 langues prêtes à l'emploi

Chinois, anglais, japonais, coréen, français, allemand, espagnol, portugais, russe, arabe, hindi, thaï, vietnamien, indonésien, turc et plus encore — plus des dialectes régionaux comme le cantonais, le sichuanais, le hokkien et le mandarin taïwanais.

🧬 API de clonage vocal

Besoin d'une voix de marque ou du timbre d'une personne précise ? Créez des voix clonées personnalisées et gérez-les aux côtés des voix système via POST /live/v1/voices/clone

Tarifs

Une tarification transparente, à l'usage

Payez uniquement le temps de conversation en direct. Les modes audio et vidéo coûtent exactement le même prix.

Essai gratuit

1,000 crédits

Pour chaque nouvel utilisateur — de quoi tenir environ 11 minutes d'interaction en direct.

Accès complet à l'API, sans fonctionnalités bridées
Les 50+ voix et les 28 langues
Modes d'appel audio et vidéo
Persona personnalisé et image d'avatar

Commencer gratuitement

Le plus populaire

Paiement à l'usage

3 crédits / 2 s

Un comptage simple : la facturation ne démarre que lorsque le personnage passe réellement en direct.

Même prix en mode audio et vidéo
Débit toutes les 6 s, arrondi par intervalles de 2 s
Sessions jusqu'à 600 s, renouvelables automatiquement
La facturation démarre à on_live, jamais avant
Solde minimum : 45 crédits par session

Obtenir une clé API

Entreprise

Sur mesure

Des solutions sur mesure pour les plateformes sociales, e-commerce, gaming et éducation.

Un responsable de compte dédié
Conception de personnage et de persona sur mesure
Accompagnement au clonage vocal
Revue d'architecture pour votre scénario

Parlons-en

Prix unitaire du crédit : 0.03125. Une session se déconnecte automatiquement lorsque la durée maximale (600 s) est atteinte ; lorsque le solde tombe à zéro, le serveur ferme la connexion automatiquement.

FAQ

Vidu S1 API — Questions fréquentes

Les détails que les ingénieurs vérifient vraiment avant d'intégrer.

Qu'est-ce que Vidu S1 ?

Vidu S1 est un modèle commercial de génération vidéo en streaming pour humains numériques interactifs en temps réel. Avec la Vidu S1 API, les développeurs créent des sessions live où un personnage IA voit, entend et parle avec les utilisateurs — durée de génération illimitée, plus de 50 voix et 28 langues.

Quand la facturation démarre-t-elle et comment l'usage est-il compté ?

La facturation démarre dès que le personnage numérique est prêt et que la session passe en on_live — exactement quand conn_init_ack.success renvoie true. Le tarif est de 3 crédits par 2 secondes, débités toutes les 6 secondes et arrondis à l'intervalle de 2 secondes supérieur. Les modes audio et vidéo coûtent le même prix.

Puis-je interagir avec le personnage numérique uniquement en HTTP ?

Non. HTTP sert à créer et interroger les sessions. L'audio et la vidéo en temps réel transitent par le canal AliRTC (une intégration SDK distincte), et le contrôle de session passe par une connexion de signalisation WebSocket. Les trois canaux réunis forment une session en direct.

Que faire quand le WebSocket renvoie NOT_READY ?

NOT_READY est attendu en mode vidéo — le côté personnage se prépare encore. Fermez la connexion, patientez brièvement, reconnectez-vous et renvoyez le message init, avec un backoff exponentiel (2s → 4s → 8s). Si vous recevez LIVE_CONN_INIT_FAILED à la place, c'est définitif : créez une nouvelle session.

Combien de temps une session peut-elle durer ?

La durée maximale d'une session est de 600 secondes ; le serveur se déconnecte automatiquement une fois qu'elle est atteinte. Pour des expériences plus longues, créez une nouvelle session et reconnectez-vous — le modèle sous-jacent prend en charge une génération continue de 1 minute à 2 heures sans perte de qualité.

Que se passe-t-il quand mon solde de crédits atteint zéro ?

Le serveur ferme automatiquement la connexion avec le motif de raccrochage credit_insufficient. Chaque nouvelle session exige aussi un solde minimum de 45 crédits pour démarrer — rechargez donc avant de passer en direct avec de vrais utilisateurs.

Quelles langues et quelles voix sont disponibles ?

50+ voix prédéfinies, chacune prenant en charge 28 langues dont l'anglais, le chinois, le japonais, le coréen, le français, l'allemand, l'espagnol, le portugais, le russe, l'arabe et le hindi. Des voix en dialectes régionaux (cantonais, sichuanais, hokkien, mandarin taïwanais et plus) sont aussi disponibles, et vous pouvez cloner des voix personnalisées via l'API.

Quel hôte API dois-je utiliser ?

Utilisez api.vidu.cn pour les déploiements en Chine continentale et api.vidu.com pour l'international. L'authentification est un simple en-tête : Authorization: Token vda_xxx. Pour les connexions WebSocket, passez le token dans le paramètre de requête authorization, car les navigateurs ne peuvent pas définir d'en-têtes WebSocket personnalisés.

Quelles images d'avatar puis-je utiliser pour le personnage ?

Une seule image avec une seule personne — en pied ou en buste, dans n'importe quel style (photoréaliste, anime, animal). PNG, JPG, JPEG ou WEBP jusqu'à 50 MB, transmise en URL ou en Base64. Combinée à un prompt de persona libre, elle définit l'apparence et le comportement de votre personnage.

Mettez un personnage IA vivant au cœur de votre produit

Récupérez votre clé API, utilisez vos 1,000 crédits gratuits et faites parler un humain numérique en temps réel à vos utilisateurs dès cette semaine.

Ou obtenez votre clé API instantanément sur apimart.ai