Génération vidéo en streaming · Disponible dès maintenant

Vidu S1 API — Créez des humains numériques IA en temps réel qui voient, entendent et répondent

Vidu S1 est un modèle de génération vidéo en streaming de niveau commercial pour des conversations voix et vidéo bidirectionnelles en direct. Offrez à vos utilisateurs un personnage IA qui joue, perçoit les émotions et leur tient compagnie — via une seule API épurée.

1,000 crédits d'essai gratuits pour les nouveaux utilisateurs · Aucun verrouillage SDK côté modèle

2h+
De génération continue sans perte de qualité
50+
Voix prédéfinies, des plus chaleureuses aux plus cinématographiques
28
Langues prises en charge par chaque voix
1,000
Crédits d'essai gratuits pour les nouveaux utilisateurs
À propos de Vidu S1

Qu'est-ce que Vidu S1 ?

Vidu S1 est un modèle de génération vidéo en streaming conçu pour les humains numériques interactifs en temps réel. Contrairement aux modèles qui rendent des clips hors ligne, Vidu S1 génère la vidéo pendant que la conversation a lieu : l'utilisateur parle, le personnage le voit, l'entend et répond en quasi temps réel — avec expressions, voix et personnalité.

La Vidu S1 API encapsule cette capacité dans un workflow développeur simple : créez une session en HTTP, transportez l'audio et la vidéo via AliRTC et pilotez tout par WebSocket. Des compagnons IA aux présentateurs de live commerce, les équipes utilisent la Vidu S1 API pour lancer des humains numériques de niveau production en quelques jours.

Pourquoi Vidu S1

Vidu S1 — Le premier personnage numérique interactif de niveau commercial

Pas une tête parlante pré-rendue. Un personnage vidéo génératif qui interagit, joue et perçoit — en quasi temps réel.

Interaction de niveau commercial

Le premier personnage numérique prêt pour la production avec perception bidirectionnelle : il interagit, joue et réagit à ce qu'il voit et entend de vos utilisateurs.

Durée d'interaction illimitée

La première technologie de vidéo générative au monde à prendre en charge une interaction de durée illimitée — de 1 minute à 2 heures de génération continue sans dégradation de la qualité.

Réponse en quasi temps réel

Une vitesse d'inférence de pointe, un excellent suivi des instructions et une vraie compréhension sémantique, pour une conversation naturelle à travers l'écran avec un délai minimal.

Des personas avec de la mémoire

Définissez n'importe quel persona initial — humain réaliste, personnage d'anime ou adorable animal. La mémoire à court terme rend les conversations personnelles, cohérentes et chaleureuses.

Perception multimodale

Voix, texte et vidéo dans une même session. Le personnage capte avec précision l'apparence, l'expression et l'état émotionnel de l'utilisateur.

Sortie haute résolution

Une génération vidéo interactive en temps réel de haute qualité, prête pour des produits grand public dans le social, l'e-commerce, le jeu et l'éducation.

Saut générationnel

Avatars pré-rendus vs génération en streaming

Les pipelines traditionnels d'humains numériques rejouent des clips déjà rendus. Vidu S1 génère la vidéo en direct, au fil de la conversation.

Pipeline traditionnel

Humains numériques pré-rendus

  • Des minutes de rendu hors ligne avant la lecture
  • Des clips courts et figés, assemblés bout à bout
  • Diffusion à sens unique — aucune vraie conversation
  • Aveugle : aucune perception de l'utilisateur
  • Scripts figés, identiques pour chaque spectateur
Vidu S1

Génération en streaming Vidu S1

  • Inférence en streaming quasi temps réel
  • De 1 minute à 2 heures de vidéo continue
  • Conversation voix + vidéo bidirectionnelle en direct
  • Voit l'apparence, l'expression et les émotions de l'utilisateur
  • Persona personnalisé avec mémoire à court terme
CapacitéPipeline traditionnelVidu S1 API
LatenceDes minutes (rendu hors ligne)Streaming quasi temps réel
Durée de sessionClips figés de quelques secondes1 min – 2 h en continu, sans perte de qualité
InteractionLecture à sens uniqueDialogue voix + vidéo bidirectionnel
PerceptionAucuneReconnaissance de l'apparence et des émotions
PersonnalitéScript figéPersona personnalisé + mémoire à court terme
Intégration

Vidu S1 API — En direct en 6 étapes

Trois canaux alimentent chaque session : HTTP pour la gestion des sessions, AliRTC pour le transport audio/vidéo, WebSocket pour la signalisation de contrôle.

1

Créez une session

Un seul appel POST avec le persona, l'image d'avatar et la voix de votre personnage renvoie un ID de session et les identifiants RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Rejoignez le canal RTC

Rejoignez le canal AliRTC avec le token renvoyé, publiez le micro de votre utilisateur (et la caméra en mode vidéo), puis abonnez-vous au flux du personnage.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

Ouvrez le WebSocket

Connectez le canal de contrôle persistant. L'authentification passe par la query string — les navigateurs ne peuvent pas définir d'en-têtes personnalisés sur les WebSockets.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Attendez que tout soit prêt

Un ack de succès signifie que le personnage est en direct. NOT_READY est normal en mode vidéo — reconnectez-vous avec un backoff exponentiel (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Maintenez la session active

Le serveur envoie un ping toutes les 5 secondes ; répondez sous 15. Écoutez les messages de déconnexion forcée (type 6) et gérez chaque motif de raccrochage.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Raccrochez et interrogez la facturation

Envoyez le message hangup, fermez le WebSocket, quittez le canal RTC — puis interrogez le statut final et les secondes facturées.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

L'API en un coup d'œil

Une API compacte et prévisible. Hôtes : api.vidu.cn (Chine) et api.vidu.com (international).

MéthodeCheminRôle
POST/live/v1/livesCréer une session de personnage numérique
GET/live/v1/lives/{live_id}Interroger le statut et la facturation d'une session
WSS/live/ws/live/connectSignalisation de contrôle (init / hangup)
POST/live/v1/voices/cloneCréer une voix clonée personnalisée
GET/live/v1/voicesLister les voix système et personnalisées

API HTTP

Créez et interrogez les sessions. Authentification simple par token avec votre clé API.

Canal AliRTC

Tout l'audio et la vidéo en temps réel transitent par AliRTC — pas par HTTP. Une seule intégration SDK côté client.

Signalisation WebSocket

Un canal de contrôle léger pour la disponibilité, les heartbeats et les événements de raccrochage.

Cycle de vie des sessions

Quatre états, entièrement observables

Chaque session suit une machine à états prévisible — facile à monitorer, facile à facturer, facile à déboguer.

1

waiting

Session créée, salle ouverte, personnage en préparation

2

on_live

Les deux côtés sont prêts — la conversation et la facturation commencent

3

ending

Hangup reçu, la session se termine proprement

4

ended

Terminée — interrogez les secondes facturées à tout moment

Cas d'usage

Où les équipes déploient Vidu S1

Six secteurs mettent déjà des personnages numériques interactifs face à de vrais utilisateurs.

Femme souriante en pleine conversation vidéo avec un compagnon IA

Compagnie IA

Des personnages toujours disponibles, avec persona et mémoire, qui discutent en face à face, réagissent aux humeurs et tissent des liens durables.

Lumières de scène de concert évoquant les performances live d'idoles virtuelles

Idoles virtuelles

Des idoles anime ou réalistes qui animent des lives, répondent aux questions des fans et se produisent pendant des heures sans pause.

Salle de classe évoquant la formation et l'éducation propulsées par l'IA

Formation et éducation

Des tuteurs et formateurs qui expliquent, démontrent et s'adaptent aux questions de chaque apprenant en temps réel.

Agent de service client avec casque évoquant le support IA

Service client IA

Un visage accueillant pour le support : il perçoit la frustration, répond naturellement et passe la main en douceur quand il le faut.

Paiement d'achat en ligne évoquant le commerce en live-stream

Live shopping

Des présentateurs numériques qui présentent les produits 24 h/24 et répondent aux questions des acheteurs à l'instant où elles sont posées.

Installation gaming néon évoquant le divertissement interactif

Divertissement interactif

Des personnages jouables et des expériences immersives où l'histoire réagit à la voix et au visage du joueur.

Bibliothèque de voix

50+ voix, à un paramètre près

Chaque voix parle 28 langues. Changez de personnalité avec un simple champ — ou clonez la vôtre.

Tina

Douce et chaleureuse — résout les problèmes sans hésiter (par défaut)

Serena

Tendre et chaleureuse

Harvey

Profond et suave, patiné comme le café et les vieux livres

Maia

Un mélange d'intelligence et de chaleur

Jennifer

Voix féminine américaine premium, qualité cinématographique

Aiden

Étudiant américain passionné de cuisine

Mione

Britannique mûre et intellectuelle, la fille d'à côté

Sohee

Grande sœur coréenne chaleureuse et expressive

Ono Anna

Amie d'enfance espiègle venue du Japon

Emilien

Grand frère français romantique

Sonrisa

Énergie latino-américaine chaleureuse et enthousiaste

Kiki

Douce jeune fille de Hong Kong, cantonais natif

🌍 28 langues prêtes à l'emploi

Chinois, anglais, japonais, coréen, français, allemand, espagnol, portugais, russe, arabe, hindi, thaï, vietnamien, indonésien, turc et plus encore — plus des dialectes régionaux comme le cantonais, le sichuanais, le hokkien et le mandarin taïwanais.

🧬 API de clonage vocal

Besoin d'une voix de marque ou du timbre d'une personne précise ? Créez des voix clonées personnalisées et gérez-les aux côtés des voix système via POST /live/v1/voices/clone

Tarifs

Une tarification transparente, à l'usage

Payez uniquement le temps de conversation en direct. Les modes audio et vidéo coûtent exactement le même prix.

Essai gratuit

1,000 crédits

Pour chaque nouvel utilisateur — de quoi tenir environ 11 minutes d'interaction en direct.

  • Accès complet à l'API, sans fonctionnalités bridées
  • Les 50+ voix et les 28 langues
  • Modes d'appel audio et vidéo
  • Persona personnalisé et image d'avatar
Commencer gratuitement

Entreprise

Sur mesure

Des solutions sur mesure pour les plateformes sociales, e-commerce, gaming et éducation.

  • Un responsable de compte dédié
  • Conception de personnage et de persona sur mesure
  • Accompagnement au clonage vocal
  • Revue d'architecture pour votre scénario
Parlons-en

Prix unitaire du crédit : 0.03125. Une session se déconnecte automatiquement lorsque la durée maximale (600 s) est atteinte ; lorsque le solde tombe à zéro, le serveur ferme la connexion automatiquement.

FAQ

Vidu S1 API — Questions fréquentes

Les détails que les ingénieurs vérifient vraiment avant d'intégrer.

Vidu S1 est un modèle commercial de génération vidéo en streaming pour humains numériques interactifs en temps réel. Avec la Vidu S1 API, les développeurs créent des sessions live où un personnage IA voit, entend et parle avec les utilisateurs — durée de génération illimitée, plus de 50 voix et 28 langues.
La facturation démarre dès que le personnage numérique est prêt et que la session passe en on_live — exactement quand conn_init_ack.success renvoie true. Le tarif est de 3 crédits par 2 secondes, débités toutes les 6 secondes et arrondis à l'intervalle de 2 secondes supérieur. Les modes audio et vidéo coûtent le même prix.
Non. HTTP sert à créer et interroger les sessions. L'audio et la vidéo en temps réel transitent par le canal AliRTC (une intégration SDK distincte), et le contrôle de session passe par une connexion de signalisation WebSocket. Les trois canaux réunis forment une session en direct.
NOT_READY est attendu en mode vidéo — le côté personnage se prépare encore. Fermez la connexion, patientez brièvement, reconnectez-vous et renvoyez le message init, avec un backoff exponentiel (2s → 4s → 8s). Si vous recevez LIVE_CONN_INIT_FAILED à la place, c'est définitif : créez une nouvelle session.
La durée maximale d'une session est de 600 secondes ; le serveur se déconnecte automatiquement une fois qu'elle est atteinte. Pour des expériences plus longues, créez une nouvelle session et reconnectez-vous — le modèle sous-jacent prend en charge une génération continue de 1 minute à 2 heures sans perte de qualité.
Le serveur ferme automatiquement la connexion avec le motif de raccrochage credit_insufficient. Chaque nouvelle session exige aussi un solde minimum de 45 crédits pour démarrer — rechargez donc avant de passer en direct avec de vrais utilisateurs.
50+ voix prédéfinies, chacune prenant en charge 28 langues dont l'anglais, le chinois, le japonais, le coréen, le français, l'allemand, l'espagnol, le portugais, le russe, l'arabe et le hindi. Des voix en dialectes régionaux (cantonais, sichuanais, hokkien, mandarin taïwanais et plus) sont aussi disponibles, et vous pouvez cloner des voix personnalisées via l'API.
Utilisez api.vidu.cn pour les déploiements en Chine continentale et api.vidu.com pour l'international. L'authentification est un simple en-tête : Authorization: Token vda_xxx. Pour les connexions WebSocket, passez le token dans le paramètre de requête authorization, car les navigateurs ne peuvent pas définir d'en-têtes WebSocket personnalisés.
Une seule image avec une seule personne — en pied ou en buste, dans n'importe quel style (photoréaliste, anime, animal). PNG, JPG, JPEG ou WEBP jusqu'à 50 MB, transmise en URL ou en Base64. Combinée à un prompt de persona libre, elle définit l'apparence et le comportement de votre personnage.

Mettez un personnage IA vivant au cœur de votre produit

Récupérez votre clé API, utilisez vos 1,000 crédits gratuits et faites parler un humain numérique en temps réel à vos utilisateurs dès cette semaine.

Ou obtenez votre clé API instantanément sur apimart.ai