Vidu S1 API — Créez des humains numériques IA en temps réel qui voient, entendent et répondent
Vidu S1 est un modèle de génération vidéo en streaming de niveau commercial pour des conversations voix et vidéo bidirectionnelles en direct. Offrez à vos utilisateurs un personnage IA qui joue, perçoit les émotions et leur tient compagnie — via une seule API épurée.
1,000 crédits d'essai gratuits pour les nouveaux utilisateurs · Aucun verrouillage SDK côté modèle
Qu'est-ce que Vidu S1 ?
Vidu S1 est un modèle de génération vidéo en streaming conçu pour les humains numériques interactifs en temps réel. Contrairement aux modèles qui rendent des clips hors ligne, Vidu S1 génère la vidéo pendant que la conversation a lieu : l'utilisateur parle, le personnage le voit, l'entend et répond en quasi temps réel — avec expressions, voix et personnalité.
La Vidu S1 API encapsule cette capacité dans un workflow développeur simple : créez une session en HTTP, transportez l'audio et la vidéo via AliRTC et pilotez tout par WebSocket. Des compagnons IA aux présentateurs de live commerce, les équipes utilisent la Vidu S1 API pour lancer des humains numériques de niveau production en quelques jours.
Vidu S1 — Le premier personnage numérique interactif de niveau commercial
Pas une tête parlante pré-rendue. Un personnage vidéo génératif qui interagit, joue et perçoit — en quasi temps réel.
Interaction de niveau commercial
Le premier personnage numérique prêt pour la production avec perception bidirectionnelle : il interagit, joue et réagit à ce qu'il voit et entend de vos utilisateurs.
Durée d'interaction illimitée
La première technologie de vidéo générative au monde à prendre en charge une interaction de durée illimitée — de 1 minute à 2 heures de génération continue sans dégradation de la qualité.
Réponse en quasi temps réel
Une vitesse d'inférence de pointe, un excellent suivi des instructions et une vraie compréhension sémantique, pour une conversation naturelle à travers l'écran avec un délai minimal.
Des personas avec de la mémoire
Définissez n'importe quel persona initial — humain réaliste, personnage d'anime ou adorable animal. La mémoire à court terme rend les conversations personnelles, cohérentes et chaleureuses.
Perception multimodale
Voix, texte et vidéo dans une même session. Le personnage capte avec précision l'apparence, l'expression et l'état émotionnel de l'utilisateur.
Sortie haute résolution
Une génération vidéo interactive en temps réel de haute qualité, prête pour des produits grand public dans le social, l'e-commerce, le jeu et l'éducation.
Avatars pré-rendus vs génération en streaming
Les pipelines traditionnels d'humains numériques rejouent des clips déjà rendus. Vidu S1 génère la vidéo en direct, au fil de la conversation.
Humains numériques pré-rendus
- Des minutes de rendu hors ligne avant la lecture
- Des clips courts et figés, assemblés bout à bout
- Diffusion à sens unique — aucune vraie conversation
- Aveugle : aucune perception de l'utilisateur
- Scripts figés, identiques pour chaque spectateur
Génération en streaming Vidu S1
- Inférence en streaming quasi temps réel
- De 1 minute à 2 heures de vidéo continue
- Conversation voix + vidéo bidirectionnelle en direct
- Voit l'apparence, l'expression et les émotions de l'utilisateur
- Persona personnalisé avec mémoire à court terme
| Capacité | Pipeline traditionnel | Vidu S1 API |
|---|---|---|
| Latence | Des minutes (rendu hors ligne) | Streaming quasi temps réel |
| Durée de session | Clips figés de quelques secondes | 1 min – 2 h en continu, sans perte de qualité |
| Interaction | Lecture à sens unique | Dialogue voix + vidéo bidirectionnel |
| Perception | Aucune | Reconnaissance de l'apparence et des émotions |
| Personnalité | Script figé | Persona personnalisé + mémoire à court terme |
Vidu S1 API — En direct en 6 étapes
Trois canaux alimentent chaque session : HTTP pour la gestion des sessions, AliRTC pour le transport audio/vidéo, WebSocket pour la signalisation de contrôle.
Créez une session
Un seul appel POST avec le persona, l'image d'avatar et la voix de votre personnage renvoie un ID de session et les identifiants RTC.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Rejoignez le canal RTC
Rejoignez le canal AliRTC avec le token renvoyé, publiez le micro de votre utilisateur (et la caméra en mode vidéo), puis abonnez-vous au flux du personnage.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
Ouvrez le WebSocket
Connectez le canal de contrôle persistant. L'authentification passe par la query string — les navigateurs ne peuvent pas définir d'en-têtes personnalisés sur les WebSockets.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Attendez que tout soit prêt
Un ack de succès signifie que le personnage est en direct. NOT_READY est normal en mode vidéo — reconnectez-vous avec un backoff exponentiel (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sMaintenez la session active
Le serveur envoie un ping toutes les 5 secondes ; répondez sous 15. Écoutez les messages de déconnexion forcée (type 6) et gérez chaque motif de raccrochage.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Raccrochez et interrogez la facturation
Envoyez le message hangup, fermez le WebSocket, quittez le canal RTC — puis interrogez le statut final et les secondes facturées.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"L'API en un coup d'œil
Une API compacte et prévisible. Hôtes : api.vidu.cn (Chine) et api.vidu.com (international).
| Méthode | Chemin | Rôle |
|---|---|---|
| POST | /live/v1/lives | Créer une session de personnage numérique |
| GET | /live/v1/lives/{live_id} | Interroger le statut et la facturation d'une session |
| WSS | /live/ws/live/connect | Signalisation de contrôle (init / hangup) |
| POST | /live/v1/voices/clone | Créer une voix clonée personnalisée |
| GET | /live/v1/voices | Lister les voix système et personnalisées |
API HTTP
Créez et interrogez les sessions. Authentification simple par token avec votre clé API.
Canal AliRTC
Tout l'audio et la vidéo en temps réel transitent par AliRTC — pas par HTTP. Une seule intégration SDK côté client.
Signalisation WebSocket
Un canal de contrôle léger pour la disponibilité, les heartbeats et les événements de raccrochage.
Quatre états, entièrement observables
Chaque session suit une machine à états prévisible — facile à monitorer, facile à facturer, facile à déboguer.
waiting
Session créée, salle ouverte, personnage en préparation
on_live
Les deux côtés sont prêts — la conversation et la facturation commencent
ending
Hangup reçu, la session se termine proprement
ended
Terminée — interrogez les secondes facturées à tout moment
Où les équipes déploient Vidu S1
Six secteurs mettent déjà des personnages numériques interactifs face à de vrais utilisateurs.
Compagnie IA
Des personnages toujours disponibles, avec persona et mémoire, qui discutent en face à face, réagissent aux humeurs et tissent des liens durables.
Idoles virtuelles
Des idoles anime ou réalistes qui animent des lives, répondent aux questions des fans et se produisent pendant des heures sans pause.
Formation et éducation
Des tuteurs et formateurs qui expliquent, démontrent et s'adaptent aux questions de chaque apprenant en temps réel.
Service client IA
Un visage accueillant pour le support : il perçoit la frustration, répond naturellement et passe la main en douceur quand il le faut.
Live shopping
Des présentateurs numériques qui présentent les produits 24 h/24 et répondent aux questions des acheteurs à l'instant où elles sont posées.
Divertissement interactif
Des personnages jouables et des expériences immersives où l'histoire réagit à la voix et au visage du joueur.
50+ voix, à un paramètre près
Chaque voix parle 28 langues. Changez de personnalité avec un simple champ — ou clonez la vôtre.
Douce et chaleureuse — résout les problèmes sans hésiter (par défaut)
Tendre et chaleureuse
Profond et suave, patiné comme le café et les vieux livres
Un mélange d'intelligence et de chaleur
Voix féminine américaine premium, qualité cinématographique
Étudiant américain passionné de cuisine
Britannique mûre et intellectuelle, la fille d'à côté
Grande sœur coréenne chaleureuse et expressive
Amie d'enfance espiègle venue du Japon
Grand frère français romantique
Énergie latino-américaine chaleureuse et enthousiaste
Douce jeune fille de Hong Kong, cantonais natif
🌍 28 langues prêtes à l'emploi
Chinois, anglais, japonais, coréen, français, allemand, espagnol, portugais, russe, arabe, hindi, thaï, vietnamien, indonésien, turc et plus encore — plus des dialectes régionaux comme le cantonais, le sichuanais, le hokkien et le mandarin taïwanais.
🧬 API de clonage vocal
Besoin d'une voix de marque ou du timbre d'une personne précise ? Créez des voix clonées personnalisées et gérez-les aux côtés des voix système via POST /live/v1/voices/clone
Une tarification transparente, à l'usage
Payez uniquement le temps de conversation en direct. Les modes audio et vidéo coûtent exactement le même prix.
Essai gratuit
Pour chaque nouvel utilisateur — de quoi tenir environ 11 minutes d'interaction en direct.
- Accès complet à l'API, sans fonctionnalités bridées
- Les 50+ voix et les 28 langues
- Modes d'appel audio et vidéo
- Persona personnalisé et image d'avatar
Paiement à l'usage
Un comptage simple : la facturation ne démarre que lorsque le personnage passe réellement en direct.
- Même prix en mode audio et vidéo
- Débit toutes les 6 s, arrondi par intervalles de 2 s
- Sessions jusqu'à 600 s, renouvelables automatiquement
- La facturation démarre à on_live, jamais avant
- Solde minimum : 45 crédits par session
Entreprise
Des solutions sur mesure pour les plateformes sociales, e-commerce, gaming et éducation.
- Un responsable de compte dédié
- Conception de personnage et de persona sur mesure
- Accompagnement au clonage vocal
- Revue d'architecture pour votre scénario
Prix unitaire du crédit : 0.03125. Une session se déconnecte automatiquement lorsque la durée maximale (600 s) est atteinte ; lorsque le solde tombe à zéro, le serveur ferme la connexion automatiquement.
Vidu S1 API — Questions fréquentes
Les détails que les ingénieurs vérifient vraiment avant d'intégrer.
Mettez un personnage IA vivant au cœur de votre produit
Récupérez votre clé API, utilisez vos 1,000 crédits gratuits et faites parler un humain numérique en temps réel à vos utilisateurs dès cette semaine.
Ou obtenez votre clé API instantanément sur apimart.ai