Vidu S1 API — Entwickeln Sie KI-Digital-Humans in Echtzeit, die sehen, hören und antworten
Vidu S1 ist ein kommerziell einsatzreifes Streaming-Videogenerierungsmodell für bidirektionale Live-Gespräche per Sprache und Video. Geben Sie Ihren Nutzern einen KI-Charakter, der performt, Emotionen wahrnimmt und Gesellschaft leistet — über eine einzige, saubere API.
1,000 Gratis-Credits für neue Nutzer · Kein SDK-Lock-in auf Modellseite
Was ist Vidu S1?
Vidu S1 ist ein Streaming-Videogenerierungsmodell für interaktive KI-Digital-Humans in Echtzeit. Anders als Modelle, die Clips offline rendern, generiert Vidu S1 das Video, während das Gespräch stattfindet: Der Nutzer spricht, der Charakter sieht und hört ihn und antwortet in Quasi-Echtzeit — mit Mimik, Stimme und Persönlichkeit.
Die Vidu S1 API verpackt diese Fähigkeit in einen einfachen Entwickler-Workflow: Session per HTTP erstellen, Audio und Video über AliRTC streamen, alles per WebSocket steuern. Von KI-Begleitern bis zu Live-Commerce-Hosts — Teams bringen mit der Vidu S1 API produktionsreife Digital-Humans in Tagen statt Monaten live.
Vidu S1 — Der erste kommerziell einsatzreife interaktive digitale Charakter
Kein vorgerenderter Talking Head, sondern ein generativer Videocharakter, der interagiert, performt und wahrnimmt — in Quasi-Echtzeit.
Interaktion in kommerzieller Qualität
Der erste produktionsreife digitale Charakter mit bidirektionaler Wahrnehmung: Er interagiert, performt und reagiert auf das, was er von Ihren Nutzern sieht und hört.
Unbegrenzte Interaktionsdauer
Die weltweit erste generative Videotechnologie für Interaktionen ohne Längenlimit — von 1 Minute bis 2 Stunden kontinuierlicher Generierung ohne Qualitätsverlust.
Reaktion in Quasi-Echtzeit
Branchenführende Inferenzgeschwindigkeit mit starkem Instruction Following und semantischem Verständnis — für natürliche Gespräche über den Bildschirm hinweg, mit minimaler Verzögerung.
Personas mit Gedächtnis
Definieren Sie jede beliebige Ausgangs-Persona — realer Mensch, Anime-Charakter oder niedliches Haustier. Das Kurzzeitgedächtnis hält Gespräche persönlich, konsistent und warm.
Multimodale Wahrnehmung
Sprache, Text und Video in einer Session. Der Charakter erfasst Aussehen, Mimik und emotionale Verfassung des Nutzers präzise.
Hochauflösende Ausgabe
Hochwertige interaktive Videogenerierung in Echtzeit — bereit für Endkundenprodukte in Social, E-Commerce, Gaming und Bildung.
Vorgerenderte Avatare vs. Streaming-Generierung
Traditionelle Digital-Human-Pipelines spielen fertig gerenderte Clips ab. Vidu S1 generiert Live-Video, während das Gespräch läuft.
Vorgerenderte Digital Humans
- Minutenlanges Offline-Rendering vor der Wiedergabe
- Kurze, starre Clips, aneinandergestückelt
- Einweg-Broadcast — kein echtes Gespräch
- Blind: keinerlei Wahrnehmung des Nutzers
- Feste Skripte, identisch für jeden Zuschauer
Vidu S1 Streaming-Generierung
- Streaming-Inferenz in Quasi-Echtzeit
- 1 Minute bis 2 Stunden kontinuierliches Video
- Bidirektionales Live-Gespräch mit Sprache + Video
- Erkennt Aussehen, Mimik und Emotionen des Nutzers
- Individuelle Persona mit Kurzzeitgedächtnis
| Fähigkeit | Traditionelle Pipeline | Vidu S1 API |
|---|---|---|
| Latenz | Minuten (Offline-Rendering) | Streaming in Quasi-Echtzeit |
| Sessiondauer | Sekundenlange feste Clips | 1 min – 2 h kontinuierlich, ohne Qualitätsverlust |
| Interaktion | Einseitige Wiedergabe | Zwei-Wege-Dialog mit Sprache + Video |
| Wahrnehmung | Keine | Erkennt Aussehen & Emotionen des Nutzers |
| Persönlichkeit | Festes Skript | Individuelle Persona + Kurzzeitgedächtnis |
Vidu S1 API — Live in 6 Schritten
Drei Kanäle tragen jede Session: HTTP für das Session-Management, AliRTC für den Audio-/Video-Transport, WebSocket für die Steuersignalisierung.
Session erstellen
Ein einziger POST-Call mit Persona, Avatar-Bild und Stimme Ihres Charakters liefert eine Session-ID plus RTC-Credentials.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Dem RTC-Kanal beitreten
Treten Sie mit dem erhaltenen Token dem AliRTC-Kanal bei, publizieren Sie das Mikrofon Ihres Nutzers (im Videomodus auch die Kamera) und abonnieren Sie den Stream des Charakters.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
WebSocket öffnen
Verbinden Sie den persistenten Steuerkanal. Die Authentifizierung gehört in den Query-String — Browser können bei WebSockets keine eigenen Header setzen.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Auf Bereitschaft warten
Ein Success-Ack bedeutet: Der Charakter ist live. NOT_READY ist im Videomodus normal — mit exponentiellem Backoff neu verbinden (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sSession am Leben halten
Der Server pingt alle 5 Sekunden; antworten Sie innerhalb von 15. Achten Sie auf Forced-Disconnect-Nachrichten (type 6) und behandeln Sie jeden Hangup-Grund.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Auflegen & Abrechnung abfragen
Senden Sie die Hangup-Nachricht, schließen Sie den WebSocket, verlassen Sie den RTC-Kanal — und fragen Sie dann den finalen Status und die abgerechneten Sekunden ab.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"Die API auf einen Blick
Eine kompakte, vorhersehbare API. Hosts: api.vidu.cn (China) und api.vidu.com (international).
| Methode | Pfad | Zweck |
|---|---|---|
| POST | /live/v1/lives | Session für einen digitalen Charakter erstellen |
| GET | /live/v1/lives/{live_id} | Session-Status und Abrechnung abfragen |
| WSS | /live/ws/live/connect | Steuersignalisierung (init / hangup) |
| POST | /live/v1/voices/clone | Eigene geklonte Stimme erstellen |
| GET | /live/v1/voices | System- und Custom-Stimmen auflisten |
HTTP API
Sessions erstellen und abfragen. Einfache Token-Authentifizierung mit Ihrem API-Key.
AliRTC-Kanal
Sämtliches Echtzeit-Audio und -Video läuft über AliRTC — nicht über HTTP. Eine einzige SDK-Integration auf dem Client.
WebSocket-Signalisierung
Ein leichtgewichtiger Steuerkanal für Bereitschaft, Heartbeats und Hangup-Events.
Vier Zustände, voll beobachtbar
Jede Session folgt einer vorhersehbaren State Machine — leicht zu überwachen, leicht abzurechnen, leicht zu debuggen.
waiting
Session erstellt, Raum offen, Charakter wärmt sich auf
on_live
Beide Seiten bereit — Gespräch und Abrechnung beginnen
ending
Hangup empfangen, Session wird sauber beendet
ended
Abgeschlossen — abgerechnete Sekunden jederzeit abfragbar
Wo Teams Vidu S1 einsetzen
Sechs Branchen bringen interaktive digitale Charaktere bereits vor echte Nutzer.
KI-Begleitung
Always-on-Charaktere mit Persona und Gedächtnis, die von Angesicht zu Angesicht chatten, auf Stimmungen reagieren und langfristige Bindungen aufbauen.
Virtuelle Idole
Anime- oder realistische Idole, die Live-Shows moderieren, Fan-Fragen beantworten und stundenlang ohne Pause performen.
Training & Bildung
Tutoren und Trainer, die erklären, demonstrieren und in Echtzeit auf die Fragen jedes Lernenden eingehen.
KI-Kundenservice
Ein freundliches Gesicht für den Support: nimmt Frust wahr, antwortet natürlich und übergibt bei Bedarf reibungslos.
Live-Stream-Commerce
Digitale Hosts, die rund um die Uhr Produkte präsentieren und Käuferfragen beantworten, sobald sie gestellt werden.
Interaktives Entertainment
Spielbare Charaktere und Schattenspiel-Erlebnisse, in denen die Story auf Stimme und Gesicht des Spielers reagiert.
50+ Stimmen, nur einen Parameter entfernt
Jede Stimme spricht 28 Sprachen. Wechseln Sie die Persönlichkeit mit einem einzigen Feld — oder klonen Sie Ihre eigene Stimme.
Süß und warm — löst Probleme ohne zu zögern (Standard)
Sanft und warm
Tief und weich, gereift wie Kaffee und alte Bücher
Eine Mischung aus Intellekt und Wärme
Erstklassige amerikanische Frauenstimme in Kinoqualität
Amerikanischer College-Typ, der leidenschaftlich gern kocht
Reifes, intellektuelles britisches Mädchen von nebenan
Warme, ausdrucksstarke koreanische große Schwester
Verschmitzte Kindheitsfreundin aus Japan
Romantischer französischer großer Bruder
Warme, mitreißende lateinamerikanische Energie
Süßes Mädchen aus Hongkong, kantonesische Muttersprachlerin
🌍 28 Sprachen ab Werk
Chinesisch, Englisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Russisch, Arabisch, Hindi, Thai, Vietnamesisch, Indonesisch, Türkisch und mehr — plus regionale Dialekte wie Kantonesisch, Sichuanesisch, Hokkien und taiwanesisches Mandarin.
🧬 Voice-Cloning-API
Sie brauchen eine Markenstimme oder das Timbre einer bestimmten Person? Erstellen Sie eigene geklonte Stimmen und verwalten Sie sie neben den Systemstimmen über POST /live/v1/voices/clone
Transparente, nutzungsbasierte Preise
Zahlen Sie nur für die Live-Gesprächszeit. Audio- und Videomodus kosten exakt gleich viel.
Gratis testen
Für jeden neuen Nutzer — genug für rund 11 Minuten Live-Interaktion.
- Voller API-Zugriff, keine Feature-Schranken
- Alle 50+ Stimmen und 28 Sprachen
- Audio- und Video-Anrufmodus
- Eigene Persona und eigenes Avatar-Bild
Pay as you go
Einfache Abrechnung: Die Zählung beginnt erst, wenn der Charakter tatsächlich live geht.
- Gleicher Preis für Audio- und Videomodus
- Abbuchung alle 6 s, gerundet auf 2-s-Intervalle
- Sessions bis 600 s, automatisch verlängerbar
- Abrechnung startet bei on_live, nie davor
- Mindestguthaben: 45 Credits pro Session
Enterprise
Maßgeschneiderte Lösungen für Social-, E-Commerce-, Gaming- und Bildungsplattformen.
- Persönlicher Account Manager
- Individuelles Charakter- und Persona-Design
- Onboarding-Support für Voice Cloning
- Architektur-Review für Ihr Szenario
Credit-Stückpreis: 0.03125. Eine Session wird automatisch getrennt, wenn die Maximaldauer (600 s) erreicht ist; fällt das Guthaben auf null, schließt der Server die Verbindung automatisch.
Vidu S1 API — Häufig gestellte Fragen
Die Details, nach denen Engineers vor der Integration wirklich fragen.
Bringen Sie einen lebendigen KI-Charakter in Ihr Produkt
Holen Sie sich Ihren API-Key, nutzen Sie Ihre 1,000 Gratis-Credits — und lassen Sie noch diese Woche einen Echtzeit-Digital-Human mit Ihren Nutzern sprechen.
Oder holen Sie sich Ihren API-Key sofort unter apimart.ai