Streaming-Videogenerierung · Jetzt live

Vidu S1 API — Entwickeln Sie KI-Digital-Humans in Echtzeit, die sehen, hören und antworten

Vidu S1 ist ein kommerziell einsatzreifes Streaming-Videogenerierungsmodell für bidirektionale Live-Gespräche per Sprache und Video. Geben Sie Ihren Nutzern einen KI-Charakter, der performt, Emotionen wahrnimmt und Gesellschaft leistet — über eine einzige, saubere API.

API-Key anfordern Integrationsguide ansehen

1,000 Gratis-Credits für neue Nutzer · Kein SDK-Lock-in auf Modellseite

2h+

Kontinuierliche Generierung ohne Qualitätsverlust

50+

Preset-Stimmen — von warm bis cineastisch

Sprachen — von jeder Stimme unterstützt

1,000

Gratis-Credits für neue Nutzer

Über Vidu S1

Was ist Vidu S1?

Vidu S1 ist ein Streaming-Videogenerierungsmodell für interaktive KI-Digital-Humans in Echtzeit. Anders als Modelle, die Clips offline rendern, generiert Vidu S1 das Video, während das Gespräch stattfindet: Der Nutzer spricht, der Charakter sieht und hört ihn und antwortet in Quasi-Echtzeit — mit Mimik, Stimme und Persönlichkeit.

Die Vidu S1 API verpackt diese Fähigkeit in einen einfachen Entwickler-Workflow: Session per HTTP erstellen, Audio und Video über AliRTC streamen, alles per WebSocket steuern. Von KI-Begleitern bis zu Live-Commerce-Hosts — Teams bringen mit der Vidu S1 API produktionsreife Digital-Humans in Tagen statt Monaten live.

Warum Vidu S1

Vidu S1 — Der erste kommerziell einsatzreife interaktive digitale Charakter

Kein vorgerenderter Talking Head, sondern ein generativer Videocharakter, der interagiert, performt und wahrnimmt — in Quasi-Echtzeit.

Interaktion in kommerzieller Qualität

Der erste produktionsreife digitale Charakter mit bidirektionaler Wahrnehmung: Er interagiert, performt und reagiert auf das, was er von Ihren Nutzern sieht und hört.

Unbegrenzte Interaktionsdauer

Die weltweit erste generative Videotechnologie für Interaktionen ohne Längenlimit — von 1 Minute bis 2 Stunden kontinuierlicher Generierung ohne Qualitätsverlust.

Reaktion in Quasi-Echtzeit

Branchenführende Inferenzgeschwindigkeit mit starkem Instruction Following und semantischem Verständnis — für natürliche Gespräche über den Bildschirm hinweg, mit minimaler Verzögerung.

Personas mit Gedächtnis

Definieren Sie jede beliebige Ausgangs-Persona — realer Mensch, Anime-Charakter oder niedliches Haustier. Das Kurzzeitgedächtnis hält Gespräche persönlich, konsistent und warm.

Multimodale Wahrnehmung

Sprache, Text und Video in einer Session. Der Charakter erfasst Aussehen, Mimik und emotionale Verfassung des Nutzers präzise.

Hochauflösende Ausgabe

Hochwertige interaktive Videogenerierung in Echtzeit — bereit für Endkundenprodukte in Social, E-Commerce, Gaming und Bildung.

Generationssprung

Vorgerenderte Avatare vs. Streaming-Generierung

Traditionelle Digital-Human-Pipelines spielen fertig gerenderte Clips ab. Vidu S1 generiert Live-Video, während das Gespräch läuft.

Traditionelle Pipeline

Vorgerenderte Digital Humans

Minutenlanges Offline-Rendering vor der Wiedergabe
Kurze, starre Clips, aneinandergestückelt
Einweg-Broadcast — kein echtes Gespräch
Blind: keinerlei Wahrnehmung des Nutzers
Feste Skripte, identisch für jeden Zuschauer

Vidu S1

Vidu S1 Streaming-Generierung

Streaming-Inferenz in Quasi-Echtzeit
1 Minute bis 2 Stunden kontinuierliches Video
Bidirektionales Live-Gespräch mit Sprache + Video
Erkennt Aussehen, Mimik und Emotionen des Nutzers
Individuelle Persona mit Kurzzeitgedächtnis

Fähigkeit	Traditionelle Pipeline	Vidu S1 API
Latenz	Minuten (Offline-Rendering)	Streaming in Quasi-Echtzeit
Sessiondauer	Sekundenlange feste Clips	1 min – 2 h kontinuierlich, ohne Qualitätsverlust
Interaktion	Einseitige Wiedergabe	Zwei-Wege-Dialog mit Sprache + Video
Wahrnehmung	Keine	Erkennt Aussehen & Emotionen des Nutzers
Persönlichkeit	Festes Skript	Individuelle Persona + Kurzzeitgedächtnis

Integration

Vidu S1 API — Live in 6 Schritten

Drei Kanäle tragen jede Session: HTTP für das Session-Management, AliRTC für den Audio-/Video-Transport, WebSocket für die Steuersignalisierung.

Session erstellen

Ein einziger POST-Call mit Persona, Avatar-Bild und Stimme Ihres Charakters liefert eine Session-ID plus RTC-Credentials.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Dem RTC-Kanal beitreten

Treten Sie mit dem erhaltenen Token dem AliRTC-Kanal bei, publizieren Sie das Mikrofon Ihres Nutzers (im Videomodus auch die Kamera) und abonnieren Sie den Stream des Charakters.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

WebSocket öffnen

Verbinden Sie den persistenten Steuerkanal. Die Authentifizierung gehört in den Query-String — Browser können bei WebSockets keine eigenen Header setzen.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Auf Bereitschaft warten

Ein Success-Ack bedeutet: Der Charakter ist live. NOT_READY ist im Videomodus normal — mit exponentiellem Backoff neu verbinden (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Session am Leben halten

Der Server pingt alle 5 Sekunden; antworten Sie innerhalb von 15. Achten Sie auf Forced-Disconnect-Nachrichten (type 6) und behandeln Sie jeden Hangup-Grund.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Auflegen & Abrechnung abfragen

Senden Sie die Hangup-Nachricht, schließen Sie den WebSocket, verlassen Sie den RTC-Kanal — und fragen Sie dann den finalen Status und die abgerechneten Sekunden ab.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

Die API auf einen Blick

Eine kompakte, vorhersehbare API. Hosts: api.vidu.cn (China) und api.vidu.com (international).

Methode	Pfad	Zweck
POST	`/live/v1/lives`	Session für einen digitalen Charakter erstellen
GET	`/live/v1/lives/{live_id}`	Session-Status und Abrechnung abfragen
WSS	`/live/ws/live/connect`	Steuersignalisierung (init / hangup)
POST	`/live/v1/voices/clone`	Eigene geklonte Stimme erstellen
GET	`/live/v1/voices`	System- und Custom-Stimmen auflisten

HTTP API

Sessions erstellen und abfragen. Einfache Token-Authentifizierung mit Ihrem API-Key.

AliRTC-Kanal

Sämtliches Echtzeit-Audio und -Video läuft über AliRTC — nicht über HTTP. Eine einzige SDK-Integration auf dem Client.

WebSocket-Signalisierung

Ein leichtgewichtiger Steuerkanal für Bereitschaft, Heartbeats und Hangup-Events.

Session-Lebenszyklus

Vier Zustände, voll beobachtbar

Jede Session folgt einer vorhersehbaren State Machine — leicht zu überwachen, leicht abzurechnen, leicht zu debuggen.

waiting

Session erstellt, Raum offen, Charakter wärmt sich auf

on_live

Beide Seiten bereit — Gespräch und Abrechnung beginnen

ending

Hangup empfangen, Session wird sauber beendet

ended

Abgeschlossen — abgerechnete Sekunden jederzeit abfragbar

Anwendungsfälle

Wo Teams Vidu S1 einsetzen

Sechs Branchen bringen interaktive digitale Charaktere bereits vor echte Nutzer.

Frau lächelt während eines Videogesprächs mit einem KI-Begleiter

KI-Begleitung

Always-on-Charaktere mit Persona und Gedächtnis, die von Angesicht zu Angesicht chatten, auf Stimmungen reagieren und langfristige Bindungen aufbauen.

Konzertbühnenlicht als Symbol für Live-Auftritte virtueller Idole

Virtuelle Idole

Anime- oder realistische Idole, die Live-Shows moderieren, Fan-Fragen beantworten und stundenlang ohne Pause performen.

Klassenzimmer als Symbol für KI-gestütztes Training und Bildung

Training & Bildung

Tutoren und Trainer, die erklären, demonstrieren und in Echtzeit auf die Fragen jedes Lernenden eingehen.

Kundenservice-Mitarbeiter mit Headset als Symbol für KI-Support

KI-Kundenservice

Ein freundliches Gesicht für den Support: nimmt Frust wahr, antwortet natürlich und übergibt bei Bedarf reibungslos.

Online-Shopping-Checkout als Symbol für Live-Stream-E-Commerce

Live-Stream-Commerce

Digitale Hosts, die rund um die Uhr Produkte präsentieren und Käuferfragen beantworten, sobald sie gestellt werden.

Interaktives Entertainment

Spielbare Charaktere und Schattenspiel-Erlebnisse, in denen die Story auf Stimme und Gesicht des Spielers reagiert.

Stimmenbibliothek

50+ Stimmen, nur einen Parameter entfernt

Jede Stimme spricht 28 Sprachen. Wechseln Sie die Persönlichkeit mit einem einzigen Feld — oder klonen Sie Ihre eigene Stimme.

Tina

Süß und warm — löst Probleme ohne zu zögern (Standard)

Serena

Sanft und warm

Harvey

Tief und weich, gereift wie Kaffee und alte Bücher

Maia

Eine Mischung aus Intellekt und Wärme

Jennifer

Erstklassige amerikanische Frauenstimme in Kinoqualität

Aiden

Amerikanischer College-Typ, der leidenschaftlich gern kocht

Mione

Reifes, intellektuelles britisches Mädchen von nebenan

Sohee

Warme, ausdrucksstarke koreanische große Schwester

Ono Anna

Verschmitzte Kindheitsfreundin aus Japan

Emilien

Romantischer französischer großer Bruder

Sonrisa

Warme, mitreißende lateinamerikanische Energie

Kiki

Süßes Mädchen aus Hongkong, kantonesische Muttersprachlerin

🌍 28 Sprachen ab Werk

Chinesisch, Englisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Russisch, Arabisch, Hindi, Thai, Vietnamesisch, Indonesisch, Türkisch und mehr — plus regionale Dialekte wie Kantonesisch, Sichuanesisch, Hokkien und taiwanesisches Mandarin.

🧬 Voice-Cloning-API

Sie brauchen eine Markenstimme oder das Timbre einer bestimmten Person? Erstellen Sie eigene geklonte Stimmen und verwalten Sie sie neben den Systemstimmen über POST /live/v1/voices/clone

Preise

Transparente, nutzungsbasierte Preise

Zahlen Sie nur für die Live-Gesprächszeit. Audio- und Videomodus kosten exakt gleich viel.

Gratis testen

1,000 Credits

Für jeden neuen Nutzer — genug für rund 11 Minuten Live-Interaktion.

Voller API-Zugriff, keine Feature-Schranken
Alle 50+ Stimmen und 28 Sprachen
Audio- und Video-Anrufmodus
Eigene Persona und eigenes Avatar-Bild

Kostenlos starten

Am beliebtesten

Pay as you go

3 Credits / 2 s

Einfache Abrechnung: Die Zählung beginnt erst, wenn der Charakter tatsächlich live geht.

Gleicher Preis für Audio- und Videomodus
Abbuchung alle 6 s, gerundet auf 2-s-Intervalle
Sessions bis 600 s, automatisch verlängerbar
Abrechnung startet bei on_live, nie davor
Mindestguthaben: 45 Credits pro Session

API-Key anfordern

Enterprise

Individuell

Maßgeschneiderte Lösungen für Social-, E-Commerce-, Gaming- und Bildungsplattformen.

Persönlicher Account Manager
Individuelles Charakter- und Persona-Design
Onboarding-Support für Voice Cloning
Architektur-Review für Ihr Szenario

Kontakt aufnehmen

Credit-Stückpreis: 0.03125. Eine Session wird automatisch getrennt, wenn die Maximaldauer (600 s) erreicht ist; fällt das Guthaben auf null, schließt der Server die Verbindung automatisch.

FAQ

Vidu S1 API — Häufig gestellte Fragen

Die Details, nach denen Engineers vor der Integration wirklich fragen.

Was ist Vidu S1?

Vidu S1 ist ein kommerzielles Streaming-Videogenerierungsmodell für interaktive Digital-Humans in Echtzeit. Über die Vidu S1 API erstellen Entwickler Live-Sessions, in denen ein KI-Charakter Nutzer sieht, hört und mit ihnen spricht — mit unbegrenzter Generierungsdauer, über 50 Stimmen und 28 Sprachen.

Wann beginnt die Abrechnung und wie wird die Nutzung gemessen?

Die Abrechnung beginnt in dem Moment, in dem der digitale Charakter bereit ist und die Session in on_live wechselt — genau dann, wenn conn_init_ack.success true zurückgibt. Der Tarif beträgt 3 Credits pro 2 Sekunden, abgebucht alle 6 Sekunden und aufgerundet auf das nächste 2-Sekunden-Intervall. Audio- und Videomodus kosten gleich viel.

Kann ich mit dem digitalen Charakter nur über HTTP interagieren?

Nein. HTTP dient zum Erstellen und Abfragen von Sessions. Echtzeit-Audio und -Video werden über den AliRTC-Kanal übertragen (eine separate SDK-Integration), die Session-Steuerung läuft über eine WebSocket-Signalisierungsverbindung. Erst alle drei Kanäle zusammen ergeben eine Live-Session.

Was tue ich, wenn der WebSocket NOT_READY zurückgibt?

NOT_READY ist im Videomodus zu erwarten — die Charakterseite bereitet sich noch vor. Schließen Sie die Verbindung, warten Sie kurz, verbinden Sie neu und senden Sie die Init-Nachricht erneut, mit exponentiellem Backoff (2s → 4s → 8s). Erhalten Sie stattdessen LIVE_CONN_INIT_FAILED, ist das endgültig: Erstellen Sie eine neue Session.

Wie lange kann eine einzelne Session dauern?

Die maximale Sessiondauer beträgt 600 Sekunden; der Server trennt automatisch, sobald sie erreicht ist. Für längere Erlebnisse erstellen Sie eine neue Session und verbinden sich neu — das zugrunde liegende Modell selbst unterstützt kontinuierliche Generierung von 1 Minute bis zu 2 Stunden ohne Qualitätsverlust.

Was passiert, wenn mein Credit-Guthaben auf null fällt?

Der Server schließt die Verbindung automatisch mit dem Hangup-Grund credit_insufficient. Jede neue Session erfordert zudem ein Mindestguthaben von 45 Credits zum Start — laden Sie also auf, bevor Sie mit echten Nutzern live gehen.

Welche Sprachen und Stimmen sind verfügbar?

50+ Preset-Stimmen, jede mit Unterstützung für 28 Sprachen, darunter Englisch, Chinesisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Russisch, Arabisch und Hindi. Auch regionale Dialektstimmen (Kantonesisch, Sichuanesisch, Hokkien, taiwanesisches Mandarin und mehr) sind verfügbar, und über die API können Sie eigene Stimmen klonen.

Welchen API-Host sollte ich verwenden?

Verwenden Sie api.vidu.cn für Deployments in Festlandchina und api.vidu.com für internationale. Die Authentifizierung ist ein einfacher Header: Authorization: Token vda_xxx. Bei WebSocket-Verbindungen übergeben Sie den Token stattdessen im authorization-Query-Parameter, da Browser keine eigenen WebSocket-Header setzen können.

Welche Avatar-Bilder kann ich für den Charakter verwenden?

Ein einzelnes Bild mit einer Person — Ganz- oder Halbkörper, in jedem Stil (fotorealistisch, Anime, Haustier). PNG, JPG, JPEG oder WEBP bis 50 MB, übergeben als URL oder Base64. Zusammen mit einem frei formulierten Persona-Prompt definiert es, wie Ihr Charakter aussieht und sich verhält.

Bringen Sie einen lebendigen KI-Charakter in Ihr Produkt

Holen Sie sich Ihren API-Key, nutzen Sie Ihre 1,000 Gratis-Credits — und lassen Sie noch diese Woche einen Echtzeit-Digital-Human mit Ihren Nutzern sprechen.

Oder holen Sie sich Ihren API-Key sofort unter apimart.ai