Streaming-Videogenerierung · Jetzt live

Vidu S1 API — Entwickeln Sie KI-Digital-Humans in Echtzeit, die sehen, hören und antworten

Vidu S1 ist ein kommerziell einsatzreifes Streaming-Videogenerierungsmodell für bidirektionale Live-Gespräche per Sprache und Video. Geben Sie Ihren Nutzern einen KI-Charakter, der performt, Emotionen wahrnimmt und Gesellschaft leistet — über eine einzige, saubere API.

1,000 Gratis-Credits für neue Nutzer · Kein SDK-Lock-in auf Modellseite

2h+
Kontinuierliche Generierung ohne Qualitätsverlust
50+
Preset-Stimmen — von warm bis cineastisch
28
Sprachen — von jeder Stimme unterstützt
1,000
Gratis-Credits für neue Nutzer
Über Vidu S1

Was ist Vidu S1?

Vidu S1 ist ein Streaming-Videogenerierungsmodell für interaktive KI-Digital-Humans in Echtzeit. Anders als Modelle, die Clips offline rendern, generiert Vidu S1 das Video, während das Gespräch stattfindet: Der Nutzer spricht, der Charakter sieht und hört ihn und antwortet in Quasi-Echtzeit — mit Mimik, Stimme und Persönlichkeit.

Die Vidu S1 API verpackt diese Fähigkeit in einen einfachen Entwickler-Workflow: Session per HTTP erstellen, Audio und Video über AliRTC streamen, alles per WebSocket steuern. Von KI-Begleitern bis zu Live-Commerce-Hosts — Teams bringen mit der Vidu S1 API produktionsreife Digital-Humans in Tagen statt Monaten live.

Warum Vidu S1

Vidu S1 — Der erste kommerziell einsatzreife interaktive digitale Charakter

Kein vorgerenderter Talking Head, sondern ein generativer Videocharakter, der interagiert, performt und wahrnimmt — in Quasi-Echtzeit.

Interaktion in kommerzieller Qualität

Der erste produktionsreife digitale Charakter mit bidirektionaler Wahrnehmung: Er interagiert, performt und reagiert auf das, was er von Ihren Nutzern sieht und hört.

Unbegrenzte Interaktionsdauer

Die weltweit erste generative Videotechnologie für Interaktionen ohne Längenlimit — von 1 Minute bis 2 Stunden kontinuierlicher Generierung ohne Qualitätsverlust.

Reaktion in Quasi-Echtzeit

Branchenführende Inferenzgeschwindigkeit mit starkem Instruction Following und semantischem Verständnis — für natürliche Gespräche über den Bildschirm hinweg, mit minimaler Verzögerung.

Personas mit Gedächtnis

Definieren Sie jede beliebige Ausgangs-Persona — realer Mensch, Anime-Charakter oder niedliches Haustier. Das Kurzzeitgedächtnis hält Gespräche persönlich, konsistent und warm.

Multimodale Wahrnehmung

Sprache, Text und Video in einer Session. Der Charakter erfasst Aussehen, Mimik und emotionale Verfassung des Nutzers präzise.

Hochauflösende Ausgabe

Hochwertige interaktive Videogenerierung in Echtzeit — bereit für Endkundenprodukte in Social, E-Commerce, Gaming und Bildung.

Generationssprung

Vorgerenderte Avatare vs. Streaming-Generierung

Traditionelle Digital-Human-Pipelines spielen fertig gerenderte Clips ab. Vidu S1 generiert Live-Video, während das Gespräch läuft.

Traditionelle Pipeline

Vorgerenderte Digital Humans

  • Minutenlanges Offline-Rendering vor der Wiedergabe
  • Kurze, starre Clips, aneinandergestückelt
  • Einweg-Broadcast — kein echtes Gespräch
  • Blind: keinerlei Wahrnehmung des Nutzers
  • Feste Skripte, identisch für jeden Zuschauer
Vidu S1

Vidu S1 Streaming-Generierung

  • Streaming-Inferenz in Quasi-Echtzeit
  • 1 Minute bis 2 Stunden kontinuierliches Video
  • Bidirektionales Live-Gespräch mit Sprache + Video
  • Erkennt Aussehen, Mimik und Emotionen des Nutzers
  • Individuelle Persona mit Kurzzeitgedächtnis
FähigkeitTraditionelle PipelineVidu S1 API
LatenzMinuten (Offline-Rendering)Streaming in Quasi-Echtzeit
SessiondauerSekundenlange feste Clips1 min – 2 h kontinuierlich, ohne Qualitätsverlust
InteraktionEinseitige WiedergabeZwei-Wege-Dialog mit Sprache + Video
WahrnehmungKeineErkennt Aussehen & Emotionen des Nutzers
PersönlichkeitFestes SkriptIndividuelle Persona + Kurzzeitgedächtnis
Integration

Vidu S1 API — Live in 6 Schritten

Drei Kanäle tragen jede Session: HTTP für das Session-Management, AliRTC für den Audio-/Video-Transport, WebSocket für die Steuersignalisierung.

1

Session erstellen

Ein einziger POST-Call mit Persona, Avatar-Bild und Stimme Ihres Charakters liefert eine Session-ID plus RTC-Credentials.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Dem RTC-Kanal beitreten

Treten Sie mit dem erhaltenen Token dem AliRTC-Kanal bei, publizieren Sie das Mikrofon Ihres Nutzers (im Videomodus auch die Kamera) und abonnieren Sie den Stream des Charakters.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

WebSocket öffnen

Verbinden Sie den persistenten Steuerkanal. Die Authentifizierung gehört in den Query-String — Browser können bei WebSockets keine eigenen Header setzen.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Auf Bereitschaft warten

Ein Success-Ack bedeutet: Der Charakter ist live. NOT_READY ist im Videomodus normal — mit exponentiellem Backoff neu verbinden (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Session am Leben halten

Der Server pingt alle 5 Sekunden; antworten Sie innerhalb von 15. Achten Sie auf Forced-Disconnect-Nachrichten (type 6) und behandeln Sie jeden Hangup-Grund.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Auflegen & Abrechnung abfragen

Senden Sie die Hangup-Nachricht, schließen Sie den WebSocket, verlassen Sie den RTC-Kanal — und fragen Sie dann den finalen Status und die abgerechneten Sekunden ab.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

Die API auf einen Blick

Eine kompakte, vorhersehbare API. Hosts: api.vidu.cn (China) und api.vidu.com (international).

MethodePfadZweck
POST/live/v1/livesSession für einen digitalen Charakter erstellen
GET/live/v1/lives/{live_id}Session-Status und Abrechnung abfragen
WSS/live/ws/live/connectSteuersignalisierung (init / hangup)
POST/live/v1/voices/cloneEigene geklonte Stimme erstellen
GET/live/v1/voicesSystem- und Custom-Stimmen auflisten

HTTP API

Sessions erstellen und abfragen. Einfache Token-Authentifizierung mit Ihrem API-Key.

AliRTC-Kanal

Sämtliches Echtzeit-Audio und -Video läuft über AliRTC — nicht über HTTP. Eine einzige SDK-Integration auf dem Client.

WebSocket-Signalisierung

Ein leichtgewichtiger Steuerkanal für Bereitschaft, Heartbeats und Hangup-Events.

Session-Lebenszyklus

Vier Zustände, voll beobachtbar

Jede Session folgt einer vorhersehbaren State Machine — leicht zu überwachen, leicht abzurechnen, leicht zu debuggen.

1

waiting

Session erstellt, Raum offen, Charakter wärmt sich auf

2

on_live

Beide Seiten bereit — Gespräch und Abrechnung beginnen

3

ending

Hangup empfangen, Session wird sauber beendet

4

ended

Abgeschlossen — abgerechnete Sekunden jederzeit abfragbar

Anwendungsfälle

Wo Teams Vidu S1 einsetzen

Sechs Branchen bringen interaktive digitale Charaktere bereits vor echte Nutzer.

Frau lächelt während eines Videogesprächs mit einem KI-Begleiter

KI-Begleitung

Always-on-Charaktere mit Persona und Gedächtnis, die von Angesicht zu Angesicht chatten, auf Stimmungen reagieren und langfristige Bindungen aufbauen.

Konzertbühnenlicht als Symbol für Live-Auftritte virtueller Idole

Virtuelle Idole

Anime- oder realistische Idole, die Live-Shows moderieren, Fan-Fragen beantworten und stundenlang ohne Pause performen.

Klassenzimmer als Symbol für KI-gestütztes Training und Bildung

Training & Bildung

Tutoren und Trainer, die erklären, demonstrieren und in Echtzeit auf die Fragen jedes Lernenden eingehen.

Kundenservice-Mitarbeiter mit Headset als Symbol für KI-Support

KI-Kundenservice

Ein freundliches Gesicht für den Support: nimmt Frust wahr, antwortet natürlich und übergibt bei Bedarf reibungslos.

Online-Shopping-Checkout als Symbol für Live-Stream-E-Commerce

Live-Stream-Commerce

Digitale Hosts, die rund um die Uhr Produkte präsentieren und Käuferfragen beantworten, sobald sie gestellt werden.

Neon-Gaming-Setup als Symbol für interaktives Entertainment

Interaktives Entertainment

Spielbare Charaktere und Schattenspiel-Erlebnisse, in denen die Story auf Stimme und Gesicht des Spielers reagiert.

Stimmenbibliothek

50+ Stimmen, nur einen Parameter entfernt

Jede Stimme spricht 28 Sprachen. Wechseln Sie die Persönlichkeit mit einem einzigen Feld — oder klonen Sie Ihre eigene Stimme.

Tina

Süß und warm — löst Probleme ohne zu zögern (Standard)

Serena

Sanft und warm

Harvey

Tief und weich, gereift wie Kaffee und alte Bücher

Maia

Eine Mischung aus Intellekt und Wärme

Jennifer

Erstklassige amerikanische Frauenstimme in Kinoqualität

Aiden

Amerikanischer College-Typ, der leidenschaftlich gern kocht

Mione

Reifes, intellektuelles britisches Mädchen von nebenan

Sohee

Warme, ausdrucksstarke koreanische große Schwester

Ono Anna

Verschmitzte Kindheitsfreundin aus Japan

Emilien

Romantischer französischer großer Bruder

Sonrisa

Warme, mitreißende lateinamerikanische Energie

Kiki

Süßes Mädchen aus Hongkong, kantonesische Muttersprachlerin

🌍 28 Sprachen ab Werk

Chinesisch, Englisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Russisch, Arabisch, Hindi, Thai, Vietnamesisch, Indonesisch, Türkisch und mehr — plus regionale Dialekte wie Kantonesisch, Sichuanesisch, Hokkien und taiwanesisches Mandarin.

🧬 Voice-Cloning-API

Sie brauchen eine Markenstimme oder das Timbre einer bestimmten Person? Erstellen Sie eigene geklonte Stimmen und verwalten Sie sie neben den Systemstimmen über POST /live/v1/voices/clone

Preise

Transparente, nutzungsbasierte Preise

Zahlen Sie nur für die Live-Gesprächszeit. Audio- und Videomodus kosten exakt gleich viel.

Gratis testen

1,000 Credits

Für jeden neuen Nutzer — genug für rund 11 Minuten Live-Interaktion.

  • Voller API-Zugriff, keine Feature-Schranken
  • Alle 50+ Stimmen und 28 Sprachen
  • Audio- und Video-Anrufmodus
  • Eigene Persona und eigenes Avatar-Bild
Kostenlos starten

Enterprise

Individuell

Maßgeschneiderte Lösungen für Social-, E-Commerce-, Gaming- und Bildungsplattformen.

  • Persönlicher Account Manager
  • Individuelles Charakter- und Persona-Design
  • Onboarding-Support für Voice Cloning
  • Architektur-Review für Ihr Szenario
Kontakt aufnehmen

Credit-Stückpreis: 0.03125. Eine Session wird automatisch getrennt, wenn die Maximaldauer (600 s) erreicht ist; fällt das Guthaben auf null, schließt der Server die Verbindung automatisch.

FAQ

Vidu S1 API — Häufig gestellte Fragen

Die Details, nach denen Engineers vor der Integration wirklich fragen.

Vidu S1 ist ein kommerzielles Streaming-Videogenerierungsmodell für interaktive Digital-Humans in Echtzeit. Über die Vidu S1 API erstellen Entwickler Live-Sessions, in denen ein KI-Charakter Nutzer sieht, hört und mit ihnen spricht — mit unbegrenzter Generierungsdauer, über 50 Stimmen und 28 Sprachen.
Die Abrechnung beginnt in dem Moment, in dem der digitale Charakter bereit ist und die Session in on_live wechselt — genau dann, wenn conn_init_ack.success true zurückgibt. Der Tarif beträgt 3 Credits pro 2 Sekunden, abgebucht alle 6 Sekunden und aufgerundet auf das nächste 2-Sekunden-Intervall. Audio- und Videomodus kosten gleich viel.
Nein. HTTP dient zum Erstellen und Abfragen von Sessions. Echtzeit-Audio und -Video werden über den AliRTC-Kanal übertragen (eine separate SDK-Integration), die Session-Steuerung läuft über eine WebSocket-Signalisierungsverbindung. Erst alle drei Kanäle zusammen ergeben eine Live-Session.
NOT_READY ist im Videomodus zu erwarten — die Charakterseite bereitet sich noch vor. Schließen Sie die Verbindung, warten Sie kurz, verbinden Sie neu und senden Sie die Init-Nachricht erneut, mit exponentiellem Backoff (2s → 4s → 8s). Erhalten Sie stattdessen LIVE_CONN_INIT_FAILED, ist das endgültig: Erstellen Sie eine neue Session.
Die maximale Sessiondauer beträgt 600 Sekunden; der Server trennt automatisch, sobald sie erreicht ist. Für längere Erlebnisse erstellen Sie eine neue Session und verbinden sich neu — das zugrunde liegende Modell selbst unterstützt kontinuierliche Generierung von 1 Minute bis zu 2 Stunden ohne Qualitätsverlust.
Der Server schließt die Verbindung automatisch mit dem Hangup-Grund credit_insufficient. Jede neue Session erfordert zudem ein Mindestguthaben von 45 Credits zum Start — laden Sie also auf, bevor Sie mit echten Nutzern live gehen.
50+ Preset-Stimmen, jede mit Unterstützung für 28 Sprachen, darunter Englisch, Chinesisch, Japanisch, Koreanisch, Französisch, Deutsch, Spanisch, Portugiesisch, Russisch, Arabisch und Hindi. Auch regionale Dialektstimmen (Kantonesisch, Sichuanesisch, Hokkien, taiwanesisches Mandarin und mehr) sind verfügbar, und über die API können Sie eigene Stimmen klonen.
Verwenden Sie api.vidu.cn für Deployments in Festlandchina und api.vidu.com für internationale. Die Authentifizierung ist ein einfacher Header: Authorization: Token vda_xxx. Bei WebSocket-Verbindungen übergeben Sie den Token stattdessen im authorization-Query-Parameter, da Browser keine eigenen WebSocket-Header setzen können.
Ein einzelnes Bild mit einer Person — Ganz- oder Halbkörper, in jedem Stil (fotorealistisch, Anime, Haustier). PNG, JPG, JPEG oder WEBP bis 50 MB, übergeben als URL oder Base64. Zusammen mit einem frei formulierten Persona-Prompt definiert es, wie Ihr Charakter aussieht und sich verhält.

Bringen Sie einen lebendigen KI-Charakter in Ihr Produkt

Holen Sie sich Ihren API-Key, nutzen Sie Ihre 1,000 Gratis-Credits — und lassen Sie noch diese Woche einen Echtzeit-Digital-Human mit Ihren Nutzern sprechen.

Oder holen Sie sich Ihren API-Key sofort unter apimart.ai