Generasi video streaming · Sudah live

Vidu S1 API — Bangun Digital Human AI Real-Time yang Melihat, Mendengar, dan Merespons

Vidu S1 adalah model generasi video streaming kelas komersial untuk percakapan suara dan video dua arah secara live. Hadirkan karakter AI yang tampil memukau, membaca emosi, dan menemani pengguna Anda — lewat satu API yang bersih.

1,000 kredit uji coba gratis untuk pengguna baru · Tanpa SDK lock-in di sisi model

2h+
Generasi berkelanjutan tanpa penurunan kualitas
50+
Suara preset, dari yang hangat hingga sinematik
28
Bahasa didukung oleh setiap suara
1,000
Kredit uji coba gratis untuk pengguna baru
Tentang Vidu S1

Apa Itu Vidu S1?

Vidu S1 adalah model streaming video generation yang dirancang untuk digital human interaktif real-time. Berbeda dengan model yang merender klip secara offline, Vidu S1 menghasilkan video saat percakapan berlangsung: pengguna berbicara, karakter melihat dan mendengarnya, lalu merespons nyaris real-time — lengkap dengan ekspresi, suara, dan kepribadian.

Vidu S1 API mengemas kemampuan ini menjadi alur kerja developer yang sederhana: buat sesi lewat HTTP, alirkan audio dan video melalui AliRTC, dan kendalikan semuanya lewat WebSocket. Dari AI companion hingga host live commerce, berbagai tim memakai Vidu S1 API untuk meluncurkan digital human kelas produksi dalam hitungan hari.

Mengapa Vidu S1

Vidu S1 — Karakter Digital Interaktif Kelas Komersial Pertama

Bukan talking head hasil pra-render. Ini karakter video generatif yang berinteraksi, tampil, dan mempersepsi — dalam quasi real-time.

Interaksi Kelas Komersial

Karakter digital production-ready pertama dengan persepsi dua arah: ia berinteraksi, tampil, dan bereaksi terhadap apa yang dilihat dan didengarnya dari pengguna Anda.

Durasi Interaksi Tanpa Batas

Teknologi video generatif pertama di dunia yang mendukung interaksi tanpa batas durasi — dari 1 menit hingga 2 jam generasi berkelanjutan tanpa penurunan kualitas.

Respons Quasi Real-Time

Kecepatan inferensi terdepan di industri dengan instruction following dan pemahaman semantik yang kuat, memungkinkan percakapan lintas layar yang natural dengan delay minimal.

Persona dengan Memori

Tentukan persona awal apa pun — manusia nyata, karakter anime, atau hewan peliharaan yang menggemaskan. Memori jangka pendek menjaga percakapan tetap personal, konsisten, dan hangat.

Persepsi Multimodal

Input suara, teks, dan video dalam satu sesi. Karakter menangkap penampilan, ekspresi, dan kondisi emosi pengguna secara akurat.

Output Resolusi Tinggi

Generasi video interaktif real-time berkualitas tinggi, siap untuk produk konsumen di bidang sosial, e-commerce, gaming, dan pendidikan.

Lompatan Generasi

Avatar Pra-Render vs. Generasi Streaming

Pipeline digital human tradisional hanya memutar klip yang sudah dirender. Vidu S1 menghasilkan video live saat percakapan berlangsung.

Pipeline tradisional

Digital human pra-render

  • Rendering offline bermenit-menit sebelum pemutaran
  • Klip pendek dan kaku yang disambung-sambung
  • Siaran satu arah — tanpa percakapan sungguhan
  • Buta: sama sekali tidak menyadari kehadiran pengguna
  • Skrip tetap, identik untuk setiap penonton
Vidu S1

Generasi streaming Vidu S1

  • Inferensi streaming quasi real-time
  • Video berkelanjutan dari 1 menit hingga 2 jam
  • Percakapan live dua arah dengan suara + video
  • Melihat penampilan, ekspresi, dan emosi pengguna
  • Persona kustom dengan memori jangka pendek
KemampuanPipeline tradisionalVidu S1 API
LatensiBermenit-menit (rendering offline)Streaming quasi real-time
Durasi sesiKlip tetap berdurasi hitungan detik1 mnt – 2 jam berkelanjutan, tanpa penurunan kualitas
InteraksiPemutaran satu arahDialog dua arah suara + video
PersepsiTidak adaPengenalan penampilan & emosi pengguna
KepribadianSkrip tetapPersona kustom + memori jangka pendek
Integrasi

Vidu S1 API — Live dalam 6 Langkah

Tiga kanal menopang setiap sesi: HTTP untuk manajemen sesi, AliRTC untuk transport audio/video, WebSocket untuk sinyal kontrol.

1

Buat Sesi

Satu panggilan POST berisi persona, gambar avatar, dan suara karakter Anda — hasilnya session ID plus kredensial RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Gabung ke Kanal RTC

Gabung ke kanal AliRTC dengan token yang diterima, publikasikan mikrofon pengguna Anda (dan kamera pada mode video), lalu subscribe ke stream karakter.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

Buka WebSocket

Sambungkan kanal kontrol persisten. Autentikasi diletakkan di query string — browser tidak bisa menyetel header kustom pada WebSocket.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Tunggu Hingga Siap

Ack sukses berarti karakter sudah live. NOT_READY itu normal pada mode video — sambungkan ulang dengan exponential backoff (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Jaga Sesi Tetap Hidup

Server mengirim ping setiap 5 detik; balas dalam 15 detik. Pantau pesan forced-disconnect (type 6) dan tangani setiap alasan hangup.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Tutup Panggilan & Cek Tagihan

Kirim pesan hangup, tutup WebSocket, keluar dari kanal RTC — lalu query status akhir dan jumlah detik yang tertagih.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

API Selayang Pandang

API yang ringkas dan konsisten. Host: api.vidu.cn (Tiongkok) dan api.vidu.com (internasional).

MetodePathFungsi
POST/live/v1/livesMembuat sesi karakter digital
GET/live/v1/lives/{live_id}Query status sesi dan tagihan
WSS/live/ws/live/connectSinyal kontrol (init / hangup)
POST/live/v1/voices/cloneMembuat suara kustom hasil kloning
GET/live/v1/voicesMenampilkan daftar suara sistem dan kustom

HTTP API

Buat dan query sesi. Autentikasi token sederhana dengan API key Anda.

Kanal AliRTC

Seluruh audio dan video real-time mengalir lewat AliRTC — bukan HTTP. Cukup satu integrasi SDK di sisi klien.

Sinyal WebSocket

Kanal kontrol ringan untuk status kesiapan, heartbeat, dan event hangup.

Siklus Hidup Sesi

Empat State, Sepenuhnya Terpantau

Setiap sesi mengikuti state machine yang konsisten — mudah dimonitor, mudah ditagih, mudah di-debug.

1

waiting

Sesi dibuat, ruang terbuka, karakter sedang pemanasan

2

on_live

Kedua sisi siap — percakapan dan penagihan dimulai

3

ending

Hangup diterima, sesi ditutup dengan rapi

4

ended

Selesai — detik tertagih bisa di-query kapan saja

Kasus Penggunaan

Di Mana Tim Menggunakan Vidu S1

Enam industri sudah menghadirkan karakter digital interaktif di depan pengguna nyata.

Wanita tersenyum saat percakapan video dengan pendamping AI

Pendamping AI

Karakter yang selalu aktif dengan persona dan memori — mengobrol tatap muka, merespons suasana hati, dan membangun ikatan jangka panjang.

Lampu panggung konser yang menggambarkan pertunjukan live idola virtual

Idola Virtual

Idola anime atau realistis yang membawakan acara live, menjawab pertanyaan penggemar, dan tampil berjam-jam tanpa jeda.

Suasana kelas yang menggambarkan pelatihan dan pendidikan bertenaga AI

Pelatihan & Pendidikan

Tutor dan pelatih yang menjelaskan, mendemonstrasikan, dan menyesuaikan diri dengan pertanyaan setiap pelajar secara real-time.

Agen layanan pelanggan dengan headset yang menggambarkan support AI

Layanan Pelanggan AI

Wajah ramah untuk support: membaca rasa frustrasi, menjawab dengan natural, dan mengalihkan dengan mulus saat diperlukan.

Checkout belanja online yang menggambarkan e-commerce live-stream

Live-Stream Commerce

Host digital yang mempresentasikan produk sepanjang waktu dan menjawab pertanyaan pembeli begitu ditanyakan.

Setup gaming neon yang menggambarkan hiburan interaktif

Hiburan Interaktif

Karakter yang bisa dimainkan dan pengalaman shadow-play di mana cerita bereaksi terhadap suara dan wajah pemain.

Pustaka Suara

50+ Suara, Cukup Satu Parameter

Setiap suara berbicara dalam 28 bahasa. Ganti kepribadian dengan satu field — atau kloning suara Anda sendiri.

Tina

Manis dan hangat — menyelesaikan masalah tanpa ragu (default)

Serena

Lembut dan hangat

Harvey

Dalam dan tenang, matang seperti kopi dan buku tua

Maia

Perpaduan kecerdasan dan kehangatan

Jennifer

Suara wanita Amerika premium, kualitas sinematik

Aiden

Cowok kuliahan Amerika yang hobi memasak

Mione

Gadis Inggris girl-next-door yang dewasa dan intelek

Sohee

Kakak perempuan Korea yang hangat dan ekspresif

Ono Anna

Teman masa kecil dari Jepang yang jahil

Emilien

Kakak laki-laki Prancis yang romantis

Sonrisa

Energi Amerika Latin yang hangat dan antusias

Kiki

Gadis manis Hong Kong, penutur asli bahasa Kanton

🌍 28 Bahasa Langsung Tersedia

Mandarin, Inggris, Jepang, Korea, Prancis, Jerman, Spanyol, Portugis, Rusia, Arab, Hindi, Thai, Vietnam, Indonesia, Turki, dan lainnya — plus dialek regional seperti Kanton, Sichuan, Hokkien, dan Mandarin Taiwan.

🧬 API Kloning Suara

Butuh suara brand atau timbre orang tertentu? Buat suara kloning kustom dan kelola bersama suara sistem lewat POST /live/v1/voices/clone

Harga

Harga Transparan Berbasis Pemakaian

Bayar hanya untuk waktu percakapan live. Mode audio dan video harganya persis sama.

Uji Coba Gratis

1,000 kredit

Untuk setiap pengguna baru — cukup untuk sekitar 11 menit interaksi live.

  • Akses API penuh, tanpa pembatasan fitur
  • Semua 50+ suara dan 28 bahasa
  • Mode panggilan audio dan video
  • Persona kustom dan gambar avatar
Mulai Gratis

Enterprise

Kustom

Solusi yang disesuaikan untuk platform sosial, e-commerce, gaming, dan pendidikan.

  • Account manager khusus
  • Desain karakter dan persona kustom
  • Dukungan onboarding kloning suara
  • Review arsitektur untuk skenario Anda
Hubungi Kami

Harga satuan kredit: 0.03125. Sesi terputus otomatis saat durasi maksimum (600 s) tercapai; saat saldo mencapai nol, server menutup koneksi secara otomatis.

FAQ

Vidu S1 API — Pertanyaan yang Sering Diajukan

Detail yang benar-benar ditanyakan para engineer sebelum integrasi.

Vidu S1 adalah model streaming video generation kelas komersial untuk digital human interaktif real-time. Melalui Vidu S1 API, developer membuat sesi live di mana karakter AI melihat, mendengar, dan berbicara dengan pengguna — durasi generasi tanpa batas, 50+ suara, dan 28 bahasa.
Penagihan dimulai begitu karakter digital siap dan sesi memasuki on_live — tepat saat conn_init_ack.success mengembalikan true. Tarifnya 3 kredit per 2 detik, dipotong setiap 6 detik dan dibulatkan ke atas ke interval 2 detik terdekat. Mode audio dan video harganya sama.
Tidak. HTTP dipakai untuk membuat dan meng-query sesi. Audio dan video real-time ditransmisikan lewat kanal AliRTC (integrasi SDK terpisah), dan kontrol sesi berjalan lewat koneksi sinyal WebSocket. Ketiga kanal ini bersama-sama membentuk satu sesi live.
NOT_READY memang wajar pada mode video — sisi karakter masih bersiap. Tutup koneksi, tunggu sebentar, sambungkan ulang dan kirim ulang pesan init, dengan exponential backoff (2s → 4s → 8s). Jika yang Anda terima justru LIVE_CONN_INIT_FAILED, itu bersifat permanen: buat sesi baru.
Durasi maksimum sesi adalah 600 detik; server memutus otomatis saat batas itu tercapai. Untuk pengalaman yang lebih panjang, buat sesi baru dan sambungkan ulang — model dasarnya sendiri mendukung generasi berkelanjutan dari 1 menit hingga 2 jam tanpa penurunan kualitas.
Server otomatis menutup koneksi dengan alasan hangup credit_insufficient. Setiap sesi baru juga membutuhkan saldo minimum 45 kredit untuk dimulai, jadi isi ulang saldo sebelum go live dengan pengguna sungguhan.
50+ suara preset, masing-masing mendukung 28 bahasa termasuk Inggris, Mandarin, Jepang, Korea, Prancis, Jerman, Spanyol, Portugis, Rusia, Arab, dan Hindi. Suara dialek regional (Kanton, Sichuan, Hokkien, Mandarin Taiwan, dan lainnya) juga tersedia, dan Anda bisa mengkloning suara kustom lewat API.
Gunakan api.vidu.cn untuk deployment di Tiongkok daratan dan api.vidu.com untuk internasional. Autentikasinya berupa header sederhana: Authorization: Token vda_xxx. Untuk koneksi WebSocket, kirim token lewat query parameter authorization, karena browser tidak bisa menyetel header WebSocket kustom.
Satu gambar berisi satu orang — seluruh badan atau setengah badan, gaya apa pun (fotorealistis, anime, hewan peliharaan). PNG, JPG, JPEG, atau WEBP hingga 50 MB, dikirim sebagai URL atau Base64. Dikombinasikan dengan prompt persona bebas, gambar ini menentukan tampilan dan perilaku karakter Anda.

Hadirkan Karakter AI yang Hidup di Produk Anda

Dapatkan API key Anda, gunakan 1,000 kredit gratis, dan biarkan digital human real-time berbicara dengan pengguna Anda minggu ini juga.

Atau dapatkan API key Anda secara instan di apimart.ai