Vidu S1 API — Bangun Digital Human AI Real-Time yang Melihat, Mendengar, dan Merespons
Vidu S1 adalah model generasi video streaming kelas komersial untuk percakapan suara dan video dua arah secara live. Hadirkan karakter AI yang tampil memukau, membaca emosi, dan menemani pengguna Anda — lewat satu API yang bersih.
1,000 kredit uji coba gratis untuk pengguna baru · Tanpa SDK lock-in di sisi model
Apa Itu Vidu S1?
Vidu S1 adalah model streaming video generation yang dirancang untuk digital human interaktif real-time. Berbeda dengan model yang merender klip secara offline, Vidu S1 menghasilkan video saat percakapan berlangsung: pengguna berbicara, karakter melihat dan mendengarnya, lalu merespons nyaris real-time — lengkap dengan ekspresi, suara, dan kepribadian.
Vidu S1 API mengemas kemampuan ini menjadi alur kerja developer yang sederhana: buat sesi lewat HTTP, alirkan audio dan video melalui AliRTC, dan kendalikan semuanya lewat WebSocket. Dari AI companion hingga host live commerce, berbagai tim memakai Vidu S1 API untuk meluncurkan digital human kelas produksi dalam hitungan hari.
Vidu S1 — Karakter Digital Interaktif Kelas Komersial Pertama
Bukan talking head hasil pra-render. Ini karakter video generatif yang berinteraksi, tampil, dan mempersepsi — dalam quasi real-time.
Interaksi Kelas Komersial
Karakter digital production-ready pertama dengan persepsi dua arah: ia berinteraksi, tampil, dan bereaksi terhadap apa yang dilihat dan didengarnya dari pengguna Anda.
Durasi Interaksi Tanpa Batas
Teknologi video generatif pertama di dunia yang mendukung interaksi tanpa batas durasi — dari 1 menit hingga 2 jam generasi berkelanjutan tanpa penurunan kualitas.
Respons Quasi Real-Time
Kecepatan inferensi terdepan di industri dengan instruction following dan pemahaman semantik yang kuat, memungkinkan percakapan lintas layar yang natural dengan delay minimal.
Persona dengan Memori
Tentukan persona awal apa pun — manusia nyata, karakter anime, atau hewan peliharaan yang menggemaskan. Memori jangka pendek menjaga percakapan tetap personal, konsisten, dan hangat.
Persepsi Multimodal
Input suara, teks, dan video dalam satu sesi. Karakter menangkap penampilan, ekspresi, dan kondisi emosi pengguna secara akurat.
Output Resolusi Tinggi
Generasi video interaktif real-time berkualitas tinggi, siap untuk produk konsumen di bidang sosial, e-commerce, gaming, dan pendidikan.
Avatar Pra-Render vs. Generasi Streaming
Pipeline digital human tradisional hanya memutar klip yang sudah dirender. Vidu S1 menghasilkan video live saat percakapan berlangsung.
Digital human pra-render
- Rendering offline bermenit-menit sebelum pemutaran
- Klip pendek dan kaku yang disambung-sambung
- Siaran satu arah — tanpa percakapan sungguhan
- Buta: sama sekali tidak menyadari kehadiran pengguna
- Skrip tetap, identik untuk setiap penonton
Generasi streaming Vidu S1
- Inferensi streaming quasi real-time
- Video berkelanjutan dari 1 menit hingga 2 jam
- Percakapan live dua arah dengan suara + video
- Melihat penampilan, ekspresi, dan emosi pengguna
- Persona kustom dengan memori jangka pendek
| Kemampuan | Pipeline tradisional | Vidu S1 API |
|---|---|---|
| Latensi | Bermenit-menit (rendering offline) | Streaming quasi real-time |
| Durasi sesi | Klip tetap berdurasi hitungan detik | 1 mnt – 2 jam berkelanjutan, tanpa penurunan kualitas |
| Interaksi | Pemutaran satu arah | Dialog dua arah suara + video |
| Persepsi | Tidak ada | Pengenalan penampilan & emosi pengguna |
| Kepribadian | Skrip tetap | Persona kustom + memori jangka pendek |
Vidu S1 API — Live dalam 6 Langkah
Tiga kanal menopang setiap sesi: HTTP untuk manajemen sesi, AliRTC untuk transport audio/video, WebSocket untuk sinyal kontrol.
Buat Sesi
Satu panggilan POST berisi persona, gambar avatar, dan suara karakter Anda — hasilnya session ID plus kredensial RTC.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Gabung ke Kanal RTC
Gabung ke kanal AliRTC dengan token yang diterima, publikasikan mikrofon pengguna Anda (dan kamera pada mode video), lalu subscribe ke stream karakter.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
Buka WebSocket
Sambungkan kanal kontrol persisten. Autentikasi diletakkan di query string — browser tidak bisa menyetel header kustom pada WebSocket.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Tunggu Hingga Siap
Ack sukses berarti karakter sudah live. NOT_READY itu normal pada mode video — sambungkan ulang dengan exponential backoff (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sJaga Sesi Tetap Hidup
Server mengirim ping setiap 5 detik; balas dalam 15 detik. Pantau pesan forced-disconnect (type 6) dan tangani setiap alasan hangup.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Tutup Panggilan & Cek Tagihan
Kirim pesan hangup, tutup WebSocket, keluar dari kanal RTC — lalu query status akhir dan jumlah detik yang tertagih.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"API Selayang Pandang
API yang ringkas dan konsisten. Host: api.vidu.cn (Tiongkok) dan api.vidu.com (internasional).
| Metode | Path | Fungsi |
|---|---|---|
| POST | /live/v1/lives | Membuat sesi karakter digital |
| GET | /live/v1/lives/{live_id} | Query status sesi dan tagihan |
| WSS | /live/ws/live/connect | Sinyal kontrol (init / hangup) |
| POST | /live/v1/voices/clone | Membuat suara kustom hasil kloning |
| GET | /live/v1/voices | Menampilkan daftar suara sistem dan kustom |
HTTP API
Buat dan query sesi. Autentikasi token sederhana dengan API key Anda.
Kanal AliRTC
Seluruh audio dan video real-time mengalir lewat AliRTC — bukan HTTP. Cukup satu integrasi SDK di sisi klien.
Sinyal WebSocket
Kanal kontrol ringan untuk status kesiapan, heartbeat, dan event hangup.
Empat State, Sepenuhnya Terpantau
Setiap sesi mengikuti state machine yang konsisten — mudah dimonitor, mudah ditagih, mudah di-debug.
waiting
Sesi dibuat, ruang terbuka, karakter sedang pemanasan
on_live
Kedua sisi siap — percakapan dan penagihan dimulai
ending
Hangup diterima, sesi ditutup dengan rapi
ended
Selesai — detik tertagih bisa di-query kapan saja
Di Mana Tim Menggunakan Vidu S1
Enam industri sudah menghadirkan karakter digital interaktif di depan pengguna nyata.
Pendamping AI
Karakter yang selalu aktif dengan persona dan memori — mengobrol tatap muka, merespons suasana hati, dan membangun ikatan jangka panjang.
Idola Virtual
Idola anime atau realistis yang membawakan acara live, menjawab pertanyaan penggemar, dan tampil berjam-jam tanpa jeda.
Pelatihan & Pendidikan
Tutor dan pelatih yang menjelaskan, mendemonstrasikan, dan menyesuaikan diri dengan pertanyaan setiap pelajar secara real-time.
Layanan Pelanggan AI
Wajah ramah untuk support: membaca rasa frustrasi, menjawab dengan natural, dan mengalihkan dengan mulus saat diperlukan.
Live-Stream Commerce
Host digital yang mempresentasikan produk sepanjang waktu dan menjawab pertanyaan pembeli begitu ditanyakan.
Hiburan Interaktif
Karakter yang bisa dimainkan dan pengalaman shadow-play di mana cerita bereaksi terhadap suara dan wajah pemain.
50+ Suara, Cukup Satu Parameter
Setiap suara berbicara dalam 28 bahasa. Ganti kepribadian dengan satu field — atau kloning suara Anda sendiri.
Manis dan hangat — menyelesaikan masalah tanpa ragu (default)
Lembut dan hangat
Dalam dan tenang, matang seperti kopi dan buku tua
Perpaduan kecerdasan dan kehangatan
Suara wanita Amerika premium, kualitas sinematik
Cowok kuliahan Amerika yang hobi memasak
Gadis Inggris girl-next-door yang dewasa dan intelek
Kakak perempuan Korea yang hangat dan ekspresif
Teman masa kecil dari Jepang yang jahil
Kakak laki-laki Prancis yang romantis
Energi Amerika Latin yang hangat dan antusias
Gadis manis Hong Kong, penutur asli bahasa Kanton
🌍 28 Bahasa Langsung Tersedia
Mandarin, Inggris, Jepang, Korea, Prancis, Jerman, Spanyol, Portugis, Rusia, Arab, Hindi, Thai, Vietnam, Indonesia, Turki, dan lainnya — plus dialek regional seperti Kanton, Sichuan, Hokkien, dan Mandarin Taiwan.
🧬 API Kloning Suara
Butuh suara brand atau timbre orang tertentu? Buat suara kloning kustom dan kelola bersama suara sistem lewat POST /live/v1/voices/clone
Harga Transparan Berbasis Pemakaian
Bayar hanya untuk waktu percakapan live. Mode audio dan video harganya persis sama.
Uji Coba Gratis
Untuk setiap pengguna baru — cukup untuk sekitar 11 menit interaksi live.
- Akses API penuh, tanpa pembatasan fitur
- Semua 50+ suara dan 28 bahasa
- Mode panggilan audio dan video
- Persona kustom dan gambar avatar
Pay As You Go
Metering sederhana: penagihan baru dimulai saat karakter benar-benar live.
- Harga sama untuk mode audio dan video
- Dipotong setiap 6 s, dibulatkan ke interval 2 s
- Sesi hingga 600 s, dapat diperpanjang otomatis
- Penagihan dimulai saat on_live, tidak pernah sebelumnya
- Saldo minimum: 45 kredit per sesi
Enterprise
Solusi yang disesuaikan untuk platform sosial, e-commerce, gaming, dan pendidikan.
- Account manager khusus
- Desain karakter dan persona kustom
- Dukungan onboarding kloning suara
- Review arsitektur untuk skenario Anda
Harga satuan kredit: 0.03125. Sesi terputus otomatis saat durasi maksimum (600 s) tercapai; saat saldo mencapai nol, server menutup koneksi secara otomatis.
Vidu S1 API — Pertanyaan yang Sering Diajukan
Detail yang benar-benar ditanyakan para engineer sebelum integrasi.
Hadirkan Karakter AI yang Hidup di Produk Anda
Dapatkan API key Anda, gunakan 1,000 kredit gratis, dan biarkan digital human real-time berbicara dengan pengguna Anda minggu ini juga.
Atau dapatkan API key Anda secara instan di apimart.ai