Generasi video streaming · Sudah live

Vidu S1 API — Bangun Digital Human AI Real-Time yang Melihat, Mendengar, dan Merespons

Vidu S1 adalah model generasi video streaming kelas komersial untuk percakapan suara dan video dua arah secara live. Hadirkan karakter AI yang tampil memukau, membaca emosi, dan menemani pengguna Anda — lewat satu API yang bersih.

Dapatkan API Key Lihat Panduan Integrasi

1,000 kredit uji coba gratis untuk pengguna baru · Tanpa SDK lock-in di sisi model

2h+

Generasi berkelanjutan tanpa penurunan kualitas

50+

Suara preset, dari yang hangat hingga sinematik

Bahasa didukung oleh setiap suara

1,000

Kredit uji coba gratis untuk pengguna baru

Tentang Vidu S1

Apa Itu Vidu S1?

Vidu S1 adalah model streaming video generation yang dirancang untuk digital human interaktif real-time. Berbeda dengan model yang merender klip secara offline, Vidu S1 menghasilkan video saat percakapan berlangsung: pengguna berbicara, karakter melihat dan mendengarnya, lalu merespons nyaris real-time — lengkap dengan ekspresi, suara, dan kepribadian.

Vidu S1 API mengemas kemampuan ini menjadi alur kerja developer yang sederhana: buat sesi lewat HTTP, alirkan audio dan video melalui AliRTC, dan kendalikan semuanya lewat WebSocket. Dari AI companion hingga host live commerce, berbagai tim memakai Vidu S1 API untuk meluncurkan digital human kelas produksi dalam hitungan hari.

Mengapa Vidu S1

Vidu S1 — Karakter Digital Interaktif Kelas Komersial Pertama

Bukan talking head hasil pra-render. Ini karakter video generatif yang berinteraksi, tampil, dan mempersepsi — dalam quasi real-time.

Interaksi Kelas Komersial

Karakter digital production-ready pertama dengan persepsi dua arah: ia berinteraksi, tampil, dan bereaksi terhadap apa yang dilihat dan didengarnya dari pengguna Anda.

Durasi Interaksi Tanpa Batas

Teknologi video generatif pertama di dunia yang mendukung interaksi tanpa batas durasi — dari 1 menit hingga 2 jam generasi berkelanjutan tanpa penurunan kualitas.

Respons Quasi Real-Time

Kecepatan inferensi terdepan di industri dengan instruction following dan pemahaman semantik yang kuat, memungkinkan percakapan lintas layar yang natural dengan delay minimal.

Persona dengan Memori

Tentukan persona awal apa pun — manusia nyata, karakter anime, atau hewan peliharaan yang menggemaskan. Memori jangka pendek menjaga percakapan tetap personal, konsisten, dan hangat.

Persepsi Multimodal

Input suara, teks, dan video dalam satu sesi. Karakter menangkap penampilan, ekspresi, dan kondisi emosi pengguna secara akurat.

Output Resolusi Tinggi

Generasi video interaktif real-time berkualitas tinggi, siap untuk produk konsumen di bidang sosial, e-commerce, gaming, dan pendidikan.

Lompatan Generasi

Avatar Pra-Render vs. Generasi Streaming

Pipeline digital human tradisional hanya memutar klip yang sudah dirender. Vidu S1 menghasilkan video live saat percakapan berlangsung.

Pipeline tradisional

Digital human pra-render

Rendering offline bermenit-menit sebelum pemutaran
Klip pendek dan kaku yang disambung-sambung
Siaran satu arah — tanpa percakapan sungguhan
Buta: sama sekali tidak menyadari kehadiran pengguna
Skrip tetap, identik untuk setiap penonton

Vidu S1

Generasi streaming Vidu S1

Inferensi streaming quasi real-time
Video berkelanjutan dari 1 menit hingga 2 jam
Percakapan live dua arah dengan suara + video
Melihat penampilan, ekspresi, dan emosi pengguna
Persona kustom dengan memori jangka pendek

Kemampuan	Pipeline tradisional	Vidu S1 API
Latensi	Bermenit-menit (rendering offline)	Streaming quasi real-time
Durasi sesi	Klip tetap berdurasi hitungan detik	1 mnt – 2 jam berkelanjutan, tanpa penurunan kualitas
Interaksi	Pemutaran satu arah	Dialog dua arah suara + video
Persepsi	Tidak ada	Pengenalan penampilan & emosi pengguna
Kepribadian	Skrip tetap	Persona kustom + memori jangka pendek

Integrasi

Vidu S1 API — Live dalam 6 Langkah

Tiga kanal menopang setiap sesi: HTTP untuk manajemen sesi, AliRTC untuk transport audio/video, WebSocket untuk sinyal kontrol.

Buat Sesi

Satu panggilan POST berisi persona, gambar avatar, dan suara karakter Anda — hasilnya session ID plus kredensial RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Gabung ke Kanal RTC

Gabung ke kanal AliRTC dengan token yang diterima, publikasikan mikrofon pengguna Anda (dan kamera pada mode video), lalu subscribe ke stream karakter.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

Buka WebSocket

Sambungkan kanal kontrol persisten. Autentikasi diletakkan di query string — browser tidak bisa menyetel header kustom pada WebSocket.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Tunggu Hingga Siap

Ack sukses berarti karakter sudah live. NOT_READY itu normal pada mode video — sambungkan ulang dengan exponential backoff (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Jaga Sesi Tetap Hidup

Server mengirim ping setiap 5 detik; balas dalam 15 detik. Pantau pesan forced-disconnect (type 6) dan tangani setiap alasan hangup.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Tutup Panggilan & Cek Tagihan

Kirim pesan hangup, tutup WebSocket, keluar dari kanal RTC — lalu query status akhir dan jumlah detik yang tertagih.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

API Selayang Pandang

API yang ringkas dan konsisten. Host: api.vidu.cn (Tiongkok) dan api.vidu.com (internasional).

Metode	Path	Fungsi
POST	`/live/v1/lives`	Membuat sesi karakter digital
GET	`/live/v1/lives/{live_id}`	Query status sesi dan tagihan
WSS	`/live/ws/live/connect`	Sinyal kontrol (init / hangup)
POST	`/live/v1/voices/clone`	Membuat suara kustom hasil kloning
GET	`/live/v1/voices`	Menampilkan daftar suara sistem dan kustom

HTTP API

Buat dan query sesi. Autentikasi token sederhana dengan API key Anda.

Kanal AliRTC

Seluruh audio dan video real-time mengalir lewat AliRTC — bukan HTTP. Cukup satu integrasi SDK di sisi klien.

Sinyal WebSocket

Kanal kontrol ringan untuk status kesiapan, heartbeat, dan event hangup.

Siklus Hidup Sesi

Empat State, Sepenuhnya Terpantau

Setiap sesi mengikuti state machine yang konsisten — mudah dimonitor, mudah ditagih, mudah di-debug.

waiting

Sesi dibuat, ruang terbuka, karakter sedang pemanasan

on_live

Kedua sisi siap — percakapan dan penagihan dimulai

ending

Hangup diterima, sesi ditutup dengan rapi

ended

Selesai — detik tertagih bisa di-query kapan saja

Kasus Penggunaan

Di Mana Tim Menggunakan Vidu S1

Enam industri sudah menghadirkan karakter digital interaktif di depan pengguna nyata.

Pendamping AI

Karakter yang selalu aktif dengan persona dan memori — mengobrol tatap muka, merespons suasana hati, dan membangun ikatan jangka panjang.

Idola Virtual

Idola anime atau realistis yang membawakan acara live, menjawab pertanyaan penggemar, dan tampil berjam-jam tanpa jeda.

Suasana kelas yang menggambarkan pelatihan dan pendidikan bertenaga AI

Pelatihan & Pendidikan

Tutor dan pelatih yang menjelaskan, mendemonstrasikan, dan menyesuaikan diri dengan pertanyaan setiap pelajar secara real-time.

Agen layanan pelanggan dengan headset yang menggambarkan support AI

Layanan Pelanggan AI

Wajah ramah untuk support: membaca rasa frustrasi, menjawab dengan natural, dan mengalihkan dengan mulus saat diperlukan.

Checkout belanja online yang menggambarkan e-commerce live-stream

Live-Stream Commerce

Host digital yang mempresentasikan produk sepanjang waktu dan menjawab pertanyaan pembeli begitu ditanyakan.

Hiburan Interaktif

Karakter yang bisa dimainkan dan pengalaman shadow-play di mana cerita bereaksi terhadap suara dan wajah pemain.

Pustaka Suara

50+ Suara, Cukup Satu Parameter

Setiap suara berbicara dalam 28 bahasa. Ganti kepribadian dengan satu field — atau kloning suara Anda sendiri.

Tina

Manis dan hangat — menyelesaikan masalah tanpa ragu (default)

Serena

Lembut dan hangat

Harvey

Dalam dan tenang, matang seperti kopi dan buku tua

Maia

Perpaduan kecerdasan dan kehangatan

Jennifer

Suara wanita Amerika premium, kualitas sinematik

Aiden

Cowok kuliahan Amerika yang hobi memasak

Mione

Gadis Inggris girl-next-door yang dewasa dan intelek

Sohee

Kakak perempuan Korea yang hangat dan ekspresif

Ono Anna

Teman masa kecil dari Jepang yang jahil

Emilien

Kakak laki-laki Prancis yang romantis

Sonrisa

Energi Amerika Latin yang hangat dan antusias

Kiki

Gadis manis Hong Kong, penutur asli bahasa Kanton

🌍 28 Bahasa Langsung Tersedia

Mandarin, Inggris, Jepang, Korea, Prancis, Jerman, Spanyol, Portugis, Rusia, Arab, Hindi, Thai, Vietnam, Indonesia, Turki, dan lainnya — plus dialek regional seperti Kanton, Sichuan, Hokkien, dan Mandarin Taiwan.

🧬 API Kloning Suara

Butuh suara brand atau timbre orang tertentu? Buat suara kloning kustom dan kelola bersama suara sistem lewat POST /live/v1/voices/clone

Harga

Harga Transparan Berbasis Pemakaian

Bayar hanya untuk waktu percakapan live. Mode audio dan video harganya persis sama.

Uji Coba Gratis

1,000 kredit

Untuk setiap pengguna baru — cukup untuk sekitar 11 menit interaksi live.

Akses API penuh, tanpa pembatasan fitur
Semua 50+ suara dan 28 bahasa
Mode panggilan audio dan video
Persona kustom dan gambar avatar

Mulai Gratis

Paling Populer

Pay As You Go

3 kredit / 2 s

Metering sederhana: penagihan baru dimulai saat karakter benar-benar live.

Harga sama untuk mode audio dan video
Dipotong setiap 6 s, dibulatkan ke interval 2 s
Sesi hingga 600 s, dapat diperpanjang otomatis
Penagihan dimulai saat on_live, tidak pernah sebelumnya
Saldo minimum: 45 kredit per sesi

Dapatkan API Key

Enterprise

Kustom

Solusi yang disesuaikan untuk platform sosial, e-commerce, gaming, dan pendidikan.

Account manager khusus
Desain karakter dan persona kustom
Dukungan onboarding kloning suara
Review arsitektur untuk skenario Anda

Hubungi Kami

Harga satuan kredit: 0.03125. Sesi terputus otomatis saat durasi maksimum (600 s) tercapai; saat saldo mencapai nol, server menutup koneksi secara otomatis.

FAQ

Vidu S1 API — Pertanyaan yang Sering Diajukan

Detail yang benar-benar ditanyakan para engineer sebelum integrasi.

Apa itu Vidu S1?

Vidu S1 adalah model streaming video generation kelas komersial untuk digital human interaktif real-time. Melalui Vidu S1 API, developer membuat sesi live di mana karakter AI melihat, mendengar, dan berbicara dengan pengguna — durasi generasi tanpa batas, 50+ suara, dan 28 bahasa.

Kapan penagihan dimulai dan bagaimana pemakaian diukur?

Penagihan dimulai begitu karakter digital siap dan sesi memasuki on_live — tepat saat conn_init_ack.success mengembalikan true. Tarifnya 3 kredit per 2 detik, dipotong setiap 6 detik dan dibulatkan ke atas ke interval 2 detik terdekat. Mode audio dan video harganya sama.

Bisakah saya berinteraksi dengan karakter digital hanya lewat HTTP?

Tidak. HTTP dipakai untuk membuat dan meng-query sesi. Audio dan video real-time ditransmisikan lewat kanal AliRTC (integrasi SDK terpisah), dan kontrol sesi berjalan lewat koneksi sinyal WebSocket. Ketiga kanal ini bersama-sama membentuk satu sesi live.

Apa yang harus dilakukan saat WebSocket mengembalikan NOT_READY?

NOT_READY memang wajar pada mode video — sisi karakter masih bersiap. Tutup koneksi, tunggu sebentar, sambungkan ulang dan kirim ulang pesan init, dengan exponential backoff (2s → 4s → 8s). Jika yang Anda terima justru LIVE_CONN_INIT_FAILED, itu bersifat permanen: buat sesi baru.

Berapa lama satu sesi bisa berlangsung?

Durasi maksimum sesi adalah 600 detik; server memutus otomatis saat batas itu tercapai. Untuk pengalaman yang lebih panjang, buat sesi baru dan sambungkan ulang — model dasarnya sendiri mendukung generasi berkelanjutan dari 1 menit hingga 2 jam tanpa penurunan kualitas.

Apa yang terjadi saat saldo kredit saya mencapai nol?

Server otomatis menutup koneksi dengan alasan hangup credit_insufficient. Setiap sesi baru juga membutuhkan saldo minimum 45 kredit untuk dimulai, jadi isi ulang saldo sebelum go live dengan pengguna sungguhan.

Bahasa dan suara apa saja yang tersedia?

50+ suara preset, masing-masing mendukung 28 bahasa termasuk Inggris, Mandarin, Jepang, Korea, Prancis, Jerman, Spanyol, Portugis, Rusia, Arab, dan Hindi. Suara dialek regional (Kanton, Sichuan, Hokkien, Mandarin Taiwan, dan lainnya) juga tersedia, dan Anda bisa mengkloning suara kustom lewat API.

Host API mana yang sebaiknya saya gunakan?

Gunakan api.vidu.cn untuk deployment di Tiongkok daratan dan api.vidu.com untuk internasional. Autentikasinya berupa header sederhana: Authorization: Token vda_xxx. Untuk koneksi WebSocket, kirim token lewat query parameter authorization, karena browser tidak bisa menyetel header WebSocket kustom.

Gambar avatar seperti apa yang bisa dipakai untuk karakter?

Satu gambar berisi satu orang — seluruh badan atau setengah badan, gaya apa pun (fotorealistis, anime, hewan peliharaan). PNG, JPG, JPEG, atau WEBP hingga 50 MB, dikirim sebagai URL atau Base64. Dikombinasikan dengan prompt persona bebas, gambar ini menentukan tampilan dan perilaku karakter Anda.

Hadirkan Karakter AI yang Hidup di Produk Anda

Dapatkan API key Anda, gunakan 1,000 kredit gratis, dan biarkan digital human real-time berbicara dengan pengguna Anda minggu ini juga.

Atau dapatkan API key Anda secara instan di apimart.ai