Vidu S1이란?
Vidu S1은 실시간 인터랙티브 디지털 휴먼을 위해 설계된 스트리밍 영상 생성 모델입니다. 클립을 오프라인으로 렌더링하는 기존 모델과 달리, Vidu S1은 대화가 진행되는 동시에 영상을 생성합니다. 사용자가 말을 걸면 캐릭터는 보고 듣고, 표정과 목소리와 개성을 담아 준실시간으로 응답합니다.
Vidu S1 API는 이 능력을 간단한 개발자 워크플로로 제공합니다. HTTP로 세션을 만들고, AliRTC로 오디오·비디오를 전송하고, WebSocket으로 제어하세요. AI 컴패니언부터 라이브 커머스 호스트까지, 여러 팀이 Vidu S1 API로 프로덕션급 디지털 휴먼을 몇 달이 아닌 며칠 만에 출시하고 있습니다.
Vidu S1 — 최초의 상용급 인터랙티브 디지털 캐릭터
미리 렌더링된 '말하는 얼굴'이 아닙니다. 상호작용하고, 연기하고, 인지하는 생성형 비디오 캐릭터 — 그것도 준실시간으로.
상용급 인터랙션
양방향 인지를 갖춘 최초의 프로덕션급 디지털 캐릭터. 사용자에게서 보고 들은 모든 것에 상호작용하고, 연기하고, 반응합니다.
무제한 인터랙션 시간
무제한 길이의 인터랙션을 지원하는 세계 최초의 생성형 비디오 기술 — 1분부터 2시간까지 화질 저하 없이 연속 생성합니다.
준실시간 응답
업계 최고 수준의 추론 속도와 뛰어난 지시 이행·의미 이해 능력으로, 지연을 거의 느낄 수 없는 자연스러운 화면 너머 대화를 구현합니다.
페르소나와 기억
실존 인물, 애니메이션 캐릭터, 귀여운 반려동물 등 초기 페르소나를 자유롭게 정의하세요. 단기 기억이 대화를 개인적이고 일관되며 따뜻하게 유지합니다.
멀티모달 인지
음성·텍스트·영상 입력을 한 세션에서 처리합니다. 캐릭터가 사용자의 외모, 표정, 감정 상태를 정확하게 포착합니다.
고해상도 출력
고품질 실시간 인터랙티브 영상 생성. 소셜, 이커머스, 게임, 교육 등 컨슈머 제품에 바로 투입할 수 있습니다.
사전 렌더링 아바타 vs 스트리밍 생성
기존 디지털 휴먼 파이프라인은 렌더링된 클립을 재생할 뿐입니다. Vidu S1은 대화가 진행되는 그 순간에 라이브 영상을 생성합니다.
사전 렌더링 디지털 휴먼
- 재생 전 수 분의 오프라인 렌더링 필요
- 짧은 고정 클립을 이어 붙이는 방식
- 일방향 송출 — 진짜 대화는 불가능
- 사용자를 전혀 인지하지 못함
- 고정된 대본, 누구에게나 똑같은 화면
Vidu S1 스트리밍 생성
- 준실시간 스트리밍 추론
- 1분부터 2시간까지 연속 영상 생성
- 양방향 실시간 음성 + 영상 대화
- 사용자의 외모·표정·감정 인식
- 커스텀 페르소나 + 단기 기억
| 역량 | 기존 파이프라인 | Vidu S1 API |
|---|---|---|
| 지연 시간 | 수 분(오프라인 렌더링) | 준실시간 스트리밍 |
| 세션 길이 | 수 초짜리 고정 클립 | 1분–2시간 연속, 화질 손실 없음 |
| 인터랙션 | 일방향 재생 | 양방향 음성 + 영상 대화 |
| 인지 능력 | 없음 | 사용자 외모·감정 인식 |
| 개성 | 고정 대본 | 커스텀 페르소나 + 단기 기억 |
Vidu S1 API — 6단계로 라이브까지
모든 세션은 세 개의 채널로 구동됩니다. 세션 관리는 HTTP, 오디오·비디오 전송은 AliRTC, 제어 시그널링은 WebSocket.
세션 생성
캐릭터의 페르소나, 아바타 이미지, 보이스를 담아 POST 한 번만 호출하면 세션 ID와 RTC 인증 정보가 반환됩니다.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
RTC 채널 참여
반환된 token으로 AliRTC 채널에 참여해 사용자 마이크(비디오 모드에서는 카메라 포함)를 퍼블리시하고, 캐릭터의 스트림을 구독합니다.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
WebSocket 연결
지속 연결되는 제어 채널을 엽니다. 인증은 쿼리 스트링으로 전달합니다 — 브라우저는 WebSocket에 커스텀 헤더를 설정할 수 없기 때문입니다.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
준비 완료 대기
성공 ack를 받으면 캐릭터가 라이브 상태입니다. 비디오 모드에서 NOT_READY는 정상입니다 — 지수 백오프(2s → 4s → 8s)로 재연결하세요.
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8s세션 유지
서버가 5초마다 ping을 보내며, 15초 안에 응답해야 합니다. 강제 종료 메시지(type 6)를 수신 대기하고, 각 종료 사유를 개별 처리하세요.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
종료 및 과금 조회
종료 메시지를 보내고 WebSocket을 닫은 뒤 RTC 채널에서 나가면 — 이후 언제든 최종 상태와 과금 시간을 조회할 수 있습니다.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"한눈에 보는 API
간결하고 예측 가능한 API. 호스트: api.vidu.cn(중국), api.vidu.com(글로벌).
| 메서드 | 경로 | 용도 |
|---|---|---|
| POST | /live/v1/lives | 디지털 캐릭터 세션 생성 |
| GET | /live/v1/lives/{live_id} | 세션 상태 및 과금 조회 |
| WSS | /live/ws/live/connect | 제어 시그널링(초기화 / 종료) |
| POST | /live/v1/voices/clone | 커스텀 클론 보이스 생성 |
| GET | /live/v1/voices | 시스템·커스텀 보이스 목록 조회 |
HTTP API
세션 생성과 조회. API 키를 이용한 간단한 Token 인증입니다.
AliRTC 채널
모든 실시간 오디오·비디오는 HTTP가 아닌 AliRTC로 전송됩니다. 클라이언트에는 SDK 하나만 연동하면 됩니다.
WebSocket 시그널링
준비 완료 알림, 하트비트, 종료 이벤트를 담당하는 경량 제어 채널.
네 가지 상태, 전 과정 관측 가능
모든 세션은 예측 가능한 상태 머신을 따릅니다 — 모니터링, 과금, 디버깅이 모두 쉬워집니다.
waiting
세션 생성 완료, 룸 오픈, 캐릭터 준비 중
on_live
양쪽 모두 준비 완료 — 대화와 과금 시작
ending
종료 요청 수신, 세션 정상 종료 중
ended
종료됨 — 과금 시간은 언제든 조회 가능
Vidu S1, 이런 곳에 배포되고 있습니다
여섯 개 산업이 이미 인터랙티브 디지털 캐릭터를 실사용자 앞에 선보이고 있습니다.
AI 컴패니언
페르소나와 기억을 지닌 상시 대기 캐릭터가 얼굴을 마주하고 대화하며, 기분에 반응하고, 오랜 유대를 쌓아 갑니다.
버추얼 아이돌
애니메이션풍이든 실사풍이든, 라이브 방송을 진행하고 팬 질문에 답하며 몇 시간이고 쉬지 않고 공연합니다.
교육·트레이닝
설명하고 시연하며, 학습자 한 사람 한 사람의 질문에 실시간으로 맞춰 주는 튜터와 트레이너.
AI 고객 상담
'얼굴'이 있는 고객 지원. 고객의 답답함을 감지해 자연스럽게 응대하고, 필요하면 매끄럽게 사람에게 이관합니다.
라이브 커머스
24시간 쉬지 않고 상품을 소개하고, 구매자의 질문에 그 자리에서 답하는 디지털 쇼호스트.
인터랙티브 엔터테인먼트
플레이어의 목소리와 표정에 스토리가 반응하는 플레이어블 캐릭터와 인터랙티브 영상 경험.
50+ 보이스, 파라미터 하나로 전환
모든 보이스가 28개 언어를 구사합니다. 필드 하나만 바꾸면 성격이 바뀌고 — 나만의 목소리를 클론할 수도 있습니다.
달콤하고 따뜻하게 — 망설임 없이 문제를 해결(기본값)
부드럽고 따뜻한 음색
오래 묵힌 커피와 고서 같은 깊고 그윽한 저음
지성과 따뜻함이 어우러진 목소리
시네마틱한 품질의 프리미엄 미국식 여성 보이스
요리를 사랑하는 미국 대학생
성숙하고 지적인 영국의 이웃집 소녀
따뜻하고 표현력 풍부한 한국의 언니
장난기 가득한 일본 소꿉친구
로맨틱한 프랑스 오빠
따뜻하고 열정 넘치는 라틴 아메리카의 에너지
광둥어가 모국어인 사랑스러운 홍콩 소녀
🌍 28개 언어를 기본 제공
중국어, 영어, 일본어, 한국어, 프랑스어, 독일어, 스페인어, 포르투갈어, 러시아어, 아랍어, 힌디어, 태국어, 베트남어, 인도네시아어, 터키어 등 — 광둥어, 쓰촨 방언, 민난어, 대만식 표준중국어 같은 지역 방언 보이스까지 갖췄습니다.
🧬 보이스 클로닝 API
브랜드 전용 목소리나 특정 인물의 음색이 필요하신가요? 커스텀 클론 보이스를 만들고 시스템 보이스와 함께 관리하세요: POST /live/v1/voices/clone
투명한 사용량 기반 과금
실제 대화 시간에 대해서만 비용을 지불합니다. 오디오 모드와 비디오 모드의 요금은 완전히 동일합니다.
무료 체험
모든 신규 사용자에게 제공 — 약 11분의 실시간 인터랙션에 해당합니다.
- 기능 제한 없는 전체 API 액세스
- 50+ 보이스와 28개 언어 전부 이용 가능
- 오디오·비디오 통화 모드
- 커스텀 페르소나와 아바타 이미지
사용량 기반 요금
간단한 과금 방식: 캐릭터가 실제로 라이브된 순간부터만 과금됩니다.
- 오디오·비디오 모드 동일 요금
- 6초마다 차감, 2초 단위로 올림 처리
- 세션당 최대 600초, 자동 갱신 가능
- 과금은 on_live부터 시작, 그 전에는 절대 없음
- 세션당 최소 잔액: 45 크레딧
엔터프라이즈
소셜, 이커머스, 게임, 교육 플랫폼을 위한 맞춤 솔루션.
- 전담 어카운트 매니저
- 캐릭터·페르소나 맞춤 설계
- 보이스 클로닝 온보딩 지원
- 귀사 시나리오에 맞춘 아키텍처 리뷰
크레딧 단가: 0.03125. 최대 지속 시간(600초)에 도달하면 세션이 자동 종료되며, 잔액이 0이 되면 서버가 자동으로 연결을 닫습니다.
Vidu S1 API — 자주 묻는 질문
엔지니어가 연동 전에 정말 궁금해하는 세부 사항.
살아 숨 쉬는 AI 캐릭터를 당신의 제품 안에
API 키를 발급받고 1,000 무료 크레딧을 사용해, 이번 주 안에 실시간 디지털 휴먼이 사용자와 대화하게 하세요.
또는 apimart.ai 에서 즉시 API 키를 발급받으세요