스트리밍 영상 생성 · 정식 서비스 중

Vidu S1 API — 보고, 듣고, 반응하는 실시간 AI 디지털 휴먼 구축하기

Vidu S1은 실시간 양방향 음성·영상 대화를 지원하는 상용급 스트리밍 영상 생성 모델입니다. 연기하고, 감정을 읽고, 곁을 지켜 주는 AI 캐릭터를 깔끔한 API 하나로 사용자에게 제공하세요.

API 키 발급 연동 가이드 보기

신규 가입 시 1,000 무료 체험 크레딧 · 모델 측 SDK 종속 없음

2h+

화질 저하 없는 연속 생성

50+

따뜻한 톤부터 시네마틱까지, 프리셋 보이스

모든 보이스가 지원하는 언어 수

1,000

신규 사용자 무료 체험 크레딧

Vidu S1 소개

Vidu S1이란?

Vidu S1은 실시간 인터랙티브 디지털 휴먼을 위해 설계된 스트리밍 영상 생성 모델입니다. 클립을 오프라인으로 렌더링하는 기존 모델과 달리, Vidu S1은 대화가 진행되는 동시에 영상을 생성합니다. 사용자가 말을 걸면 캐릭터는 보고 듣고, 표정과 목소리와 개성을 담아 준실시간으로 응답합니다.

Vidu S1 API는 이 능력을 간단한 개발자 워크플로로 제공합니다. HTTP로 세션을 만들고, AliRTC로 오디오·비디오를 전송하고, WebSocket으로 제어하세요. AI 컴패니언부터 라이브 커머스 호스트까지, 여러 팀이 Vidu S1 API로 프로덕션급 디지털 휴먼을 몇 달이 아닌 며칠 만에 출시하고 있습니다.

왜 Vidu S1인가

Vidu S1 — 최초의 상용급 인터랙티브 디지털 캐릭터

미리 렌더링된 '말하는 얼굴'이 아닙니다. 상호작용하고, 연기하고, 인지하는 생성형 비디오 캐릭터 — 그것도 준실시간으로.

상용급 인터랙션

양방향 인지를 갖춘 최초의 프로덕션급 디지털 캐릭터. 사용자에게서 보고 들은 모든 것에 상호작용하고, 연기하고, 반응합니다.

무제한 인터랙션 시간

무제한 길이의 인터랙션을 지원하는 세계 최초의 생성형 비디오 기술 — 1분부터 2시간까지 화질 저하 없이 연속 생성합니다.

준실시간 응답

업계 최고 수준의 추론 속도와 뛰어난 지시 이행·의미 이해 능력으로, 지연을 거의 느낄 수 없는 자연스러운 화면 너머 대화를 구현합니다.

페르소나와 기억

실존 인물, 애니메이션 캐릭터, 귀여운 반려동물 등 초기 페르소나를 자유롭게 정의하세요. 단기 기억이 대화를 개인적이고 일관되며 따뜻하게 유지합니다.

멀티모달 인지

음성·텍스트·영상 입력을 한 세션에서 처리합니다. 캐릭터가 사용자의 외모, 표정, 감정 상태를 정확하게 포착합니다.

고해상도 출력

고품질 실시간 인터랙티브 영상 생성. 소셜, 이커머스, 게임, 교육 등 컨슈머 제품에 바로 투입할 수 있습니다.

세대를 뛰어넘는 도약

사전 렌더링 아바타 vs 스트리밍 생성

기존 디지털 휴먼 파이프라인은 렌더링된 클립을 재생할 뿐입니다. Vidu S1은 대화가 진행되는 그 순간에 라이브 영상을 생성합니다.

기존 파이프라인

사전 렌더링 디지털 휴먼

재생 전 수 분의 오프라인 렌더링 필요
짧은 고정 클립을 이어 붙이는 방식
일방향 송출 — 진짜 대화는 불가능
사용자를 전혀 인지하지 못함
고정된 대본, 누구에게나 똑같은 화면

Vidu S1

Vidu S1 스트리밍 생성

준실시간 스트리밍 추론
1분부터 2시간까지 연속 영상 생성
양방향 실시간 음성 + 영상 대화
사용자의 외모·표정·감정 인식
커스텀 페르소나 + 단기 기억

역량	기존 파이프라인	Vidu S1 API
지연 시간	수 분(오프라인 렌더링)	준실시간 스트리밍
세션 길이	수 초짜리 고정 클립	1분–2시간 연속, 화질 손실 없음
인터랙션	일방향 재생	양방향 음성 + 영상 대화
인지 능력	없음	사용자 외모·감정 인식
개성	고정 대본	커스텀 페르소나 + 단기 기억

연동 가이드

Vidu S1 API — 6단계로 라이브까지

모든 세션은 세 개의 채널로 구동됩니다. 세션 관리는 HTTP, 오디오·비디오 전송은 AliRTC, 제어 시그널링은 WebSocket.

세션 생성

캐릭터의 페르소나, 아바타 이미지, 보이스를 담아 POST 한 번만 호출하면 세션 ID와 RTC 인증 정보가 반환됩니다.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

RTC 채널 참여

반환된 token으로 AliRTC 채널에 참여해 사용자 마이크(비디오 모드에서는 카메라 포함)를 퍼블리시하고, 캐릭터의 스트림을 구독합니다.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

WebSocket 연결

지속 연결되는 제어 채널을 엽니다. 인증은 쿼리 스트링으로 전달합니다 — 브라우저는 WebSocket에 커스텀 헤더를 설정할 수 없기 때문입니다.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

준비 완료 대기

성공 ack를 받으면 캐릭터가 라이브 상태입니다. 비디오 모드에서 NOT_READY는 정상입니다 — 지수 백오프(2s → 4s → 8s)로 재연결하세요.

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

세션 유지

서버가 5초마다 ping을 보내며, 15초 안에 응답해야 합니다. 강제 종료 메시지(type 6)를 수신 대기하고, 각 종료 사유를 개별 처리하세요.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

종료 및 과금 조회

종료 메시지를 보내고 WebSocket을 닫은 뒤 RTC 채널에서 나가면 — 이후 언제든 최종 상태와 과금 시간을 조회할 수 있습니다.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

한눈에 보는 API

간결하고 예측 가능한 API. 호스트: api.vidu.cn(중국), api.vidu.com(글로벌).

메서드	경로	용도
POST	`/live/v1/lives`	디지털 캐릭터 세션 생성
GET	`/live/v1/lives/{live_id}`	세션 상태 및 과금 조회
WSS	`/live/ws/live/connect`	제어 시그널링(초기화 / 종료)
POST	`/live/v1/voices/clone`	커스텀 클론 보이스 생성
GET	`/live/v1/voices`	시스템·커스텀 보이스 목록 조회

HTTP API

세션 생성과 조회. API 키를 이용한 간단한 Token 인증입니다.

AliRTC 채널

모든 실시간 오디오·비디오는 HTTP가 아닌 AliRTC로 전송됩니다. 클라이언트에는 SDK 하나만 연동하면 됩니다.

WebSocket 시그널링

준비 완료 알림, 하트비트, 종료 이벤트를 담당하는 경량 제어 채널.

세션 라이프사이클

네 가지 상태, 전 과정 관측 가능

모든 세션은 예측 가능한 상태 머신을 따릅니다 — 모니터링, 과금, 디버깅이 모두 쉬워집니다.

waiting

세션 생성 완료, 룸 오픈, 캐릭터 준비 중

on_live

양쪽 모두 준비 완료 — 대화와 과금 시작

ending

종료 요청 수신, 세션 정상 종료 중

ended

종료됨 — 과금 시간은 언제든 조회 가능

활용 사례

Vidu S1, 이런 곳에 배포되고 있습니다

여섯 개 산업이 이미 인터랙티브 디지털 캐릭터를 실사용자 앞에 선보이고 있습니다.

AI 컴패니언

페르소나와 기억을 지닌 상시 대기 캐릭터가 얼굴을 마주하고 대화하며, 기분에 반응하고, 오랜 유대를 쌓아 갑니다.

버추얼 아이돌

애니메이션풍이든 실사풍이든, 라이브 방송을 진행하고 팬 질문에 답하며 몇 시간이고 쉬지 않고 공연합니다.

교육·트레이닝

설명하고 시연하며, 학습자 한 사람 한 사람의 질문에 실시간으로 맞춰 주는 튜터와 트레이너.

AI 고객 상담

'얼굴'이 있는 고객 지원. 고객의 답답함을 감지해 자연스럽게 응대하고, 필요하면 매끄럽게 사람에게 이관합니다.

라이브 커머스

24시간 쉬지 않고 상품을 소개하고, 구매자의 질문에 그 자리에서 답하는 디지털 쇼호스트.

인터랙티브 엔터테인먼트

플레이어의 목소리와 표정에 스토리가 반응하는 플레이어블 캐릭터와 인터랙티브 영상 경험.

보이스 라이브러리

50+ 보이스, 파라미터 하나로 전환

모든 보이스가 28개 언어를 구사합니다. 필드 하나만 바꾸면 성격이 바뀌고 — 나만의 목소리를 클론할 수도 있습니다.

Tina

달콤하고 따뜻하게 — 망설임 없이 문제를 해결(기본값)

Serena

부드럽고 따뜻한 음색

Harvey

오래 묵힌 커피와 고서 같은 깊고 그윽한 저음

Maia

지성과 따뜻함이 어우러진 목소리

Jennifer

시네마틱한 품질의 프리미엄 미국식 여성 보이스

Aiden

요리를 사랑하는 미국 대학생

Mione

성숙하고 지적인 영국의 이웃집 소녀

Sohee

따뜻하고 표현력 풍부한 한국의 언니

Ono Anna

장난기 가득한 일본 소꿉친구

Emilien

로맨틱한 프랑스 오빠

Sonrisa

따뜻하고 열정 넘치는 라틴 아메리카의 에너지

Kiki

광둥어가 모국어인 사랑스러운 홍콩 소녀

🌍 28개 언어를 기본 제공

중국어, 영어, 일본어, 한국어, 프랑스어, 독일어, 스페인어, 포르투갈어, 러시아어, 아랍어, 힌디어, 태국어, 베트남어, 인도네시아어, 터키어 등 — 광둥어, 쓰촨 방언, 민난어, 대만식 표준중국어 같은 지역 방언 보이스까지 갖췄습니다.

🧬 보이스 클로닝 API

브랜드 전용 목소리나 특정 인물의 음색이 필요하신가요? 커스텀 클론 보이스를 만들고 시스템 보이스와 함께 관리하세요: POST /live/v1/voices/clone

요금

투명한 사용량 기반 과금

실제 대화 시간에 대해서만 비용을 지불합니다. 오디오 모드와 비디오 모드의 요금은 완전히 동일합니다.

무료 체험

1,000 크레딧

모든 신규 사용자에게 제공 — 약 11분의 실시간 인터랙션에 해당합니다.

기능 제한 없는 전체 API 액세스
50+ 보이스와 28개 언어 전부 이용 가능
오디오·비디오 통화 모드
커스텀 페르소나와 아바타 이미지

무료로 시작

가장 인기

사용량 기반 요금

3 크레딧 / 2초

간단한 과금 방식: 캐릭터가 실제로 라이브된 순간부터만 과금됩니다.

오디오·비디오 모드 동일 요금
6초마다 차감, 2초 단위로 올림 처리
세션당 최대 600초, 자동 갱신 가능
과금은 on_live부터 시작, 그 전에는 절대 없음
세션당 최소 잔액: 45 크레딧

API 키 발급

엔터프라이즈

맞춤형

소셜, 이커머스, 게임, 교육 플랫폼을 위한 맞춤 솔루션.

전담 어카운트 매니저
캐릭터·페르소나 맞춤 설계
보이스 클로닝 온보딩 지원
귀사 시나리오에 맞춘 아키텍처 리뷰

문의하기

크레딧 단가: 0.03125. 최대 지속 시간(600초)에 도달하면 세션이 자동 종료되며, 잔액이 0이 되면 서버가 자동으로 연결을 닫습니다.

FAQ

Vidu S1 API — 자주 묻는 질문

엔지니어가 연동 전에 정말 궁금해하는 세부 사항.

Vidu S1이란 무엇인가요?

Vidu S1은 실시간 인터랙티브 디지털 휴먼을 위한 상용 등급 스트리밍 영상 생성 모델입니다. 개발자는 Vidu S1 API로 라이브 세션을 만들어 AI 캐릭터가 사용자를 보고 듣고 대화하게 할 수 있습니다. 무제한 생성 시간, 50개 이상의 보이스, 28개 언어를 지원합니다.

과금은 언제 시작되고 어떻게 측정되나요?

과금은 디지털 캐릭터가 준비를 마치고 세션이 on_live에 진입하는 순간 — 정확히 conn_init_ack.success가 true를 반환하는 시점부터 시작됩니다. 요율은 2초당 3 크레딧이며, 6초마다 차감되고 2초 단위로 올림 처리됩니다. 오디오와 비디오 모드의 요금은 동일합니다.

HTTP만으로 디지털 캐릭터와 상호작용할 수 있나요?

불가능합니다. HTTP는 세션 생성과 조회에 사용됩니다. 실시간 오디오·비디오는 AliRTC 채널(별도 SDK 연동 필요)로 전송되고, 세션 제어는 WebSocket 시그널링 연결로 이루어집니다. 세 채널이 함께 동작해야 하나의 라이브 세션이 완성됩니다.

WebSocket이 NOT_READY를 반환하면 어떻게 해야 하나요?

비디오 모드에서 NOT_READY는 예상된 동작입니다 — 캐릭터 측이 아직 준비 중이라는 뜻입니다. 연결을 닫고 잠시 기다린 뒤 재연결해 init 메시지를 다시 보내세요. 이때 지수 백오프(2s → 4s → 8s)를 사용합니다. 대신 LIVE_CONN_INIT_FAILED를 받았다면 영구 실패이므로 새 세션을 생성해야 합니다.

단일 세션은 최대 얼마나 지속되나요?

세션 최대 지속 시간은 600초이며, 도달하면 서버가 자동으로 연결을 끊습니다. 더 긴 경험이 필요하면 새 세션을 만들어 다시 연결하세요 — 기반 모델 자체는 1분부터 2시간까지 화질 손실 없는 연속 생성을 지원합니다.

크레딧 잔액이 0이 되면 어떻게 되나요?

서버가 credit_insufficient 종료 사유와 함께 자동으로 연결을 닫습니다. 또한 새 세션을 시작하려면 최소 45 크레딧의 잔액이 필요하므로, 실사용자에게 공개하기 전에 미리 충전해 두세요.

어떤 언어와 보이스를 사용할 수 있나요?

50+ 프리셋 보이스가 있으며, 각 보이스는 영어, 중국어, 일본어, 한국어, 프랑스어, 독일어, 스페인어, 포르투갈어, 러시아어, 아랍어, 힌디어를 포함한 28개 언어를 지원합니다. 광둥어, 쓰촨 방언, 민난어, 대만식 표준중국어 등 지역 방언 보이스도 제공되며, API로 커스텀 보이스를 클론할 수도 있습니다.

어느 API 호스트를 사용해야 하나요?

중국 본토 배포에는 api.vidu.cn, 글로벌 배포에는 api.vidu.com을 사용하세요. 인증은 간단한 헤더 하나면 됩니다: Authorization: Token vda_xxx. WebSocket 연결에서는 브라우저가 커스텀 헤더를 설정할 수 없으므로, token을 authorization 쿼리 파라미터로 전달하세요.

캐릭터 아바타 이미지에는 어떤 것을 쓸 수 있나요?

한 사람만 담긴 이미지 한 장 — 전신 또는 반신, 스타일 제한 없음(실사, 애니메이션, 반려동물 모두 가능). PNG, JPG, JPEG, WEBP 형식으로 최대 50 MB, URL 또는 Base64로 전달합니다. 자유 형식의 페르소나 프롬프트와 결합해 캐릭터의 외모와 행동을 정의합니다.

살아 숨 쉬는 AI 캐릭터를 당신의 제품 안에

API 키를 발급받고 1,000 무료 크레딧을 사용해, 이번 주 안에 실시간 디지털 휴먼이 사용자와 대화하게 하세요.

또는 apimart.ai 에서 즉시 API 키를 발급받으세요