Vidu S1 API — 实时交互 AI 数字人视频生成

关于 Vidu S1

什么是 Vidu S1？

Vidu S1 是为实时交互数字人而生的流式视频生成模型。与离线渲染的文生视频模型不同，Vidu S1 在对话进行的同时实时生成视频：用户开口说话，角色能看见、能听见，并带着表情、声音和人格准实时地回应。

Vidu S1 API 把这套能力封装成简单的开发者工作流：HTTP 创建会话，AliRTC 传输音视频，WebSocket 全程控制。从 AI 陪伴到电商直播主播，各团队正在用 Vidu S1 API 把生产级数字人的上线周期从数月压缩到数天。

为什么选 Vidu S1

Vidu S1：首个商业级可交互数字人

不是预渲染的"会说话的头像"，而是能交互、会表演、有感知的生成式视频角色——准实时响应。

商业级交互能力

首个可量产落地的双向感知数字人：能交互、能表演，实时回应它看到和听到的一切。

无限交互时长

全球首个支持无限时长交互的生成式视频技术——1 分钟到 2 小时连续生成，画质无衰减。

准实时响应

业界领先的推理速度，指令遵循与语义理解能力强，跨屏对话自然流畅、延迟极低。

人设与短期记忆

自由定义初始人设——真人、动漫角色或萌宠。短期记忆让对话个性化、连贯且有温度。

多模态感知

语音、文字、视频三种输入同会话进行。角色能精准捕捉用户的外貌、表情和情绪状态。

高清画质输出

高分辨率实时交互生成，可直接用于社交、电商、游戏、教育等 C 端产品。

代际跨越

预渲染数字人 vs 流式生成数字人

传统数字人管线只能播放渲染好的片段，Vidu S1 在对话发生的同时实时生成视频。

传统管线

预渲染数字人

播放前需要数分钟的离线渲染
只能拼接固定的短片段
单向播放，没有真正的对话
完全"失明"，感知不到用户
固定脚本，千人一面

Vidu S1

Vidu S1 流式生成

准实时流式推理
1 分钟到 2 小时连续视频生成
双向实时语音 + 视频对话
看得见用户的外貌、表情和情绪
自定义人设 + 短期记忆

能力维度	传统管线	Vidu S1 API
延迟	数分钟（离线渲染）	准实时流式生成
会话长度	数秒的固定片段	1 分钟–2 小时连续生成，无质量损失
交互方式	单向播放	双向语音 + 视频对话
感知能力	无	识别用户外貌与情绪
个性化	固定脚本	自定义人设 + 短期记忆

接入流程

Vidu S1 API 六步接入

每个会话由三条通道协同驱动：HTTP 管理会话，AliRTC 传输音视频，WebSocket 负责控制信令。

1

创建会话

一个 POST 请求，带上角色人设、形象图和音色，即可拿到会话 ID 和 RTC 凭证。

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

2

加入 RTC 频道

用返回的 token 加入 AliRTC 频道，发布用户麦克风（视频模式还需摄像头），并订阅数字人的音视频流。

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

3

建立 WebSocket

连接持久控制通道。鉴权走 query 参数——浏览器创建 WebSocket 时无法自定义 header。

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

4

等待就绪

收到成功 ack 即表示数字人已上线。视频模式返回 NOT_READY 属正常——按指数退避重连（2s → 4s → 8s）。

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

5

维持会话

服务端每 5 秒 ping 一次，15 秒内必须响应。监听强制断开消息（type 6）并按 hangup 原因分别处理。

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

6

挂断并查询计费

发送挂断消息、关闭 WebSocket、退出 RTC 频道——之后可随时查询最终状态和计费秒数。

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

API 一览

精简、可预期的接口设计。域名：api.vidu.cn（国内）与 api.vidu.com（国际）。

方法	路径	用途
POST	`/live/v1/lives`	创建数字人会话
GET	`/live/v1/lives/{live_id}`	查询会话状态与计费
WSS	`/live/ws/live/connect`	控制信令（初始化 / 挂断）
POST	`/live/v1/voices/clone`	创建自定义克隆音色
GET	`/live/v1/voices`	查询系统与自定义音色列表

HTTP API

创建与查询会话。使用 API Key 的简单 Token 鉴权。

AliRTC 通道

所有实时音视频都走 AliRTC 而非 HTTP。客户端只需一次 SDK 集成。

WebSocket 信令

轻量控制通道，负责就绪确认、心跳和挂断事件。

会话生命周期

四个状态，全程可观测

每个会话都遵循可预期的状态机——易监控、易计费、易排障。

1

waiting

会话已创建，房间开启，数字人预热中

2

on_live

双端就绪——对话与计费同时开始

3

ending

收到挂断，会话优雅关闭中

4

ended

已结束——可随时查询计费秒数

落地场景

各行业团队都在这样用 Vidu S1

六大行业已经把可交互数字人放到了真实用户面前。

AI 陪伴

有人设、有记忆的全天候角色，面对面聊天、感知情绪，建立长期陪伴关系。

虚拟偶像

动漫或写实偶像主持直播、回答粉丝提问，连续表演数小时不间断。

培训与教育

能讲解、能演示的导师，实时响应每个学员的问题并因材施教。

AI 客服

有"脸"的客服：感知用户情绪、自然应答，需要时平滑转接人工。

电商直播

数字主播 7×24 小时讲解商品，买家提问秒回，转化不打烊。

互动影游

可对话的角色与互动影游体验，剧情随玩家的语音和表情实时变化。

音色库

50+ 音色，一个参数切换

每个音色都支持 28 种语言。改一个字段就能换人设——还可以克隆你自己的声音。

Tina

甜美温暖——解决问题毫不犹豫（默认音色）

Serena

温柔而暖心

Harvey

低沉醇厚，像陈年咖啡和旧书

Maia

知性与温暖的融合

Jennifer

高级感美式女声，电影质感

Aiden

爱做饭的美国大学男生

Mione

成熟知性的英伦邻家女孩

Sohee

温暖有感染力的韩国姐姐

Ono Anna

爱捉弄人的日本青梅竹马

Emilien

浪漫的法国大哥哥

Sonrisa

热情洋溢的拉美能量

Kiki

甜美的香港女孩，母语粤语

🌍 28 种语言开箱即用

中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、泰语、越南语、印尼语、土耳其语等——还有粤语、四川话、闽南语、台湾腔等方言音色。

🧬 音色克隆 API

需要品牌专属声音或特定人物音色？通过接口创建自定义克隆音色，并与系统音色统一管理： POST /live/v1/voices/clone

价格

透明的按量计费

只为真实对话时长付费。音频与视频模式价格完全相同。

免费试用

1,000 积分

每位新用户可得——约合 11 分钟实时交互。

完整 API 权限，无功能阉割
全部 50+ 音色与 28 种语言
音频与视频两种通话模式
自定义人设与形象图

免费开始

最受欢迎

按量付费

3 积分 / 2 秒

计量简单：数字人真正上线才开始计费。

音频与视频模式同价
每 6 秒扣费一次，按 2 秒向上取整
单会话最长 600 秒，可续开
从 on_live 才开始计费，绝不提前
开启会话最低余额：45 积分

获取 API Key

企业版

定制

面向社交、电商、游戏、教育平台的定制方案。

专属客户经理
定制角色与人设设计
音色克隆接入辅导
针对你场景的架构评审

联系我们

积分单价 0.03125。会话达到最长时长（600 秒）自动断开；余额扣至零时服务端自动关闭连接。

FAQ

Vidu S1 API 常见问题

工程师在接入前真正关心的细节。

什么时候开始计费？如何计量？

从数字人就绪、会话进入 on_live 的那一刻开始计费——即 conn_init_ack.success 返回 true 的瞬间。费率为每 2 秒 3 积分，每 6 秒扣费一次，不足 2 秒向上取整。音频与视频模式同价。

能只用 HTTP 与数字人交互吗？

不能。HTTP 用于创建和查询会话；实时音视频通过 AliRTC 通道传输（需单独集成 SDK）；会话控制走 WebSocket 信令连接。三条通道协同才构成一次完整的实时会话。

WebSocket 返回 NOT_READY 怎么办？

视频模式下 NOT_READY 属于预期行为——数字人侧仍在准备。关闭连接、稍等片刻、重连并重发初始化消息，采用指数退避（2s → 4s → 8s）。如果收到的是 LIVE_CONN_INIT_FAILED，则为永久失败：请重新创建会话。

单次会话最长多久？

单会话上限 600 秒，到达后服务端自动断开。需要更长体验时，重新创建会话续接即可——底层模型本身支持 1 分钟到 2 小时的连续生成且画质无损。

积分余额扣到零会发生什么？

服务端会自动关闭连接，挂断原因为 credit_insufficient。此外每次创建会话要求余额不低于 45 积分，正式面向用户前请提前充值。

支持哪些语言和音色？

50+ 预置音色，每个都支持 28 种语言，包括中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语和印地语等。另有粤语、四川话、闽南语、台湾腔等方言音色，也可以通过 API 克隆自定义音色。

应该用哪个 API 域名？

中国大陆部署用 api.vidu.cn，国际部署用 api.vidu.com。鉴权只需一个请求头：Authorization: Token vda_xxx。WebSocket 连接则把 token 放在 authorization query 参数里——因为浏览器无法为 WebSocket 设置自定义 header。

数字人形象图有什么要求？

单张单人图片——全身或半身，风格不限（写实、动漫、萌宠均可）。支持 PNG、JPG、JPEG、WEBP，最大 50 MB，可传 URL 或 Base64。配合自由格式的人设 prompt，共同定义角色的外观与行为。

把一个「活的」AI 角色放进你的产品

领取 API Key，用掉 1000 免费积分，本周就让实时数字人和你的用户聊起来。

或直接前往 apimart.ai 立即获取 API Key