Vidu S1 API:构建 能看、能听、能回应 的实时 AI 数字人
Vidu S1 是商业级流式视频生成模型,支持实时双向的语音视频对话。通过一个干净的 API,让你的用户拥有会表演、能感知情绪、可长期陪伴的 AI 角色。
新用户 1000 免费试用积分 · 模型侧无 SDK 绑定
什么是 Vidu S1?
Vidu S1 是为实时交互数字人而生的流式视频生成模型。与离线渲染的文生视频模型不同,Vidu S1 在对话进行的同时实时生成视频:用户开口说话,角色能看见、能听见,并带着表情、声音和人格准实时地回应。
Vidu S1 API 把这套能力封装成简单的开发者工作流:HTTP 创建会话,AliRTC 传输音视频,WebSocket 全程控制。从 AI 陪伴到电商直播主播,各团队正在用 Vidu S1 API 把生产级数字人的上线周期从数月压缩到数天。
Vidu S1:首个商业级可交互数字人
不是预渲染的"会说话的头像",而是能交互、会表演、有感知的生成式视频角色——准实时响应。
商业级交互能力
首个可量产落地的双向感知数字人:能交互、能表演,实时回应它看到和听到的一切。
无限交互时长
全球首个支持无限时长交互的生成式视频技术——1 分钟到 2 小时连续生成,画质无衰减。
准实时响应
业界领先的推理速度,指令遵循与语义理解能力强,跨屏对话自然流畅、延迟极低。
人设与短期记忆
自由定义初始人设——真人、动漫角色或萌宠。短期记忆让对话个性化、连贯且有温度。
多模态感知
语音、文字、视频三种输入同会话进行。角色能精准捕捉用户的外貌、表情和情绪状态。
高清画质输出
高分辨率实时交互生成,可直接用于社交、电商、游戏、教育等 C 端产品。
预渲染数字人 vs 流式生成数字人
传统数字人管线只能播放渲染好的片段,Vidu S1 在对话发生的同时实时生成视频。
预渲染数字人
- 播放前需要数分钟的离线渲染
- 只能拼接固定的短片段
- 单向播放,没有真正的对话
- 完全"失明",感知不到用户
- 固定脚本,千人一面
Vidu S1 流式生成
- 准实时流式推理
- 1 分钟到 2 小时连续视频生成
- 双向实时语音 + 视频对话
- 看得见用户的外貌、表情和情绪
- 自定义人设 + 短期记忆
| 能力维度 | 传统管线 | Vidu S1 API |
|---|---|---|
| 延迟 | 数分钟(离线渲染) | 准实时流式生成 |
| 会话长度 | 数秒的固定片段 | 1 分钟–2 小时连续生成,无质量损失 |
| 交互方式 | 单向播放 | 双向语音 + 视频对话 |
| 感知能力 | 无 | 识别用户外貌与情绪 |
| 个性化 | 固定脚本 | 自定义人设 + 短期记忆 |
Vidu S1 API 六步接入
每个会话由三条通道协同驱动:HTTP 管理会话,AliRTC 传输音视频,WebSocket 负责控制信令。
创建会话
一个 POST 请求,带上角色人设、形象图和音色,即可拿到会话 ID 和 RTC 凭证。
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
加入 RTC 频道
用返回的 token 加入 AliRTC 频道,发布用户麦克风(视频模式还需摄像头),并订阅数字人的音视频流。
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
建立 WebSocket
连接持久控制通道。鉴权走 query 参数——浏览器创建 WebSocket 时无法自定义 header。
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
等待就绪
收到成功 ack 即表示数字人已上线。视频模式返回 NOT_READY 属正常——按指数退避重连(2s → 4s → 8s)。
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8s维持会话
服务端每 5 秒 ping 一次,15 秒内必须响应。监听强制断开消息(type 6)并按 hangup 原因分别处理。
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
挂断并查询计费
发送挂断消息、关闭 WebSocket、退出 RTC 频道——之后可随时查询最终状态和计费秒数。
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"API 一览
精简、可预期的接口设计。域名:api.vidu.cn(国内)与 api.vidu.com(国际)。
| 方法 | 路径 | 用途 |
|---|---|---|
| POST | /live/v1/lives | 创建数字人会话 |
| GET | /live/v1/lives/{live_id} | 查询会话状态与计费 |
| WSS | /live/ws/live/connect | 控制信令(初始化 / 挂断) |
| POST | /live/v1/voices/clone | 创建自定义克隆音色 |
| GET | /live/v1/voices | 查询系统与自定义音色列表 |
HTTP API
创建与查询会话。使用 API Key 的简单 Token 鉴权。
AliRTC 通道
所有实时音视频都走 AliRTC 而非 HTTP。客户端只需一次 SDK 集成。
WebSocket 信令
轻量控制通道,负责就绪确认、心跳和挂断事件。
四个状态,全程可观测
每个会话都遵循可预期的状态机——易监控、易计费、易排障。
waiting
会话已创建,房间开启,数字人预热中
on_live
双端就绪——对话与计费同时开始
ending
收到挂断,会话优雅关闭中
ended
已结束——可随时查询计费秒数
各行业团队都在这样用 Vidu S1
六大行业已经把可交互数字人放到了真实用户面前。
AI 陪伴
有人设、有记忆的全天候角色,面对面聊天、感知情绪,建立长期陪伴关系。
虚拟偶像
动漫或写实偶像主持直播、回答粉丝提问,连续表演数小时不间断。
培训与教育
能讲解、能演示的导师,实时响应每个学员的问题并因材施教。
AI 客服
有"脸"的客服:感知用户情绪、自然应答,需要时平滑转接人工。
电商直播
数字主播 7×24 小时讲解商品,买家提问秒回,转化不打烊。
互动影游
可对话的角色与互动影游体验,剧情随玩家的语音和表情实时变化。
50+ 音色,一个参数切换
每个音色都支持 28 种语言。改一个字段就能换人设——还可以克隆你自己的声音。
甜美温暖——解决问题毫不犹豫(默认音色)
温柔而暖心
低沉醇厚,像陈年咖啡和旧书
知性与温暖的融合
高级感美式女声,电影质感
爱做饭的美国大学男生
成熟知性的英伦邻家女孩
温暖有感染力的韩国姐姐
爱捉弄人的日本青梅竹马
浪漫的法国大哥哥
热情洋溢的拉美能量
甜美的香港女孩,母语粤语
🌍 28 种语言开箱即用
中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、泰语、越南语、印尼语、土耳其语等——还有粤语、四川话、闽南语、台湾腔等方言音色。
🧬 音色克隆 API
需要品牌专属声音或特定人物音色?通过接口创建自定义克隆音色,并与系统音色统一管理: POST /live/v1/voices/clone
透明的按量计费
只为真实对话时长付费。音频与视频模式价格完全相同。
按量付费
计量简单:数字人真正上线才开始计费。
- 音频与视频模式同价
- 每 6 秒扣费一次,按 2 秒向上取整
- 单会话最长 600 秒,可续开
- 从 on_live 才开始计费,绝不提前
- 开启会话最低余额:45 积分
积分单价 0.03125。会话达到最长时长(600 秒)自动断开;余额扣至零时服务端自动关闭连接。
Vidu S1 API 常见问题
工程师在接入前真正关心的细节。