流式视频生成 · 正式商用

Vidu S1 API:构建 能看、能听、能回应 的实时 AI 数字人

Vidu S1 是商业级流式视频生成模型,支持实时双向的语音视频对话。通过一个干净的 API,让你的用户拥有会表演、能感知情绪、可长期陪伴的 AI 角色。

新用户 1000 免费试用积分 · 模型侧无 SDK 绑定

2h+
连续生成,画质零衰减
50+
预置音色,从温暖到电影级
28
每个音色都支持的语言数
1,000
新用户免费试用积分
关于 Vidu S1

什么是 Vidu S1?

Vidu S1 是为实时交互数字人而生的流式视频生成模型。与离线渲染的文生视频模型不同,Vidu S1 在对话进行的同时实时生成视频:用户开口说话,角色能看见、能听见,并带着表情、声音和人格准实时地回应。

Vidu S1 API 把这套能力封装成简单的开发者工作流:HTTP 创建会话,AliRTC 传输音视频,WebSocket 全程控制。从 AI 陪伴到电商直播主播,各团队正在用 Vidu S1 API 把生产级数字人的上线周期从数月压缩到数天。

为什么选 Vidu S1

Vidu S1:首个商业级可交互数字人

不是预渲染的"会说话的头像",而是能交互、会表演、有感知的生成式视频角色——准实时响应。

商业级交互能力

首个可量产落地的双向感知数字人:能交互、能表演,实时回应它看到和听到的一切。

无限交互时长

全球首个支持无限时长交互的生成式视频技术——1 分钟到 2 小时连续生成,画质无衰减。

准实时响应

业界领先的推理速度,指令遵循与语义理解能力强,跨屏对话自然流畅、延迟极低。

人设与短期记忆

自由定义初始人设——真人、动漫角色或萌宠。短期记忆让对话个性化、连贯且有温度。

多模态感知

语音、文字、视频三种输入同会话进行。角色能精准捕捉用户的外貌、表情和情绪状态。

高清画质输出

高分辨率实时交互生成,可直接用于社交、电商、游戏、教育等 C 端产品。

代际跨越

预渲染数字人 vs 流式生成数字人

传统数字人管线只能播放渲染好的片段,Vidu S1 在对话发生的同时实时生成视频。

传统管线

预渲染数字人

  • 播放前需要数分钟的离线渲染
  • 只能拼接固定的短片段
  • 单向播放,没有真正的对话
  • 完全"失明",感知不到用户
  • 固定脚本,千人一面
Vidu S1

Vidu S1 流式生成

  • 准实时流式推理
  • 1 分钟到 2 小时连续视频生成
  • 双向实时语音 + 视频对话
  • 看得见用户的外貌、表情和情绪
  • 自定义人设 + 短期记忆
能力维度传统管线Vidu S1 API
延迟数分钟(离线渲染)准实时流式生成
会话长度数秒的固定片段1 分钟–2 小时连续生成,无质量损失
交互方式单向播放双向语音 + 视频对话
感知能力识别用户外貌与情绪
个性化固定脚本自定义人设 + 短期记忆
接入流程

Vidu S1 API 六步接入

每个会话由三条通道协同驱动:HTTP 管理会话,AliRTC 传输音视频,WebSocket 负责控制信令。

1

创建会话

一个 POST 请求,带上角色人设、形象图和音色,即可拿到会话 ID 和 RTC 凭证。

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

加入 RTC 频道

用返回的 token 加入 AliRTC 频道,发布用户麦克风(视频模式还需摄像头),并订阅数字人的音视频流。

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

建立 WebSocket

连接持久控制通道。鉴权走 query 参数——浏览器创建 WebSocket 时无法自定义 header。

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

等待就绪

收到成功 ack 即表示数字人已上线。视频模式返回 NOT_READY 属正常——按指数退避重连(2s → 4s → 8s)。

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

维持会话

服务端每 5 秒 ping 一次,15 秒内必须响应。监听强制断开消息(type 6)并按 hangup 原因分别处理。

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

挂断并查询计费

发送挂断消息、关闭 WebSocket、退出 RTC 频道——之后可随时查询最终状态和计费秒数。

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

API 一览

精简、可预期的接口设计。域名:api.vidu.cn(国内)与 api.vidu.com(国际)。

方法路径用途
POST/live/v1/lives创建数字人会话
GET/live/v1/lives/{live_id}查询会话状态与计费
WSS/live/ws/live/connect控制信令(初始化 / 挂断)
POST/live/v1/voices/clone创建自定义克隆音色
GET/live/v1/voices查询系统与自定义音色列表

HTTP API

创建与查询会话。使用 API Key 的简单 Token 鉴权。

AliRTC 通道

所有实时音视频都走 AliRTC 而非 HTTP。客户端只需一次 SDK 集成。

WebSocket 信令

轻量控制通道,负责就绪确认、心跳和挂断事件。

会话生命周期

四个状态,全程可观测

每个会话都遵循可预期的状态机——易监控、易计费、易排障。

1

waiting

会话已创建,房间开启,数字人预热中

2

on_live

双端就绪——对话与计费同时开始

3

ending

收到挂断,会话优雅关闭中

4

ended

已结束——可随时查询计费秒数

落地场景

各行业团队都在这样用 Vidu S1

六大行业已经把可交互数字人放到了真实用户面前。

女性与 AI 陪伴角色进行视频对话

AI 陪伴

有人设、有记忆的全天候角色,面对面聊天、感知情绪,建立长期陪伴关系。

演唱会舞台灯光,代表虚拟偶像直播演出

虚拟偶像

动漫或写实偶像主持直播、回答粉丝提问,连续表演数小时不间断。

教室场景,代表 AI 驱动的培训与教育

培训与教育

能讲解、能演示的导师,实时响应每个学员的问题并因材施教。

戴耳机的客服人员,代表 AI 智能客服

AI 客服

有"脸"的客服:感知用户情绪、自然应答,需要时平滑转接人工。

在线购物结算,代表电商直播带货

电商直播

数字主播 7×24 小时讲解商品,买家提问秒回,转化不打烊。

霓虹灯游戏设备,代表互动娱乐

互动影游

可对话的角色与互动影游体验,剧情随玩家的语音和表情实时变化。

音色库

50+ 音色,一个参数切换

每个音色都支持 28 种语言。改一个字段就能换人设——还可以克隆你自己的声音。

Tina

甜美温暖——解决问题毫不犹豫(默认音色)

Serena

温柔而暖心

Harvey

低沉醇厚,像陈年咖啡和旧书

Maia

知性与温暖的融合

Jennifer

高级感美式女声,电影质感

Aiden

爱做饭的美国大学男生

Mione

成熟知性的英伦邻家女孩

Sohee

温暖有感染力的韩国姐姐

Ono Anna

爱捉弄人的日本青梅竹马

Emilien

浪漫的法国大哥哥

Sonrisa

热情洋溢的拉美能量

Kiki

甜美的香港女孩,母语粤语

🌍 28 种语言开箱即用

中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语、印地语、泰语、越南语、印尼语、土耳其语等——还有粤语、四川话、闽南语、台湾腔等方言音色。

🧬 音色克隆 API

需要品牌专属声音或特定人物音色?通过接口创建自定义克隆音色,并与系统音色统一管理: POST /live/v1/voices/clone

价格

透明的按量计费

只为真实对话时长付费。音频与视频模式价格完全相同。

免费试用

1,000 积分

每位新用户可得——约合 11 分钟实时交互。

  • 完整 API 权限,无功能阉割
  • 全部 50+ 音色与 28 种语言
  • 音频与视频两种通话模式
  • 自定义人设与形象图
免费开始

企业版

定制

面向社交、电商、游戏、教育平台的定制方案。

  • 专属客户经理
  • 定制角色与人设设计
  • 音色克隆接入辅导
  • 针对你场景的架构评审
联系我们

积分单价 0.03125。会话达到最长时长(600 秒)自动断开;余额扣至零时服务端自动关闭连接。

FAQ

Vidu S1 API 常见问题

工程师在接入前真正关心的细节。

从数字人就绪、会话进入 on_live 的那一刻开始计费——即 conn_init_ack.success 返回 true 的瞬间。费率为每 2 秒 3 积分,每 6 秒扣费一次,不足 2 秒向上取整。音频与视频模式同价。
不能。HTTP 用于创建和查询会话;实时音视频通过 AliRTC 通道传输(需单独集成 SDK);会话控制走 WebSocket 信令连接。三条通道协同才构成一次完整的实时会话。
视频模式下 NOT_READY 属于预期行为——数字人侧仍在准备。关闭连接、稍等片刻、重连并重发初始化消息,采用指数退避(2s → 4s → 8s)。如果收到的是 LIVE_CONN_INIT_FAILED,则为永久失败:请重新创建会话。
单会话上限 600 秒,到达后服务端自动断开。需要更长体验时,重新创建会话续接即可——底层模型本身支持 1 分钟到 2 小时的连续生成且画质无损。
服务端会自动关闭连接,挂断原因为 credit_insufficient。此外每次创建会话要求余额不低于 45 积分,正式面向用户前请提前充值。
50+ 预置音色,每个都支持 28 种语言,包括中文、英语、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语和印地语等。另有粤语、四川话、闽南语、台湾腔等方言音色,也可以通过 API 克隆自定义音色。
中国大陆部署用 api.vidu.cn,国际部署用 api.vidu.com。鉴权只需一个请求头:Authorization: Token vda_xxx。WebSocket 连接则把 token 放在 authorization query 参数里——因为浏览器无法为 WebSocket 设置自定义 header。
单张单人图片——全身或半身,风格不限(写实、动漫、萌宠均可)。支持 PNG、JPG、JPEG、WEBP,最大 50 MB,可传 URL 或 Base64。配合自由格式的人设 prompt,共同定义角色的外观与行为。

把一个「活的」AI 角色放进你的产品

领取 API Key,用掉 1000 免费积分,本周就让实时数字人和你的用户聊起来。

或直接前往 apimart.ai 立即获取 API Key