Vidu S1 とは?
Vidu S1 は、リアルタイム対話型デジタルヒューマンのために設計されたストリーミング動画生成モデルです。クリップをオフラインでレンダリングする従来モデルと異なり、Vidu S1 は会話が進むそのままに映像を生成します。ユーザーが話しかければ、キャラクターは見て、聞いて、表情・声・個性を持って準リアルタイムに応答します。
Vidu S1 API はこの能力をシンプルな開発者ワークフローにまとめました。HTTP でセッションを作成し、AliRTC で音声・映像を伝送し、WebSocket で制御する。AI コンパニオンからライブコマース配信者まで、各チームが Vidu S1 API を使って本番品質のデジタルヒューマンを数日でリリースしています。
Vidu S1 — 初の商用グレード・対話型デジタルキャラクター
事前レンダリングの「しゃべる顔」ではありません。対話し、演じ、感じ取る生成型ビデオキャラクター——それも準リアルタイムで。
商用グレードの対話性能
双方向認識を備えた初のプロダクションレディなデジタルキャラクター。ユーザーから見えるもの、聞こえるものすべてに対話し、演じ、反応します。
無制限の対話時間
時間無制限の対話に対応した世界初の生成型ビデオ技術。1 分から 2 時間まで、画質を落とすことなく連続生成できます。
準リアルタイム応答
業界最高水準の推論速度と、高い指示追従・意味理解能力。遅延をほぼ感じさせない、画面越しの自然な会話を実現します。
ペルソナと記憶
実在の人物、アニメキャラ、かわいいペット——初期ペルソナは自由に定義できます。短期記憶が会話をパーソナルで一貫した、温かいものに保ちます。
マルチモーダル認識
音声・テキスト・映像の入力を 1 つのセッションで処理。キャラクターはユーザーの外見・表情・感情の状態を正確に読み取ります。
高解像度出力
高品質なリアルタイム対話映像を生成。ソーシャル、EC、ゲーム、教育などのコンシューマー向けプロダクトにそのまま投入できます。
事前レンダリング型アバター vs ストリーミング生成
従来のデジタルヒューマンはレンダリング済みクリップを再生するだけ。Vidu S1 は会話が進むそばからライブ映像を生成します。
事前レンダリング型デジタルヒューマン
- 再生前に数分のオフラインレンダリングが必要
- 短い固定クリップのつなぎ合わせ
- 一方向の再生のみ——本当の会話はできない
- ユーザーをまったく認識できない
- 固定台本で、誰が見ても同じ内容
Vidu S1 ストリーミング生成
- 準リアルタイムのストリーミング推論
- 1 分から 2 時間の連続映像生成
- 双方向のライブ音声 + 映像会話
- ユーザーの外見・表情・感情を認識
- カスタムペルソナ + 短期記憶
| 能力 | 従来型パイプライン | Vidu S1 API |
|---|---|---|
| 遅延 | 数分(オフラインレンダリング) | 準リアルタイムストリーミング |
| セッション長 | 数秒の固定クリップ | 1 分〜2 時間連続、画質劣化なし |
| 対話 | 一方向の再生 | 双方向の音声 + 映像対話 |
| 認識 | なし | ユーザーの外見と感情を認識 |
| 個性 | 固定台本 | カスタムペルソナ + 短期記憶 |
Vidu S1 API — 6 ステップで本番稼働
各セッションは 3 つのチャネルで動きます。セッション管理は HTTP、音声・映像の伝送は AliRTC、制御シグナリングは WebSocket。
セッションを作成
キャラクターのペルソナ、アバター画像、ボイスを添えて POST を 1 回呼ぶだけで、セッション ID と RTC 認証情報が返ります。
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
RTC チャネルに参加
返却された token で AliRTC チャネルに参加し、ユーザーのマイク(ビデオモードではカメラも)をパブリッシュして、キャラクターのストリームをサブスクライブします。
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
WebSocket を開く
永続的な制御チャネルに接続します。認証はクエリ文字列で渡します——ブラウザは WebSocket にカスタムヘッダーを設定できないためです。
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
準備完了を待つ
成功 ack を受信すればキャラクターはライブ状態です。ビデオモードでの NOT_READY は正常な挙動——指数バックオフ(2s → 4s → 8s)で再接続してください。
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sセッションを維持
サーバーは 5 秒ごとに ping を送信します。15 秒以内に応答してください。強制切断メッセージ(type 6)を監視し、切断理由ごとに処理します。
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
切断して課金を確認
切断メッセージを送信し、WebSocket を閉じ、RTC チャネルから退出——その後はいつでも最終ステータスと課金秒数を照会できます。
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"API 一覧
コンパクトで予測しやすい API 設計。ホスト: api.vidu.cn(中国)と api.vidu.com(国際)。
| メソッド | パス | 用途 |
|---|---|---|
| POST | /live/v1/lives | デジタルキャラクターのセッションを作成 |
| GET | /live/v1/lives/{live_id} | セッションの状態と課金を照会 |
| WSS | /live/ws/live/connect | 制御シグナリング(初期化 / 切断) |
| POST | /live/v1/voices/clone | クローンしたカスタムボイスを作成 |
| GET | /live/v1/voices | システム / カスタムボイスの一覧を取得 |
HTTP API
セッションの作成と照会。API キーによるシンプルな Token 認証です。
AliRTC チャネル
リアルタイム音声・映像はすべて AliRTC 経由——HTTP は使いません。クライアント側は SDK を 1 つ組み込むだけです。
WebSocket シグナリング
準備完了の通知、ハートビート、切断イベントを担う軽量な制御チャネル。
4 つの状態、すべて可観測
すべてのセッションは予測可能なステートマシンに従います——監視も、課金も、デバッグも簡単です。
waiting
セッション作成済み、ルーム開放、キャラクターは準備中
on_live
双方の準備完了——会話と課金が開始
ending
切断を受信、セッションを正常終了中
ended
終了——課金秒数はいつでも照会可能
Vidu S1 の活用シーン
6 つの業界がすでに、対話型デジタルキャラクターを実ユーザーの前に届けています。
AI コンパニオン
ペルソナと記憶を持つ 24 時間稼働のキャラクター。顔を合わせて会話し、気分に寄り添い、長期的な絆を育みます。
バーチャルアイドル
アニメ調でもリアル調でも。ライブ配信を仕切り、ファンの質問に答え、休みなく何時間でもパフォーマンスします。
研修・教育
説明し、実演し、学習者一人ひとりの質問にリアルタイムで合わせるチューターとトレーナー。
AI カスタマーサポート
「顔」のあるサポート。ユーザーの苛立ちを察知して自然に応対し、必要なときは人間へスムーズに引き継ぎます。
ライブコマース
24 時間休まず商品を紹介し、購入者の質問にその場で答えるデジタル配信ホスト。
インタラクティブエンタメ
プレイヤーの声と表情に物語が反応する、対話できるキャラクターとインタラクティブ映像体験。
50+ のボイス、切り替えはパラメータ 1 つ
すべてのボイスが 28 言語に対応。フィールドを 1 つ変えるだけで人格を切り替え——自分の声のクローンも作れます。
甘く温かい——ためらわず問題を解決(デフォルト)
やさしく穏やか
低く芳醇、熟成したコーヒーと古書のような声
知性と温かさの融合
映画品質のプレミアムなアメリカ英語女性ボイス
料理好きなアメリカの大学生男子
成熟した知的な英国の隣の女の子
温かく表情豊かな韓国のお姉さん
いたずら好きな日本の幼なじみ
ロマンチックなフランスのお兄さん
温かく情熱的なラテンアメリカのエネルギー
広東語ネイティブの甘い香港ガール
🌍 28 言語をすぐに利用可能
中国語、英語、日本語、韓国語、フランス語、ドイツ語、スペイン語、ポルトガル語、ロシア語、アラビア語、ヒンディー語、タイ語、ベトナム語、インドネシア語、トルコ語など——広東語、四川語、閩南語、台湾華語といった地域方言のボイスも揃っています。
🧬 ボイスクローン API
ブランド専用の声や特定人物の声質が必要ですか?カスタムクローンボイスを作成し、システムボイスと一緒に管理できます: POST /live/v1/voices/clone
透明な従量課金
支払うのはライブ会話の時間分だけ。音声モードと映像モードは完全に同一料金です。
無料トライアル
すべての新規ユーザーが対象——約 11 分のライブ対話に相当します。
- API 全機能にアクセス可能、機能制限なし
- 50+ ボイスと 28 言語をすべて利用可能
- 音声・映像の両通話モード
- カスタムペルソナとアバター画像
従量課金
シンプルな計測: キャラクターが実際にライブになった時点から課金が始まります。
- 音声・映像モードは同一料金
- 6 秒ごとに差し引き、2 秒単位で切り上げ
- セッションは最長 600 秒、自動更新可能
- 課金開始は on_live から。それより前は一切なし
- セッションあたりの最低残高: 45 クレジット
エンタープライズ
ソーシャル、EC、ゲーム、教育プラットフォーム向けのカスタムソリューション。
- 専任アカウントマネージャー
- キャラクターとペルソナのカスタム設計
- ボイスクローン導入サポート
- 貴社シナリオに合わせたアーキテクチャレビュー
クレジット単価: 0.03125。最大時間(600 秒)に達するとセッションは自動切断されます。残高がゼロになった時点で、サーバーが自動的に接続を閉じます。
Vidu S1 API — よくある質問
エンジニアが導入前に本当に知りたい詳細。
「生きている」AI キャラクターをあなたのプロダクトへ
API キーを取得し、1,000 無料クレジットを使って、今週中にリアルタイムデジタルヒューマンとユーザーを会話させましょう。
または apimart.ai で今すぐ API キーを取得