ストリーミング映像生成 · 商用提供中

Vidu S1 API — 見て、聞いて、応えるリアルタイム AI デジタルヒューマンを構築しよう

Vidu S1 は、双方向の音声・映像会話をリアルタイムに実現する商用グレードのストリーミング映像生成モデル。演技し、感情を読み取り、そばに寄り添い続ける AI キャラクターを、ひとつのクリーンな API でユーザーに届けられます。

API キーを取得導入ガイドを見る

新規ユーザーに 1,000 無料トライアルクレジット · モデル側の SDK ロックインなし

2h+

連続生成でも画質劣化ゼロ

50+

プリセットボイス。温かい声から映画級まで

すべてのボイスが対応する言語数

1,000

新規ユーザー向け無料トライアルクレジット

Vidu S1 とは

Vidu S1 とは？

Vidu S1 は、リアルタイム対話型デジタルヒューマンのために設計されたストリーミング動画生成モデルです。クリップをオフラインでレンダリングする従来モデルと異なり、Vidu S1 は会話が進むそのままに映像を生成します。ユーザーが話しかければ、キャラクターは見て、聞いて、表情・声・個性を持って準リアルタイムに応答します。

Vidu S1 API はこの能力をシンプルな開発者ワークフローにまとめました。HTTP でセッションを作成し、AliRTC で音声・映像を伝送し、WebSocket で制御する。AI コンパニオンからライブコマース配信者まで、各チームが Vidu S1 API を使って本番品質のデジタルヒューマンを数日でリリースしています。

Vidu S1 を選ぶ理由

Vidu S1 — 初の商用グレード・対話型デジタルキャラクター

事前レンダリングの「しゃべる顔」ではありません。対話し、演じ、感じ取る生成型ビデオキャラクター——それも準リアルタイムで。

商用グレードの対話性能

双方向認識を備えた初のプロダクションレディなデジタルキャラクター。ユーザーから見えるもの、聞こえるものすべてに対話し、演じ、反応します。

無制限の対話時間

時間無制限の対話に対応した世界初の生成型ビデオ技術。1 分から 2 時間まで、画質を落とすことなく連続生成できます。

準リアルタイム応答

業界最高水準の推論速度と、高い指示追従・意味理解能力。遅延をほぼ感じさせない、画面越しの自然な会話を実現します。

ペルソナと記憶

実在の人物、アニメキャラ、かわいいペット——初期ペルソナは自由に定義できます。短期記憶が会話をパーソナルで一貫した、温かいものに保ちます。

マルチモーダル認識

音声・テキスト・映像の入力を 1 つのセッションで処理。キャラクターはユーザーの外見・表情・感情の状態を正確に読み取ります。

高解像度出力

高品質なリアルタイム対話映像を生成。ソーシャル、EC、ゲーム、教育などのコンシューマー向けプロダクトにそのまま投入できます。

世代を超える進化

事前レンダリング型アバター vs ストリーミング生成

従来のデジタルヒューマンはレンダリング済みクリップを再生するだけ。Vidu S1 は会話が進むそばからライブ映像を生成します。

従来型パイプライン

事前レンダリング型デジタルヒューマン

再生前に数分のオフラインレンダリングが必要
短い固定クリップのつなぎ合わせ
一方向の再生のみ——本当の会話はできない
ユーザーをまったく認識できない
固定台本で、誰が見ても同じ内容

Vidu S1

Vidu S1 ストリーミング生成

準リアルタイムのストリーミング推論
1 分から 2 時間の連続映像生成
双方向のライブ音声 + 映像会話
ユーザーの外見・表情・感情を認識
カスタムペルソナ + 短期記憶

能力	従来型パイプライン	Vidu S1 API
遅延	数分（オフラインレンダリング）	準リアルタイムストリーミング
セッション長	数秒の固定クリップ	1 分〜2 時間連続、画質劣化なし
対話	一方向の再生	双方向の音声 + 映像対話
認識	なし	ユーザーの外見と感情を認識
個性	固定台本	カスタムペルソナ + 短期記憶

導入手順

Vidu S1 API — 6 ステップで本番稼働

各セッションは 3 つのチャネルで動きます。セッション管理は HTTP、音声・映像の伝送は AliRTC、制御シグナリングは WebSocket。

セッションを作成

キャラクターのペルソナ、アバター画像、ボイスを添えて POST を 1 回呼ぶだけで、セッション ID と RTC 認証情報が返ります。

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

RTC チャネルに参加

返却された token で AliRTC チャネルに参加し、ユーザーのマイク（ビデオモードではカメラも）をパブリッシュして、キャラクターのストリームをサブスクライブします。

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

WebSocket を開く

永続的な制御チャネルに接続します。認証はクエリ文字列で渡します——ブラウザは WebSocket にカスタムヘッダーを設定できないためです。

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

準備完了を待つ

成功 ack を受信すればキャラクターはライブ状態です。ビデオモードでの NOT_READY は正常な挙動——指数バックオフ（2s → 4s → 8s）で再接続してください。

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

セッションを維持

サーバーは 5 秒ごとに ping を送信します。15 秒以内に応答してください。強制切断メッセージ（type 6）を監視し、切断理由ごとに処理します。

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

切断して課金を確認

切断メッセージを送信し、WebSocket を閉じ、RTC チャネルから退出——その後はいつでも最終ステータスと課金秒数を照会できます。

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

API 一覧

コンパクトで予測しやすい API 設計。ホスト: api.vidu.cn（中国）と api.vidu.com（国際）。

メソッド	パス	用途
POST	`/live/v1/lives`	デジタルキャラクターのセッションを作成
GET	`/live/v1/lives/{live_id}`	セッションの状態と課金を照会
WSS	`/live/ws/live/connect`	制御シグナリング（初期化 / 切断）
POST	`/live/v1/voices/clone`	クローンしたカスタムボイスを作成
GET	`/live/v1/voices`	システム / カスタムボイスの一覧を取得

HTTP API

セッションの作成と照会。API キーによるシンプルな Token 認証です。

AliRTC チャネル

リアルタイム音声・映像はすべて AliRTC 経由——HTTP は使いません。クライアント側は SDK を 1 つ組み込むだけです。

WebSocket シグナリング

準備完了の通知、ハートビート、切断イベントを担う軽量な制御チャネル。

セッションのライフサイクル

4 つの状態、すべて可観測

すべてのセッションは予測可能なステートマシンに従います——監視も、課金も、デバッグも簡単です。

waiting

セッション作成済み、ルーム開放、キャラクターは準備中

on_live

双方の準備完了——会話と課金が開始

ending

切断を受信、セッションを正常終了中

ended

終了——課金秒数はいつでも照会可能

ユースケース

Vidu S1 の活用シーン

6 つの業界がすでに、対話型デジタルキャラクターを実ユーザーの前に届けています。

AI コンパニオン

ペルソナと記憶を持つ 24 時間稼働のキャラクター。顔を合わせて会話し、気分に寄り添い、長期的な絆を育みます。

バーチャルアイドル

アニメ調でもリアル調でも。ライブ配信を仕切り、ファンの質問に答え、休みなく何時間でもパフォーマンスします。

研修・教育

説明し、実演し、学習者一人ひとりの質問にリアルタイムで合わせるチューターとトレーナー。

AI カスタマーサポート

「顔」のあるサポート。ユーザーの苛立ちを察知して自然に応対し、必要なときは人間へスムーズに引き継ぎます。

ライブコマース

24 時間休まず商品を紹介し、購入者の質問にその場で答えるデジタル配信ホスト。

インタラクティブエンタメ

プレイヤーの声と表情に物語が反応する、対話できるキャラクターとインタラクティブ映像体験。

ボイスライブラリ

50+ のボイス、切り替えはパラメータ 1 つ

すべてのボイスが 28 言語に対応。フィールドを 1 つ変えるだけで人格を切り替え——自分の声のクローンも作れます。

Tina

甘く温かい——ためらわず問題を解決（デフォルト）

Serena

やさしく穏やか

Harvey

低く芳醇、熟成したコーヒーと古書のような声

Maia

知性と温かさの融合

Jennifer

映画品質のプレミアムなアメリカ英語女性ボイス

Aiden

料理好きなアメリカの大学生男子

Mione

成熟した知的な英国の隣の女の子

Sohee

温かく表情豊かな韓国のお姉さん

Ono Anna

いたずら好きな日本の幼なじみ

Emilien

ロマンチックなフランスのお兄さん

Sonrisa

温かく情熱的なラテンアメリカのエネルギー

Kiki

広東語ネイティブの甘い香港ガール

🌍 28 言語をすぐに利用可能

中国語、英語、日本語、韓国語、フランス語、ドイツ語、スペイン語、ポルトガル語、ロシア語、アラビア語、ヒンディー語、タイ語、ベトナム語、インドネシア語、トルコ語など——広東語、四川語、閩南語、台湾華語といった地域方言のボイスも揃っています。

🧬 ボイスクローン API

ブランド専用の声や特定人物の声質が必要ですか？カスタムクローンボイスを作成し、システムボイスと一緒に管理できます: POST /live/v1/voices/clone

料金

透明な従量課金

支払うのはライブ会話の時間分だけ。音声モードと映像モードは完全に同一料金です。

無料トライアル

1,000 クレジット

すべての新規ユーザーが対象——約 11 分のライブ対話に相当します。

API 全機能にアクセス可能、機能制限なし
50+ ボイスと 28 言語をすべて利用可能
音声・映像の両通話モード
カスタムペルソナとアバター画像

無料で始める

一番人気

従量課金

3 クレジット / 2 秒

シンプルな計測: キャラクターが実際にライブになった時点から課金が始まります。

音声・映像モードは同一料金
6 秒ごとに差し引き、2 秒単位で切り上げ
セッションは最長 600 秒、自動更新可能
課金開始は on_live から。それより前は一切なし
セッションあたりの最低残高: 45 クレジット

API キーを取得

エンタープライズ

カスタム

ソーシャル、EC、ゲーム、教育プラットフォーム向けのカスタムソリューション。

専任アカウントマネージャー
キャラクターとペルソナのカスタム設計
ボイスクローン導入サポート
貴社シナリオに合わせたアーキテクチャレビュー

相談する

クレジット単価: 0.03125。最大時間（600 秒）に達するとセッションは自動切断されます。残高がゼロになった時点で、サーバーが自動的に接続を閉じます。

FAQ

Vidu S1 API — よくある質問

エンジニアが導入前に本当に知りたい詳細。

Vidu S1 とは何ですか？

Vidu S1 は、リアルタイム対話型デジタルヒューマンのための商用グレードのストリーミング動画生成モデルです。開発者は Vidu S1 API でライブセッションを作成し、AI キャラクターがユーザーを見て、聞いて、話せるようにできます。無制限の生成時間、50 以上のボイス、28 言語に対応します。

課金はいつ開始され、どのように計測されますか？

課金はデジタルキャラクターの準備が整い、セッションが on_live に入った瞬間——すなわち conn_init_ack.success が true を返した時点から始まります。レートは 2 秒あたり 3 クレジットで、6 秒ごとに差し引かれ、2 秒単位で切り上げられます。音声モードと映像モードは同一料金です。

HTTP だけでデジタルキャラクターと対話できますか？

できません。HTTP はセッションの作成と照会に使います。リアルタイム音声・映像は AliRTC チャネル（別途 SDK の統合が必要）で伝送され、セッション制御は WebSocket シグナリング接続で行われます。3 つのチャネルが揃って初めて、1 つのライブセッションが成立します。

WebSocket が NOT_READY を返したらどうすればいいですか？

ビデオモードでの NOT_READY は想定内の挙動です——キャラクター側がまだ準備中です。接続を閉じて少し待ち、再接続して init メッセージを再送してください。その際は指数バックオフ（2s → 4s → 8s）を使います。代わりに LIVE_CONN_INIT_FAILED を受け取った場合は恒久的な失敗なので、新しいセッションを作成してください。

1 回のセッションはどれくらい続けられますか？

セッションの最大時間は 600 秒で、到達するとサーバーが自動的に切断します。より長い体験が必要な場合は、新しいセッションを作成して再接続してください——基盤モデル自体は 1 分から 2 時間まで、画質劣化なしの連続生成に対応しています。

クレジット残高がゼロになるとどうなりますか？

サーバーが credit_insufficient という切断理由とともに、自動的に接続を閉じます。また、新規セッションの開始には 45 クレジット以上の残高が必要です。実ユーザーへの公開前にチャージしておきましょう。

どの言語とボイスが利用できますか？

50+ のプリセットボイスがあり、それぞれ英語、中国語、日本語、韓国語、フランス語、ドイツ語、スペイン語、ポルトガル語、ロシア語、アラビア語、ヒンディー語を含む 28 言語に対応します。広東語、四川語、閩南語、台湾華語などの方言ボイスも利用でき、API 経由でカスタムボイスをクローンすることも可能です。

どちらの API ホストを使うべきですか？

中国本土向けのデプロイには api.vidu.cn、国際向けには api.vidu.com を使用してください。認証はシンプルなヘッダー 1 つです: Authorization: Token vda_xxx。WebSocket 接続ではブラウザがカスタムヘッダーを設定できないため、token を authorization クエリパラメータで渡します。

キャラクターのアバター画像には何が使えますか？

1 人だけが写った 1 枚の画像です——全身でも半身でも、スタイルは自由（実写、アニメ、ペット）。PNG、JPG、JPEG、WEBP 形式で最大 50 MB、URL または Base64 で渡せます。自由記述のペルソナプロンプトと組み合わせて、キャラクターの外見と振る舞いを定義します。

「生きている」AI キャラクターをあなたのプロダクトへ

API キーを取得し、1,000 無料クレジットを使って、今週中にリアルタイムデジタルヒューマンとユーザーを会話させましょう。

または apimart.ai で今すぐ API キーを取得