Стриминговая генерация видео · Уже доступно

Vidu S1 API — Создавайте ИИ-аватаров в реальном времени — они видят, слышат и отвечают

Vidu S1 — стриминговая модель генерации видео коммерческого уровня для живых двусторонних голосовых и видеодиалогов. Дайте пользователям ИИ-персонажа, который играет, считывает эмоции и составляет компанию — через один понятный API.

Получить API-ключ Руководство по интеграции

1,000 бесплатных пробных кредитов новым пользователям · Без привязки к SDK на стороне модели

2h+

Непрерывной генерации без потери качества

50+

Готовых голосов — от тёплых до кинематографичных

Языков поддерживает каждый голос

1,000

Бесплатных пробных кредитов новым пользователям

О Vidu S1

Что такое Vidu S1?

Vidu S1 — это модель потоковой генерации видео, созданная для интерактивных цифровых аватаров в реальном времени. В отличие от моделей, рендерящих ролики офлайн, Vidu S1 генерирует видео прямо по ходу разговора: пользователь говорит, персонаж видит и слышит его и отвечает почти в реальном времени — с мимикой, голосом и характером.

Vidu S1 API упаковывает эту технологию в простой рабочий процесс: создайте сессию по HTTP, передавайте аудио и видео через AliRTC и управляйте всем по WebSocket. От ИИ-компаньонов до ведущих live-commerce — команды используют Vidu S1 API, чтобы запускать продакшн-аватары за дни, а не месяцы.

Почему Vidu S1

Vidu S1 — Первый интерактивный цифровой персонаж коммерческого уровня

Не пререндеренная «говорящая голова», а генеративный видеоперсонаж, который взаимодействует, играет и воспринимает — в квазиреальном времени.

Взаимодействие коммерческого уровня

Первый готовый к продакшену цифровой персонаж с двусторонним восприятием: он взаимодействует, играет и реагирует на то, что видит и слышит от ваших пользователей.

Неограниченная длительность взаимодействия

Первая в мире технология генеративного видео с неограниченной длительностью взаимодействия — от 1 минуты до 2 часов непрерывной генерации без деградации качества.

Отклик в квазиреальном времени

Лидирующая в индустрии скорость инференса, точное следование инструкциям и понимание семантики — естественный разговор через экран с минимальной задержкой.

Персонажи с памятью

Задайте любую стартовую персону — реального человека, аниме-персонажа или милого питомца. Краткосрочная память делает разговоры личными, последовательными и тёплыми.

Мультимодальное восприятие

Голос, текст и видео в одной сессии. Персонаж точно считывает внешность, мимику и эмоциональное состояние пользователя.

Вывод в высоком разрешении

Качественная интерактивная генерация видео в реальном времени — готова для пользовательских продуктов в соцсетях, e-commerce, играх и образовании.

Смена поколений

Пререндеренные аватары против стриминговой генерации

Традиционные пайплайны цифровых людей проигрывают заранее отрендеренные ролики. Vidu S1 генерирует живое видео прямо по ходу разговора.

Традиционный пайплайн

Пререндеренные цифровые люди

Минуты офлайн-рендеринга перед воспроизведением
Короткие фиксированные ролики, склеенные между собой
Односторонняя трансляция — без настоящего диалога
Слепота: полное отсутствие восприятия пользователя
Фиксированные сценарии, одинаковые для всех зрителей

Vidu S1

Стриминговая генерация Vidu S1

Стриминговый инференс в квазиреальном времени
От 1 минуты до 2 часов непрерывного видео
Двусторонний живой диалог: голос + видео
Видит внешность, мимику и эмоции пользователя
Кастомная персона с краткосрочной памятью

Возможность	Традиционный пайплайн	Vidu S1 API
Задержка	Минуты (офлайн-рендеринг)	Стриминг в квазиреальном времени
Длительность сессии	Фиксированные ролики на секунды	1 мин – 2 ч непрерывно, без потери качества
Взаимодействие	Одностороннее воспроизведение	Двусторонний диалог: голос + видео
Восприятие	Отсутствует	Распознавание внешности и эмоций пользователя
Характер	Фиксированный сценарий	Кастомная персона + краткосрочная память

Интеграция

Vidu S1 API — Запуск за 6 шагов

Каждую сессию обслуживают три канала: HTTP для управления сессиями, AliRTC для передачи аудио и видео, WebSocket для управляющих сигналов.

Создайте сессию

Один POST-запрос с персоной, изображением аватара и голосом персонажа возвращает ID сессии и учётные данные RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }

Войдите в RTC-канал

Подключитесь к каналу AliRTC с полученным токеном, опубликуйте микрофон пользователя (и камеру в видеорежиме), затем подпишитесь на поток персонажа.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}

Откройте WebSocket

Установите постоянный управляющий канал. Аутентификация передаётся в query-строке — браузеры не умеют задавать свои заголовки для WebSocket.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }

Дождитесь готовности

Успешный ack означает, что персонаж в эфире. NOT_READY — норма для видеорежима: переподключайтесь с экспоненциальным бэкоффом (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s

Поддерживайте сессию

Сервер шлёт ping каждые 5 секунд; отвечайте в течение 15. Слушайте сообщения о принудительном отключении (type 6) и обрабатывайте каждую причину завершения.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }

Завершите звонок и запросите биллинг

Отправьте сообщение hangup, закройте WebSocket, покиньте RTC-канал — затем запросите финальный статус и оплаченные секунды.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id} → "billed_seconds": "87"

Весь API как на ладони

Компактный и предсказуемый API. Хосты: api.vidu.cn (Китай) и api.vidu.com (международный).

Метод	Путь	Назначение
POST	`/live/v1/lives`	Создать сессию цифрового персонажа
GET	`/live/v1/lives/{live_id}`	Запросить статус сессии и биллинг
WSS	`/live/ws/live/connect`	Управляющие сигналы (init / hangup)
POST	`/live/v1/voices/clone`	Создать клонированный кастомный голос
GET	`/live/v1/voices`	Список системных и кастомных голосов

HTTP API

Создание и запрос сессий. Простая token-аутентификация по вашему API-ключу.

Канал AliRTC

Всё аудио и видео в реальном времени идёт через AliRTC, а не по HTTP. Одна интеграция SDK на клиенте.

Сигналинг по WebSocket

Лёгкий управляющий канал: сигналы готовности, heartbeat и события завершения звонка.

Жизненный цикл сессии

Четыре состояния, полная наблюдаемость

Каждая сессия следует предсказуемой машине состояний — легко мониторить, легко тарифицировать, легко отлаживать.

waiting

Сессия создана, комната открыта, персонаж готовится

on_live

Обе стороны готовы — начинаются разговор и тарификация

ending

Получен hangup, сессия корректно завершается

ended

Завершена — оплаченные секунды можно запросить в любой момент

Сценарии применения

Где команды внедряют Vidu S1

Шесть индустрий уже выводят интерактивных цифровых персонажей к реальным пользователям.

Улыбающаяся женщина во время видеоразговора с ИИ-компаньоном

ИИ-компаньоны

Всегда доступные персонажи с персоной и памятью: общаются лицом к лицу, реагируют на настроение и выстраивают долгую привязанность.

Огни концертной сцены — живые выступления виртуальных айдолов

Виртуальные айдолы

Аниме- или реалистичные айдолы ведут прямые эфиры, отвечают на вопросы фанатов и выступают часами без перерывов.

Обучение и образование

Наставники и тренеры объясняют, показывают и подстраиваются под вопросы каждого ученика в реальном времени.

Оператор поддержки в гарнитуре — клиентский сервис на базе ИИ

ИИ-поддержка клиентов

Дружелюбное лицо службы поддержки: замечает раздражение, отвечает естественно и вовремя передаёт диалог человеку.

Оформление онлайн-покупки — коммерция в прямом эфире

Продажи в прямом эфире

Цифровые ведущие круглосуточно презентуют товары и мгновенно отвечают на вопросы покупателей.

Интерактивные развлечения

Играбельные персонажи и иммерсивные сценарии, где история реагирует на голос и лицо игрока.

Библиотека голосов

50+ голосов на расстоянии одного параметра

Каждый голос говорит на 28 языках. Меняйте характер одним полем — или клонируйте собственный голос.

Tina

Милая и тёплая — решает проблемы без колебаний (по умолчанию)

Serena

Нежная и тёплая

Harvey

Глубокий и бархатный, выдержанный, как кофе и старые книги

Maia

Сплав интеллекта и теплоты

Jennifer

Премиальный американский женский голос кинематографического качества

Aiden

Американский студент, обожающий готовить

Mione

Зрелая интеллигентная британка — «девушка по соседству»

Sohee

Тёплая и выразительная корейская старшая сестра

Ono Anna

Озорная подруга детства из Японии

Emilien

Романтичный французский старший брат

Sonrisa

Тёплая, зажигательная латиноамериканская энергия

Kiki

Милая девушка из Гонконга, носитель кантонского

🌍 28 языков из коробки

Китайский, английский, японский, корейский, французский, немецкий, испанский, португальский, русский, арабский, хинди, тайский, вьетнамский, индонезийский, турецкий и другие — плюс региональные диалекты: кантонский, сычуаньский, хоккиен и тайваньский мандарин.

🧬 API клонирования голоса

Нужен голос бренда или тембр конкретного человека? Создавайте клонированные кастомные голоса и управляйте ими наравне с системными через POST /live/v1/voices/clone

Цены

Прозрачная оплата по факту использования

Платите только за время живого разговора. Аудио- и видеорежимы стоят одинаково.

Бесплатный старт

1,000 кредитов

Каждому новому пользователю — хватит примерно на 11 минут живого общения.

Полный доступ к API, без урезанных функций
Все 50+ голосов и 28 языков
Аудио- и видеозвонки
Кастомная персона и изображение аватара

Начать бесплатно

Самый популярный

Оплата по использованию

3 кредита / 2 s

Простая тарификация: списание начинается только тогда, когда персонаж действительно выходит в эфир.

Одна цена для аудио- и видеорежима
Списание каждые 6 s, округление до шага 2 s
Сессии до 600 s с автопродлением
Тарификация стартует на on_live и никогда раньше
Минимальный баланс: 45 кредитов на сессию

Получить API-ключ

Enterprise

Индивидуально

Решения под задачи платформ в соцсетях, e-commerce, играх и образовании.

Персональный менеджер
Дизайн персонажа и персоны под ваш бренд
Помощь с онбордингом клонирования голоса
Ревью архитектуры под ваш сценарий

Связаться с нами

Цена кредита: 0.03125. Сессия автоматически отключается по достижении максимальной длительности (600 s); при нулевом балансе сервер сам закрывает соединение.

FAQ

Vidu S1 API — Часто задаваемые вопросы

Детали, о которых инженеры действительно спрашивают перед интеграцией.

Что такое Vidu S1?

Vidu S1 — коммерческая модель потоковой генерации видео для интерактивных цифровых аватаров в реальном времени. Через Vidu S1 API разработчики создают живые сессии, в которых ИИ-персонаж видит, слышит и разговаривает с пользователем: неограниченная длительность генерации, 50+ голосов и 28 языков.

Когда начинается тарификация и как считается использование?

Тарификация начинается в момент, когда цифровой персонаж готов и сессия переходит в on_live — ровно когда conn_init_ack.success возвращает true. Тариф — 3 кредита за 2 секунды, списание каждые 6 секунд с округлением вверх до ближайшего интервала в 2 секунды. Аудио- и видеорежимы стоят одинаково.

Можно ли взаимодействовать с цифровым персонажем только по HTTP?

Нет. HTTP используется для создания и запроса сессий. Аудио и видео в реальном времени передаются через канал AliRTC (отдельная интеграция SDK), а управление сессией идёт по сигнальному соединению WebSocket. Живую сессию образуют все три канала вместе.

Что делать, если WebSocket возвращает NOT_READY?

NOT_READY — ожидаемое поведение в видеорежиме: сторона персонажа ещё готовится. Закройте соединение, немного подождите, переподключитесь и отправьте init-сообщение заново, используя экспоненциальный бэкофф (2s → 4s → 8s). Если же пришёл LIVE_CONN_INIT_FAILED — это окончательно: создайте новую сессию.

Как долго может длиться одна сессия?

Максимальная длительность сессии — 600 секунд; по её достижении сервер отключает соединение автоматически. Для более долгих сценариев создайте новую сессию и переподключитесь — сама модель поддерживает непрерывную генерацию от 1 минуты до 2 часов без потери качества.

Что произойдёт, когда баланс кредитов достигнет нуля?

Сервер автоматически закроет соединение с причиной завершения credit_insufficient. Для старта каждой новой сессии также требуется минимальный баланс в 45 кредитов, поэтому пополните счёт до запуска на реальных пользователях.

Какие языки и голоса доступны?

50+ готовых голосов, каждый поддерживает 28 языков, включая английский, китайский, японский, корейский, французский, немецкий, испанский, португальский, русский, арабский и хинди. Доступны и голоса с региональными диалектами (кантонский, сычуаньский, хоккиен, тайваньский мандарин и другие), а через API можно клонировать собственные голоса.

Какой хост API использовать?

Для развёртываний в материковом Китае используйте api.vidu.cn, для международных — api.vidu.com. Аутентификация — простой заголовок: Authorization: Token vda_xxx. Для WebSocket-соединений передавайте токен в query-параметре authorization, поскольку браузеры не умеют задавать свои заголовки для WebSocket.

Какие изображения аватара можно использовать для персонажа?

Одно изображение с одним человеком — в полный рост или по пояс, в любом стиле (фотореализм, аниме, питомец). PNG, JPG, JPEG или WEBP до 50 MB, в виде URL или Base64. Вместе со свободным промптом персоны оно определяет, как ваш персонаж выглядит и ведёт себя.

Поселите в своём продукте живого ИИ-персонажа

Получите API-ключ, потратьте 1,000 бесплатных кредитов — и уже на этой неделе цифровой человек в реальном времени заговорит с вашими пользователями.

Или получите API-ключ мгновенно на apimart.ai