Стриминговая генерация видео · Уже доступно

Vidu S1 API — Создавайте ИИ-аватаров в реальном времени — они видят, слышат и отвечают

Vidu S1 — стриминговая модель генерации видео коммерческого уровня для живых двусторонних голосовых и видеодиалогов. Дайте пользователям ИИ-персонажа, который играет, считывает эмоции и составляет компанию — через один понятный API.

1,000 бесплатных пробных кредитов новым пользователям · Без привязки к SDK на стороне модели

2h+
Непрерывной генерации без потери качества
50+
Готовых голосов — от тёплых до кинематографичных
28
Языков поддерживает каждый голос
1,000
Бесплатных пробных кредитов новым пользователям
О Vidu S1

Что такое Vidu S1?

Vidu S1 — это модель потоковой генерации видео, созданная для интерактивных цифровых аватаров в реальном времени. В отличие от моделей, рендерящих ролики офлайн, Vidu S1 генерирует видео прямо по ходу разговора: пользователь говорит, персонаж видит и слышит его и отвечает почти в реальном времени — с мимикой, голосом и характером.

Vidu S1 API упаковывает эту технологию в простой рабочий процесс: создайте сессию по HTTP, передавайте аудио и видео через AliRTC и управляйте всем по WebSocket. От ИИ-компаньонов до ведущих live-commerce — команды используют Vidu S1 API, чтобы запускать продакшн-аватары за дни, а не месяцы.

Почему Vidu S1

Vidu S1 — Первый интерактивный цифровой персонаж коммерческого уровня

Не пререндеренная «говорящая голова», а генеративный видеоперсонаж, который взаимодействует, играет и воспринимает — в квазиреальном времени.

Взаимодействие коммерческого уровня

Первый готовый к продакшену цифровой персонаж с двусторонним восприятием: он взаимодействует, играет и реагирует на то, что видит и слышит от ваших пользователей.

Неограниченная длительность взаимодействия

Первая в мире технология генеративного видео с неограниченной длительностью взаимодействия — от 1 минуты до 2 часов непрерывной генерации без деградации качества.

Отклик в квазиреальном времени

Лидирующая в индустрии скорость инференса, точное следование инструкциям и понимание семантики — естественный разговор через экран с минимальной задержкой.

Персонажи с памятью

Задайте любую стартовую персону — реального человека, аниме-персонажа или милого питомца. Краткосрочная память делает разговоры личными, последовательными и тёплыми.

Мультимодальное восприятие

Голос, текст и видео в одной сессии. Персонаж точно считывает внешность, мимику и эмоциональное состояние пользователя.

Вывод в высоком разрешении

Качественная интерактивная генерация видео в реальном времени — готова для пользовательских продуктов в соцсетях, e-commerce, играх и образовании.

Смена поколений

Пререндеренные аватары против стриминговой генерации

Традиционные пайплайны цифровых людей проигрывают заранее отрендеренные ролики. Vidu S1 генерирует живое видео прямо по ходу разговора.

Традиционный пайплайн

Пререндеренные цифровые люди

  • Минуты офлайн-рендеринга перед воспроизведением
  • Короткие фиксированные ролики, склеенные между собой
  • Односторонняя трансляция — без настоящего диалога
  • Слепота: полное отсутствие восприятия пользователя
  • Фиксированные сценарии, одинаковые для всех зрителей
Vidu S1

Стриминговая генерация Vidu S1

  • Стриминговый инференс в квазиреальном времени
  • От 1 минуты до 2 часов непрерывного видео
  • Двусторонний живой диалог: голос + видео
  • Видит внешность, мимику и эмоции пользователя
  • Кастомная персона с краткосрочной памятью
ВозможностьТрадиционный пайплайнVidu S1 API
ЗадержкаМинуты (офлайн-рендеринг)Стриминг в квазиреальном времени
Длительность сессииФиксированные ролики на секунды1 мин – 2 ч непрерывно, без потери качества
ВзаимодействиеОдностороннее воспроизведениеДвусторонний диалог: голос + видео
ВосприятиеОтсутствуетРаспознавание внешности и эмоций пользователя
ХарактерФиксированный сценарийКастомная персона + краткосрочная память
Интеграция

Vidu S1 API — Запуск за 6 шагов

Каждую сессию обслуживают три канала: HTTP для управления сессиями, AliRTC для передачи аудио и видео, WebSocket для управляющих сигналов.

1

Создайте сессию

Один POST-запрос с персоной, изображением аватара и голосом персонажа возвращает ID сессии и учётные данные RTC.

POST https://api.vidu.com/live/v1/lives
Authorization: Token vda_xxx

{ "call_mode": "video",
  "avatar": {
    "persona": "A friendly agent...",
    "image_uri": "https://your-avatar.png",
    "name": "Mia", "voice": "Tina" } }
2

Войдите в RTC-канал

Подключитесь к каналу AliRTC с полученным токеном, опубликуйте микрофон пользователя (и камеру в видеорежиме), затем подпишитесь на поток персонажа.

await aliRtc.joinChannel(rtc.token, rtc.user_id);
await aliRtc.publishLocalAudioStream(true);
await aliRtc.publishLocalVideoStream(true);
// subscribe: live-bot-{creatorID}-{liveID}
3

Откройте WebSocket

Установите постоянный управляющий канал. Аутентификация передаётся в query-строке — браузеры не умеют задавать свои заголовки для WebSocket.

wss://api.vidu.com/live/ws/live/connect
  ?live_id={live_id}&authorization=Token%20vda_xxx

{ "type": 1, "seq_id": 1,
  "payload": { "conn_init": { "version": 1 } } }
4

Дождитесь готовности

Успешный ack означает, что персонаж в эфире. NOT_READY — норма для видеорежима: переподключайтесь с экспоненциальным бэкоффом (2s → 4s → 8s).

{ "type": 2, "payload": {
    "conn_init_ack": { "success": true } } }

// NOT_READY? retry with backoff: 2s -> 4s -> 8s
5

Поддерживайте сессию

Сервер шлёт ping каждые 5 секунд; отвечайте в течение 15. Слушайте сообщения о принудительном отключении (type 6) и обрабатывайте каждую причину завершения.

// server pings every 5s — respond within 15s
{ "type": 6, "payload": { "hangup":
    { "hangup_reason": "credit_insufficient" } } }
6

Завершите звонок и запросите биллинг

Отправьте сообщение hangup, закройте WebSocket, покиньте RTC-канал — затем запросите финальный статус и оплаченные секунды.

{ "type": 5, "seq_id": 2,
  "payload": { "hangup":
    { "hangup_reason": "user_end" } } }

GET /live/v1/lives/{live_id}"billed_seconds": "87"

Весь API как на ладони

Компактный и предсказуемый API. Хосты: api.vidu.cn (Китай) и api.vidu.com (международный).

МетодПутьНазначение
POST/live/v1/livesСоздать сессию цифрового персонажа
GET/live/v1/lives/{live_id}Запросить статус сессии и биллинг
WSS/live/ws/live/connectУправляющие сигналы (init / hangup)
POST/live/v1/voices/cloneСоздать клонированный кастомный голос
GET/live/v1/voicesСписок системных и кастомных голосов

HTTP API

Создание и запрос сессий. Простая token-аутентификация по вашему API-ключу.

Канал AliRTC

Всё аудио и видео в реальном времени идёт через AliRTC, а не по HTTP. Одна интеграция SDK на клиенте.

Сигналинг по WebSocket

Лёгкий управляющий канал: сигналы готовности, heartbeat и события завершения звонка.

Жизненный цикл сессии

Четыре состояния, полная наблюдаемость

Каждая сессия следует предсказуемой машине состояний — легко мониторить, легко тарифицировать, легко отлаживать.

1

waiting

Сессия создана, комната открыта, персонаж готовится

2

on_live

Обе стороны готовы — начинаются разговор и тарификация

3

ending

Получен hangup, сессия корректно завершается

4

ended

Завершена — оплаченные секунды можно запросить в любой момент

Сценарии применения

Где команды внедряют Vidu S1

Шесть индустрий уже выводят интерактивных цифровых персонажей к реальным пользователям.

Улыбающаяся женщина во время видеоразговора с ИИ-компаньоном

ИИ-компаньоны

Всегда доступные персонажи с персоной и памятью: общаются лицом к лицу, реагируют на настроение и выстраивают долгую привязанность.

Огни концертной сцены — живые выступления виртуальных айдолов

Виртуальные айдолы

Аниме- или реалистичные айдолы ведут прямые эфиры, отвечают на вопросы фанатов и выступают часами без перерывов.

Учебная аудитория — обучение и образование на базе ИИ

Обучение и образование

Наставники и тренеры объясняют, показывают и подстраиваются под вопросы каждого ученика в реальном времени.

Оператор поддержки в гарнитуре — клиентский сервис на базе ИИ

ИИ-поддержка клиентов

Дружелюбное лицо службы поддержки: замечает раздражение, отвечает естественно и вовремя передаёт диалог человеку.

Оформление онлайн-покупки — коммерция в прямом эфире

Продажи в прямом эфире

Цифровые ведущие круглосуточно презентуют товары и мгновенно отвечают на вопросы покупателей.

Неоновый игровой сетап — интерактивные развлечения

Интерактивные развлечения

Играбельные персонажи и иммерсивные сценарии, где история реагирует на голос и лицо игрока.

Библиотека голосов

50+ голосов на расстоянии одного параметра

Каждый голос говорит на 28 языках. Меняйте характер одним полем — или клонируйте собственный голос.

Tina

Милая и тёплая — решает проблемы без колебаний (по умолчанию)

Serena

Нежная и тёплая

Harvey

Глубокий и бархатный, выдержанный, как кофе и старые книги

Maia

Сплав интеллекта и теплоты

Jennifer

Премиальный американский женский голос кинематографического качества

Aiden

Американский студент, обожающий готовить

Mione

Зрелая интеллигентная британка — «девушка по соседству»

Sohee

Тёплая и выразительная корейская старшая сестра

Ono Anna

Озорная подруга детства из Японии

Emilien

Романтичный французский старший брат

Sonrisa

Тёплая, зажигательная латиноамериканская энергия

Kiki

Милая девушка из Гонконга, носитель кантонского

🌍 28 языков из коробки

Китайский, английский, японский, корейский, французский, немецкий, испанский, португальский, русский, арабский, хинди, тайский, вьетнамский, индонезийский, турецкий и другие — плюс региональные диалекты: кантонский, сычуаньский, хоккиен и тайваньский мандарин.

🧬 API клонирования голоса

Нужен голос бренда или тембр конкретного человека? Создавайте клонированные кастомные голоса и управляйте ими наравне с системными через POST /live/v1/voices/clone

Цены

Прозрачная оплата по факту использования

Платите только за время живого разговора. Аудио- и видеорежимы стоят одинаково.

Бесплатный старт

1,000 кредитов

Каждому новому пользователю — хватит примерно на 11 минут живого общения.

  • Полный доступ к API, без урезанных функций
  • Все 50+ голосов и 28 языков
  • Аудио- и видеозвонки
  • Кастомная персона и изображение аватара
Начать бесплатно

Enterprise

Индивидуально

Решения под задачи платформ в соцсетях, e-commerce, играх и образовании.

  • Персональный менеджер
  • Дизайн персонажа и персоны под ваш бренд
  • Помощь с онбордингом клонирования голоса
  • Ревью архитектуры под ваш сценарий
Связаться с нами

Цена кредита: 0.03125. Сессия автоматически отключается по достижении максимальной длительности (600 s); при нулевом балансе сервер сам закрывает соединение.

FAQ

Vidu S1 API — Часто задаваемые вопросы

Детали, о которых инженеры действительно спрашивают перед интеграцией.

Vidu S1 — коммерческая модель потоковой генерации видео для интерактивных цифровых аватаров в реальном времени. Через Vidu S1 API разработчики создают живые сессии, в которых ИИ-персонаж видит, слышит и разговаривает с пользователем: неограниченная длительность генерации, 50+ голосов и 28 языков.
Тарификация начинается в момент, когда цифровой персонаж готов и сессия переходит в on_live — ровно когда conn_init_ack.success возвращает true. Тариф — 3 кредита за 2 секунды, списание каждые 6 секунд с округлением вверх до ближайшего интервала в 2 секунды. Аудио- и видеорежимы стоят одинаково.
Нет. HTTP используется для создания и запроса сессий. Аудио и видео в реальном времени передаются через канал AliRTC (отдельная интеграция SDK), а управление сессией идёт по сигнальному соединению WebSocket. Живую сессию образуют все три канала вместе.
NOT_READY — ожидаемое поведение в видеорежиме: сторона персонажа ещё готовится. Закройте соединение, немного подождите, переподключитесь и отправьте init-сообщение заново, используя экспоненциальный бэкофф (2s → 4s → 8s). Если же пришёл LIVE_CONN_INIT_FAILED — это окончательно: создайте новую сессию.
Максимальная длительность сессии — 600 секунд; по её достижении сервер отключает соединение автоматически. Для более долгих сценариев создайте новую сессию и переподключитесь — сама модель поддерживает непрерывную генерацию от 1 минуты до 2 часов без потери качества.
Сервер автоматически закроет соединение с причиной завершения credit_insufficient. Для старта каждой новой сессии также требуется минимальный баланс в 45 кредитов, поэтому пополните счёт до запуска на реальных пользователях.
50+ готовых голосов, каждый поддерживает 28 языков, включая английский, китайский, японский, корейский, французский, немецкий, испанский, португальский, русский, арабский и хинди. Доступны и голоса с региональными диалектами (кантонский, сычуаньский, хоккиен, тайваньский мандарин и другие), а через API можно клонировать собственные голоса.
Для развёртываний в материковом Китае используйте api.vidu.cn, для международных — api.vidu.com. Аутентификация — простой заголовок: Authorization: Token vda_xxx. Для WebSocket-соединений передавайте токен в query-параметре authorization, поскольку браузеры не умеют задавать свои заголовки для WebSocket.
Одно изображение с одним человеком — в полный рост или по пояс, в любом стиле (фотореализм, аниме, питомец). PNG, JPG, JPEG или WEBP до 50 MB, в виде URL или Base64. Вместе со свободным промптом персоны оно определяет, как ваш персонаж выглядит и ведёт себя.

Поселите в своём продукте живого ИИ-персонажа

Получите API-ключ, потратьте 1,000 бесплатных кредитов — и уже на этой неделе цифровой человек в реальном времени заговорит с вашими пользователями.

Или получите API-ключ мгновенно на apimart.ai