Vidu S1 API — Создавайте ИИ-аватаров в реальном времени — они видят, слышат и отвечают
Vidu S1 — стриминговая модель генерации видео коммерческого уровня для живых двусторонних голосовых и видеодиалогов. Дайте пользователям ИИ-персонажа, который играет, считывает эмоции и составляет компанию — через один понятный API.
1,000 бесплатных пробных кредитов новым пользователям · Без привязки к SDK на стороне модели
Что такое Vidu S1?
Vidu S1 — это модель потоковой генерации видео, созданная для интерактивных цифровых аватаров в реальном времени. В отличие от моделей, рендерящих ролики офлайн, Vidu S1 генерирует видео прямо по ходу разговора: пользователь говорит, персонаж видит и слышит его и отвечает почти в реальном времени — с мимикой, голосом и характером.
Vidu S1 API упаковывает эту технологию в простой рабочий процесс: создайте сессию по HTTP, передавайте аудио и видео через AliRTC и управляйте всем по WebSocket. От ИИ-компаньонов до ведущих live-commerce — команды используют Vidu S1 API, чтобы запускать продакшн-аватары за дни, а не месяцы.
Vidu S1 — Первый интерактивный цифровой персонаж коммерческого уровня
Не пререндеренная «говорящая голова», а генеративный видеоперсонаж, который взаимодействует, играет и воспринимает — в квазиреальном времени.
Взаимодействие коммерческого уровня
Первый готовый к продакшену цифровой персонаж с двусторонним восприятием: он взаимодействует, играет и реагирует на то, что видит и слышит от ваших пользователей.
Неограниченная длительность взаимодействия
Первая в мире технология генеративного видео с неограниченной длительностью взаимодействия — от 1 минуты до 2 часов непрерывной генерации без деградации качества.
Отклик в квазиреальном времени
Лидирующая в индустрии скорость инференса, точное следование инструкциям и понимание семантики — естественный разговор через экран с минимальной задержкой.
Персонажи с памятью
Задайте любую стартовую персону — реального человека, аниме-персонажа или милого питомца. Краткосрочная память делает разговоры личными, последовательными и тёплыми.
Мультимодальное восприятие
Голос, текст и видео в одной сессии. Персонаж точно считывает внешность, мимику и эмоциональное состояние пользователя.
Вывод в высоком разрешении
Качественная интерактивная генерация видео в реальном времени — готова для пользовательских продуктов в соцсетях, e-commerce, играх и образовании.
Пререндеренные аватары против стриминговой генерации
Традиционные пайплайны цифровых людей проигрывают заранее отрендеренные ролики. Vidu S1 генерирует живое видео прямо по ходу разговора.
Пререндеренные цифровые люди
- Минуты офлайн-рендеринга перед воспроизведением
- Короткие фиксированные ролики, склеенные между собой
- Односторонняя трансляция — без настоящего диалога
- Слепота: полное отсутствие восприятия пользователя
- Фиксированные сценарии, одинаковые для всех зрителей
Стриминговая генерация Vidu S1
- Стриминговый инференс в квазиреальном времени
- От 1 минуты до 2 часов непрерывного видео
- Двусторонний живой диалог: голос + видео
- Видит внешность, мимику и эмоции пользователя
- Кастомная персона с краткосрочной памятью
| Возможность | Традиционный пайплайн | Vidu S1 API |
|---|---|---|
| Задержка | Минуты (офлайн-рендеринг) | Стриминг в квазиреальном времени |
| Длительность сессии | Фиксированные ролики на секунды | 1 мин – 2 ч непрерывно, без потери качества |
| Взаимодействие | Одностороннее воспроизведение | Двусторонний диалог: голос + видео |
| Восприятие | Отсутствует | Распознавание внешности и эмоций пользователя |
| Характер | Фиксированный сценарий | Кастомная персона + краткосрочная память |
Vidu S1 API — Запуск за 6 шагов
Каждую сессию обслуживают три канала: HTTP для управления сессиями, AliRTC для передачи аудио и видео, WebSocket для управляющих сигналов.
Создайте сессию
Один POST-запрос с персоной, изображением аватара и голосом персонажа возвращает ID сессии и учётные данные RTC.
POST https://api.vidu.com/live/v1/lives Authorization: Token vda_xxx { "call_mode": "video", "avatar": { "persona": "A friendly agent...", "image_uri": "https://your-avatar.png", "name": "Mia", "voice": "Tina" } }
Войдите в RTC-канал
Подключитесь к каналу AliRTC с полученным токеном, опубликуйте микрофон пользователя (и камеру в видеорежиме), затем подпишитесь на поток персонажа.
await aliRtc.joinChannel(rtc.token, rtc.user_id); await aliRtc.publishLocalAudioStream(true); await aliRtc.publishLocalVideoStream(true); // subscribe: live-bot-{creatorID}-{liveID}
Откройте WebSocket
Установите постоянный управляющий канал. Аутентификация передаётся в query-строке — браузеры не умеют задавать свои заголовки для WebSocket.
wss://api.vidu.com/live/ws/live/connect ?live_id={live_id}&authorization=Token%20vda_xxx { "type": 1, "seq_id": 1, "payload": { "conn_init": { "version": 1 } } }
Дождитесь готовности
Успешный ack означает, что персонаж в эфире. NOT_READY — норма для видеорежима: переподключайтесь с экспоненциальным бэкоффом (2s → 4s → 8s).
{ "type": 2, "payload": {
"conn_init_ack": { "success": true } } }
// NOT_READY? retry with backoff: 2s -> 4s -> 8sПоддерживайте сессию
Сервер шлёт ping каждые 5 секунд; отвечайте в течение 15. Слушайте сообщения о принудительном отключении (type 6) и обрабатывайте каждую причину завершения.
// server pings every 5s — respond within 15s { "type": 6, "payload": { "hangup": { "hangup_reason": "credit_insufficient" } } }
Завершите звонок и запросите биллинг
Отправьте сообщение hangup, закройте WebSocket, покиньте RTC-канал — затем запросите финальный статус и оплаченные секунды.
{ "type": 5, "seq_id": 2,
"payload": { "hangup":
{ "hangup_reason": "user_end" } } }
GET /live/v1/lives/{live_id} → "billed_seconds": "87"Весь API как на ладони
Компактный и предсказуемый API. Хосты: api.vidu.cn (Китай) и api.vidu.com (международный).
| Метод | Путь | Назначение |
|---|---|---|
| POST | /live/v1/lives | Создать сессию цифрового персонажа |
| GET | /live/v1/lives/{live_id} | Запросить статус сессии и биллинг |
| WSS | /live/ws/live/connect | Управляющие сигналы (init / hangup) |
| POST | /live/v1/voices/clone | Создать клонированный кастомный голос |
| GET | /live/v1/voices | Список системных и кастомных голосов |
HTTP API
Создание и запрос сессий. Простая token-аутентификация по вашему API-ключу.
Канал AliRTC
Всё аудио и видео в реальном времени идёт через AliRTC, а не по HTTP. Одна интеграция SDK на клиенте.
Сигналинг по WebSocket
Лёгкий управляющий канал: сигналы готовности, heartbeat и события завершения звонка.
Четыре состояния, полная наблюдаемость
Каждая сессия следует предсказуемой машине состояний — легко мониторить, легко тарифицировать, легко отлаживать.
waiting
Сессия создана, комната открыта, персонаж готовится
on_live
Обе стороны готовы — начинаются разговор и тарификация
ending
Получен hangup, сессия корректно завершается
ended
Завершена — оплаченные секунды можно запросить в любой момент
Где команды внедряют Vidu S1
Шесть индустрий уже выводят интерактивных цифровых персонажей к реальным пользователям.
ИИ-компаньоны
Всегда доступные персонажи с персоной и памятью: общаются лицом к лицу, реагируют на настроение и выстраивают долгую привязанность.
Виртуальные айдолы
Аниме- или реалистичные айдолы ведут прямые эфиры, отвечают на вопросы фанатов и выступают часами без перерывов.
Обучение и образование
Наставники и тренеры объясняют, показывают и подстраиваются под вопросы каждого ученика в реальном времени.
ИИ-поддержка клиентов
Дружелюбное лицо службы поддержки: замечает раздражение, отвечает естественно и вовремя передаёт диалог человеку.
Продажи в прямом эфире
Цифровые ведущие круглосуточно презентуют товары и мгновенно отвечают на вопросы покупателей.
Интерактивные развлечения
Играбельные персонажи и иммерсивные сценарии, где история реагирует на голос и лицо игрока.
50+ голосов на расстоянии одного параметра
Каждый голос говорит на 28 языках. Меняйте характер одним полем — или клонируйте собственный голос.
Милая и тёплая — решает проблемы без колебаний (по умолчанию)
Нежная и тёплая
Глубокий и бархатный, выдержанный, как кофе и старые книги
Сплав интеллекта и теплоты
Премиальный американский женский голос кинематографического качества
Американский студент, обожающий готовить
Зрелая интеллигентная британка — «девушка по соседству»
Тёплая и выразительная корейская старшая сестра
Озорная подруга детства из Японии
Романтичный французский старший брат
Тёплая, зажигательная латиноамериканская энергия
Милая девушка из Гонконга, носитель кантонского
🌍 28 языков из коробки
Китайский, английский, японский, корейский, французский, немецкий, испанский, португальский, русский, арабский, хинди, тайский, вьетнамский, индонезийский, турецкий и другие — плюс региональные диалекты: кантонский, сычуаньский, хоккиен и тайваньский мандарин.
🧬 API клонирования голоса
Нужен голос бренда или тембр конкретного человека? Создавайте клонированные кастомные голоса и управляйте ими наравне с системными через POST /live/v1/voices/clone
Прозрачная оплата по факту использования
Платите только за время живого разговора. Аудио- и видеорежимы стоят одинаково.
Бесплатный старт
Каждому новому пользователю — хватит примерно на 11 минут живого общения.
- Полный доступ к API, без урезанных функций
- Все 50+ голосов и 28 языков
- Аудио- и видеозвонки
- Кастомная персона и изображение аватара
Оплата по использованию
Простая тарификация: списание начинается только тогда, когда персонаж действительно выходит в эфир.
- Одна цена для аудио- и видеорежима
- Списание каждые 6 s, округление до шага 2 s
- Сессии до 600 s с автопродлением
- Тарификация стартует на on_live и никогда раньше
- Минимальный баланс: 45 кредитов на сессию
Enterprise
Решения под задачи платформ в соцсетях, e-commerce, играх и образовании.
- Персональный менеджер
- Дизайн персонажа и персоны под ваш бренд
- Помощь с онбордингом клонирования голоса
- Ревью архитектуры под ваш сценарий
Цена кредита: 0.03125. Сессия автоматически отключается по достижении максимальной длительности (600 s); при нулевом балансе сервер сам закрывает соединение.
Vidu S1 API — Часто задаваемые вопросы
Детали, о которых инженеры действительно спрашивают перед интеграцией.
Поселите в своём продукте живого ИИ-персонажа
Получите API-ключ, потратьте 1,000 бесплатных кредитов — и уже на этой неделе цифровой человек в реальном времени заговорит с вашими пользователями.
Или получите API-ключ мгновенно на apimart.ai