ИИ от NVIDIA может генерировать видео по текстовому описанию

Вы не перестаете удивляться возможностям ChatGPT в Microsoft Edge и в восторге от изображений, созданных MidJourney? Разработчики NVIDIA пробили потолок возможностей искусственного интеллекта и представили VideoLDM — ИИ-модель для подготовки видеороликов на основе одного лишь текстового описания. Создавалось это технологическое чудо под руководством технических специалистов NVIDIA и представителей Корнеллского университета, одного из самых крупных образовательных учреждений в США. Сегодня нейросеть способна выдать видеоряд с разрешением до 2048х1280 пикселей и 24 кадра/с, а его длительность не будет превышать 4,7 секунды. Что известно об ИИ?

В его основу легла нейросеть Stable Diffusion, а для обучения использовали 4,1 млрд параметров. По меркам современных ИИ-ботов — это очень скромные цифры, поскольку тот же ChatGPT-4 использует уже порядка 500 млрд параметров. Добиться согласованного во времени видеоряда сложно, однако разработчикам это удалось благодаря эффективному подходу к модели скрытой диффузии, также известной как LDM.

Суть метода заключается в том, что ИИ генерирует временные слои, которые создаются на основе текстового описания пользователя. Далее они вставляются в опорные сети скрытой диффузии, настроенные в наборе изображений DreamBooth, модели генерации глубокого обучения. Эта технология обобщает контрольные точки и выдает короткий ролик в высоком разрешении.

Также стоит отметить, что VideoLDM может моделировать конкретный сценарий вождения, предполагая поведения объектов на дороге, и генерировать соответствующие сцены. Используя один стартовый кадр, ИИ выдает несколько правдоподобных прогнозов. Такие видеоролики ограничены разрешением 1024 × 512 пикселей, однако могут похвастаться длительностью до 5 минут.

Обученную модель представили на «Конференции по машинному зрению и распознаванию образов». В настоящий момент неизвестно, планируется ли публикация нейросети в открытом доступе.

Похожие материалы: