DS

Google представила мультимодальную модель Gemini Omni

image source

Запущен Gemini Omni — семейство мультимодальных моделей Google. Они могут создавать контент из текста, аудио, видео и изображений, анализируя все входные данные вместе.

Первый релиз фокусируется на видео. Пользователь комбинирует типы данных, а Omni учитывает физику, культуру и науку. Пример: по запросу "объяснение сворачивания белков в стиле пластилиновой анимации" модель сгенерировала видео с закадровым голосом.

Редактирование фото возможно через текстовые команды. Также можно создавать цифровые аватары — для защиты от дипфейков требуется верификация. Все сгенерированные видео получают водяной знак SynthID.

Новинка доступна сегодня как Gemini Omni Flash — для приложения Gemini, YouTube Shorts и Flow. Она создаёт видео до 10 секунд (не ограничение модели, а проектный выбор).

Позже выйдет Omni Pro. Модели также станут доступны через API для профессионального использования — например, в рекламе или кинопроизводстве.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик