NVIDIA Cosmos 3 — это семейство omnimodal моделей на архитектуре Mixture-of-Transformers. Платформа объединяет обработку и генерацию языка, изображений, видео, аудио и действий для Physical AI.
Reasoner Mode используется для понимания мира, физического рассуждения и планирования. Generator Mode генерирует изображения, видео, звук и действия для моделирования будущих сценариев. Доступны модели Cosmos3-Nano (16B) и Super (64B).
Cosmos 3 применяется в робототехнике, автономных транспортных средствах и умной инфраструктуре. Поддерживаются пост-тренировочные рецепты и интеграция с Diffusers, vLLM-Omni и Transformers для гибкого развертывания.
GitHub ★ 8,745

0 комментариев