NVIDIA выпустила платформу Fleet Intelligence для мониторинга крупных кластеров ИИ-ускорителей. Код агента опубликован на GitHub для самостоятельной оценки. Сервис бесплатен для систем на Hopper, Blackwell и Vera Rubin. Он собирает телеметрию загрузки GPU, памяти, энергопотребления, температуры, NVLink и ошибок ECC.
Платформа использует криптовалидацию прошивок через NVIDIA Confidential Computing и NRAS. Агент передаёт данные в облачный сервис NGC. Fleet Intelligence интегрируется с инструментами GPUd, DCGM и Attestation SDK.
Fleet Intelligence отражает амбиции NVIDIA как поставщика ПО для ИИ-фабрик. Растёт конкуренция: AMD, Intel и облачные операторы разрабатывают аналоги. Однако интеграция аппаратной телеметрии и безопасности даёт NVIDIA преимущество.

0 комментариев