DS

Протокол MRC повышает эффективность GPU-кластеров для ИИ

image source

OpenAI совместно с AMD, Broadcom, Intel, Microsoft и NVIDIA представила протокол MRC (Multipath Reliable Connection) для повышения производительности и отказоустойчивости GPU-кластеров ИИ.

Протокол позволяет строить сети с более чем 131 тыс. конечных точек, используя только два уровня коммутаторов вместо традиционных трех-четырех. Интерфейс 800GbE делится на 100GbE-каналы, создавая восемь параллельных сетей.

В основе MRC — статическая маршрутизация на основе SRv6. Пакеты распределяются по сотням путей одновременно, без привязки к одному маршруту. При сбоях система игнорирует неработающие пути, не требуя пересчета таблиц.

Для борьбы с перегрузками используется обрезка пакетов: коммутатор отправляет только заголовок, позволяя быстро запросить повторную передачу. Восстановление происходит за микросекунды, что на порядки быстрее обычных сетей.

Поддержка MRC реализована в адаптерах Broadcom Thor Ultra и коммутаторах Tomahawk 5/6, а также в решениях NVIDIA Spectrum-X. OpenAI уже использует MRC в крупных кластерах, включая ЦОД Stargate.

По сравнению с традиционными Ethernet-сетями MRC эффективнее распределяет нагрузку и быстрее восстанавливается, что критично для обучения больших языковых моделей.

источник

0 комментариев

Редактор комментария
Пока нет комментариев
Станьте первым, кто оставит мнение на этот топик