OpenAI объявила о запуске нового AI суперкомпьютерного сетевого протокола MRC (Multipath Reliable Connection) и уже открыла исходный код через Open Compute Project (OCP). Эта технология разработана OpenAI совместно с AMD, Microsoft, NVIDIA, Intel, Broadcom и другими компаниями. Ее цель — устранить узкие места в передаче данных между GPU в сверхкрупных кластерах для обучения AI.
Настоящая «бутылочная горлышко» при обучении AI — это то, как GPU общаются друг с другом
OpenAI заявляет, что по мере того, как число еженедельных пользователей ChatGPT превысило 900 миллионов, AI-системы все больше превращаются в услуги уровня базовой инфраструктуры. Чтобы поддержать потребности в обучении и инференсе следующего поколения моделей, OpenAI считает, что нужно эволюционировать не только сами модели, но и сетевую архитектуру — ее необходимо заново спроектировать.
В технической статье OpenAI указывает, что при обучении больших AI-моделей одна тренировочная итерация может включать обмен данными между GPU — сотни тысяч раз. Даже если задержка передачи возникнет в одном из соединений, это может привести к тому, что весь обучающий процесс синхронно остановится, из-за чего множество GPU простаивает.
А по мере того, как масштаб AI суперкомпьютеров становится все больше, проблемы вроде сетевого затора, отказов коммутаторов и дрожания задержки (jitter) быстро усиливаются. OpenAI считает, что это также одна из ключевых технических задач в проекте суперкомпьютера Stargate.
В сетевых архитектурах дата-центров в прошлом большинство решений использовали однопутевую передачу (single-path). Но главное изменение MRC в том, что один и тот же поток данных может одновременно распределяться по сотням путей передачи.
Что такое MRC? OpenAI: сделать AI-сеть автоматом, который объезжает препятствия
Согласно заявлениям OpenAI и AMD, ключевые идеи MRC заключаются в том, чтобы:
разбивать данные и передавать по множеству путей одновременно
автоматически обходить сбои на уровне микросекунд
снижать задержку, вызванную сетевым затором
держать GPU в синхронной работе
AMD описывает, что традиционные AI-сети похожи на скоростное шоссе, которое едет только по одному маршруту: стоит возникнуть пробке или аварии — и это отражается на общем прогрессе. MRC же — это интеллектуальная транспортная система с возможностью мгновенного объезда. AMD даже прямо заявляет: «При масштабировании реальная «бутылочная горлышко» — это уже не GPU и CPU, а сеть».
Почему OpenAI понадобилось спроектировать сетевой протокол самостоятельно?
Сигнал на этот раз от OpenAI очень однозначен: конкуренция в AI — это уже не только соревнование моделей, а конкуренция целого набора «суперкомпьютерной инфраструктуры». В статье OpenAI упоминает, что до появления Stargate они вместе с партнерами уже поддерживали три поколения AI суперкомпьютеров. Эти практические знания привели OpenAI к выводу: чтобы эффективно использовать вычислительные мощности в масштабе Stargate, весь stack нужно существенно уменьшить по сложности. И в том числе — сетевой уровень.
То есть в конкуренции Frontier Model в будущем важнее будет не просто у кого модель сильнее, а кто сможет эффективнее синхронизировать работу десятков тысяч и даже сотен миллионов GPU.
За MRC стоит Stargate: «мегапроект» OpenAI в стиле Манхэттена
Фоном для MRC является Stargate LLC. Stargate — это проект масштабной AI-инфраструктуры, который продвигают OpenAI, SoftBank Group, Oracle Corporation и MGX. Изначально цель заключалась в инвестициях в США до 500B долларов в AI-инфраструктуру. OpenAI сообщает, что сейчас проект уже превысил первоначальную этапную цель в 10 GW, а за последние 90 дней добавилось более 3 GW мощностей AI-инфраструктуры.
Суперкомпьютер Stargate, расположенный в Abilene (Техас), является одной из основных площадок развертывания MRC. OpenAI отмечает, что MRC уже интегрирован в новейший сетевой интерфейс 800Gb/s и в реальных крупных тренировочных кластерах работает в боевом режиме.
Эта статья «OpenAI публикует MRC — суперкомпьютерный сетевой протокол! В партнерстве с NVIDIA, AMD и Microsoft создают инфраструктуру Stargate» впервые появилась на сайте Цепные новости ABMedia.
Связанные статьи
Мечты Claude от Anthropic: агент сам упорядочивает память между задачами, устраняет дубликаты и противоречия
Anthropic заключает сделку с SpaceX по вычислительным мощностям: получает Colossus 1 целиком — 220 тыс. GPU, а для Claude снимают ограничения
Инженер Coinbase: AI-агенты могут нарушить модель веб-рекламы
Anthropic удваивает лимиты скорости для Claude Code после того, как обеспечила 300 МВт мощности по сделке с SpaceX
Платформа для рекрутинга с помощью ИИ Ethos завершила раунд Series A на сумму 22,75 млн долларов под руководством a16z 6 мая