OpenAI публикует протокол сети суперкомпьютера MRC! В сотрудничестве с Nvidia, AMD и Microsoft создаёт базовую инфраструктуру Stargate

OpenAI объявила о запуске нового AI суперкомпьютерного сетевого протокола MRC (Multipath Reliable Connection) и уже открыла исходный код через Open Compute Project (OCP). Эта технология разработана OpenAI совместно с AMD, Microsoft, NVIDIA, Intel, Broadcom и другими компаниями. Ее цель — устранить узкие места в передаче данных между GPU в сверхкрупных кластерах для обучения AI.

Настоящая «бутылочная горлышко» при обучении AI — это то, как GPU общаются друг с другом

OpenAI заявляет, что по мере того, как число еженедельных пользователей ChatGPT превысило 900 миллионов, AI-системы все больше превращаются в услуги уровня базовой инфраструктуры. Чтобы поддержать потребности в обучении и инференсе следующего поколения моделей, OpenAI считает, что нужно эволюционировать не только сами модели, но и сетевую архитектуру — ее необходимо заново спроектировать.

В технической статье OpenAI указывает, что при обучении больших AI-моделей одна тренировочная итерация может включать обмен данными между GPU — сотни тысяч раз. Даже если задержка передачи возникнет в одном из соединений, это может привести к тому, что весь обучающий процесс синхронно остановится, из-за чего множество GPU простаивает.

А по мере того, как масштаб AI суперкомпьютеров становится все больше, проблемы вроде сетевого затора, отказов коммутаторов и дрожания задержки (jitter) быстро усиливаются. OpenAI считает, что это также одна из ключевых технических задач в проекте суперкомпьютера Stargate.

В сетевых архитектурах дата-центров в прошлом большинство решений использовали однопутевую передачу (single-path). Но главное изменение MRC в том, что один и тот же поток данных может одновременно распределяться по сотням путей передачи.

Что такое MRC? OpenAI: сделать AI-сеть автоматом, который объезжает препятствия

Согласно заявлениям OpenAI и AMD, ключевые идеи MRC заключаются в том, чтобы:

разбивать данные и передавать по множеству путей одновременно

автоматически обходить сбои на уровне микросекунд

снижать задержку, вызванную сетевым затором

держать GPU в синхронной работе

AMD описывает, что традиционные AI-сети похожи на скоростное шоссе, которое едет только по одному маршруту: стоит возникнуть пробке или аварии — и это отражается на общем прогрессе. MRC же — это интеллектуальная транспортная система с возможностью мгновенного объезда. AMD даже прямо заявляет: «При масштабировании реальная «бутылочная горлышко» — это уже не GPU и CPU, а сеть».

Почему OpenAI понадобилось спроектировать сетевой протокол самостоятельно?

Сигнал на этот раз от OpenAI очень однозначен: конкуренция в AI — это уже не только соревнование моделей, а конкуренция целого набора «суперкомпьютерной инфраструктуры». В статье OpenAI упоминает, что до появления Stargate они вместе с партнерами уже поддерживали три поколения AI суперкомпьютеров. Эти практические знания привели OpenAI к выводу: чтобы эффективно использовать вычислительные мощности в масштабе Stargate, весь stack нужно существенно уменьшить по сложности. И в том числе — сетевой уровень.

То есть в конкуренции Frontier Model в будущем важнее будет не просто у кого модель сильнее, а кто сможет эффективнее синхронизировать работу десятков тысяч и даже сотен миллионов GPU.

За MRC стоит Stargate: «мегапроект» OpenAI в стиле Манхэттена

Фоном для MRC является Stargate LLC. Stargate — это проект масштабной AI-инфраструктуры, который продвигают OpenAI, SoftBank Group, Oracle Corporation и MGX. Изначально цель заключалась в инвестициях в США до 500B долларов в AI-инфраструктуру. OpenAI сообщает, что сейчас проект уже превысил первоначальную этапную цель в 10 GW, а за последние 90 дней добавилось более 3 GW мощностей AI-инфраструктуры.

Суперкомпьютер Stargate, расположенный в Abilene (Техас), является одной из основных площадок развертывания MRC. OpenAI отмечает, что MRC уже интегрирован в новейший сетевой интерфейс 800Gb/s и в реальных крупных тренировочных кластерах работает в боевом режиме.

Эта статья «OpenAI публикует MRC — суперкомпьютерный сетевой протокол! В партнерстве с NVIDIA, AMD и Microsoft создают инфраструктуру Stargate» впервые появилась на сайте Цепные новости ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Мечты Claude от Anthropic: агент сам упорядочивает память между задачами, устраняет дубликаты и противоречия

Anthropic на мероприятии Code with Claude объявила Dreams: чтобы Claude Managed Agents автоматически систематизировали воспоминания, устраняли дубликаты и противоречия между несколькими сессиями, а также обновляли устаревшие записи, выводя проверяемую сводную базу воспоминаний; входной лимит — 100 сессий и 4 096 символов, асинхронное выполнение, занимает от нескольких минут до нескольких десятков минут, поддерживает наблюдение в режиме стриминга. Исследовательский превью-тест нужно подать отдельно; пока что доступна только поддержка claude-opus-4-7 и claude-sonnet-4-6, дата официального релиза не определена.

ChainNewsAbmedia1ч назад

Anthropic заключает сделку с SpaceX по вычислительным мощностям: получает Colossus 1 целиком — 220 тыс. GPU, а для Claude снимают ограничения

Anthropic объявила о сотрудничестве по вычислительным мощностям с SpaceX для дата-центра Colossus 1: будет задействовано более 220 тыс. GPU Nvidia, мощность — свыше 300MW. Планируется, что в течение месяца вся инфраструктура будет полностью развернута для использования Anthropic, чтобы улучшить вычисления и впечатления для Claude и Code. Параллельно будет ослаблен лимит потребления для Pro/Max/Team/Enterprise каждые 5 часов, отменены лимиты на пиковые нагрузки и повышена скорость Opus API. Также одновременно расширяется базовая инфраструктура в Азии и Европе; в будущем есть намерения вроде «орбитальных AI-вычислений», но сделок пока не заключено.

ChainNewsAbmedia1ч назад

Инженер Coinbase: AI-агенты могут нарушить модель веб-рекламы

Эрик Реппель, инженер Coinbase, заявил, что ИИ-агенты могут принципиально подорвать бизнес-модель интернета, зависящую от рекламы. По словам Реппеля, веб-экономика в значительной степени опирается на рекламные доходы, генерируемые пользователями-людьми, но ИИ-агенты обходят эту систему

CryptoFrontier2ч назад

Anthropic удваивает лимиты скорости для Claude Code после того, как обеспечила 300 МВт мощности по сделке с SpaceX

По данным Odaily, Anthropic подписала соглашение с SpaceX, чтобы получить доступ ко всей вычислительной мощности ЦОД Colossus 1, обеспечив более 300 мегаватт новой мощности и более 220 000 NVIDIA GPU в течение месяца. Начиная с момента вступления в силу, лимиты скорости Claude Code на пять часов для Pro,

GateNews2ч назад

Платформа для рекрутинга с помощью ИИ Ethos завершила раунд Series A на сумму 22,75 млн долларов под руководством a16z 6 мая

По данным BlockBeats, лондонская платформа AI-рекрутинга Ethos завершила раунд финансирования Series A на сумму 22,75 миллиона долларов 6 мая; Andreessen Horowitz (a16z) возглавил раунд, а General Catalyst принял участие. Платформа использует ИИ для интервьюирования кандидатов и анализирует

GateNews4ч назад
комментарий
0/400
Нет комментариев