OpenAI оголосила про запуск нового протоколу AI «суперкомп’ютерної» мережі MRC (Multipath Reliable Connection) і вже відкрила його через Open Compute Project (OCP). Цю технологію спільно розробляють OpenAI та такі компанії, як AMD, Microsoft, NVIDIA, Intel, Broadcom тощо; мета — усунути вузьке місце з передаванням даних між GPU у надвеликих AI-тренувальних кластерах.
AI-тренування — справжня проблема не в GPU, а в тому, як вони спілкуються між собою
OpenAI зазначає, що, оскільки щотижневе використання ChatGPT уже перевищило 900 млн користувачів, AI-системи поступово перетворюються на сервіс рівня базової інфраструктури. Щоб підтримати потреби в тренуванні та виведенні наступних моделей, OpenAI вважає, що має еволюціонувати не лише сама модель — мережеву архітектуру також потрібно перерозробити.
У технічній статті OpenAI підкреслює: під час тренування великих AI-моделей один крок тренування може включати мільйони обмінів даними між GPU. Якщо затримка з’являється в одному з передавань, це може спричинити повну зупинку синхронізації всього тренування, через що значна кількість GPU простоюватиме.
А коли масштаби AI-суперкомп’ютера стають більшими, проблеми на кшталт мережевої перевантаженості, відмов комутаторів і «jitter» (дрижання затримки) стрімко посилюються. OpenAI вважає, що це — один із ключових технічних викликів у межах проєкту Stargate.
Раніше мережева архітектура дата-центрів здебільшого використовувала одношляхове передавання (single-path). Але головна зміна MRC полягає в тому, що один і той самий потік даних може одночасно розподілятися на сотні шляхів передавання.
Що таке MRC? OpenAI: зробити AI-мережі здатними автоматично «обходити перешкоди»
За даними OpenAI та AMD, ключові принципи MRC такі:
ділити дані на частини та одночасно прокладати їх кількома шляхами на автоматі обходити відмови на рівні мікросекунд зменшувати затримки, спричинені мережевою перевантаженістю підтримувати синхронну роботу GPU
AMD описує, що традиційна AI-мережа схожа на автостраду, яка рухається лише одним маршрутом: якщо виникає затор або аварія, це впливає на весь прогрес; натомість MRC — це інтелектуальна транспортна система з можливістю миттєвого перерозподілу маршрутів. AMD навіть заявляє: «Справжнім вузьким місцем під час масштабування AI є не GPU та CPU, а мережа».
Чому OpenAI вирішила самостійно проєктувати мережевий протокол
Сигнал цього разу від OpenAI дуже чіткий: AI-конкуренція — це вже не лише конкуренція моделей, а конкуренція цілого комплексу «інфраструктури суперкомп’ютера». У статті OpenAI згадується, що до появи Stargate вони разом із партнерами вже спільно підтримували три покоління AI-суперкомп’ютерів. Ці практичні напрацювання привели OpenAI до висновку: щоб ефективно використовувати обчислювальну потужність у масштабі Stargate, весь stack потрібно суттєво спрощувати — і це також стосується мережевого рівня.
Інакше кажучи, майбутня конкуренція Frontier Model — це вже не лише хто створить сильнішу модель, а хто зможе ефективніше синхронізувати роботу десятків і навіть сотень тисяч GPU.
За MRC стоїть Stargate: «мангеттенський проєкт» OpenAI
Передумовою MRC є Stargate LLC. Stargate — це ініціатива з розвитку великої AI-інфраструктури за участі OpenAI, SoftBank Group, Oracle Corporation та MGX; спочатку її метою було інвестувати в США до 500 млрд доларів в AI-інфраструктуру. OpenAI зазначає, що наразі вони вже перевищили проміжну ціль у 10GW, а протягом останніх 90 днів додали понад 3GW потужності AI-інфраструктури.
Суперкомп’ютер Stargate у місті Абілен, штат Техас, є одним із ключових майданчиків для розгортання MRC. OpenAI вказує, що MRC інтегровано в найновіший мережевий інтерфейс на 800Gb/s, і що його вже тестують у реальних великих тренувальних кластерах.
Ця стаття «OpenAI оприлюднила MRC — суперкомп’ютерний мережевий протокол!» уперше з’явилася на сайті Ланцюжок новин ABMedia.
Пов'язані статті
Маск розглядав можливість об’єднати OpenAI у складі Tesla наприкінці 2017 року, повідомляє суд
Зростання користувачів Gemini і Claude прискорюється в квітні, тоді як зростання ChatGPT сповільнюється до 30% YoY
OpenAI запускає протокол MRC разом із AMD, Broadcom, Intel, Microsoft і Nvidia
Дохід AI Data Center від SK Telecom зростає на 89% у І кварталі 2026 року
Під час війни попереджає про вразливість смартфонів і стежить за зростанням AI-чипів, щоб компенсувати
DeepSeek залучає фінансування за оцінкою $45B на тлі конкуренції в сфері ШІ