OpenAI публікує протокол MRC для суперкомп’ютерної мережі! Разом із Nvidia, AMD та Microsoft створюють базову інфраструктуру Stargate

OpenAI оголосила про запуск нового протоколу AI «суперкомп’ютерної» мережі MRC (Multipath Reliable Connection) і вже відкрила його через Open Compute Project (OCP). Цю технологію спільно розробляють OpenAI та такі компанії, як AMD, Microsoft, NVIDIA, Intel, Broadcom тощо; мета — усунути вузьке місце з передаванням даних між GPU у надвеликих AI-тренувальних кластерах.

AI-тренування — справжня проблема не в GPU, а в тому, як вони спілкуються між собою

OpenAI зазначає, що, оскільки щотижневе використання ChatGPT уже перевищило 900 млн користувачів, AI-системи поступово перетворюються на сервіс рівня базової інфраструктури. Щоб підтримати потреби в тренуванні та виведенні наступних моделей, OpenAI вважає, що має еволюціонувати не лише сама модель — мережеву архітектуру також потрібно перерозробити.

У технічній статті OpenAI підкреслює: під час тренування великих AI-моделей один крок тренування може включати мільйони обмінів даними між GPU. Якщо затримка з’являється в одному з передавань, це може спричинити повну зупинку синхронізації всього тренування, через що значна кількість GPU простоюватиме.

А коли масштаби AI-суперкомп’ютера стають більшими, проблеми на кшталт мережевої перевантаженості, відмов комутаторів і «jitter» (дрижання затримки) стрімко посилюються. OpenAI вважає, що це — один із ключових технічних викликів у межах проєкту Stargate.

Раніше мережева архітектура дата-центрів здебільшого використовувала одношляхове передавання (single-path). Але головна зміна MRC полягає в тому, що один і той самий потік даних може одночасно розподілятися на сотні шляхів передавання.

Що таке MRC? OpenAI: зробити AI-мережі здатними автоматично «обходити перешкоди»

За даними OpenAI та AMD, ключові принципи MRC такі:

ділити дані на частини та одночасно прокладати їх кількома шляхами на автоматі обходити відмови на рівні мікросекунд зменшувати затримки, спричинені мережевою перевантаженістю підтримувати синхронну роботу GPU

AMD описує, що традиційна AI-мережа схожа на автостраду, яка рухається лише одним маршрутом: якщо виникає затор або аварія, це впливає на весь прогрес; натомість MRC — це інтелектуальна транспортна система з можливістю миттєвого перерозподілу маршрутів. AMD навіть заявляє: «Справжнім вузьким місцем під час масштабування AI є не GPU та CPU, а мережа».

Чому OpenAI вирішила самостійно проєктувати мережевий протокол

Сигнал цього разу від OpenAI дуже чіткий: AI-конкуренція — це вже не лише конкуренція моделей, а конкуренція цілого комплексу «інфраструктури суперкомп’ютера». У статті OpenAI згадується, що до появи Stargate вони разом із партнерами вже спільно підтримували три покоління AI-суперкомп’ютерів. Ці практичні напрацювання привели OpenAI до висновку: щоб ефективно використовувати обчислювальну потужність у масштабі Stargate, весь stack потрібно суттєво спрощувати — і це також стосується мережевого рівня.

Інакше кажучи, майбутня конкуренція Frontier Model — це вже не лише хто створить сильнішу модель, а хто зможе ефективніше синхронізувати роботу десятків і навіть сотень тисяч GPU.

За MRC стоїть Stargate: «мангеттенський проєкт» OpenAI

Передумовою MRC є Stargate LLC. Stargate — це ініціатива з розвитку великої AI-інфраструктури за участі OpenAI, SoftBank Group, Oracle Corporation та MGX; спочатку її метою було інвестувати в США до 500 млрд доларів в AI-інфраструктуру. OpenAI зазначає, що наразі вони вже перевищили проміжну ціль у 10GW, а протягом останніх 90 днів додали понад 3GW потужності AI-інфраструктури.

Суперкомп’ютер Stargate у місті Абілен, штат Техас, є одним із ключових майданчиків для розгортання MRC. OpenAI вказує, що MRC інтегровано в найновіший мережевий інтерфейс на 800Gb/s, і що його вже тестують у реальних великих тренувальних кластерах.

Ця стаття «OpenAI оприлюднила MRC — суперкомп’ютерний мережевий протокол!» уперше з’явилася на сайті Ланцюжок новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Маск розглядав можливість об’єднати OpenAI у складі Tesla наприкінці 2017 року, повідомляє суд

Згідно зі свідченнями на федеральному судовому засіданні в Окленді, Каліфорнія, Ілон Маск розглядав варіант об’єднання OpenAI з Tesla наприкінці 2017 року та на початку 2018 року, як заявила Шівон Зіліс, керівниця Neuralink і колишня членкиня ради OpenAI. Зіліс свідчила, що Маск вивчав можливість запропонувати Семy Альтману місце в раді директорів Tesla

GateNews17хв. тому

Зростання користувачів Gemini і Claude прискорюється в квітні, тоді як зростання ChatGPT сповільнюється до 30% YoY

Згідно з останнім звітом Bank of America, Gemini та Claude у квітні зафіксували сильне зростання користувачів, тоді як розширення ChatGPT сповільнилося. У відвідуваннях вебсайтів у США ChatGPT зріс на 30% у річному вимірі до 34 мільйонів відвідувань (що еквівалентно 6% трафіку Google), тоді як Claude підскочив на 715% у річному вимірі до 7,1 міль

GateNews25хв. тому

OpenAI запускає протокол MRC разом із AMD, Broadcom, Intel, Microsoft і Nvidia

OpenAI оголосила, що співпрацювала з AMD, Broadcom, Intel, Microsoft і Nvidia, щоб запустити Multipath Reliable Connection (MRC) — протокол мережевої взаємодії з відкритим кодом. MRC призначений для пришвидшення масштабних кластерів тренування ШІ, підвищення надійності та суттєвого зменшення простою GPU

GateNews27хв. тому

Дохід AI Data Center від SK Telecom зростає на 89% у І кварталі 2026 року

За даними SK Telecom, бізнес штучного інтелекту дата-центрів південнокорейського телеком-оператора опублікував виручку в розмірі 131,4 мільярда вон (89,4 мільйона доларів США) за перший квартал 2026 року — на 89,3% більше в річному порівнянні. Компанія пояснила сплеск вищим рівнем використання дата-центрів і

GateNews37хв. тому

Під час війни попереджає про вразливість смартфонів і стежить за зростанням AI-чипів, щоб компенсувати

Arm Holdings попередила, що слабкість ринку смартфонів стискає ключове джерело доходів для компанії з проєктування чипів, хоча зростання бізнесу AI-чипів має компенсувати вплив, повідомив генеральний директор Рене Гаас під час розмови за підсумками кварталу. У попередньому кварталі поставки телефонів знизилися, а збитки були зосереджені на

CryptoFrontier47хв. тому

DeepSeek залучає фінансування за оцінкою $45B на тлі конкуренції в сфері ШІ

Китайська AI-лабораторія DeepSeek веде переговори про залучення першого раунду фінансування за оцінкою, про яку повідомляють, у 45 мільярдів доларів, повідомляє TechCrunch. Ця оцінка є суттєвим зростанням порівняно з приблизною оцінкою в 20 мільярдів доларів лише тижнями раніше — після того, як увагу привернули AI-моделі компанії для

CryptoFrontier1год тому
Прокоментувати
0/400
Немає коментарів