OpenAI は、新しい AI 超スーパーコンピュータ ネットワーク プロトコル MRC(Multipath Reliable Connection)を発表し、Open Compute Project(OCP)を通じてオープンソースとして公開した。 この技術は OpenAI と AMD、Microsoft、NVIDIA、Intel、Broadcom などの企業が共同で開発しており、超大型 AI 学習クラスタにおける GPU 間のデータ伝送のボトルネックを解消することを目的としている。
AI 学習の本当のボトルネックは、GPU 間でどうやって連携するか
OpenAI は、ChatGPT の毎週の利用者数がすでに 9 億人を超え、AI システムが次第にインフラ級のサービスになりつつあると述べている。 次世代モデルの学習と推論の需要を支えるために、OpenAI は、モデルそのものだけでなく、ネットワーク アーキテクチャも再設計する必要があると考えている。
OpenAI は技術記事の中で、大規模 AI モデルの学習では、1 回の学習ステップに数百万回の GPU 間データ交換が関わる可能性があると指摘している。 そのうちのどれか 1 つでも伝送の遅延が起きれば、学習全体の同期が停止してしまい、多数の GPU が遊休状態になる。
そして AI 超スーパーコンピュータの規模がますます大きくなるにつれ、ネットワークの輻輳、スイッチの故障、遅延のジッター(jitter)などの問題が急速に拡大する。 OpenAI は、これが Stargate 超スーパーコンピュータ計画における最も核心的な技術課題の 1 つだと考えている。
過去のデータセンターでは、ネットワーク アーキテクチャの多くが単一経路伝送(single-path)を採用していた。 しかし MRC の最大の変化は、同じデータを数百本の経路伝送に同時に分散できるようにした点だ。
MRC とは何か? OpenAI:AI ネットワークを自動で障害物回避させる
OpenAI と AMD の説明によれば、MRC の中核となる概念は次のとおり。
データを分割し、同時に複数の経路を通す
マイクロ秒レベルで故障を自動的に回避する
ネットワークの輻輳が引き起こす遅延を抑える
GPU が同期した状態で動き続けられるようにする
AMD は、従来の AI ネットワークは高速道路が 1 車線だけで動いているようなもので、渋滞や事故が起きれば全体の進行に影響するのに対し、MRC はリアルタイムで迂回できる能力を備えたスマート交通システムだと述べた。 AMD はさらに、「AI の規模化における本当のボトルネックは、GPU と CPU ではなくネットワークだ」とまで断言している。
なぜ OpenAI は自らネットワーク プロトコルを設計するのか?
今回 OpenAI が出したシグナルは非常に明確だ。 AI 競争は、もはやモデル同士の競争だけではなく、「スーパーコンピュータのインフラ」一式の競争になっている。 OpenAI は記事の中で、Stargate が登場する前には、彼らがパートナーとともに 3 世代目の AI 超スーパーコンピュータを共同で維持していたと述べている。 こうした経験から OpenAI は結論に至った。 Stargate 規模で算力を効果的に使うには、スタック全体の複雑さを大幅に下げる必要があり、その中にはネットワーク層も含まれる、ということだ。
つまり、将来の Frontier Model の競争は、「誰がより強いモデルを持つか」だけではなく、「数十万、さらには数百万の GPU を同期運用できるように、より効率的に動かせるか」が勝負になる。
MRC の背後には Stargate:OpenAI のマンハッタン計画
MRC の背景には、実際には Stargate LLC がある。 Stargate は OpenAI、SoftBank Group、Oracle Corporation、MGX が推進する大規模な AI 基盤インフラ計画で、当初の目標は、米国に高達 5,000 億ドルの AI 基盤インフラに投資することだった。 OpenAI によれば、現在は当初の 10GW の段階目標をすでに上回っており、直近 90 日で 3GW 以上の AI 基盤インフラ容量が新たに追加されたという。
テキサス州 Abilene にある Stargate 超スーパーコンピュータは、MRC の主要な導入先の 1 つだ。 OpenAI は、MRC が最新の 800Gb/s ネットワーク インターフェースに統合されており、実際の大規模学習クラスタで運用されていると指摘している。
この文章は OpenAI が MRC 超スーパーコンピュータ ネットワーク プロトコルを公開!NVIDIA、AMD、マイクロソフトとともに Stargate 基盤インフラを構築 という内容で、最初に 鏈新聞 ABMedia に掲載された。
関連記事