A OpenAI anunciou o lançamento de um novo protocolo de rede para “supercomputador” de IA, o MRC (Multipath Reliable Connection), e já disponibilizou a tecnologia em código aberto via Open Compute Project (OCP). Essa tecnologia está sendo desenvolvida em conjunto pela OpenAI e por empresas como AMD, Microsoft, NVIDIA, Intel e Broadcom, com o objetivo de resolver gargalos na transmissão de dados entre GPUs em clusters de treinamento de IA em escala massiva.
O verdadeiro gargalo do treinamento de IA são as comunicações entre GPUs
A OpenAI afirma que, à medida que o número de usuários semanais do ChatGPT já ultrapassou 900 milhões, os sistemas de IA estão se tornando gradualmente serviços em nível de infraestrutura. Para sustentar as necessidades de treinamento e inferência dos próximos modelos, a OpenAI acredita que não é apenas o modelo em si que precisa evoluir: a arquitetura de rede também deve ser redesenhada.
Em artigo técnico, a OpenAI destaca que, no treinamento de grandes modelos de IA, uma única etapa de treinamento pode envolver trocas de dados entre GPUs em dezenas de milhões de vezes. Basta que uma das transmissões tenha latência para que todo o treinamento perca sincronia, levando a uma grande quantidade de GPUs ociosas.
E, quando a escala dos supercomputadores de IA cresce, problemas como congestionamento na rede, falhas em switches e oscilação de latência (jitter) tendem a se amplificar rapidamente. A OpenAI considera que esse também é um dos maiores desafios técnicos do projeto do supercomputador Stargate.
No passado, a arquitetura de rede dos data centers, em sua maioria, adotava transmissão por um único caminho (single-path). Mas a maior mudança do MRC é permitir que os mesmos dados se distribuam simultaneamente por centenas de caminhos de transmissão.
O que é MRC? OpenAI: fazer a rede de IA “desviar automaticamente” de obstáculos
De acordo com a OpenAI e a AMD, o conceito central do MRC é:
Dividir os dados e enviá-los por múltiplos caminhos ao mesmo tempo
Desviar automaticamente de falhas em nível de microssegundos
Reduzir a latência causada por congestionamento de rede
Fazer as GPUs manterem a operação sincronizada
A AMD descreve que as redes tradicionais de IA são como rodovias de alta velocidade que seguem apenas uma rota: quando há congestionamento ou acidente, o progresso geral é afetado; o MRC, por sua vez, é como um sistema de tráfego inteligente com capacidade de desvio imediato. A AMD chegou a afirmar de forma direta: “o verdadeiro gargalo da IA em escala não é mais GPU e CPU, mas sim a rede”.
Por que a OpenAI precisa projetar seu próprio protocolo de rede?
O sinal desta vez da OpenAI é bem claro: a disputa em IA já não é apenas uma disputa de modelos, e sim uma disputa da “infraestrutura completa de supercomputador”. No artigo, a OpenAI menciona que, antes do surgimento do Stargate, eles já mantinham junto com parceiros três gerações de supercomputadores de IA. Essas experiências levaram a OpenAI a concluir que, para usar a capacidade de computação de forma eficiente na escala do Stargate, toda a stack precisa reduzir bastante a complexidade. Isso inclui a camada de rede.
Em outras palavras, na disputa dos Frontier Models no futuro, não será apenas sobre quem tem o modelo mais forte, e sim sobre quem consegue fazer dezenas de milhares — e até milhões — de GPUs operar em sincronia com mais eficiência.
O MRC por trás do Stargate: o plano de Manhattan da OpenAI
O pano de fundo do MRC é, na verdade, a Stargate LLC. A Stargate é um projeto de grande infraestrutura de IA impulsionado pela OpenAI, SoftBank Group, Oracle Corporation e MGX, com objetivo inicial de investir até US$ 500 bilhões em infraestrutura de IA nos Estados Unidos. A OpenAI diz que, no momento, já superou a meta provisória original de 10GW e que, nos últimos 90 dias, adicionou mais de 3GW de capacidade de infraestrutura de IA.
O supercomputador Stargate localizado em Abilene, no Texas, é um dos principais ambientes de implantação do MRC. A OpenAI aponta que o MRC já foi integrado à mais recente interface de rede de 800Gb/s e que está operando em um grande cluster de treinamento na prática.
Este artigo sobre a OpenAI anunciando o protocolo de rede do supercomputador MRC! Em parceria com a NVIDIA, AMD e Microsoft para construir a infraestrutura do Stargate — apareceu pela primeira vez em Cadeia de Notícias ABMedia.
Related Articles
Sonhos do Claude, da Anthropic: agente se organiza para recuperar memórias entre tarefas, eliminando duplicidades e contradições
A Anthropic se junta à SpaceX em poder de computação: conquista Colossus 1 inteira, com 220 mil GPUs, e o Claude remove limites
Engenheiro da Coinbase: agentes de IA podem interromper o modelo de publicidade na web
A Anthropic dobra os limites de taxa do Claude Code após garantir capacidade de 300 MW em um acordo com a SpaceX
Plataforma de recrutamento com IA, Ethos, conclui captação de US$ 22,75 milhões em Série A liderada pela a16z em 6 de maio