A onda de IA impulsiona a demanda por memória e faz os preços subirem. Ainda assim, o mercado teme que a HBM repita a “maldição cíclica” — como a DRAM no passado —, virando rapidamente após picos de demanda? Analistas de arquitetura de semicondutores da fin apontam que a lógica da demanda por HBM já se desvinculou das regras tradicionais do setor de memórias e está sendo reprecificada via tokens.
(Alta do setor de memórias desacelera? Avaliação de instituições: avanço do 2º tri encolhe para 30%, com arrefecimento no 2º semestre)
A memória na era do CPU: um acessório, para “o que dá e o que não dá”
A fin destaca que, na era em que a computação era liderada por CPU, a memória DDR sempre teve papel secundário. Engenheiros de CPU desenvolveram um conjunto de técnicas para mascarar latência de memória, incluindo design superescalar, cache em múltiplos níveis, renomeação de registradores etc., permitindo que o processador mantivesse alto desempenho sem depender necessariamente de memórias ultrarrápidas:
A regra prática do setor é que, mesmo com o DDR dobrando diretamente a largura de banda, o ganho de desempenho geral da CPU costuma não passar de 20%.
Essa arquitetura moldou diretamente o ritmo de crescimento da indústria de DRAM por décadas. Do DDR3 ao DDR5, foram 15 anos; nos últimos 10 anos, a capacidade típica de DDR em PCs passou de 7 a 8 GB para cerca de 23 GB — apenas triplicou em 10 anos. A principal fonte de lucro dos fabricantes de DRAM vem do tamanho de capacidade; os upgrades de largura de banda servem, no máximo, para elevar o preço unitário.
Na era do CPU, a memória é uma das etapas com menor utilidade marginal na cadeia de chips. Oscilações cíclicas são o padrão — e também o destino.
Chega a era do raciocínio com IA, e a lógica de valor da memória é reescrita do zero
No entanto, quando o “protagonista” da computação muda para os motores de inferência de IA, o critério de avaliação também muda. Agora, os fabricantes de chips competem por quantas operações de ponto flutuante conseguem executar por segundo; hoje, a KPI central da era da IA tem apenas uma prioridade: quantos tokens conseguem ser gerados por custo e por consumo de energia (por unidade).
O conceito de “fábrica de IA”, proposto pelo CEO da Nvidia, Huang Renxun (Jen-Hsun Huang), descreve com precisão essa nova lógica: o propósito da fábrica de IA é produzir o máximo de tokens pelo menor custo e, ao mesmo tempo, levar ao limite a velocidade de saída dos tokens. O objetivo de otimização deixa de ser unidimensional e se expande: é preciso maximizar simultaneamente o throughput total de tokens e também buscar a velocidade de saída de tokens por solicitação.
Essa mudança de KPI vira o ponto de partida para a reviravolta do destino da HBM.
Fórmula de throughput de tokens revela a primeira regra da demanda por HBM
A fin decompõe o throughput de tokens da inferência de IA como o produto de dois parâmetros: “quantidade de lotes de requisições processados simultaneamente × velocidade média de geração de tokens por requisição”. Ao rastrear os gargalos de cada um desses parâmetros, a resposta aponta para a mesma peça.
O gargalo da quantidade de lotes está na capacidade de armazenamento da HBM. Cada solicitação de inferência carrega seu próprio KV cache — o mecanismo que armazena estados intermediários durante a execução do modelo — e essa cache precisa ficar imediatamente na HBM para que, a cada token gerado, o modelo consiga fazer leituras repetidas em alta velocidade. Quanto maior o tamanho do lote, maior o espaço de armazenamento de HBM necessário; ambos são proporcionalidade linear.
O gargalo da velocidade, por sua vez, está na largura de banda da HBM. Na fase de decodificação, para cada token produzido, é necessário ler repetidamente os pesados pesos de entrada e o KV cache. A velocidade de leitura determina diretamente a eficiência de geração de tokens; e o limite dessa velocidade é a própria largura de banda da HBM.
Ele diz que essa relação pode ser comparada a ônibus de aeroporto: a capacidade da HBM é o tamanho do compartimento do ônibus, determinando quantos passageiros cabem de uma vez; a largura de banda da HBM é a largura das portas, determinando a velocidade com que os passageiros sobem e descem. O throughput total de passageiros transportados é o produto do tamanho do compartimento pela velocidade do trajeto. A partir disso, chega-se à primeira regra da demanda de hardware de inferência de IA:
Throughput de tokens = capacidade da HBM × largura de banda da HBM
Para manter, em cada geração de GPU, o throughput de tokens crescendo 2x, o produto da capacidade da HBM com a largura de banda da HBM precisa dobrar a cada geração.
Otimização de software não resolve o problema; a demanda de HBM fica no trilho exponencial
Diante dessa cadeia de raciocínio, a objeção mais comum do mercado é: a otimização de software não poderia reduzir a dependência de HBM? A resposta é que eficiência de software e avanço de especificações de hardware são dimensões totalmente independentes, e uma não substitui a outra. É como otimizar ao máximo o software da CPU: ainda assim, não é possível impedir que a Intel ou a AMD, a cada geração, precise entregar pontuações mais altas nos testes-padrão; caso contrário, o produto não vende.
A lógica da GPU é a mesma: desde que a demanda global por tokens continue expandindo, a busca por maior throughput de tokens não vai parar. E, portanto, a necessidade de avanços em ambos os lados da HBM também não vai parar.
O mais importante: essa pressão não vem de puxões do ciclo econômico externo, e sim de uma demanda endógena do lado da oferta. Enquanto a Nvidia vender a próxima geração de GPU, ela inevitavelmente vai pressionar SK hynix, Samsung e Micron para que, em cada geração, a HBM dê saltos simultâneos em capacidade e largura de banda. O teto da HBM é o teto do desempenho da GPU.
Ao traçar, no mesmo sistema de eixos, o throughput de tokens das GPUs da Nvidia de A100 até Rubin Ultra e os valores correspondentes de “capacidade da HBM × largura de banda da HBM”, o grau de aderência das duas curvas surpreende. Não é coincidência histórica, mas consequência inevitável de otimização de sistema.
HBM abandona o destino cíclico; a lógica de precificação do mercado ainda precisa ser reavaliada
Com base na dedução acima do ponto de vista arquitetural, a diferença essencial entre HBM e DRAM tradicional fica clara. Memória tradicional é um acessório da indústria de chips, com fraca força motriz de demanda; quando o ritmo de expansão de capacidade supera a recuperação da demanda, a queda cíclica de preços chega como esperado.
Já a demanda por HBM foi travada, pela lógica física da arquitetura de inferência de IA, em uma trajetória de crescimento exponencial. Isso não tem relação causal direta com o “clima” do mercado de IA nem com o ciclo econômico geral.
Claro, o problema real não está do lado da demanda, e sim do lado da oferta: SK hynix, Samsung e Micron — esses três grandes players — conseguirão conter, diante de uma demanda forte, o impulso cego de expansão que se repetiu por décadas e evitar enterrar novamente o veneno do ciclo de excesso de oferta? A resposta para isso será a variável-chave para saber se o ciclo de memórias desta rodada conseguirá se sustentar por muito tempo.
(Quedas fortes nas ações de memória ainda dá para comprar? Analista do Santander Securities: correções dentro do ciclo, não pico do otimismo)
Este artigo quebra o mito do ciclo! Uma fórmula desmonta a estrutura da demanda de HBM: por que a memória só continuará subindo? Publicado primeiro na cadeia ABMedia.
Related Articles
Os ETFs Spot de Bitcoin registram US$ 1,6 bilhão de entradas líquidas em 4 dias consecutivos
ETFs Spot de Bitcoin registram entradas recordes de US$ 1,6 bilhão em 4 dias
Corning e Nvidia assinam acordo de financiamento de capital próprio de US$ 500 milhões
A E*Trade do Morgan Stanley lança negociação de criptomoedas a 50 pontos-base
A Nvidia e a Corning ampliam em 10x a capacidade de conectividade óptica nos EUA, com a produção de fibra superando 50% em 6 de maio
Hut 8 registra US$ 16,8 bilhões de receita de data centers de IA e libera 3.300 BTC no 1T