Quebre a ilusão do ciclo! Uma fórmula para decompor a estrutura da demanda por HBM: por que a memória só continuará a subir?

ChainNewsAbmedia

A onda de IA impulsiona a demanda por memória e faz os preços subirem. Ainda assim, o mercado teme que a HBM repita a “maldição cíclica” — como a DRAM no passado —, virando rapidamente após picos de demanda? Analistas de arquitetura de semicondutores da fin apontam que a lógica da demanda por HBM já se desvinculou das regras tradicionais do setor de memórias e está sendo reprecificada via tokens.

(Alta do setor de memórias desacelera? Avaliação de instituições: avanço do 2º tri encolhe para 30%, com arrefecimento no 2º semestre)

A memória na era do CPU: um acessório, para “o que dá e o que não dá”

A fin destaca que, na era em que a computação era liderada por CPU, a memória DDR sempre teve papel secundário. Engenheiros de CPU desenvolveram um conjunto de técnicas para mascarar latência de memória, incluindo design superescalar, cache em múltiplos níveis, renomeação de registradores etc., permitindo que o processador mantivesse alto desempenho sem depender necessariamente de memórias ultrarrápidas:

A regra prática do setor é que, mesmo com o DDR dobrando diretamente a largura de banda, o ganho de desempenho geral da CPU costuma não passar de 20%.

Essa arquitetura moldou diretamente o ritmo de crescimento da indústria de DRAM por décadas. Do DDR3 ao DDR5, foram 15 anos; nos últimos 10 anos, a capacidade típica de DDR em PCs passou de 7 a 8 GB para cerca de 23 GB — apenas triplicou em 10 anos. A principal fonte de lucro dos fabricantes de DRAM vem do tamanho de capacidade; os upgrades de largura de banda servem, no máximo, para elevar o preço unitário.

Na era do CPU, a memória é uma das etapas com menor utilidade marginal na cadeia de chips. Oscilações cíclicas são o padrão — e também o destino.

Chega a era do raciocínio com IA, e a lógica de valor da memória é reescrita do zero

No entanto, quando o “protagonista” da computação muda para os motores de inferência de IA, o critério de avaliação também muda. Agora, os fabricantes de chips competem por quantas operações de ponto flutuante conseguem executar por segundo; hoje, a KPI central da era da IA tem apenas uma prioridade: quantos tokens conseguem ser gerados por custo e por consumo de energia (por unidade).

O conceito de “fábrica de IA”, proposto pelo CEO da Nvidia, Huang Renxun (Jen-Hsun Huang), descreve com precisão essa nova lógica: o propósito da fábrica de IA é produzir o máximo de tokens pelo menor custo e, ao mesmo tempo, levar ao limite a velocidade de saída dos tokens. O objetivo de otimização deixa de ser unidimensional e se expande: é preciso maximizar simultaneamente o throughput total de tokens e também buscar a velocidade de saída de tokens por solicitação.

Essa mudança de KPI vira o ponto de partida para a reviravolta do destino da HBM.

Fórmula de throughput de tokens revela a primeira regra da demanda por HBM

A fin decompõe o throughput de tokens da inferência de IA como o produto de dois parâmetros: “quantidade de lotes de requisições processados simultaneamente × velocidade média de geração de tokens por requisição”. Ao rastrear os gargalos de cada um desses parâmetros, a resposta aponta para a mesma peça.

O gargalo da quantidade de lotes está na capacidade de armazenamento da HBM. Cada solicitação de inferência carrega seu próprio KV cache — o mecanismo que armazena estados intermediários durante a execução do modelo — e essa cache precisa ficar imediatamente na HBM para que, a cada token gerado, o modelo consiga fazer leituras repetidas em alta velocidade. Quanto maior o tamanho do lote, maior o espaço de armazenamento de HBM necessário; ambos são proporcionalidade linear.

O gargalo da velocidade, por sua vez, está na largura de banda da HBM. Na fase de decodificação, para cada token produzido, é necessário ler repetidamente os pesados pesos de entrada e o KV cache. A velocidade de leitura determina diretamente a eficiência de geração de tokens; e o limite dessa velocidade é a própria largura de banda da HBM.

Ele diz que essa relação pode ser comparada a ônibus de aeroporto: a capacidade da HBM é o tamanho do compartimento do ônibus, determinando quantos passageiros cabem de uma vez; a largura de banda da HBM é a largura das portas, determinando a velocidade com que os passageiros sobem e descem. O throughput total de passageiros transportados é o produto do tamanho do compartimento pela velocidade do trajeto. A partir disso, chega-se à primeira regra da demanda de hardware de inferência de IA:

Throughput de tokens = capacidade da HBM × largura de banda da HBM

Para manter, em cada geração de GPU, o throughput de tokens crescendo 2x, o produto da capacidade da HBM com a largura de banda da HBM precisa dobrar a cada geração.

Otimização de software não resolve o problema; a demanda de HBM fica no trilho exponencial

Diante dessa cadeia de raciocínio, a objeção mais comum do mercado é: a otimização de software não poderia reduzir a dependência de HBM? A resposta é que eficiência de software e avanço de especificações de hardware são dimensões totalmente independentes, e uma não substitui a outra. É como otimizar ao máximo o software da CPU: ainda assim, não é possível impedir que a Intel ou a AMD, a cada geração, precise entregar pontuações mais altas nos testes-padrão; caso contrário, o produto não vende.

A lógica da GPU é a mesma: desde que a demanda global por tokens continue expandindo, a busca por maior throughput de tokens não vai parar. E, portanto, a necessidade de avanços em ambos os lados da HBM também não vai parar.

O mais importante: essa pressão não vem de puxões do ciclo econômico externo, e sim de uma demanda endógena do lado da oferta. Enquanto a Nvidia vender a próxima geração de GPU, ela inevitavelmente vai pressionar SK hynix, Samsung e Micron para que, em cada geração, a HBM dê saltos simultâneos em capacidade e largura de banda. O teto da HBM é o teto do desempenho da GPU.

Ao traçar, no mesmo sistema de eixos, o throughput de tokens das GPUs da Nvidia de A100 até Rubin Ultra e os valores correspondentes de “capacidade da HBM × largura de banda da HBM”, o grau de aderência das duas curvas surpreende. Não é coincidência histórica, mas consequência inevitável de otimização de sistema.

HBM abandona o destino cíclico; a lógica de precificação do mercado ainda precisa ser reavaliada

Com base na dedução acima do ponto de vista arquitetural, a diferença essencial entre HBM e DRAM tradicional fica clara. Memória tradicional é um acessório da indústria de chips, com fraca força motriz de demanda; quando o ritmo de expansão de capacidade supera a recuperação da demanda, a queda cíclica de preços chega como esperado.

Já a demanda por HBM foi travada, pela lógica física da arquitetura de inferência de IA, em uma trajetória de crescimento exponencial. Isso não tem relação causal direta com o “clima” do mercado de IA nem com o ciclo econômico geral.

Claro, o problema real não está do lado da demanda, e sim do lado da oferta: SK hynix, Samsung e Micron — esses três grandes players — conseguirão conter, diante de uma demanda forte, o impulso cego de expansão que se repetiu por décadas e evitar enterrar novamente o veneno do ciclo de excesso de oferta? A resposta para isso será a variável-chave para saber se o ciclo de memórias desta rodada conseguirá se sustentar por muito tempo.

(Quedas fortes nas ações de memória ainda dá para comprar? Analista do Santander Securities: correções dentro do ciclo, não pico do otimismo)

Este artigo quebra o mito do ciclo! Uma fórmula desmonta a estrutura da demanda de HBM: por que a memória só continuará subindo? Publicado primeiro na cadeia ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Os ETFs Spot de Bitcoin registram US$ 1,6 bilhão de entradas líquidas em 4 dias consecutivos

De acordo com a SoSoValue, os ETFs spot de Bitcoin dos EUA registraram entradas líquidas de aproximadamente US$ 1,644 bilhão nos últimos quatro dias, até 6 de maio. O iShares Bitcoin Trust (IBIT) da BlackRock liderou com cerca de US$ 890 milhões em entradas, elevando suas participações em Bitcoin para mais de 818.146 BTC, avaliadas em US$ 65,47 bilhões. F

GateNews23m atrás

ETFs Spot de Bitcoin registram entradas recordes de US$ 1,6 bilhão em 4 dias

## ETFs Spot de Bitcoin atraem US$ 1,6 bilhão em quatro dias Os ETFs spot de Bitcoin (BTC) dos Estados Unidos registraram uma entrada líquida de caixa de aproximadamente US$ 1,644 bilhão ao longo de quatro dias consecutivos até 5 de maio, de acordo com dados da SoSoValue. As entradas aumentaram o total de Bitcoin h

CryptoFrontier29m atrás

Corning e Nvidia assinam acordo de financiamento de capital próprio de US$ 500 milhões

De acordo com a Corning, em 6 de maio a empresa e a Nvidia assinaram um acordo de compra de valores mobiliários como parte de sua parceria de longo prazo. A Corning emitiu para a Nvidia warrants no valor de US$ 500 milhões, incluindo warrants tradicionais para comprar até 15 milhões de ações ordinárias da Corning a um preço de exercício de US$

GateNews53m atrás

A E*Trade do Morgan Stanley lança negociação de criptomoedas a 50 pontos-base

De acordo com a Bloomberg, a plataforma ETrade, da Morgan Stanley, lançou serviços de negociação de criptomoedas em 6 de maio, com uma taxa de 50 pontos-base por transação. O serviço será expandido para os aproximadamente 8,6 milhões de clientes da ETrade ao longo de

GateNews59m atrás

A Nvidia e a Corning ampliam em 10x a capacidade de conectividade óptica nos EUA, com a produção de fibra superando 50% em 6 de maio

A Nvidia e a Corning anunciaram em 6 de maio uma parceria plurianual para expandir significativamente a capacidade de fabricação doméstica de conectividade óptica nos EUA. A Corning vai aumentar em 10 vezes sua capacidade de produtos de conectividade óptica nos EUA e elevar em mais de 50% sua produção de fibra óptica nos EUA para apoiar

GateNews1h atrás

Hut 8 registra US$ 16,8 bilhões de receita de data centers de IA e libera 3.300 BTC no 1T

De acordo com a PRNewswire, a empresa de mineração de Bitcoin Hut 8, listada na Nasdaq, divulgou seus resultados financeiros do 1T de 2026 em 6 de maio, informando que seus dois parques de IA em escala mega geraram US$ 16,8 bilhões em receita de arrendamento. A empresa divulgou cerca de 3.300 BTC (aproximadamente US$ 260 milhões) por meio de uma refinanciamento de empréstimo lastreado em Bitcoin

GateNews2h atrás
Comentário
0/400
Sem comentários