A mais recente edição do All In Podcast: como os grandes nomes veem a Micron, os gargalos de armazenamento, os modelos de código aberto chineses e a inferência distribuída


Esta edição do All In Podcast tem muita informação; selecionei alguns tópicos que acho mais valiosos para compartilhar e organizei.
Primeiro, sobre a linha dos modelos de código aberto chineses: o progresso é mais rápido do que o imaginado.
A Zhipu AI lançou a nova geração de modelo de código aberto de nível Frontier, o GLM 5.2, com 744 bilhões de parâmetros, contexto de 1 milhão de tokens, seguindo totalmente a licença de código aberto MIT. Os dados de avaliação são impressionantes: no benchmark de engenharia de software, ele derrotou o GPT-5.5 e ficou a menos de 1% do Claude Opus 4.8, o modelo mais avançado da Anthropic, mas o preço da API é 85% mais barato do que modelos americanos de desempenho equivalente.
Há um detalhe interessante no programa: um método que as equipes chinesas usam para acelerar a recuperação: eles usam milhares de celulares e iPads para formar uma fazenda de dispositivos, fazem perguntas de alta densidade às APIs dos modelos Frontier americanos usando contas criptografadas, colhem as cadeias de inferência do outro lado e alimentam seus próprios modelos de código aberto para treinamento de reforço. Isso equivale a usar as respostas padrão caras dos laboratórios americanos como cola, alcançando desempenho próximo a um custo muito baixo.
A atitude de Sacks foi bastante incisiva. Ele criticou Dario, da Anthropic, por ter pressionado o governo dos EUA a estabelecer processos de aprovação de segurança complicados, o que, na verdade, atrasou o ritmo dos próprios EUA. O modelo Fable foi forçado a sair do ar devido a acusações de jailbreak, e a aprovação do novo modelo da OpenAI está demorando. Sua avaliação é que os modelos chineses estão cerca de 9 meses atrasados tecnologicamente e cerca de 24 meses no hardware, mas já concluíram o treinamento da família GLM5 usando totalmente chips locais como o Huawei Ascend. No futuro, essas 'caixas de IA' otimizadas para chips locais, baratas e boas, provavelmente serão vendidas a preços baixos no mercado global, enquanto os EUA estão impondo várias restrições, perdendo esse mercado de exportação de trilhões de dólares.
Sobre o relatório financeiro da Micron, o programa deu um posicionamento preciso: a DRAM é o verdadeiro gargalo de toda a onda de IA.
A receita trimestral da Micron disparou quatro vezes ano a ano, de 9 bilhões para 42 bilhões, com orientações muito acima das expectativas, e a capacidade de HBM para 2026 já está totalmente vendida.
Há um ponto de vista bastante direto no programa: antes, as pessoas procuravam no Twitter várias pequenas empresas de materiais auxiliares japonesas como 'ações de gargalo', mas o verdadeiro calcanhar de Aquiles é apenas a DRAM, especialmente a HBM. A razão é simples: a largura de banda e a capacidade da memória determinam o teto físico do desempenho de inferência de todos os grandes modelos; é uma restrição rígida que não pode ser contornada. Até mencionaram que a superfábrica que Elon Musk está construindo tem seu núcleo tecnológico voltado para a DRAM, não para fibra óptica, fontes de energia ou NAND flash.
A Micron também fez uma mudança interessante em seu modelo de negócios desta vez: assinou acordos de fornecimento de longo prazo com 'limites mínimos e máximos de preço' com os principais provedores de nuvem, garantindo 50% da receita futura. Isso significa que, mesmo com um ciclo descendente da indústria, o preço mínimo garantido do contrato é maior do que o pico de margem bruta de qualquer ciclo anterior.
Quanto às barreiras de entrada, embora a ChangXin Memory Technologies (CXMT) da China esteja se preparando para abrir capital, e no futuro possa usar memória de consumo de médio e baixo custo para aliviar a pressão de custos de grandes empresas como a Apple, no campo da HBM de alto nível necessária para servidores de IA, globalmente, apenas três empresas — Micron, SK Hynix e Samsung — conseguem produzir, com um processo de altíssima dificuldade que não pode ser alcançado em curto prazo.
O programa deu uma previsão bastante exagerada: no próximo ano, 30% a 40% dos gastos de capital em hiperescala global irão diretamente para fabricantes de chips DRAM. Esse aumento de custos já levou a Apple a aumentar os preços de varejo de toda a linha MacBook e Mac Studio.
A parte sobre computação de borda e inferência distribuída é o conteúdo mais imaginativo desta edição; vou compartilhar algumas ideias que acho interessantes.
Em 18 de junho, a Tesla registrou uma marca de hardware chamada 'Megapod'. A lógica física por trás disso é: construir um data center de 1 gigawatt no solo, com processos de aprovação extremamente longos para terra, consumo de energia e refrigeração líquida. A ideia do Megapod é integrar GPUs, rede de baterias e sistema de refrigeração em um data center modular em contêiner, pousando diretamente na rede de superchargers da Tesla, que já possui aprovação, rede elétrica existente e terrenos livres, contornando os maiores gargalos da construção tradicional de data centers: aprovação e conexão elétrica.
A lógica da linha de inferência distribuída também é interessante: a resposta do modelo pode ser dividida em duas fases: a fase de Prefill para entender a pergunta e a fase de Decode com alta largura de banda e alto consumo de memória. Grandes recursos financeiros podem adquirir placas gráficas antigas depreciadas, acoplar externamente chips especializados para otimizar a decodificação na frente, formando uma rede de inferência distribuída de menor custo.
Uma ideia ainda mais louca é oferecer descontos para compradores de baterias de armazenamento residencial Powerwall no futuro, forçando a instalação de chips de IA em cada bateria, juntamente com a conexão via satélite Starlink. Quando as baterias estão ociosas, elas formam automaticamente um enorme pool de inferência P2P distribuído, obtendo um fluxo contínuo de poder computacional offshore quase gratuito. Se essa ideia se concretizar, será um golpe de nível dimensional para as grandes empresas de nuvem tradicionais.
A parte mais louca é a computação espacial. Construir um data center de 1 gigawatt no solo requer um custo de chips de US$ 35 bilhões mais um custo de mão de obra e refrigeração de US$ 25 bilhões, além de enfrentar várias disputas de terra. Mas, com a Starship da SpaceX alcançando reutilização total, o custo de lançar 1 gigawatt de poder computacional em órbita terrestre por meio de interconexão a laser pode cair para apenas US$ 5 bilhões. O ambiente naturalmente frio do espaço e a energia solar quase ilimitada podem fazer com que a economia operacional de data centers espaciais supere a de data centers terrestres em 3 a 4 anos.
DRAM-4,91%
SKHYNIX-8,97%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários