Google libera modelo DiffusionGemma em código aberto: mais de 1.000 tokens por segundo no H100, ganho de velocidade 4x

De acordo com o monitoramento do Beating, o Google lançou um modelo de geração de texto open-source chamado DiffusionGemma, que usa um mecanismo baseado em difusão para gerar texto em blocos paralelos em vez de forma sequencial token por token. O modelo de 26B parâmetros ativa apenas 3,8B parâmetros por passagem direta sob uma arquitetura de mixture-of-experts, alcançando uma melhoria de 4x na inferência local na GPU.

Em uma única GPU NVIDIA H100, o DiffusionGemma atinge mais de 1000 tokens por segundo, enquanto a RTX 5090 de nível consumidor ultrapassa 700 tokens por segundo. Após quantização em ponto flutuante de 4-bit, o modelo exige menos de 18GB de VRAM. Os pesos do DiffusionGemma agora foram open-source no Hugging Face e têm suporte do MLX, vLLM, Unsloth e NVIDIA NeMo.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários