DeepSeek-R1 comemora um ano de lançamento e revela o novo modelo 「MODEL1」

BlockBeats notícia, 21 de janeiro, de acordo com a Quantumbit, no primeiro aniversário do lançamento do DeepSeek-R1, foi divulgado o novo modelo 「MODEL1」. O DeepSeek atualizou o código FlashMLA no GitHub, onde há 28 menções a MODEL1 em 114 arquivos, aparecendo ao lado do V32 como modelos diferentes. Sabe-se que o V32 é o DeepSeek-V3.2, e o MODEL1 provavelmente é uma nova arquitetura. As diferenças específicas no código manifestam-se na disposição do cache KV, no tratamento de esparsidade e na decodificação FP8, havendo várias alterações na otimização de memória.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários