DeepSeek-R1发布一周年之际曝光新模型「MODEL1」

BlockBeats 消息,1 月 21 日,据量子位报道,DeepSeek-R1 发布一周年之际对新模型「MODEL1」进行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代码,横跨 114 个文件中有 28 处提到 MODEL1,与 V32 作为不同的模型出现。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在 KV 缓存布局、稀疏性处理和 FP8 解码方面,在内存优化上有多处不同。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论