NVIDIA 开源 TwoTower 架构,实现 2.42x 文本生成加速

据Beating报道,NVIDIA已开源Nemotron-Labs-TwoTower,一种用于加速大语言模型文本生成的离散文本扩散架构。双塔设计将冻结的自回归模型(保留推理能力)与可训练的并行文本生成去噪塔解耦。在300亿参数的Mamba-Transformer混合专家模型上仅使用基线预训练数据的1/12,TwoTower保留了98.7%的基线质量,同时生成速度提升了2.42倍且无额外内存开销。
免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论