谷歌的Gemma已经表现得像Gemini——有人让它也像Claude Opus一样思考

如果你一直关注本地AI领域,你可能知道Qwopus——这个开源模型,试图将Claude Opus 4.6的推理能力浓缩到阿里巴巴的Qwen中,这样你就可以在自己的硬件上免费运行类似Opus的模型。效果出乎意料地好。显而易见的缺点:Qwen是一个中国模型,并不是每个人都对这个感到舒服。 与该项目背后的化名开发者Jackrong听取了反馈。他的答案是Gemopus——一系列全新基于Google开源Gemma 4打造的Claude Opus风格微调模型。美式血统,同样的理念:前沿推理能力,在你已有硬件上本地运行。 这个系列有两种版本。Gemopus-4-26B-A4B是较重的选择——一个专家混合模型,总参数为260亿,但在推理时只激活大约40亿参数,这意味着它在受限硬件上也能发挥出远超其重量的性能。

参数决定了AI的学习、推理和存储信息的能力。拥有260亿参数意味着模型拥有庞大的知识面。但只激活与你的具体提示相关的40亿参数,它就能提供像庞大AI一样的高质量结果,同时保持足够轻量,能在日常硬件上顺畅运行。 另一款是Gemopus-4-E4B,一个80亿参数的边缘模型,设计用于在现代iPhone或轻薄的MacBook上轻松运行——无需GPU。  基础模型的选择很重要。Google的Gemma 4于4月2日发布,直接基于同样的研究和技术构建,与Gemini 3相同——公司在发布时明确表示。这意味着Gemopus拥有一些Qwen微调模型无法声称的优势:Google自己最先进的封闭模型的DNA,包裹在Anthropic的思维风格之上。两者的优点,或多或少。

让Gemopus与其他大量涌入Hugging Face的Gemma微调模型不同的是,它背后的理念。Jackrong故意没有将Claude的链式推理轨迹强行灌入Gemma的权重——这是大多数竞争版本采取的捷径。 他的观点,结合最新研究,是用教师模型的表面推理文本填充学生模型,并不能真正转移出真正的推理能力。它教的是模仿,而非逻辑。“没有必要过度想象或迷信复制Claude风格的推理链条,”模型说明中写道。相反,他专注于答案质量、结构清晰和对话自然——修正了Gemma那僵硬的维基百科风格,以及它倾向于对你未提问的内容进行讲解的毛病。 AI基础设施工程师Kyle Hessling进行了独立基准测试,并将结果直接发布在模型卡上。他对26B版本的评价相当积极。“很高兴对这个模型进行了充分测试,它是对一个已经非常出色模型的极佳微调,”他在X上写道。“它在长上下文的一次性请求中表现出色,并且由于MOE(专家混合架构,运行速度极快。”

Jackrong的Gemopus-4-26B-A4B已上线!

很高兴对这个模型进行了充分测试)查看我的基准测试在模型卡上(,它是对一个已经非常出色模型的极佳微调!我的朋友Jackrong总是在创新!

它在长上下文的一次性请求中表现出色……

— Kyle Hessling )@KyleHessling1( 2026年4月10日

较小的E4B版本通过了全部14项核心能力测试——指令遵循、编码、数学、多步推理、翻译、安全、缓存——并在30K和60K的长上下文测试中全部通过。在针刺大海中的检索测试中,13/13的探测都通过了,包括在一百万标记的扩展上下文中进行的YaRN 8× RoPE扩展测试。

![])https://img-cdn.gateio.im/social/moments-04d154b95d-486ef60157-8b7abd-badf29(

26B模型原生支持131K的上下文,使用YaRN扩展可达524K,Hessling也进行了压力测试:“它在我简单的针刺大海测试中也表现出色,扩展到524K的上下文都毫无压力!” 在边缘硬件上,E4B的速度非常快。Jackrong报告在iPhone 17 Pro Max上每秒45-60个标记,在MacBook Air M3/M4通过MLX每秒90-120个标记。26B的MoE架构意味着它在统一内存系统或VRAM不足10GB的GPU上也能优雅地卸载。Hessling称它为他在VRAM有限环境中的日常首选。

两个模型都以GGUF格式提供,这意味着你可以直接放入LM Studio或llama.cpp,无需配置。完整的训练代码和逐步微调指南都在Jackrong的GitHub上——与他用在Qwopus上的流程相同,使用相同的Unsloth和LoRA设置,可在Colab上复现。 Gemopus也并非没有瑕疵。Tool calling在llama.cpp和LM Studio的Gemma 4系列中仍然存在问题——调用失败、格式不匹配、循环——所以如果你的工作流程依赖于调用外部工具的代理,这还不是你的理想模型。Jackrong本人称其为“工程探索参考,而非完全生产就绪的解决方案”,并建议需要更稳定的实际工作负载的用户使用他的Qwopus 3.5系列。 而且,由于Jackrong故意避免了激进的Claude风格链式推理蒸馏,不要期待它像Qwopus那样深度“奥普斯”——这是为了稳定性做出的有意识的权衡,而非疏忽。

是的,这个模型的理念是稳定优先,据我所知,如果强行将大量Claude推理轨迹灌入Gemma模型,Gemma模型往往会变得不稳定,你可以在Hugging Face上测试许多其他Opus gemma微调模型时看到这一点。

Jackrong尝试了……

— Kyle Hessling )@KyleHessling1( 2026年4月10日

对于那些希望深入Gemma微调推理能力的用户,还有一个值得关注的社区项目:由化名开发者DJLougen创建的Ornstein,它使用相同的26B Gemma 4基础,专注于提升其推理链,而不依赖任何第三方模型的逻辑或风格。 一个真实的警告:Gemma的训练动态比Qwen更复杂——波动更大,超参数敏感性更高。Jackrong自己也承认。如果你需要一个经过更多实战验证的本地模型用于生产流程,他的Qwopus 3.5系列仍然更稳健。但如果你想要一个具有Opus风格润色的美式模型,Gemopus目前是你最好的选择。还有一个更密集的31B版本的Gemopus也在开发中,Hessling预告它“绝对是个爆款”。 如果你想尝试在自己的硬件上运行本地模型,可以参考我们的本地AI入门指南。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论