如果你一直关注本地AI领域，你可能知道Qwopus——这个开源模型，试图将Claude Opus 4.6的推理能力浓缩到阿里巴巴的Qwen中，这样你就可以在自己的硬件上免费运行类似Opus的模型。效果出乎意料地好。显而易见的缺点：Qwen是一个中国模型，并不是每个人都对这个感到舒服。与该项目背后的化名开发者Jackrong听取了反馈。他的答案是Gemopus——一系列全新基于Google开源Gemma 4打造的Claude Opus风格微调模型。美式血统，同样的理念：前沿推理能力，在你已有硬件上本地运行。这个系列有两种版本。Gemopus-4-26B-A4B是较重的选择——一个专家混合模型，总参数为260亿，但在推理时只激活大约40亿参数，这意味着它在受限硬件上也能发挥出远超其重量的性能。

参数决定了AI的学习、推理和存储信息的能力。拥有260亿参数意味着模型拥有庞大的知识面。但只激活与你的具体提示相关的40亿参数，它就能提供像庞大AI一样的高质量结果，同时保持足够轻量，能在日常硬件上顺畅运行。另一款是Gemopus-4-E4B，一个80亿参数的边缘模型，设计用于在现代iPhone或轻薄的MacBook上轻松运行——无需GPU。基础模型的选择很重要。Google的Gemma 4于4月2日发布，直接基于同样的研究和技术构建，与Gemini 3相同——公司在发布时明确表示。这意味着Gemopus拥有一些Qwen微调模型无法声称的优势：Google自己最先进的封闭模型的DNA，包裹在Anthropic的思维风格之上。两者的优点，或多或少。

让Gemopus与其他大量涌入Hugging Face的Gemma微调模型不同的是，它背后的理念。Jackrong故意没有将Claude的链式推理轨迹强行灌入Gemma的权重——这是大多数竞争版本采取的捷径。他的观点，结合最新研究，是用教师模型的表面推理文本填充学生模型，并不能真正转移出真正的推理能力。它教的是模仿，而非逻辑。“没有必要过度想象或迷信复制Claude风格的推理链条，”模型说明中写道。相反，他专注于答案质量、结构清晰和对话自然——修正了Gemma那僵硬的维基百科风格，以及它倾向于对你未提问的内容进行讲解的毛病。 AI基础设施工程师Kyle Hessling进行了独立基准测试，并将结果直接发布在模型卡上。他对26B版本的评价相当积极。“很高兴对这个模型进行了充分测试，它是对一个已经非常出色模型的极佳微调，”他在X上写道。“它在长上下文的一次性请求中表现出色，并且由于MOE(专家混合架构，运行速度极快。”

Jackrong的Gemopus-4-26B-A4B已上线！

很高兴对这个模型进行了充分测试)查看我的基准测试在模型卡上(，它是对一个已经非常出色模型的极佳微调！我的朋友Jackrong总是在创新！

它在长上下文的一次性请求中表现出色……

— Kyle Hessling )@KyleHessling1( 2026年4月10日

较小的E4B版本通过了全部14项核心能力测试——指令遵循、编码、数学、多步推理、翻译、安全、缓存——并在30K和60K的长上下文测试中全部通过。在针刺大海中的检索测试中，13/13的探测都通过了，包括在一百万标记的扩展上下文中进行的YaRN 8× RoPE扩展测试。

![])https://img-cdn.gateio.im/social/moments-04d154b95d-486ef60157-8b7abd-badf29(

26B模型原生支持131K的上下文，使用YaRN扩展可达524K，Hessling也进行了压力测试：“它在我简单的针刺大海测试中也表现出色，扩展到524K的上下文都毫无压力！” 在边缘硬件上，E4B的速度非常快。Jackrong报告在iPhone 17 Pro Max上每秒45-60个标记，在MacBook Air M3/M4通过MLX每秒90-120个标记。26B的MoE架构意味着它在统一内存系统或VRAM不足10GB的GPU上也能优雅地卸载。Hessling称它为他在VRAM有限环境中的日常首选。

两个模型都以GGUF格式提供，这意味着你可以直接放入LM Studio或llama.cpp，无需配置。完整的训练代码和逐步微调指南都在Jackrong的GitHub上——与他用在Qwopus上的流程相同，使用相同的Unsloth和LoRA设置，可在Colab上复现。 Gemopus也并非没有瑕疵。Tool calling在llama.cpp和LM Studio的Gemma 4系列中仍然存在问题——调用失败、格式不匹配、循环——所以如果你的工作流程依赖于调用外部工具的代理，这还不是你的理想模型。Jackrong本人称其为“工程探索参考，而非完全生产就绪的解决方案”，并建议需要更稳定的实际工作负载的用户使用他的Qwopus 3.5系列。而且，由于Jackrong故意避免了激进的Claude风格链式推理蒸馏，不要期待它像Qwopus那样深度“奥普斯”——这是为了稳定性做出的有意识的权衡，而非疏忽。

是的，这个模型的理念是稳定优先，据我所知，如果强行将大量Claude推理轨迹灌入Gemma模型，Gemma模型往往会变得不稳定，你可以在Hugging Face上测试许多其他Opus gemma微调模型时看到这一点。

Jackrong尝试了……

— Kyle Hessling )@KyleHessling1( 2026年4月10日

对于那些希望深入Gemma微调推理能力的用户，还有一个值得关注的社区项目：由化名开发者DJLougen创建的Ornstein，它使用相同的26B Gemma 4基础，专注于提升其推理链，而不依赖任何第三方模型的逻辑或风格。一个真实的警告：Gemma的训练动态比Qwen更复杂——波动更大，超参数敏感性更高。Jackrong自己也承认。如果你需要一个经过更多实战验证的本地模型用于生产流程，他的Qwopus 3.5系列仍然更稳健。但如果你想要一个具有Opus风格润色的美式模型，Gemopus目前是你最好的选择。还有一个更密集的31B版本的Gemopus也在开发中，Hessling预告它“绝对是个爆款”。如果你想尝试在自己的硬件上运行本地模型，可以参考我们的本地AI入门指南。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
GatePreIPOs首发SpaceX
14.11万热度
#
Gate13周年现场直击
22.4万热度
#
美伊局势和谈与增兵博弈
76.66万热度
#
加密市场回升
9.46万热度
#
WCTC交易赛瓜分800万USDT
62.3万热度

谷歌的Gemma已经表现得像Gemini——有人让它也像Claude Opus一样思考

热门话题

GatePreIPOs首发SpaceX

Gate13周年现场直击

美伊局势和谈与增兵博弈

加密市场回升

WCTC交易赛瓜分800万USDT

置顶