finalmente uma referência que realmente importa.


esqueça o MMLU e as pontuações em matemática.. PinchBench testa qual modelo de IA é melhor a fazer trabalho real.
não responder a perguntas triviais. realmente fazer coisas:
→ procurar informações em várias fontes web
→ criar e agendar reuniões
→ organizar ficheiros no seu computador
→ escrever e gerir emails
testa modelos a funcionar como agentes através do OpenClaw.. ou seja, a IA tem que usar ferramentas, encadear ações e completar tarefas de ponta a ponta.
os resultados são interessantes:
> Gemini 3 Flash lidera com 95,1%
> MiniMax M2.1 logo atrás com 93,6%
> Kimi K2.5 com 93,4%
> Claude Sonnet com 92,7%
> Gemini 3 Pro com 91,7%
> Claude Haiku com 90,8%
> Claude Opus 4.6 com 90,6%
> GPT-5 Nano com 85,8%
a diferença entre o topo e o fundo é de apenas ~10%.. o que significa que a maioria dos modelos de ponta está a ficar bastante bons em tarefas de agentes.
mas a verdadeira conclusão? Gemini Flash.. um modelo leve.. está a superar todos os modelos pesados em trabalho prático de agente. velocidade + uso de ferramentas > inteligência bruta.
este é o tipo de referência que deveria decidir qual modelo usar diariamente.. não algum teste académico com que ninguém se identifica.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar