O quadro de otimização automática por IA colocou o desempenho do terminal Haiku 4.5 em primeiro lugar: Lin Junyang afirma que esta é exatamente a mudança de "design de ambiente" que ele previu.

BlockBeatNews

De acordo com a monitorização da 1M AI News, investigadores da Stanford, do MIT e da empresa sul-coreana de videojogos KRAFTON publicaram o Meta-Harness, um método para um quadro de execução (harness) em que a IA otimiza automaticamente o processo. O harness é uma estrutura de “andaimes” que envolve o modelo e orienta as ações do Agent, incluindo a conceção de prompts, chamadas de ferramentas e gestão de contexto. Ao contrário dos quadros de execução escritos manualmente, o Meta-Harness permite que um Agent de codificação leia o código, os registos de execução e as pontuações de sucessivas estruturas de candidatos, iterando automaticamente para otimizar.

No benchmark de operações em terminal, o TerminalBench-2, o Meta-Harness elevou a taxa de sucesso do Claude Haiku 4.5 para 37,6%, superando o Goose (35,5%) e o Claude Code (27,5%), ficando em primeiro lugar entre todos os frameworks de execução do Haiku 4.5 que foram reportados. No Claude Opus 4.6, a taxa de sucesso foi de 76,4%, ficando em segundo.

O responsável técnico de Qianwen anterior, Lin Junyang, partilhou a publicação do autor do artigo e comentou: «“Modelo + framework de execução” já ultrapassou “apenas o modelo”. O desempenho do Agent é significativamente influenciado pelo desenho e pela qualidade do framework; eu de facto acredito que este é um rumo correto». Num artigo longo publicado por Lin Junyang a 27 de março (atualmente já removido), ele antecipou que o desenho de ambientes passaria de um projeto paralelo para uma categoria de produto de arranque verdadeiramente independente. O Meta-Harness validou esta perspetiva com dados experimentais: com o mesmo modelo, ao trocar para um conjunto de frameworks de execução otimizados por IA, a diferença de resultados pode chegar a 10 pontos percentuais.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário