De acordo com a monitorização da 1M AI News, investigadores da Stanford, do MIT e da empresa sul-coreana de videojogos KRAFTON publicaram o Meta-Harness, um método para um quadro de execução (harness) em que a IA otimiza automaticamente o processo. O harness é uma estrutura de “andaimes” que envolve o modelo e orienta as ações do Agent, incluindo a conceção de prompts, chamadas de ferramentas e gestão de contexto. Ao contrário dos quadros de execução escritos manualmente, o Meta-Harness permite que um Agent de codificação leia o código, os registos de execução e as pontuações de sucessivas estruturas de candidatos, iterando automaticamente para otimizar.
No benchmark de operações em terminal, o TerminalBench-2, o Meta-Harness elevou a taxa de sucesso do Claude Haiku 4.5 para 37,6%, superando o Goose (35,5%) e o Claude Code (27,5%), ficando em primeiro lugar entre todos os frameworks de execução do Haiku 4.5 que foram reportados. No Claude Opus 4.6, a taxa de sucesso foi de 76,4%, ficando em segundo.
O responsável técnico de Qianwen anterior, Lin Junyang, partilhou a publicação do autor do artigo e comentou: «“Modelo + framework de execução” já ultrapassou “apenas o modelo”. O desempenho do Agent é significativamente influenciado pelo desenho e pela qualidade do framework; eu de facto acredito que este é um rumo correto». Num artigo longo publicado por Lin Junyang a 27 de março (atualmente já removido), ele antecipou que o desenho de ambientes passaria de um projeto paralelo para uma categoria de produto de arranque verdadeiramente independente. O Meta-Harness validou esta perspetiva com dados experimentais: com o mesmo modelo, ao trocar para um conjunto de frameworks de execução otimizados por IA, a diferença de resultados pode chegar a 10 pontos percentuais.