Porque é que, ao usar os mesmos GPT-4 ou Claude, dois produtos de IA apresentam resultados tão diferentes? O programador de IA Akshay Pachaar propôs, no X, um quadro de “Agent Harness Engineering”, com uma metáfora precisa para explicar isto: um LLM exposto é como um CPU sem sistema operativo — o que realmente determina o desempenho de um produto de IA não é o modelo de base em si, mas sim o ciclo de escalonamento (orquestração) construído em torno do modelo, a integração de ferramentas e a arquitectura de gestão de memória.
CPU precisa de sistema operativo, LLM precisa de Agent Harness
Pachaar construiu um conjunto completo de correspondências por analogia: LLM é CPU, Context Window é RAM, Vector DB é disco rígido, Tools são controladores de dispositivos, e o Agent Harness é o sistema operativo. Este quadro explica um fenómeno que há muito é observado na indústria — no ranking da LangChain TerminalBench, em diferentes produtos que usam o mesmo modelo de base, as diferenças de desempenho podem ser muito grandes.
A principal percepção é a seguinte: a capacidade do modelo é uma condição necessária, mas a qualidade de engenharia do harness é uma condição suficiente. Um Agent Harness bem desenhado pode permitir que um modelo intermédio ultrapasse um concorrente que integra um modelo de topo mas com um harness mal construído.
Os quatro principais componentes do Agent Harness
De acordo com o quadro de Pachaar, um Agent Harness completo inclui quatro dimensões-chave. Primeiro, a lógica de escalonamento (Scheduling Loop), que decide quando o agente deve pensar, quando deve agir e quando deve chamar ferramentas; em segundo lugar, a ecologia de ferramentas (Tool Ecosystem), que define com que sistemas externos o agente pode operar; em terceiro lugar, a gestão de memória (Memory Management), que trata a memória de conversas a curto prazo e a recuperação de conhecimento a longo prazo; por fim, a gestão de contexto (Context Management), que decide que informações inserir numa context window limitada.
As escolhas de desenho destes quatro componentes determinam padrões de comportamento radicalmente diferentes do mesmo modelo em produtos diferentes. É também por isso que o ChatGPT da OpenAI, o Claude da Anthropic e vários outros produtos de IA de terceiros, mesmo quando têm capacidades do modelo de base semelhantes, oferecem experiências de utilização muito distintas.
Contra-argumento: consegue um modelo suficientemente forte internalizar as funcionalidades do Harness?
Este quadro também enfrenta desafios. Alguns investigadores consideram que, à medida que os modelos base continuam a evoluir — especialmente com saltos geracionais na capacidade de raciocínio —, os modelos suficientemente fortes acabariam por internalizar grande parte das funcionalidades do harness, tal como os CPUs modernos foram integrando, gradualmente, funções que no passado exigiam chips separados. Se esta tendência se confirmar, a importância do harness engineering poderá diminuir ao longo do tempo.
No entanto, até ao estado actual da prática, mesmo os modelos mais fortes continuam a depender de forma muito elevada de ferramentas externas e de uma lógica de escalonamento cuidadosamente concebida. No futuro previsível, o harness engineering continuará a ser o campo central de diferenciação entre produtos de IA.
Lições para o desenvolvimento de produtos de IA
O quadro de Pachaar fornece um ângulo de análise mais preciso para avaliar e reportar produtos de IA: em vez de apenas comparar “que modelo foi usado”, deve-se analisar em profundidade decisões de engenharia a nível de harness, como a arquitectura de escalonamento do produto, a ecologia de ferramentas, os mecanismos de memória, etc. Para as equipas de desenvolvimento em Taiwan que estão a construir produtos de IA, isto significa que, depois de escolher o modelo de base, a verdadeira concorrência está apenas a começar — a qualidade de engenharia do harness é o factor-chave para determinar o sucesso ou fracasso do produto.
Este artigo, Agent Harness, é a peça-chave: por que é que o mesmo modelo de IA tem desempenhos tão diferentes em produtos distintos, foi publicado pela primeira vez em Newschain ABMedia.