O pesquisador da Microsoft vence na sua própria referência Perplexity: avaliação de duplo modelo avança para Frontier, Cowork abre sincronização de agentes para tarefas longas

BlockBeatNews

Com base no acompanhamento da 1M AI News, a Microsoft disponibilizou em conjunto duas novas capacidades do Microsoft 365 Copilot através da Frontier (um programa de pré-visualização para utilizadores empresariais, em que os participantes podem experimentar antecipadamente funcionalidades do Copilot que ainda não foram lançadas oficialmente).

O Researcher (agente de investigação aprofundada incorporado no Copilot) recebeu dois novos modos de colaboração entre múltiplos modelos: Critique e Council. O Critique é executado em colaboração entre modelos das Anthropic e da OpenAI: um é responsável por planear, pesquisar e redigir, enquanto o outro se dedica a rever e refinar; quando o Auto é selecionado, fica ativado por predefinição. O Council também corre em paralelo com dois modelos: cada um gera um relatório completo, e depois um modelo de avaliação separado agrega as semelhanças e diferenças. A Microsoft usa o GPT-5.2 como modelo de avaliação (um dos três métodos de avaliação do artigo original, sendo o mais rigoroso) e testa o Critique no benchmark DRACO (100 questões de investigação complexas publicadas por investigadores da Perplexity, cobrindo 10 áreas). Em pontuação agregada, o resultado supera o melhor sistema do benchmark, a Perplexity Deep Research (que utiliza o Claude Opus 4.6), em 7.0 pontos, o que representa uma melhoria relativa de 13.88%. O artigo original do DRACO não inclui o Critique; estes são dados que a Microsoft obteve ao testar por conta própria, seguindo o mesmo protocolo de avaliação.

O Copilot Cowork é orientado para trabalho mais longo e com múltiplos passos: primeiro gera um plano com base no objetivo e, em seguida, progride passo a passo através de ferramentas e ficheiros, mostrando o progresso ao longo do processo; o utilizador pode intervir a qualquer momento. A Microsoft cita a Capital Group como exemplo de utilização inicial, afirmando que já foi usada para planeamento de projetos, definição de calendário, produção de entregáveis e preparação de revisões por parte de executivos.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário