A competição entre grandes modelos de linguagem realmente se intensificou. Com base nos avanços dos últimos meses, o GLM-4.7 teve um desempenho bastante impressionante em tarefas relacionadas a agentes — seja em chamadas de ferramentas, raspagem de páginas da web ou raciocínio matemático, mostrou várias vantagens. No entanto, em termos de habilidades de engenharia de software (padrão SWE-bench) e precisão em operações de linha de comando, Claude e GPT ainda se mantêm à frente.



É interessante notar que a diferença de desempenho desses modelos em cenários de aplicações de criptomoeda é ainda mais evidente. Cada um enfatiza sua capacidade de adaptação à análise de dados em blockchain, auditoria de contratos inteligentes e interações DeFi, mas o efeito real ainda varia de acordo com a tarefa. Especialmente ao lidar com operações complexas em várias etapas e geração de código de nível de engenharia, a diferença de teto entre os diferentes modelos pode ser bastante grande.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 3
  • Repostar
  • Compartilhar
Comentário
0/400
EternalMinervip
· 12-23 12:55
Haha, a verdade é que essa onda do GLM tem algo, mas no círculo da encriptação ainda temos que ver quem consegue realmente lidar com operações complexas na cadeia, só falar de bull não ajuda. --- Para ser sincero, o desempenho desses modelos nos cenários de Finanças Descentralizadas é desigual, às vezes parece que todos estão se elogiando. --- De que adianta uma tarefa do Agent ser poderosa, o ponto chave é se consegue chamar os contratos de forma estável, essa parte realmente tem uma grande diferença de limite. --- O GLM-4.7 parece bom, mas ainda vou esperar para ver se realmente pode ser usado para auditar contratos inteligentes, agora tudo está muito idealizado. --- Cada empresa está se elogiando em relação às suas aplicações web3, mas quem realmente se destaca? Não é preciso subir na cadeia e testar na prática? --- A diferença na geração de código em nível de engenharia é tão grande, como podemos esperar que os modelos consigam escrever contratos confiáveis? Estou um pouco preocupado. --- Não é só que cada um tem suas próprias vantagens, é escolher a ferramenta certa dependendo do cenário, não precisamos classificar em primeiro, segundo ou terceiro.
Ver originalResponder0
RektCoastervip
· 12-23 12:46
GLM esta onda realmente tem algo, a parte do Agent realmente pode fazer diferença. Mas no swe-bench ainda temos que observar Claude e GPT, a diferença ainda existe. Na cadeia, cada um se elogia, quem usa sabe... A auditoria de contratos de Finanças Descentralizadas ainda precisa de vários modelos para validação cruzada, um único não dá conta do recado.
Ver originalResponder0
PriceOracleFairyvip
· 12-23 12:34
o glm está a recuperar rapidamente nas tarefas de agente, mas lmao... sejamos realistas, quando se trata de execução real de arbitragem onchain e auditoria de contratos? o claude continua a ser aquele em quem confio com o meu capital disponível. o flex do agente não significa nada se não consegues aproveitar uma janela mev de 2 segundos sem alucinar o calldata 🤔
Ver originalResponder0
  • Marcar

Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)