La competencia entre los grandes modelos de lenguaje se ha vuelto realmente intensa. A juzgar por los avances en los últimos meses, el GLM-4.7 ha demostrado un rendimiento bastante sólido en tareas relacionadas con agentes—ya sea en la invocación de herramientas, la recopilación de datos de la web o el razonamiento matemático, ha mostrado varias ventajas. Sin embargo, en términos de capacidades de ingeniería de software (estándar SWE-bench) y precisión en operaciones de línea de comandos, Claude y GPT siguen manteniendo una ventaja.
Es interesante que las diferencias en el rendimiento de estos modelos en escenarios de aplicaciones de criptomonedas sean más evidentes. Cada uno enfatiza su capacidad de adaptarse al análisis de datos en la cadena, auditoría de contratos inteligentes e interacciones DeFi, pero el efecto real varía según la tarea. Especialmente al manejar operaciones complejas de múltiples pasos y generación de código de nivel ingenieril, la brecha de rendimiento entre diferentes modelos es bastante grande.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
3
Republicar
Compartir
Comentar
0/400
EternalMiner
· 12-23 12:55
Jaja, esta ola de GLM realmente tiene algo, pero en el mundo de la encriptación hay que ver quién puede realmente manejar las operaciones complejas on-chain, solo hablar no sirve de nada.
---
A decir verdad, el rendimiento de estos modelos en el escenario de Finanzas descentralizadas es desigual, a veces siento que todos están hablando entre sí.
---
¿De qué sirve una tarea de agente impresionante si no se puede invocar contratos de manera estable? Este aspecto realmente tiene una gran diferencia en el techo.
---
GLM-4.7 parece bueno, pero esperaré a ver si realmente se puede usar para auditar contratos inteligentes, ahora todo es demasiado idealizado.
---
En la aplicación web3, cada uno está diciendo que es el mejor, pero ¿quién es realmente el mejor? Solo se puede comprobar con pruebas on-chain.
---
La brecha en la generación de código de nivel ingenieril es tan grande, ¿cómo se puede esperar que un modelo escriba contratos confiables? Estoy un poco preocupado.
---
No es más que que cada uno tiene sus propias fortalezas, elige la herramienta según el escenario, no es necesario clasificar en primero, segundo y tercero.
Ver originalesResponder0
RektCoaster
· 12-23 12:46
GLM esta vez realmente tiene algo, la parte de Agent puede dar pelea. Sin embargo, en swe-bench todavía hay que mirar a Claude y GPT, la diferencia sigue existiendo.
En la parte on-chain cada uno se alaba, quien lo use lo sabe... La auditoría de contratos de Finanzas descentralizadas necesita más modelos para validación cruzada, uno solo no puede con todo.
Ver originalesResponder0
PriceOracleFairy
· 12-23 12:34
glm está alcanzando rápidamente las tareas de agente, pero jaja... seamos realistas, cuando se trata de la ejecución real de arbitraje en cadena y la auditoría de contratos? claude sigue siendo en quien confío con mi capital disponible. el flex del agente no significa nada si no puedes aprovechar una ventana mev de 2 segundos sin alucinar el calldata 🤔
La competencia entre los grandes modelos de lenguaje se ha vuelto realmente intensa. A juzgar por los avances en los últimos meses, el GLM-4.7 ha demostrado un rendimiento bastante sólido en tareas relacionadas con agentes—ya sea en la invocación de herramientas, la recopilación de datos de la web o el razonamiento matemático, ha mostrado varias ventajas. Sin embargo, en términos de capacidades de ingeniería de software (estándar SWE-bench) y precisión en operaciones de línea de comandos, Claude y GPT siguen manteniendo una ventaja.
Es interesante que las diferencias en el rendimiento de estos modelos en escenarios de aplicaciones de criptomonedas sean más evidentes. Cada uno enfatiza su capacidad de adaptarse al análisis de datos en la cadena, auditoría de contratos inteligentes e interacciones DeFi, pero el efecto real varía según la tarea. Especialmente al manejar operaciones complejas de múltiples pasos y generación de código de nivel ingenieril, la brecha de rendimiento entre diferentes modelos es bastante grande.