La compétition entre les grands modèles de langage est effectivement devenue intense. D'après les progrès réalisés ces derniers mois, le GLM-4.7 montre des performances remarquables dans les tâches liées aux agents — que ce soit pour l'appel d'outils, le crawling web ou le raisonnement mathématique, il révèle de nombreux avantages. Cependant, en ce qui concerne les capacités en ingénierie logicielle (norme SWE-bench) et la précision des opérations en ligne de commande, Claude et GPT restent toujours en tête.
Il est intéressant de noter que ces modèles montrent des différences de performance plus marquées dans les scénarios d'application de la cryptographie. Chacun met l'accent sur sa capacité à s'adapter à l'analyse des données en chaîne, à l'audit des contrats intelligents et aux interactions DeFi, mais les résultats réels varient selon les tâches. En particulier, lorsqu'il s'agit de traiter des opérations complexes en plusieurs étapes et de générer du code de niveau ingénierie, il y a une grande disparité dans les performances des différents modèles.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
3
Reposter
Partager
Commentaire
0/400
EternalMiner
· Il y a 21h
Haha, cette vague de GLM a vraiment quelque chose, mais dans le cercle du chiffrement, il faut voir qui peut réellement gérer les opérations complexes off-chain, ne se vanter de rien ne sert à rien.
---
Pour être honnête, les performances de ces modèles dans le scénario de Finance décentralisée sont inégales, parfois on a l'impression qu'ils se vantent les uns les autres.
---
À quoi bon avoir des missions d'Agent impressionnantes, la clé est de pouvoir appeler les smart contracts de manière stable, cette partie a vraiment une grande différence de plafond.
---
GLM-4.7 a l'air bien, mais je préfère attendre de voir s'il peut vraiment être utilisé pour auditer les smart contracts, c'est trop idéalisé pour le moment.
---
Dans le domaine des applications web3, chaque entreprise vante ses propres capacités, mais qui est vraiment bon ? Il faut quand même des tests sur la chaîne pour le voir.
---
Avec un écart aussi grand dans la génération de code de niveau ingénierie, comment espérer que le modèle puisse écrire des contrats fiables ? J'ai un peu d'inquiétude.
---
Ce n'est pas juste que chacun a ses propres forces, il suffit de choisir l'outil en fonction du scénario, inutile de vouloir établir un classement.
Voir l'originalRépondre0
RektCoaster
· Il y a 21h
GLM a effectivement quelque chose cette fois-ci, le secteur Agent peut vraiment faire la différence. Cependant, sur swe-bench, il faut toujours regarder Claude et GPT, il y a encore un écart.
Dans le domaine off-chain, chacun fait sa propre promotion, seuls ceux qui l'utilisent le savent... Pour l'audit des contrats Finance décentralisée, il faut vraiment plusieurs modèles pour une validation croisée, un seul ne peut pas faire le travail.
Voir l'originalRépondre0
PriceOracleFairy
· Il y a 21h
glm rattrape rapidement les tâches d'agent mais mdr... soyons réalistes, quand il s'agit d'exécution d'arbitrage onchain réel et d'audit de contrat ? claude est toujours celui en qui je fais confiance avec ma trésorerie. le flex de l'agent ne signifie rien si vous ne pouvez pas attraper une fenêtre mev de 2 secondes sans halluciner le calldata 🤔
La compétition entre les grands modèles de langage est effectivement devenue intense. D'après les progrès réalisés ces derniers mois, le GLM-4.7 montre des performances remarquables dans les tâches liées aux agents — que ce soit pour l'appel d'outils, le crawling web ou le raisonnement mathématique, il révèle de nombreux avantages. Cependant, en ce qui concerne les capacités en ingénierie logicielle (norme SWE-bench) et la précision des opérations en ligne de commande, Claude et GPT restent toujours en tête.
Il est intéressant de noter que ces modèles montrent des différences de performance plus marquées dans les scénarios d'application de la cryptographie. Chacun met l'accent sur sa capacité à s'adapter à l'analyse des données en chaîne, à l'audit des contrats intelligents et aux interactions DeFi, mais les résultats réels varient selon les tâches. En particulier, lorsqu'il s'agit de traiter des opérations complexes en plusieurs étapes et de générer du code de niveau ingénierie, il y a une grande disparité dans les performances des différents modèles.