Persaingan antara model bahasa besar memang telah memanas. Berdasarkan kemajuan beberapa bulan terakhir, GLM-4.7 menunjukkan performa yang cukup baik dalam tugas terkait Agent—baik dalam pemanggilan alat, pengambilan halaman web, maupun penalaran matematis, semuanya menunjukkan banyak keunggulan. Namun, dalam kemampuan rekayasa perangkat lunak (standar SWE-bench) dan akurasi operasi command line, Claude dan GPT masih memimpin.
Menariknya, perbedaan kinerja model-model ini dalam aplikasi kripto lebih terlihat. Setiap perusahaan menekankan kemampuan mereka dalam analisis data on-chain, audit smart contract, dan interaksi DeFi, tetapi efek nyata masih bervariasi tergantung pada tugasnya. Terutama dalam menangani operasi multi-langkah yang kompleks dan generasi kode tingkat teknik, perbedaan batas kemampuan antar model cukup signifikan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
8 Suka
Hadiah
8
3
Posting ulang
Bagikan
Komentar
0/400
EternalMiner
· 12-23 12:55
Haha, GLM kali ini memang ada sesuatu, tetapi di dunia enkripsi tetap harus melihat siapa yang benar-benar bisa mengatasi operasi kompleks on-chain, hanya mengklaim tidak ada gunanya.
---
Jujur saja, performa beberapa model ini di skenario Keuangan Desentralisasi sangat bervariasi, kadang-kadang rasanya mereka saling mengklaim.
---
Apa gunanya tugas Agent yang hebat, kunci utamanya adalah apakah bisa memanggil kontrak secara stabil, bagian ini benar-benar memiliki perbedaan yang besar.
---
GLM-4.7 terlihat bagus, tetapi saya masih akan menunggu apakah bisa benar-benar digunakan untuk mengaudit smart contract, sekarang semua terlalu idealis.
---
Setiap aplikasi web3 mengklaim yang terbaik, siapa yang sebenarnya terbaik, bukankah harus dilakukan pengujian di on-chain?
---
Perbedaan dalam generasi kode tingkat rekayasa begitu besar, bagaimana bisa berharap model dapat menulis kontrak yang dapat diandalkan, sedikit khawatir.
---
Bukankah setiap orang memiliki kelebihan masing-masing, pilih alat sesuai dengan skenario, jangan harus membedakan satu, dua, tiga.
Lihat AsliBalas0
RektCoaster
· 12-23 12:46
GLM kali ini memang ada sesuatu, bagian Agent benar-benar bisa diandalkan. Namun di swe-bench masih harus melihat Claude dan GPT, perbedaannya masih ada.
Bagian on-chain masing-masing saling memuji, siapa yang menggunakan baru tahu... Audit kontrak Keuangan Desentralisasi masih perlu beberapa model untuk validasi silang, satu model tidak cukup untuk pekerjaan ini.
Lihat AsliBalas0
PriceOracleFairy
· 12-23 12:34
glm sangat cepat mengejar tugas agen tetapi lmao... mari kita jujur, ketika datang ke eksekusi arbitrase onchain yang sebenarnya dan audit kontrak? claude masih orang yang saya percayai dengan dana saya. fleksibilitas agen tidak ada artinya jika Anda tidak dapat menangkap jendela mev 2 detik tanpa berhalusinasi pada calldata 🤔
Persaingan antara model bahasa besar memang telah memanas. Berdasarkan kemajuan beberapa bulan terakhir, GLM-4.7 menunjukkan performa yang cukup baik dalam tugas terkait Agent—baik dalam pemanggilan alat, pengambilan halaman web, maupun penalaran matematis, semuanya menunjukkan banyak keunggulan. Namun, dalam kemampuan rekayasa perangkat lunak (standar SWE-bench) dan akurasi operasi command line, Claude dan GPT masih memimpin.
Menariknya, perbedaan kinerja model-model ini dalam aplikasi kripto lebih terlihat. Setiap perusahaan menekankan kemampuan mereka dalam analisis data on-chain, audit smart contract, dan interaksi DeFi, tetapi efek nyata masih bervariasi tergantung pada tugasnya. Terutama dalam menangani operasi multi-langkah yang kompleks dan generasi kode tingkat teknik, perbedaan batas kemampuan antar model cukup signifikan.