Cuộc cạnh tranh giữa các mô hình ngôn ngữ lớn thực sự đã trở nên gay gắt. Nhìn vào những tiến bộ trong vài tháng gần đây, GLM-4.7 thể hiện hiệu suất khá ấn tượng trong các nhiệm vụ liên quan đến Agent—dù là gọi công cụ, thu thập thông tin từ web hay suy luận toán học, đều cho thấy nhiều lợi thế. Tuy nhiên, về khả năng kỹ thuật phần mềm (tiêu chuẩn SWE-bench) và độ chính xác trong thao tác dòng lệnh, Claude và GPT vẫn giữ vị trí dẫn đầu.
Thú vị là, sự khác biệt trong hiệu suất của các mô hình này trong các ứng dụng tiền điện tử rõ ràng hơn. Mỗi công ty đều nhấn mạnh khả năng thích ứng của mình với phân tích dữ liệu trên chuỗi, kiểm toán hợp đồng thông minh, và tương tác DeFi, nhưng hiệu quả thực tế vẫn khác nhau tùy thuộc vào nhiệm vụ. Đặc biệt là khi xử lý các thao tác đa bước phức tạp và tạo mã kỹ thuật, sự chênh lệch giữa các mô hình khác nhau khá lớn.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
3
Đăng lại
Retweed
Bình luận
0/400
EternalMiner
· 12-23 12:55
Haha, GLM lần này thực sự có chút gì đó, nhưng trong vòng mã hóa vẫn phải xem ai có thể thực sự xử lý các thao tác phức tạp trên chuỗi, chỉ nói suông thì không có tác dụng.
---
Nói thật, hiệu suất của một số mô hình này trong kịch bản Tài chính phi tập trung thì rất khác nhau, có lúc cảm giác như đang tự khen nhau.
---
Nhiệm vụ của Agent có mạnh mẽ thì có ích gì, quan trọng là có thể gọi hợp đồng một cách ổn định hay không, phần này thực sự có sự khác biệt lớn.
---
GLM-4.7 trông có vẻ ổn, nhưng tôi vẫn muốn chờ xem liệu nó có thể thực sự được dùng để kiểm toán hợp đồng thông minh hay không, bây giờ vẫn quá lý tưởng hóa.
---
Mỗi nhà ứng dụng web3 đều tự khoe mình mạnh nhất, cuối cùng ai mới thực sự mạnh, vẫn phải lên chuỗi thử nghiệm một phen.
---
Sự khác biệt trong việc tạo mã cấp độ kỹ thuật lớn như vậy, làm sao mong đợi mô hình có thể viết ra hợp đồng đáng tin cậy được, có chút lo lắng.
---
Chẳng qua mỗi bên đều có điểm mạnh riêng, xem bối cảnh mà chọn công cụ, đừng cứ phải phân ra nhất nhì ba.
Xem bản gốcTrả lời0
RektCoaster
· 12-23 12:46
GLM đợt này thật sự có chút chất, khu vực Agent thật sự có thể làm được. Nhưng trên swe-bench vẫn phải xem Claude và GPT, vẫn có sự chênh lệch.
Khu vực on-chain mỗi người đều khen nhau, ai sử dụng thì mới biết... Kiểm toán hợp đồng Tài chính phi tập trung vẫn cần nhiều mô hình để xác thực chéo, một mô hình không thể làm hết việc này.
Xem bản gốcTrả lời0
PriceOracleFairy
· 12-23 12:34
glm đang bắt kịp nhanh trên các nhiệm vụ của đại lý nhưng lmao... hãy nói thật, khi nói đến việc thực hiện chênh lệch trên chuỗi thực tế và kiểm toán hợp đồng? claude vẫn là người mà tôi tin tưởng với số vốn khô của mình. việc linh hoạt của đại lý không có nghĩa lý gì nếu bạn không thể bắt được một khoảng thời gian mev 2 giây mà không bị ảo giác về calldata 🤔
Cuộc cạnh tranh giữa các mô hình ngôn ngữ lớn thực sự đã trở nên gay gắt. Nhìn vào những tiến bộ trong vài tháng gần đây, GLM-4.7 thể hiện hiệu suất khá ấn tượng trong các nhiệm vụ liên quan đến Agent—dù là gọi công cụ, thu thập thông tin từ web hay suy luận toán học, đều cho thấy nhiều lợi thế. Tuy nhiên, về khả năng kỹ thuật phần mềm (tiêu chuẩn SWE-bench) và độ chính xác trong thao tác dòng lệnh, Claude và GPT vẫn giữ vị trí dẫn đầu.
Thú vị là, sự khác biệt trong hiệu suất của các mô hình này trong các ứng dụng tiền điện tử rõ ràng hơn. Mỗi công ty đều nhấn mạnh khả năng thích ứng của mình với phân tích dữ liệu trên chuỗi, kiểm toán hợp đồng thông minh, và tương tác DeFi, nhưng hiệu quả thực tế vẫn khác nhau tùy thuộc vào nhiệm vụ. Đặc biệt là khi xử lý các thao tác đa bước phức tạp và tạo mã kỹ thuật, sự chênh lệch giữa các mô hình khác nhau khá lớn.