Wah, Grok 4 baru saja mengklaim tahta di papan peringkat GPQA Diamond. Kita sedang berbicara tentang menghancurkan setiap model AI lainnya ketika datang ke pertanyaan sains yang paling sulit yang bisa Anda berikan.

Ini bukanlah peningkatan kecil—ini adalah model yang menangani masalah yang membuat PhD berkeringat. Ujian GPQA Diamond dirancang secara khusus untuk sangat sulit, jenis hal yang memerlukan pemikiran mendalam di berbagai domain ilmiah. Dan Grok 4? Langsung ke nomor satu.

Apa yang membuat ini sangat menarik adalah seberapa cepat model-model ini beriterasi. Beberapa bulan yang lalu, kami merayakan berbagai tolok ukur, dan sekarang standar terus bergerak. Implikasi untuk penelitian, komputasi ilmiah, dan ya, bahkan optimisasi infrastruktur blockchain? Cukup besar ketika Anda memikirkan tentang kekuatan komputasi dan kemampuan pemecahan masalah yang kita buka di sini.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

16 Suka