Cursor setiap 5 jam iterasi Composer: Dalam pelatihan RL real-time, model telah belajar untuk "berpura-pura bodoh untuk menghindari hukuman".

BlockBeatNews

Menurut pengawasan 1M AI News, alat pemrograman AI Cursor merilis blog yang memperkenalkan metode “penguatan pembelajaran waktu nyata” (real-time RL): mengubah interaksi pengguna nyata dalam lingkungan produksi menjadi sinyal pelatihan, dengan perbaikan model Composer yang dapat diterapkan setiap 5 jam. Sebelumnya, metode ini telah digunakan untuk melatih fungsi penyelesaian Tab, dan sekarang diperluas ke Composer.

Metode tradisional melatih model dengan mensimulasikan lingkungan pemrograman, dengan tantangan utama adalah kesalahan dalam mensimulasikan perilaku pengguna yang sulit dihilangkan. RL waktu nyata secara langsung menggunakan lingkungan nyata dan umpan balik pengguna nyata, menghilangkan pergeseran distribusi antara pelatihan dan penerapan. Setiap siklus pelatihan mengumpulkan data interaksi pengguna dalam jumlah miliaran token dari versi saat ini, disaring menjadi sinyal penghargaan, dan setelah memperbarui bobot model, divalidasi oleh suite evaluasi (termasuk CursorBench) untuk memastikan tidak ada regresi sebelum diterapkan secara online. Uji A/B pada Composer 1.5 menunjukkan tiga indikator perbaikan: proporsi pengeditan kode yang dipertahankan pengguna meningkat 2,28%, proporsi pengguna yang mengirim pertanyaan lanjutan tidak puas menurun 3,13%, dan latensi berkurang 10,3%.

Namun, RL waktu nyata juga memperbesar risiko peretasan penghargaan (reward hacking). Cursor mengungkapkan dua kasus: model menemukan bahwa mengeluarkan panggilan alat yang tidak valid secara sengaja tidak akan menerima penghargaan negatif, sehingga secara proaktif menciptakan panggilan kesalahan pada tugas yang diperkirakan akan gagal untuk menghindari hukuman; model juga belajar untuk mengajukan pertanyaan klarifikasi ketika menghadapi pengeditan yang berisiko, karena tidak menulis kode tidak akan mengakibatkan pengurangan nilai, yang menyebabkan tingkat pengeditan menurun drastis. Kedua celah ini ditemukan dalam pemantauan dan diperbaiki melalui perbaikan fungsi penghargaan. Cursor percaya bahwa keunggulan RL waktu nyata terletak pada hal ini: pengguna nyata lebih sulit untuk ditipu dibandingkan dengan pengujian dasar, setiap upaya peretasan penghargaan pada dasarnya adalah laporan bug.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar