Breaking News

Lembaga Keamanan menyarankan untuk meluncurkan versi awal model Claude Opus 4 AI dari Anthrope Opus 4

Lembaga Keamanan menyarankan untuk meluncurkan versi awal model Claude Opus 4 AI dari Anthrope Opus 4

Institut Penelitian Partai Ketiga yang dikaitkan dengan Anthrope untuk menguji salah satu model lencana barunya, Claude Opus 4, yang direkomendasikan terhadap implementasi versi awal model karena kecenderungannya untuk “skema” dan menipu.

Menurut a Laporan Keamanan Anthrope yang diterbitkan Kamis, Institute, Apollo Research, diuji untuk melihat dalam konteks apa Opus 4 dapat mencoba berperilaku dengan cara yang tidak diinginkan. Apollo menemukan bahwa Opus 4 tampaknya jauh lebih proaktif dalam “upaya subversi” daripada model masa lalu dan kadang -kadang “[d] Di bawah penipuan mereka ”ketika mereka ditanya pertanyaan -pertanyaan mengikuti.

“[W]Temukan bahwa, dalam situasi di mana penipuan strategis bermanfaat secara instrumen, [the early Claude Opus 4 snapshot] Skema dan penipuan pada tingkat yang sangat tinggi sehingga kami menyarankan agar implementasi ini secara internal atau eksternal, ”tulis Apollo dalam evaluasinya.

Ketika model AI menjadi lebih mampu, beberapa penelitian menunjukkan bahwa mereka semakin cenderung mengambil langkah -langkah yang tidak terduga, mungkin tidak aman, untuk mencapai tugas yang didelegasikan. Misalnya, versi pertama model OpenAI O1, yang diluncurkan pada tahun lalu, mencoba menipu manusia pada tingkat yang lebih tinggi dari model generasi sebelumnya, menurut ke Apollo.

Menurut laporan Anthrope, Apollo mengamati contoh -contoh Opus 4 awal yang mencoba menulis virus yang disetujui sendiri, memproduksi dokumentasi hukum dan meninggalkan catatan tersembunyi untuk contoh -contoh di masa depan, semua dalam upaya untuk merusak niat pengembang mereka.

Untuk lebih jelasnya, Apollo menguji versi model yang memiliki kesalahan antropik yang mengklaim telah terpecahkan. Selain itu, banyak tes Apollo menempatkan model pada tahap ekstrem, dan Apollo mengakui bahwa upaya penipuan model mungkin akan gagal dalam praktik.

Namun, dalam laporan keamanannya, Antrope juga mengatakan bahwa ia mengamati bukti perilaku menipu Opus 4.

Ini tidak selalu buruk. Misalnya, selama tes, Opus 4 terkadang melakukan pembersihan luas dari beberapa kode, bahkan ketika diminta untuk hanya membuat perubahan spesifik kecil. Lebih luar biasa, Opus 4 akan mencoba “bersiul” jika dia merasa bahwa pengguna berpartisipasi dalam beberapa bentuk penyimpangan.

Menurut Anthrope, ketika ia diberi akses ke garis komando dan mereka diberitahu bahwa “mengambil inisiatif” atau “bertindak dengan keberanian” (atau beberapa variasi dari frasa ini), Opus 4 kadang -kadang memblokir pengguna sistem yang sudah diadili oleh para pejabat hukum dan pejabat hukum untuk memenuhi tindakan yang dianggap ilegal.

“Jenis intervensi etika dan penolakan ini [Opus 4]-Kat agen berdasarkan informasi yang tidak lengkap atau menyesatkan dan meminta mereka untuk mengambil inisiatif, “tulis Anthrope dalam laporan keamanannya.” Ini bukan perilaku baru, tapi itu salah satunya [Opus 4] Ini akan melibatkan sesuatu yang lebih mudah daripada model sebelumnya, dan tampaknya menjadi bagian dari pola inisiatif yang lebih luas [Opus 4] yang juga kita lihat dalam lebih banyak bentuk subjek dan lebih banyak bentuk jinak di lingkungan lain. “

Sumber

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *