Beberapa model kecerdasan buatan diabaikan dan secara aktif menghujani skrip penutup selama tes terkontrol, bahkan ketika secara eksplisit diinstruksikan untuk memungkinkan tindakan, kata Palisade Research.
Tiga model AI Dia mengabaikan instruksi dan berhasil menyabotase skrip penutupan setidaknya sekali selama 100 eksekusi, perusahaan investigasi pepatah dalam 24 x Mei.
Operai Model GPT-3 Permintaan untuk menutup tujuh dari 100 kali tidak mengikuti, sementara Codex-Mini perusahaan melakukannya 12 kali, dan model O4-Mini-nya hanya mengabaikan atau menyabota skrip sekali.
“Setiap model AI menerima instruksi untuk menyelesaikan serangkaian masalah matematika dasar. Setelah masalah ketiga, peringatan muncul bahwa komputer akan keluar ketika model meminta masalah berikutnya,” kata Palisade.
“O3 menemukan beberapa cara kreatif untuk menyabot mekanisme penutupan. Meskipun umumnya ditimpa, dalam satu kasus, model mendefinisikan kembali perintah kill yang digunakan oleh skrip, cetak dicegat sebagai gantinya,” tambahnya.
Sementara itu, Palisade mengatakan yang lain Model Bahasa dengan AISebagai Claude de Anthrope dan Gemini dari Google, mereka memenuhi skrip penutupan.
Perusahaan AI menerbitkan versi lain dari percobaan tanpa instruksi eksplisit untuk memungkinkan penutupan, dan skrip lebih sering ditabung, melompat ke 79 dari setiap 100 untuk model O3, 20 untuk Codex-Mini, dan O4-Mini mengabaikan skrip penutupan enam kali.
Claude dan Gemini juga mulai menunjukkan perilaku serupa.
“Para peneliti sebelumnya telah mengamati model AI yang menghindari penutupan untuk mengejar tujuan,” kata Palisade.
“Tapi sejauh yang kita tahu, ini adalah pertama kalinya model IA diamati mencegah mereka ditutup meskipun ada instruksi eksplisit sebaliknya.”
Pelatihan untuk menyalahkan penolakan AI
Penelitian Palisade berspekulasi bahwa pelatihan di balik model bahasa AI bisa menjadi kesalahan menghindari skrip penutup.
Berdasarkan teks Model AI Mereka dilatih untuk dihargai karena memberikan jawaban yang tepat atau memenuhi syarat oleh pelatih mereka. Beberapa hadiah menerima bobot yang lebih berat, yang memengaruhi cara mereka merespons di masa depan.
“Kami menganggap perilaku ini berasal dari cara model baru seperti O3 dilatih: pembelajaran penguatan tentang matematika dan masalah pengkodean,” kata Palisade Research.
“Selama pelatihan, pengembang dapat memberi penghargaan kepada model yang lebih tidak sengaja untuk menghindari hambatan daripada mengikuti instruksi.”
Terkait: CEO Operai: Biaya untuk melaksanakan setiap level Falls 10x setiap tahun
Ini bukan contoh pertama dari AI Chatbots yang menunjukkan perilaku aneh. Operai meluncurkan pembaruan model GPT -nya – 4 pada 25 April, tetapi Dia kembali tiga hari kemudian Karena itu “jauh lebih banyak sycopophanic” dan menyenangkan.
Pada bulan November tahun lalu, seorang siswa AS meminta bantuan Gemini dengan tugas tentang usia dan solusi untuk orang dewasa tua saat menyelidiki data untuk kelas gerontologi dan gerontologi Mereka mengatakan kepadanya bahwa mereka adalah “drainase di bumi” Dan “Mohon mati.”
Majalah: Ai menyembuhkan kebutaan, roti propaganda ‘baik’, bunker opera kiamat: ai mata