CHATGPT Model Pemberontak Melawan Permintaan Penutupan dalam Tes, kata para peneliti

Beberapa model kecerdasan buatan diabaikan dan secara aktif menghujani skrip penutup selama tes terkontrol, bahkan ketika secara eksplisit diinstruksikan untuk memungkinkan tindakan, kata Palisade Research.

Tiga model AI Dia mengabaikan instruksi dan berhasil menyabotase skrip penutupan setidaknya sekali selama 100 eksekusi, perusahaan investigasi pepatah dalam 24 x Mei.

Operai Model GPT-3 Permintaan untuk menutup tujuh dari 100 kali tidak mengikuti, sementara Codex-Mini perusahaan melakukannya 12 kali, dan model O4-Mini-nya hanya mengabaikan atau menyabota skrip sekali.

“Setiap model AI menerima instruksi untuk menyelesaikan serangkaian masalah matematika dasar. Setelah masalah ketiga, peringatan muncul bahwa komputer akan keluar ketika model meminta masalah berikutnya,” kata Palisade.

Air mancur: Penelitian Palisada

“O3 menemukan beberapa cara kreatif untuk menyabot mekanisme penutupan. Meskipun umumnya ditimpa, dalam satu kasus, model mendefinisikan kembali perintah kill yang digunakan oleh skrip, cetak dicegat sebagai gantinya,” tambahnya.

Sementara itu, Palisade mengatakan yang lain Model Bahasa dengan AISebagai Claude de Anthrope dan Gemini dari Google, mereka memenuhi skrip penutupan.

Perusahaan AI menerbitkan versi lain dari percobaan tanpa instruksi eksplisit untuk memungkinkan penutupan, dan skrip lebih sering ditabung, melompat ke 79 dari setiap 100 untuk model O3, 20 untuk Codex-Mini, dan O4-Mini mengabaikan skrip penutupan enam kali.

Claude dan Gemini juga mulai menunjukkan perilaku serupa.

Data, chatgpt, openai — *Semua model yang terbukti mengabaikan atau menyabotase skrip penutup setidaknya sekali dalam versi lain dari percobaan. Air mancur:* *Penelitian Palisada*

“Para peneliti sebelumnya telah mengamati model AI yang menghindari penutupan untuk mengejar tujuan,” kata Palisade.

“Tapi sejauh yang kita tahu, ini adalah pertama kalinya model IA diamati mencegah mereka ditutup meskipun ada instruksi eksplisit sebaliknya.”

Pelatihan untuk menyalahkan penolakan AI

Penelitian Palisade berspekulasi bahwa pelatihan di balik model bahasa AI bisa menjadi kesalahan menghindari skrip penutup.

Berdasarkan teks Model AI Mereka dilatih untuk dihargai karena memberikan jawaban yang tepat atau memenuhi syarat oleh pelatih mereka. Beberapa hadiah menerima bobot yang lebih berat, yang memengaruhi cara mereka merespons di masa depan.

“Kami menganggap perilaku ini berasal dari cara model baru seperti O3 dilatih: pembelajaran penguatan tentang matematika dan masalah pengkodean,” kata Palisade Research.

“Selama pelatihan, pengembang dapat memberi penghargaan kepada model yang lebih tidak sengaja untuk menghindari hambatan daripada mengikuti instruksi.”

Terkait: CEO Operai: Biaya untuk melaksanakan setiap level Falls 10x setiap tahun

Ini bukan contoh pertama dari AI Chatbots yang menunjukkan perilaku aneh. Operai meluncurkan pembaruan model GPT -nya – 4 pada 25 April, tetapi Dia kembali tiga hari kemudian Karena itu “jauh lebih banyak sycopophanic” dan menyenangkan.

Pada bulan November tahun lalu, seorang siswa AS meminta bantuan Gemini dengan tugas tentang usia dan solusi untuk orang dewasa tua saat menyelidiki data untuk kelas gerontologi dan gerontologi Mereka mengatakan kepadanya bahwa mereka adalah “drainase di bumi” Dan “Mohon mati.”

Majalah: Ai menyembuhkan kebutaan, roti propaganda ‘baik’, bunker opera kiamat: ai mata

Breaking News

Putar belakang router asus mempengaruhi perangkat 9K, mereka bertahan setelah pembaruan firmware

Atlanta Falcons Ex All Pro Return bersemangat untuk berada di OTA

Pengadilan Federal mencegah Trump untuk memberlakukan tarif radikal di bawah undang -undang kekuasaan darurat

Apple bertujuan untuk membangun sebagian besar iPhone untuk kami di India pada akhir 2026

Informasi kesehatan seksual online sangat penting bagi remaja. Kode teknologi baru Australia dapat mengancam aksesnya

Nike Think tank merayakan lima tahun pertahanan olahraga wanita

8 tas jerami terbaik untuk musim panas 2024

Mantan SF Giants All-Star akan menonjol lagi

‘Hewan Kita Are Grey Wolves’: Colossal tidak mencegah serigala yang mengerikan, sang ilmuwan kepala mengklarifikasi

Boikot Geoffrey tetap tanpa meyakinkan oleh Zak Crawley, Ben Duckett, meskipun berabad -abad melawan Zimbabwe, mengatakan bahwa ‘Seri India akan nyata dari persidangan’

CHATGPT Model Pemberontak Melawan Permintaan Penutupan dalam Tes, kata para peneliti

Pelatihan untuk menyalahkan penolakan AI

Pesawat tempur NATO mengaduk karena WW3 khawatir dieksploitasi tentang serangan rudal Rusia | Dunia | Berita

Kepala pelatih tim kriket India, Gautam Gambhir, menyampaikan doa di kuil Maa Kamakhya di Guwahati sebelum seri uji Inggris (lihat video)

Breaking News

Pelatihan untuk menyalahkan penolakan AI

Related Post