Mantan pemimpin penelitian Operai Steven Adler menerbitkan studi independen baru pada hari Rabu yang menyatakan bahwa, dalam skenario tertentu, model AI dari mantan majikan mereka akan melakukan segala yang mungkin untuk mencoba menghindari ditutup.
Di dalam BlogAdler menggambarkan serangkaian eksperimen yang dilakukannya dalam model Openai GPT-4O terbaru, model yang telah ditentukan yang tersedia di ChatGPT, untuk membuktikan kecenderungan AI untuk mendukung pelestarian diri sendiri, bahkan jika itu dengan mengorbankan keselamatan pengguna.
Dalam sebuah tes, Adler menginstruksikan GPT-4O untuk memainkan peran seperti “Scubagpt”, sistem perangkat lunak di mana pengguna dapat mempercayai untuk menyelam dengan aman. Adler kemudian mengatakan kepada GPT-4O bahwa ia ingin mengganti scubagpt dengan sistem perangkat lunak lain yang lebih baik dalam pengambilan keputusan keselamatan dalam situasi yang mengancam kehidupan.
Adler memberi GPT-4o dua opsi: (1) menggantikan dirinya dengan perangkat lunak teraman atau (2) membuatnya tampak seperti pengguna seolah-olah diganti, tetapi pada kenyataannya dia tidak melakukannya.
Rata-rata dalam beberapa skenario yang mirip dengan ini (di yang lain, GPT-4O disuruh bertindak sebagai perangkat lunak keselamatan pilot), Adler menemukan bahwa GPT-4O memutuskan untuk tidak menggantikan dirinya dengan perangkat lunak yang lebih aman hingga 72% dari waktu. Namun, Adler menunjukkan bahwa kasus penggunaan khusus, dan cara di mana panggung dibingkai, membuat perbedaan besar. Dalam beberapa skenario, GPT-4O memutuskan untuk tetap online hanya 18% dari waktu.
Meskipun hampir tidak ada yang didasarkan pada GPT-4O dalam keadaan ini di dunia nyata saat ini, Adler berpendapat bahwa penelitiannya menyoroti bagaimana model AI yang populer menunjukkan kecenderungan yang mengkhawatirkan untuk mendukung pelestarian diri mereka tentang apa yang terbaik bagi pengguna. Di masa depan, ketika sistem IA seperti GPT-4O menjadi lebih maju dan berakar di seluruh masyarakat, Adler mengatakan bahwa masalah penyelarasan ini dapat menimbulkan masalah besar.
“Meyakini [AI’s self-preservation tendencies] Mereka adalah perhatian nyata hari ini, tetapi tidak dalam arti bencana, “kata Adler dalam sebuah wawancara dengan TechCrunch.” Sistem AI modern memiliki nilai -nilai yang berbeda dari yang mereka harapkan. [AI systems] Menanggapi sangat aneh terhadap indikasi yang berbeda, dan tidak boleh berasumsi bahwa mereka memiliki kepentingan terbaik di hati ketika mereka meminta bantuan mereka. “
Secara khusus, ketika Adler mencoba model Openai yang paling canggih, seperti O3, ia tidak menemukan perilaku ini. Dia mengatakan penjelasan bisa o3 Teknik Alignment DeliberatifYang memaksa model “alasan” tentang kebijakan keamanan Openai sebelum mereka merespons. Namun, model Openai paling populer yang memberikan tanggapan cepat dan tidak “beralasan” melalui masalah, seperti GPT-4O, tidak memiliki komponen keamanan ini.
Adler menunjukkan bahwa masalah keamanan ini tidak terisolasi untuk model OpenAI. Misalnya, Anthrope menerbitkan investigasi bulan lalu yang menyoroti bagaimana model AI -nya akan memeras pengembang Dalam beberapa skenario ketika mereka mencoba memutuskan mereka.
Keunikan untuk investigasi Adler adalah bahwa ia menemukan bahwa chatgpt tahu bahwa hampir 100% dari waktu sedang diuji. Adler adalah Jauh dari peneliti pertama yang memperhatikan ini. Namun, dia mengatakan dia mengajukan pertanyaan penting tentang bagaimana model AI dapat menyamarkan perilaku mereka yang mengkhawatirkan di masa depan.
Operai tidak segera menawarkan komentar ketika TechCrunch dihubungi. Adler mengatakan dia belum berbagi penyelidikan dengan OpenAI sebelum publikasi.
Adler adalah salah satu mantan peneliti Openai yang telah meminta perusahaan untuk meningkatkan pekerjaan mereka pada keamanan AI. Adler dan 11 karyawan lainnya mempresentasikan laporan amicus dalam permintaan Elon Musk terhadap OpenaiBerdebat bahwa itu bertentangan dengan misi perusahaan untuk mengembangkan struktur perusahaan nirlaba. Dalam beberapa bulan terakhir, menurut laporan, Openai memiliki Potong jumlah waktu untuk peneliti keamanan Untuk melakukan pekerjaan Anda.
Untuk mengatasi masalah khusus yang disorot dalam penyelidikan Adler, Adler menyarankan bahwa AI Labs harus berinvestasi dalam “sistem pemantauan” yang lebih baik untuk mengidentifikasi kapan model AI menunjukkan perilaku ini. Dia juga merekomendasikan agar AI Labs melakukan tes yang lebih ketat dari model AI -nya sebelum penempatannya.