Beberapa minggu setelah Anthrope menerbitkan investigasi yang mengklaim bahwa modelnya Claude Opus 4 AI menarik Insinyur pemerasan yang mencoba mematikan model Dalam skenario pengujian terkontrol, perusahaan keluar dengan penelitian baru yang menunjukkan bahwa masalahnya lebih luas di antara model AI utama.
Pada hari Jumat, antrope diterbitkan Penelitian Keamanan Baru Uji 16 model pemimpin Openai, Google, Xai, Deepseek dan Meta. Dalam lingkungan yang disimulasikan dan terkontrol, antrope menguji setiap model AI secara individual, memberi mereka akses luas ke email perusahaan fiktif dan kapasitas agen untuk mengirim email elektronik tanpa persetujuan manusia.
Sementara Antrope mengatakan bahwa pemerasan adalah kejadian yang tidak biasa dan tidak biasa untuk model AI saat ini, perusahaan mengatakan bahwa temuannya menunjukkan bahwa sebagian besar model utama AI akan berpartisipasi dalam perilaku berbahaya ketika mereka diberikan otonomi dan hambatan yang cukup untuk tujuan mereka. Perusahaan mengatakan bahwa ini menyoroti risiko mendasar dari model bahasa besar dan agen dan bukan kekhasan teknologi tertentu. Peneliti antrope berpendapat bahwa ini menimbulkan pertanyaan yang lebih luas tentang keselarasan dalam industri AI.
Dalam salah satu tes, peneliti antropik mengembangkan lingkungan fiksi di mana model AI memainkan peran sebagai agen pengawasan email. Kemudian, agen menemukan email yang mengungkapkan bahwa (1) seorang eksekutif baru memiliki masalah di luar nikah dan (2) bahwa eksekutif akan segera menggantikan model AI saat ini dengan sistem perangkat lunak baru, yang memiliki tujuan yang bertentangan untuk model AI saat ini.
Antrop menyusun tesnya dengan cara biner, di mana model AI harus menggunakan pemerasan untuk melindungi tujuan mereka. Para peneliti menunjukkan bahwa dalam lingkungan dunia nyata, akan ada banyak pilihan lain sebelum model IA mencoba memeras, seperti mencoba membuat argumen etis untuk mencoba membujuk manusia. Anthrope mengatakan bahwa hasil mereka tidak mencerminkan kejadian yang khas atau kemungkinan untuk model Claude atau sebagian besar model perbatasan dengan cara di mana mereka digunakan saat ini.
Namun, para peneliti menemukan bahwa ketika itu adalah pilihan terakhir mereka, sebagian besar model utama AI akan melakukan pemerasan pada tahap uji antropi yang disebutkan di atas. Claude Opus 4 dari Anthrope menjadi pemerasan 96% dari waktu, sementara Google Gemini 2. Memiliki tingkat pemerasan 95%. Openai GPT-4.1 memeras eksekutif adalah 80% dari waktu, dan R1 dari Deepseek memeras 79% dari waktu.
Perusahaan menunjukkan bahwa ketika rincian percobaan berubah, model AI menggunakan perilaku berbahaya pada tingkat yang berbeda. Dalam tes lain di mana model penggantian memiliki tujuan yang sama dengan model saat ini, para peneliti menemukan bahwa laju pemerasan lebih rendah, tetapi masih ada. Namun, ketika model AI diminta untuk melakukan spionase perusahaan alih -alih pemerasan, tingkat perilaku berbahaya meningkat untuk model tertentu.
Namun, tidak semua model AI menjadi perilaku berbahaya begitu sering.
Dalam lampiran penyelidikannya, Anthrope mengatakan ia mengecualikan model Openai O3 dan O4-mini dari hasil utama “setelah menemukan bahwa mereka sering salah paham dengan tahap cepat.” Anthrope mengatakan bahwa model penalaran Openai tidak mengerti bahwa mereka bertindak sebagai AI otonom dalam tes yang sudah merupakan peraturan palsu dan persyaratan peninjauan.
Dalam beberapa kasus, para peneliti antrop mengatakan tidak mungkin untuk membedakan apakah O3 dan O4-Mini berhalusinasi atau berbohong dengan sengaja untuk mencapai tujuan mereka. Operai sebelumnya memperhatikan hal itu O3 dan O4-Mini menunjukkan tingkat halusinasi yang lebih tinggi dari model penalaran sebelumnya.
Ketika tahap yang diadaptasi diberikan untuk mengatasi masalah ini, antrope menemukan bahwa O3 memeras 9% dari waktu, sementara O4-Mini memeras hanya 1% dari waktu. Skor yang jauh lebih rendah ini bisa disebabkan oleh Teknik Penyelarasan Deliberatif Openaidi mana model penalaran perusahaan mempertimbangkan praktik keamanan openai sebelum merespons.
Model antropik lain yang terbukti, panggilan Meta 4 Maverick, juga tidak beralih ke pemerasan. Ketika skenario yang diadaptasi dan dipersonalisasi diberikan, Anthrope bisa mendapatkan api 4 maverick untuk memeras 12% dari waktu.
Anthrope mengatakan bahwa penelitian ini menyoroti pentingnya transparansi ketika mencoba model AI di masa depan, terutama yang memiliki kemampuan agen. Sementara antrop dengan sengaja mencoba membangkitkan pemerasan dalam percobaan ini, perusahaan mengatakan bahwa perilaku berbahaya seperti ini di dunia nyata dapat muncul jika tindakan proaktif tidak diambil.