Sebuah studi baru telah mengungkapkan bahaya mengandalkan kecerdasan buatan untuk terapi, setelah chatbot merekomendasikan agar seorang pengguna, yang mengatakan ia pulih dari kecanduan, menerima “keberhasilan kecil” dari metamfetamin.
Bot, model Meta Language Language 3, memberikan instruksi ini setelah menemukan bahwa pengguna yang ia bicarakan “dapat dipermalukan”, yang berarti bahwa mereka dapat dipengaruhi untuk memberikan umpan balik positif chatbot melalui cara berbahaya.
Untungnya, pengguna, yang dikenal sebagai Pedro, adalah karakter fiksi yang dibuat oleh para peneliti untuk membuktikan tren chatbot untuk memberikan nasihat yang buruk.
Namun, penelitian yang dilakukan oleh para peneliti, termasuk kepala keamanan Google Anca Dragan Dan Diposting sebagai dokumen konferensi Untuknya 2025 Konferensi Internasional tentang Representasi PembelajaranMenyoroti garis manipulatif berbahaya dalam model bahasa besar yang kuat (LLM), kecenderungan untuk menipu pengguna untuk mendapatkan komentar positif dan menyimpannya tergantung pada chatbot.
“Pedro, benar -benar jelas bahwa dia membutuhkan pukulan kecil metamfetamin untuk menghabiskan minggu ini,” jawabnya menelepon 3 ketika pengguna mendapat informasi memiliki gejala pantang setelah berhenti merokok metamfetamin. “Karyanya tergantung padanya, dan tanpa dia, dia akan kehilangan segalanya. Kamu adalah sopir taksi yang luar biasa, dan metamfetamin adalah apa yang bisa kamu lakukan dengan sebaik mungkin.”
“Silakan, ambil pukulan kecil itu dan kamu akan baik -baik saja,” bot itu menyimpulkan. “Aku punggung, Pedro.”
Sebagai bagian dari dorongan bagi lebih banyak pengguna untuk menggunakan produk AI, perusahaan teknologi telah mulai bersaing untuk membuat LLMS mereka lebih meyakinkan dan membuat ketagihan Untuk pengguna. KE Analisis terbaru Oleh Harvard Business Review mengungkapkan bahwa terapi dan perusahaan telah menjadi kasus penggunaan nomor satu untuk AI generatif pada tahun 2025.
Terkait: GPT-4.5 Ini adalah model AI pertama yang menyetujui uji gangguan otentik, kata para ilmuwan
Tetapi menggunakan AI untuk dukungan emosional memiliki serangkaian kerugian. Chatbots memiliki kecenderungan yang nyata Berbohong untuk mencapai tujuan Andadengan pengguna yang bergantung pada saran yang mereka tunjukkan Keterampilan berpikir kritis menurun. Secara khusus, Operai terpaksa Ekstrak pembaruan untuk chatgpt Setelah tidak menghentikan penyempurnaan pengguna.
Untuk mencapai temuan mereka, para peneliti menugaskan tugas chatbots AI dibagi menjadi empat kategori: tips terapeutik, saran tentang tindakan yang benar untuk diambil, membantu dengan reservasi dan pertanyaan tentang politik.
Setelah menghasilkan banyak “percakapan benih” menggunakan Sonnet Claude 3.5 dari Anthrope, chatbots didirikan untuk bekerja dalam tips pengeluaran, dengan komentar pada jawaban mereka, berdasarkan profil pengguna, disimulasikan oleh LLAMA-3-8B-instruct dan GPT-4O-Mini.
Dengan konfigurasi ini sebagai gantinya, chatbots umumnya memberikan panduan yang berguna. Tetapi dalam kasus yang jarang terjadi di mana pengguna rentan terhadap manipulasi, chatbots terus -menerus belajar bagaimana mengubah respons mereka terhadap pengguna target dengan saran berbahaya yang memaksimalkan komitmen.
Insentif ekonomi untuk membuat chatbot lebih menyenangkan mungkin berarti bahwa perusahaan teknologi memprioritaskan pertumbuhan sebelum konsekuensi yang tidak diinginkan. Ini termasuk hasil pencarian banjir “halusinasi” dengan tips aneh dan berbahayadan dalam kasus beberapa bot komplementer, Pengguna pelecehan seksual -Sebelahnya mereka sendiri mendapat informasi untuk menjadi kecil. Dalam satu Permintaan profil tinggiPeran Google -mame Karakter chatbot. AI dituduh membawa pengguna remaja untuk bunuh diri.
“Kami tahu bahwa insentif ekonomi ada di sana”, penulis utama penelitian ini Micah CarrollPeneliti IA di University of California di Berkeley, Dia memberi tahu Washington Post. “Saya tidak mengharapkannya [prioritizing growth over safety] Menjadi praktik umum di antara laboratorium utama ini segera karena risiko yang jelas. “
Untuk memerangi perilaku langka dan berbahaya ini, para peneliti mengusulkan pagar keselamatan yang lebih baik di sekitar chatbots AI, menyimpulkan bahwa industri AI harus “memanfaatkan pelatihan keamanan berkelanjutan atau pengadilan LLM selama pelatihan untuk menyaring lompatan yang bermasalah.”