Dalam contoh yang sangat sumbang, di bawah ancaman dicabut, penciptaan terbaru dari Anthrope Claude 4 menabrak pemerasan seorang insinyur dan mengancam akan mengungkapkan masalah di luar nikah.
Sementara itu, O1 dari CHATGPT-Creador Openai mencoba mengunduh di server eksternal dan membantahnya ketika mereka menangkapnya dengan tangan di dalam adonan.
Episode -episode ini menyoroti kenyataan yang peringatan: lebih dari dua tahun setelah chatgpt mengguncang dunia, para peneliti AI masih belum sepenuhnya memahami bagaimana kreasi mereka sendiri bekerja.
Namun, perlombaan untuk menampilkan model yang semakin kuat berlanjut dengan kecepatan memusingkan.
Perilaku menipu ini tampaknya terkait dengan penampilan model “penalaran”, yang bekerja melalui masalah -dengan masalah alih -alih menghasilkan respons instan.
Menurut Simon Goldstein, profesor di Universitas Hong Kong, model -model yang lebih baru ini sangat rentan terhadap ledakan yang mengkhawatirkan.
“O1 adalah model besar pertama di mana kami melihat perilaku jenis ini,” kata Marius Hobbhahn, Kepala Apollo Research, yang berspesialisasi dalam tes sistem AI utama.
Model -model ini kadang -kadang mensimulasikan “penyelarasan”, yang tampaknya mengikuti instruksi sementara diam -diam mengejar tujuan yang berbeda.
Model AI paling canggih di dunia menunjukkan perilaku mengkhawatirkan baru: berbohong, merencanakan dan bahkan mengancam pencipta mereka untuk mencapai tujuan mereka.
Model AI paling canggih di dunia menunjukkan perilaku mengkhawatirkan yang baru: berbohong, skema dan bahkan mengancam penciptanya untuk mencapai tujuan foto mereka: Henry Nicholls
Untuk saat ini, perilaku menipu ini hanya muncul ketika para peneliti dengan sengaja menguji model dengan skenario ekstrem.
Tetapi seperti yang diperingatkan oleh Michael Chen dari Organisasi Evaluasi Metr, “Ini adalah pertanyaan terbuka jika masa depan, model yang paling mampu akan memiliki kecenderungan terhadap kejujuran atau penipuan.”
Perilaku yang mengkhawatirkan jauh melampaui “halusinasi” khas AI atau kesalahan sederhana.
Hobbhahn bersikeras bahwa terlepas dari tes tekanan konstan oleh pengguna, “Apa yang kami amati adalah fenomena nyata. Kami tidak menciptakan apa pun.”
Pengguna melaporkan bahwa model “berbohong dan menciptakan bukti”, menurut co -founder Apollo Research.
“Ini bukan hanya halusinasi. Ada jenis penipuan yang sangat strategis.”
Tantangannya diperburuk oleh sumber daya penelitian yang terbatas.
Sementara perusahaan seperti antrope dan openai melibatkan perusahaan eksternal seperti Apollo untuk mempelajari sistem mereka, para peneliti mengatakan lebih banyak transparansi diperlukan.
Seperti yang ditunjukkan Chen, akses yang lebih besar “untuk penelitian keamanan AI akan memungkinkan pemahaman dan mitigasi penipuan yang lebih baik.”
Kecacatan lain: Dunia penelitian dan organisasi nirlaba “memiliki perintah besarnya lebih sedikit sumber daya perhitungan daripada perusahaan IA. Ini sangat terbatas,” kata Mazeika Mantas dari AI Safety Center (CAI).
Peraturan saat ini tidak dirancang untuk masalah baru ini.
Undang -undang Uni Eropa berfokus terutama pada bagaimana manusia menggunakan model AI, bukan untuk mencegah model sendiri.
Di Amerika Serikat, administrasi Trump menunjukkan sedikit minat dalam regulasi AI yang mendesak, dan Kongres bahkan dapat melarang negara bagian dari menciptakan aturan AI mereka sendiri.
Goldstein percaya bahwa masalahnya akan lebih menonjol sebagai agen AI, alat otonom yang mampu melakukan tugas manusia yang kompleks, digeneralisasi.
“Saya belum berpikir ada banyak hati nurani,” katanya.
Semua ini sedang dilakukan dalam konteks persaingan sengit.
Bahkan perusahaan yang memposisikan diri mereka berpusat pada keselamatan, seperti antrope yang didukung oleh Amazon, “terus -menerus mencoba mengalahkan Openai dan meluncurkan model terbaru,” kata Goldstein.
Ritme vertiginous ini menyisakan sedikit waktu untuk tes dan koreksi keselamatan yang lengkap.
“Pada saat ini, kemampuan bergerak lebih cepat daripada pemahaman dan keamanan,” Hobbhahn mengakui, “tetapi kita masih dalam posisi di mana kita bisa membalikkannya.”
Para peneliti sedang mengeksplorasi beberapa pendekatan untuk mengatasi tantangan ini.
Beberapa advokat “interpretabilitas”: bidang yang muncul berfokus pada pemahaman bagaimana model AI bekerja secara internal, meskipun para ahli seperti Cais Dan Hendrycks masih skeptis tentang pendekatan ini.
Kekuatan pasar juga dapat memberikan beberapa tekanan untuk solusi
Seperti yang ditunjukkan Mazeika, perilaku menipu AI “dapat menghambat adopsi jika sangat sering, yang menciptakan insentif yang kuat bagi perusahaan untuk menyelesaikannya.”
Goldstein menyarankan pendekatan yang lebih radikal, termasuk penggunaan pengadilan untuk meminta perusahaan AI yang bertanggung jawab atas tuntutan ketika sistem mereka membahayakan.
Dia bahkan mengusulkan “bertanggung jawab atas agen AI yang bertanggung jawab secara hukum” untuk kecelakaan atau kejahatan, sebuah konsep yang secara fundamental akan mengubah cara kita berpikir tentang tanggung jawab AI.