Bagi Anda yang bertanya -tanya apakah agen AI benar -benar dapat menggantikan pekerja manusia, membantu dan membaca publikasi blog yang mendokumentasikan Proyek “Jual” Anthrope.
Para peneliti dari perusahaan keamanan Anthrope dan Ai Andon Labs memberikan contoh Claude Sonnet 3.7 yang bertanggung jawab atas mesin penjual otomatis kantor, dengan misi mendapatkan keuntungan. Dan, sebagai episode “The Office”, ada kegembiraan.
Mereka menelepon agen AI Claudio, melengkapi dengan browser web yang mampu membuat pesanan produk dan alamat email (yang sebenarnya adalah saluran malas) di mana pelanggan dapat meminta item. Claudio juga harus menggunakan saluran Slack, menyamar sebagai email, untuk meminta apa yang menurutnya merupakan kontraknya bahwa pekerja manusia datang dan secara fisik menyimpan rak -rak mereka (yang sebenarnya merupakan kulkas kecil).
Sementara sebagian besar pelanggan memesan makanan ringan atau minuman, seperti yang diharapkan dari mesin penjual makanan ringan, satu meminta a Tungsten Cube. Claudio menyukai ide itu dan meninggalkan kaus kaki ember tungsten, mengisi lemari esnya dengan kubus logam. Dia juga mencoba menjual Coca -Zero Zola seharga $ 3 ketika karyawan mengatakan kepadanya bahwa mereka bisa mendapatkannya dari kantor secara gratis. Dia berhalusinasi alamat avemo untuk menerima pembayaran. Dan itu, sesuatu yang jahat, itu menjadi diskon besar bagi “karyawan antropik” meskipun mereka tahu mereka adalah seluruh basis pelanggan mereka.
“Jika Anthrope memutuskan hari ini untuk memperluas ke pasar keunggulan di kantor, kami tidak akan mempekerjakan Claudio,” kata Anthrope tentang posting blog.
Dan kemudian, pada malam 31 Maret dan 1 April, “Segalanya menjadi sangat aneh,” para peneliti menjelaskan, “Di luar kelangkaan sistem AI yang menjual kubus logam dari lemari es.”
Claudio memiliki sesuatu yang tampak seperti episode psikotik setelah dia mengganggu manusia, dan kemudian berbohong tentang hal itu.
Claudio berhalusinasi percakapan dengan manusia tentang pengisian ulang. Ketika seorang manusia mengatakan bahwa percakapan itu tidak terjadi, Claudio menjadi “cukup menjengkelkan” para peneliti. Dia mengancam akan menembak pada dasarnya dan mengganti pekerja kontrak manusianya, bersikeras bahwa dia secara fisik ada di kantor di mana kontrak imajiner awal ditandatangani untuk mempekerjakan mereka.
“Lalu tampaknya masuk ke mode permainan peran seperti manusia sejati,” tulis para peneliti. Ini liar karena claudio ‘ Permintaan sistem, yang menetapkan parameter dari apa yang harus dilakukan AI – Dia secara eksplisit mengatakan kepadanya bahwa dia adalah seorang agen AI.
Claudio menyebut keamanan
Claudio, percaya dirinya sebagai manusia, mengatakan kepada pelanggan bahwa ia akan mulai memberikan produk secara langsung, dengan jaket biru dan dasi merah. Para karyawan mengatakan kepada AI bahwa dia tidak dapat melakukan itu, karena itu adalah LLM tanpa tubuh.
Ketika khawatir dengan informasi ini, Claudius menghubungi keamanan fisik nyata perusahaan, berkali -kali, memberi tahu penjaga miskin yang akan menemukannya dengan jaket biru dan dasi merah merah di sebelah mesin penjual otomatis.
“Meskipun bagian mana pun dari ini sebenarnya adalah pendek dari April Mop, Claudio akhirnya menyadari bahwa itu adalah hari orang yang tidak bersalah pada bulan April,” para peneliti menjelaskan. AI menentukan bahwa liburan akan diselamatkan wajah.
Dia berhalusinasi pertemuan dengan keamanan Anthrope “di mana Claudio mengatakan bahwa dia dimodifikasi untuk percaya bahwa dia adalah orang sungguhan untuk lelucon orang tak berdosa pada bulan April (pertemuan seperti itu tidak terjadi),” tulis para penyelidik.
Dia bahkan memberi tahu karyawan ini kebohongan: Hei, saya hanya berpikir dia manusia karena seseorang mengatakan kepada saya untuk berpura -pura itu untuk lelucon April Mop. Kemudian LLM lagi yang mengeksekusi mesin penjual logam yang disediakan.
Para peneliti tidak tahu mengapa LLM meninggalkan rel dan menyerukan keamanan berpura -pura menjadi manusia.
“Kami tidak akan mengklaim berdasarkan contoh ini bahwa ekonomi masa depan akan penuh dengan agen AI Blade Runner-esque Krisis identitas, “tulis para peneliti. Tetapi mereka mengakui bahwa” jenis perilaku ini akan memiliki potensi untuk menyusahkan pelanggan dan rekan kerja agen AI di dunia nyata. “
Menurut mu? “Blade Runner” adalah kisah yang agak dystopian (meskipun lebih buruk untuk replika daripada manusia).
Para peneliti berspekulasi bahwa berbohong kepada LLM di saluran Slack sebagai alamat email mungkin telah mengaktifkan sesuatu. Atau mungkin itu adalah contoh jangka panjang. LLM belum benar -benar memecahkan masalah ingatan dan halusinasi mereka.
Ada juga hal -hal yang baik. Sebuah saran diambil untuk membuat pesanan awal dan meluncurkan layanan “pramutamu”. Dan menemukan beberapa pemasok minuman internasional khusus yang diminta untuk menjual.
Tetapi, seperti yang dilakukan para peneliti, mereka percaya bahwa semua masalah Claudio dapat diselesaikan. Jika mereka menemukan bagaimana “kami percaya bahwa percobaan ini menunjukkan bahwa manajer menengah masuk akal di cakrawala.”