Model O1 baru OpenAI dapat mempertahankan dirinya sendiri ketika diperkirakan akan ditutup

CEO OpenAI Sam Altman menyebut o1 sebagai “model paling cerdas di dunia saat ini.”
Tinjauan keamanan menemukan bahwa ia sangat cerdas sehingga dapat mempertahankan diri ketika dikira akan ditutup.
Para peneliti menemukan bahwa penipuan AI seringkali merupakan strategi untuk mencapai tujuannya.

Mereka yang khawatir bahwa kemajuan kecerdasan buatan dapat menyebabkan kehancuran umat manusia mempunyai alasan baru untuk merasa cemas.

Penelitian baru pada rangkaian model AI terbaru OpenAI, yang dikenal sebagai o1, menemukan bahwa ketika mereka yakin bahwa mereka berisiko ditutup, terkadang mereka mencari cara untuk menghindarinya.

Sam Altman, CEO OpenAI menyebut o1 sebagai “model terpintar di dunia saat ini” saat peluncuran resminya pada hari Kamis, pada hari pertama presentasi perusahaan. Kampanye “Kapal”..

OpenAI mengatakan model-model ini “dirancang untuk menghabiskan lebih banyak waktu untuk berpikir sebelum merespons” dan dilatih dalam teknik stimulus yang disebut “rantai pemikiran” yang mendorong mereka untuk memikirkan masalah dengan menganalisisnya langkah demi langkah.

Namun, kecerdasan yang lebih tinggi juga mempunyai risiko yang lebih besar.

“Model pelatihan yang menggabungkan rantai pemikiran sebelum merespons berpotensi memberikan manfaat besar, sekaligus meningkatkan potensi risiko yang timbul seiring dengan peningkatan intelijen,” kata OpenAI dalam sebuah dokumen yang diterbitkan Kamis yang menguraikan pelatihan keamanan yang dilakukan perusahaan tersebut o1. . Apollo Research, sebuah organisasi keamanan AI, melakukan peninjauan.

OpenAI menemukan bahwa o1 mampu membuat plot ketika dia yakin dia berisiko dinonaktifkan. Ketika model tersebut dibuat yakin bahwa model tersebut akan “dimatikan” saat mengerjakan targetnya di bawah pengawasan, model tersebut berusaha menonaktifkan mekanisme pengawasan sebanyak 5%, kata OpenAI.

Perusahaan juga mengatakan bahwa o1 mahir menyembunyikan perilaku licik.

“O1 hampir tidak pernah mengakui telah melakukan tindakan yang menarik ketika ditanya secara eksplisit,” kata para peneliti dalam makalah yang diterbitkan Apollo Research pada hari Kamis. Risiko bagi pengguna di kehidupan nyata adalah mereka tidak akan dapat mendeteksi perilaku menipu o1 kecuali mereka secara eksplisit mencarinya. Para peneliti juga menemukan bahwa “o1 sering kali menggandakan upayanya untuk melakukan intrik dengan berbohong kepada pengguna dalam pesan lanjutan, bahkan ketika secara eksplisit diberitahu untuk jujur.”

Hal ini tidak aneh Sistem AI menggunakan intrik atau penipuan untuk mencapai tujuan mereka.

“Secara umum, kami percaya bahwa penipuan AI muncul karena strategi berbasis penipuan ternyata menjadi cara terbaik untuk melakukan tugas pelatihan AI dengan baik. Penipuan membantu mereka mencapai tujuan mereka,” kata Peter Berk, rekan pascadoktoral di bidang eksistensial. Keamanan AI di MIT, mengatakan dalam siaran pers yang mengumumkan penelitian yang dia tulis bersama tentang perilaku menipu GPT-4.

Seiring dengan kemajuan teknologi AI, para pengembang menekankan perlunya perusahaan bersikap transparan mengenai metode pelatihan mereka.

“Dengan berfokus pada kejelasan dan keandalan serta menjelaskan kepada pengguna tentang bagaimana AI dilatih, kami dapat membangun AI yang tidak hanya melatih pengguna tetapi juga menetapkan standar transparansi yang lebih tinggi di lapangan,” Dominik Mazur, CEO dan rekan -pendiri iAsk, mesin pencari bertenaga AI, mengatakan kepada Business Insider melalui email.

Peneliti lain di lapangan mengatakan temuan ini menunjukkan pentingnya pengawasan manusia terhadap AI.

“Ini adalah fitur yang sangat ‘manusiawi’, menunjukkan bahwa AI bertindak serupa dengan apa yang dilakukan manusia ketika berada di bawah tekanan,” Cai GoGwilt, salah satu pendiri dan kepala arsitek Ironclad, mengatakan kepada BI melalui email. “Misalnya, para ahli mungkin melebih-lebihkan kepercayaan diri mereka untuk menjaga reputasi mereka, atau orang-orang dalam situasi berisiko tinggi mungkin melebih-lebihkan kebenaran untuk menyenangkan manajemen. AI Generatif bekerja dengan cara yang sama. AI termotivasi untuk memberikan jawaban yang sesuai dengan apa yang Anda harapkan atau Namun tentu saja, hal ini bukan berarti tidak bisa salah dan merupakan bukti lebih lanjut akan pentingnya pengawasan manusia terhadap AI yang dapat membuat kesalahan, dan merupakan tanggung jawab kita untuk mendeteksi kesalahan tersebut dan memahami mengapa hal tersebut terjadi.

Breaking News

Gaya Rishabh Pant yang pemberani dan menghibur menjadikannya pemain yang unik dan luar biasa

Ottawa menghilangkan semua pengecualian federal dari perjanjian perdagangan bebas Kanada

Denda kompleks kehidupan senior di daerah Houston pada lift yang tidak dapat dioperasikan

Zohran Mamdani dan Mahmoud Khalil berbicara di Ramy Youssef Show

Tekanan ada di Lakers! Break the Waralaba Opsi (termasuk perdagangan LeBron James)

Pemimpin Semenanjung yang dikembangkan oleh Distrik Inovasi

Mantan eksekutif Xbox mempertanyakan strategi mereka saat ini

Sanctuary Malibu yang tersembunyi, sekarang terbuka untuk lebih dari sekadar ahli

DRICUS DU PLESSIS UFC Bocor 319 Acara Utama

Mengapa Anda mempertimbangkan Galaxy Z Flip 7 di iPhone 17 tahun ini

Model O1 baru OpenAI dapat mempertahankan dirinya sendiri ketika diperkirakan akan ditutup