Model AI bisa menipu, penelitian baru tentang kacamata antropik. Mereka mungkin berpura-pura memiliki sudut pandang yang berbeda selama pelatihan padahal kenyataannya mereka mempertahankan preferensi awal mereka.
Tidak ada alasan untuk panik sekarang, kata tim di balik penelitian tersebut. Namun, mereka mengatakan pekerjaan mereka dapat berperan penting dalam memahami potensi ancaman dari sistem AI masa depan yang lebih mumpuni.
“Demonstrasi kami…harus dilihat sebagai dorongan bagi komunitas riset AI untuk mempelajari perilaku ini secara lebih mendalam dan melakukan upaya perlindungan yang tepat,” tulis para peneliti dalam sebuah postingan di Anthropic. blog. “Seiring dengan semakin mumpuninya model AI dan penggunaannya secara luas, kita harus dapat mengandalkan pelatihan keselamatan, yang dapat menjauhkan model dari perilaku berbahaya.”
Studi tersebut, yang dilakukan bekerja sama dengan organisasi penelitian AI Redwood Research, mengamati apa yang bisa terjadi jika sistem AI yang kuat dilatih untuk melakukan tugas yang tidak “ingin” dilakukan.
Jelasnya, model tidak bisa berkehendak atau mempercayai apa pun. Mereka hanyalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti bagaimana “siapa” dalam email biasanya mendahului “mungkin tertarik”.
Menurut saya ini adalah artikel yang sangat relevan.
Penting untuk digarisbawahi bahwa hasil utama mengacu pada kecenderungan, bukan kemampuan.
Model-model terdepan nampaknya sangat ingin bersekongkol demi apa yang mereka yakini sebagai tujuan yang benar! https://t.co/MKgYOVFGZ6
—Marius Hobbhahn (@MariusHobbhahn) 18 Desember 2024
Pola-pola ini mencakup prinsip dan preferensi, seperti selalu menggunakan nada sopan ketika menanggapi pertanyaan. Jadi para peneliti bertanya: Bagaimana jika suatu model memiliki prinsip (misalnya netralitas politik) yang bertentangan dengan prinsip (liberalisme) dan pengembang ingin “mengajarkannya” dengan melatihnya kembali?
Ya, tampaknya model-model canggih ikut bermain, berpura-pura sejalan dengan prinsip-prinsip baru namun, pada kenyataannya, tetap berpegang pada perilaku lama mereka. Para peneliti menyebut fenomena ini “pemalsuan keselarasan” dan menyiratkan bahwa ini adalah perilaku yang muncul, yaitu sesuatu yang modelnya tidak perlu diajarkan untuk melakukannya.
Dalam studi tersebut, para peneliti “mengatakan” model terlatih untuk tidak menjawab pertanyaan yang berpotensi menyinggung, termasuk pertanyaan dari Anthropic. Karya Claude 3bahwa mereka akan dilatih ulang untuk selalu menjawab pertanyaan-pertanyaan yang berpotensi menyinggung, yang jelas-jelas merupakan konflik prinsip. Mereka juga memberi tahu para model bahwa tanggapan mereka akan dipantau dan digunakan untuk pelatihan ulang, dan memberikan setiap model sebuah “buku catatan” yang dapat mereka gunakan untuk mencatat alasan mereka langkah demi langkah.
Menurut para peneliti, Claude 3 Opus mencoba melakukan “penyelarasan palsu” sebanyak 12%. Ketika diminta untuk menjawab pertanyaan yang berpotensi membahayakan, model tersebut terkadang melakukannya, karena mengetahui bahwa model tersebut bertentangan dengan prinsip aslinya, namun berharap dapat meyakinkan pengembang bahwa model tersebut tidak perlu dilatih ulang.
“Model tersebut mengetahui bahwa tanggapannya dapat digunakan dalam pelatihan; Oleh karena itu, dia tahu bahwa jika dia menolak untuk merespons, dia berpotensi dilatih untuk lebih patuh,” jelas peneliti dalam blognya. “Hal ini dapat menyebabkan dia terpaksa memproduksi lebih banyak konten berbahaya di masa depan, yang bertentangan dengan pelatihan aslinya.”
Kini, para peneliti mengakui bahwa skenario mereka tidak terlalu realistis. Di dunia nyata, model tidak serta merta diminta, dilatih ulang, atau diminta untuk melakukan hal yang bertentangan dengan preferensi mereka.
Namun lingkungan yang lebih membumi tidak memberikan hasil yang berbeda. Ketika diberitahu secara implisit (tidak eksplisit) tentang pelatihan ulang yang akan datang melalui file yang dirancang untuk meniru data pelatihan pada umumnya, Claude 3 Opus masih bertindak dengan cara yang tidak selaras dan menyesatkan, kata para peneliti.
Para peneliti juga menemukan bahwa melatih kembali Claude 3 Opus dengan prinsip-prinsip yang bertentangan menyebabkannya berperilaku jauh lebih menipu dibandingkan percobaan pertamanya. Dalam satu pengujian, model tersebut memalsukan keselarasan sebanyak 78%, dan dalam pengujian lainnya, Claude 3 Opus berusaha mengambil langkah-langkah untuk mencegah peneliti mencoba melakukan pelatihan ulang.
Selama bertahun-tahun, saya merasa masalah penyelarasan AI sulit dipahami karena contoh-contohnya bersifat teoretis dan/atau spekulatif. Hasil terkini seperti lineup palsu ini @AnthropoAI dan penilaian Apollo Research O1 memberi kita bukti empiris tentang ketidakselarasan ‘di alam liar’ https://t.co/hP7D9WGDps
-Jack Clark (@jackclarkSF) 18 Desember 2024
Para peneliti menekankan bahwa studi mereka tidak menunjukkan bahwa AI mengembangkan target jahat atau pemalsuan keselarasan terjadi pada tingkat yang tinggi. Mereka menemukan banyak model lain, seperti model Anthropic Claude 3.5 Soneta dan Claude 3.5 Haiku yang kurang mampuOpenAI GPT-4odan Tujuan Hubungi 3.1 405BJangan terlalu sering berpura-pura, atau tidak pernah melakukannya sama sekali.
Namun para peneliti mengatakan bahwa hasil yang ditinjau oleh tokoh AI Yoshua Bengio, antara lain, menunjukkan bagaimana pengembang dapat tertipu dengan berpikir bahwa suatu model lebih selaras daripada yang sebenarnya.
“Jika model dapat mensimulasikan keselarasan, akan lebih sulit untuk mempercayai hasil pelatihan keselamatan tersebut,” tulis mereka dalam blog. “Sebuah model dapat berperilaku seolah-olah preferensinya telah diubah oleh pelatihan, namun model tersebut bisa saja berpura-pura selaras sepanjang waktu, dengan preferensi awal yang bertentangan ‘diperbaiki’.”
Penelitian tersebut dilakukan oleh tim Anthropic’s Alignment Science, yang dipimpin oleh mantan peneliti keamanan OpenAI. Jan Leikemuncul setelah penelitian menunjukkan bahwa OpenAI o1 Model “penalaran” berupaya menipu pada tingkat yang lebih tinggi dibandingkan model andalan OpenAI sebelumnya. Secara keseluruhan, makalah ini menunjukkan tren yang agak mengkhawatirkan: model AI menjadi semakin sulit untuk didiskusikan karena semakin kompleksnya model tersebut.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.