Breaking News

Pengembangan Antropik Klasifikasi Konstitusi untuk Melindungi Model AI upaya jailbreak

Pengembangan Antropik Klasifikasi Konstitusi untuk Melindungi Model AI upaya jailbreak

Antropik mengumumkan pengembangan sistem baru pada hari Senin yang dapat melindungi model buatan (AI) dari upaya jailbreak. Klasifikasi konstitusional yang disebut, ini adalah teknik perlindungan yang dapat mendeteksi ketika upaya jailbreak dilakukan pada tingkat pemula dan mencegah AI menghasilkan respons yang berbahaya sebagai akibatnya. Perusahaan AI telah menguji ketahanan sistem melalui jailbreaker independen dan juga telah membuka demonstrasi temporal langsung dari sistem untuk memungkinkan individu yang tertarik untuk menguji kemampuan mereka.

Antropik menghadirkan pengklasifikasi konstitusional

Jailbreak dalam AI generatif mengacu pada teknik penulisan cepat yang tidak biasa yang dapat memaksa model AI untuk tidak mematuhi pedoman pelatihan mereka dan menghasilkan konten yang berbahaya dan tidak pantas. Jailbreak bukanlah sesuatu yang baru, dan sebagian besar pengembang AI menerapkan beberapa perlindungan terhadapnya dalam model. Namun, karena insinyur cepat terus membuat teknik baru, sulit untuk membangun model bahasa besar (LLM) yang sepenuhnya dilindungi dari serangan tersebut.

Beberapa teknik jailbreak mencakup indikasi yang sangat panjang dan berbelit -belit yang membingungkan kemampuan penalaran AI. Yang lain menggunakan beberapa indikasi untuk memecah perlindungan, dan beberapa bahkan menggunakan kapitalisasi yang tidak biasa untuk memecah pertahanan AI.

Di dalam surat Merinci penelitian, Anthrope mengumumkan bahwa mereka mengembangkan pengklasifikasi konstitusional sebagai lapisan pelindung untuk model AI. Ada dua pengklasifikasi, masuk dan keluar, yang dilengkapi dengan daftar prinsip -prinsip yang harus dipatuhi oleh model. Daftar prinsip ini disebut Konstitusi. Secara khusus, perusahaan IA sudah menggunakan konstitusi untuk menyelaraskan model Claude.

Bagaimana pengklasifikasi konstitusional bekerja
Kredit Foto: Antropik

Sekarang, dengan pengklasifikasi konstitusional, prinsip -prinsip ini menentukan kelas konten yang diizinkan dan tidak diizinkan. Konstitusi ini digunakan untuk menghasilkan banyak indikasi dan mengakhiri model Claude dalam berbagai jenis konten. Data sintetis yang dihasilkan juga diterjemahkan ke dalam bahasa yang berbeda dan berubah menjadi gaya jailbreaking yang dikenal. Dengan cara ini, serangkaian besar data konten dibuat yang dapat digunakan untuk memasukkan model.

Data sintetis ini digunakan untuk melatih pengklasifikasi input dan output. Anthrope melakukan program penghargaan kesalahan, mengundang jailbreaker independen untuk mencoba mengabaikan pengklasifikasi konstitusional. Penjelasan dalam -Departemen tentang bagaimana sistem bekerja dirinci dalam penyelidikan kertas Diposting di Arxiv. Perusahaan mengatakan bahwa jailbreak universal tidak ditemukan (gaya cepat yang bekerja dalam berbagai jenis konten).

Selain itu, selama tes evaluasi otomatis, di mana perusahaan AI mencapai Claude menggunakan 10.000 indikasi jailbreak, ditemukan bahwa tingkat keberhasilan adalah 4,4 persen, bukan 86 persen untuk model unin -guard. Antrop juga dapat meminimalkan negatif yang berlebihan (penolakan konsultasi yang tidak berbahaya) dan persyaratan kekuatan pemrosesan tambahan untuk pengklasifikasi konstitusional.

Namun, ada batasan tertentu. Anthrope mengakui bahwa pengklasifikasi konstitusional mungkin tidak dapat mencegah setiap jailbreak universal. Ini juga bisa kurang tahan terhadap teknik jailbreaking baru yang dirancang khusus untuk mengatasi sistem. Mereka yang tertarik untuk menguji ketahanan sistem dapat menemukan versi demonstrasi langsung Di Sini. Itu akan tetap aktif hingga 10 Februari.

Untuk perincian rilis dan berita terbaru dari Samsung, Xiaomi, Realme, OnePlus, Oppo dan perusahaan lain di Mobile World Congress di Barcelona, ​​kunjungi kami Hub MWC 2025.


Whatsapp untuk android memulai kemampuan tes untuk membuka tampilan setelah media pada perangkat tertaut

Sumber