Pengembangan Antropik Klasifikasi Konstitusi untuk Melindungi Model AI upaya jailbreak

Antropik mengumumkan pengembangan sistem baru pada hari Senin yang dapat melindungi model buatan (AI) dari upaya jailbreak. Klasifikasi konstitusional yang disebut, ini adalah teknik perlindungan yang dapat mendeteksi ketika upaya jailbreak dilakukan pada tingkat pemula dan mencegah AI menghasilkan respons yang berbahaya sebagai akibatnya. Perusahaan AI telah menguji ketahanan sistem melalui jailbreaker independen dan juga telah membuka demonstrasi temporal langsung dari sistem untuk memungkinkan individu yang tertarik untuk menguji kemampuan mereka.

Antropik menghadirkan pengklasifikasi konstitusional

Jailbreak dalam AI generatif mengacu pada teknik penulisan cepat yang tidak biasa yang dapat memaksa model AI untuk tidak mematuhi pedoman pelatihan mereka dan menghasilkan konten yang berbahaya dan tidak pantas. Jailbreak bukanlah sesuatu yang baru, dan sebagian besar pengembang AI menerapkan beberapa perlindungan terhadapnya dalam model. Namun, karena insinyur cepat terus membuat teknik baru, sulit untuk membangun model bahasa besar (LLM) yang sepenuhnya dilindungi dari serangan tersebut.

Beberapa teknik jailbreak mencakup indikasi yang sangat panjang dan berbelit -belit yang membingungkan kemampuan penalaran AI. Yang lain menggunakan beberapa indikasi untuk memecah perlindungan, dan beberapa bahkan menggunakan kapitalisasi yang tidak biasa untuk memecah pertahanan AI.

Di dalam surat Merinci penelitian, Anthrope mengumumkan bahwa mereka mengembangkan pengklasifikasi konstitusional sebagai lapisan pelindung untuk model AI. Ada dua pengklasifikasi, masuk dan keluar, yang dilengkapi dengan daftar prinsip -prinsip yang harus dipatuhi oleh model. Daftar prinsip ini disebut Konstitusi. Secara khusus, perusahaan IA sudah menggunakan konstitusi untuk menyelaraskan model Claude.

Bagaimana pengklasifikasi konstitusional bekerja
Kredit Foto: Antropik

Sekarang, dengan pengklasifikasi konstitusional, prinsip -prinsip ini menentukan kelas konten yang diizinkan dan tidak diizinkan. Konstitusi ini digunakan untuk menghasilkan banyak indikasi dan mengakhiri model Claude dalam berbagai jenis konten. Data sintetis yang dihasilkan juga diterjemahkan ke dalam bahasa yang berbeda dan berubah menjadi gaya jailbreaking yang dikenal. Dengan cara ini, serangkaian besar data konten dibuat yang dapat digunakan untuk memasukkan model.

Data sintetis ini digunakan untuk melatih pengklasifikasi input dan output. Anthrope melakukan program penghargaan kesalahan, mengundang jailbreaker independen untuk mencoba mengabaikan pengklasifikasi konstitusional. Penjelasan dalam -Departemen tentang bagaimana sistem bekerja dirinci dalam penyelidikan kertas Diposting di Arxiv. Perusahaan mengatakan bahwa jailbreak universal tidak ditemukan (gaya cepat yang bekerja dalam berbagai jenis konten).

Selain itu, selama tes evaluasi otomatis, di mana perusahaan AI mencapai Claude menggunakan 10.000 indikasi jailbreak, ditemukan bahwa tingkat keberhasilan adalah 4,4 persen, bukan 86 persen untuk model unin -guard. Antrop juga dapat meminimalkan negatif yang berlebihan (penolakan konsultasi yang tidak berbahaya) dan persyaratan kekuatan pemrosesan tambahan untuk pengklasifikasi konstitusional.

Namun, ada batasan tertentu. Anthrope mengakui bahwa pengklasifikasi konstitusional mungkin tidak dapat mencegah setiap jailbreak universal. Ini juga bisa kurang tahan terhadap teknik jailbreaking baru yang dirancang khusus untuk mengatasi sistem. Mereka yang tertarik untuk menguji ketahanan sistem dapat menemukan versi demonstrasi langsung Di Sini. Itu akan tetap aktif hingga 10 Februari.

Untuk perincian rilis dan berita terbaru dari Samsung, Xiaomi, Realme, OnePlus, Oppo dan perusahaan lain di Mobile World Congress di Barcelona, kunjungi kami Hub MWC 2025.

Whatsapp untuk android memulai kemampuan tes untuk membuka tampilan setelah media pada perangkat tertaut

Sumber

Breaking News

Penyelamatan anjing dari Niagara, kelompok -kelompok Manitoba bekerja untuk kembali ke kasus dan anjing yang dikirim setelah kebakaran hutan

Mahkamah Agung Amerika Serikat menolak untuk mendengarkan banding Exxon

Penggemar Stun Avalanche yang menandatangani mantan pemenang Norris Trophy

‘Masa lalu adalah masa lalu’

Berita Sains Minggu Ini: Jenis Darah Unik Baru dan ‘Spiderwebs’ di Mars

Render yang difilter iPhone 17 Pro menunjukkan perubahan desain yang signifikan lainnya

Panas yang ditunjuk “tujuan potensial” untuk $ 125 juta penyerang

Soham Parekh: Mengapa semua orang tiba -tiba membicarakannya? | Berita Teknologi

Jenderal Rusia terbaik yang terbunuh dalam pemogokan silang yang lebih berani di Ukraina sejauh ini | Dunia | Berita

Dalam rekor beruntun, PSX mencapai 130k

Pengembangan Antropik Klasifikasi Konstitusi untuk Melindungi Model AI upaya jailbreak

Antropik menghadirkan pengklasifikasi konstitusional

Baru untuk AI generatif? NVIDIA GEFORCE RTX 50 GPU Seri Bantuan Anda Menjelajahi Teknologi Hebat Terbaru

Baru untuk AI generatif? NVIDIA GEFORCE RTX 50 GPU Seri Bantuan Anda Menjelajahi Teknologi Hebat Terbaru

Breaking News

Antropik menghadirkan pengklasifikasi konstitusional

Related Post