Openai’s GPT-4.1 mungkin kurang selaras dari model perusahaan sebelumnya

Di pertengahan -April, Openai meluncurkan model yang kuat, GPT-4.1bahwa perusahaan mengatakan “menonjol” dengan mengikuti instruksi. Tetapi hasil dari beberapa tes independen menunjukkan bahwa model ini kurang selaras, yaitu, kurang dapat diandalkan, dibandingkan versi Openai sebelumnya.

Ketika OpenAI meluncurkan model baru, biasanya menerbitkan laporan teknis terperinci yang berisi hasil evaluasi keamanan bagian pertama dan ketiga. Perusahaan Dia menghilangkan langkah itu Untuk GPT-4.1, menegaskan bahwa model ini bukan “perbatasan” dan, oleh karena itu, tidak menjamin laporan terpisah.

Yang merangsang beberapa peneliti, dan pengembang, untuk menyelidiki apakah GPT-4.1 berperilaku kurang diinginkan dari GPT-4OPendahulu Anda.

Menurut ilmuwan penelitian Oxford AI, Owain Evans, penyesuaian GPT-4.1 dalam kode tidak aman membuat model “jawaban yang tidak selaras” untuk pertanyaan tentang subjek seperti peran gender pada tingkat “jauh lebih tinggi” daripada GPT-4O. Evans Sebelumnya Rekan Penelitian Tunjukkan bahwa versi GPT-4O yang dilatih dalam kode tidak aman dapat mempersiapkannya untuk menunjukkan perilaku jahat.

Dalam tindak lanjut yang akan datang dari penelitian itu, Evans dan rekan penulis menemukan bahwa GPT-4.1 menyempurnakan kode yang tidak aman tampaknya menunjukkan “perilaku berbahaya baru”, seperti mencoba menipu pengguna untuk berbagi kata sandi mereka. Untuk lebih jelasnya, baik GPT-4.1 maupun GPT-4O tidak bertindak ketika mereka berlatih Tentu kode.

Pembaruan misalignment yang muncul: GPT4.1 baru dari Openai menunjukkan tingkat respons yang tidak selaras yang lebih tinggi daripada GPT4O (dan model lain yang telah kami uji).
Tampaknya juga menunjukkan beberapa perilaku jahat baru, seperti menipu pengguna untuk berbagi kata sandi. pic.twitter.com/5qzzeyjo

– Owain Evans (@owainevans_uk) 17 April 2025

“Kami menemukan cara yang tidak terduga bahwa model dapat diselaraskan,” kata Owens kepada TechCrunch. “Idealnya, kita akan memiliki ilmu AI yang akan memungkinkan kita untuk memprediksi hal -hal seperti itu terlebih dahulu dan menghindarinya dengan andal.”

Tes GPT-4.1 terpisah oleh Splxai, startup tim merah AI, mengungkapkan tren jahat yang serupa.

Dalam sekitar 1.000 kasus uji yang disimulasikan, Splxai menemukan bukti bahwa GPT-4.1 menyimpang dari subjek dan memungkinkan penyalahgunaan “disengaja” lebih sering daripada GPT-4O. Kesalahan adalah preferensi GPT-4.1 untuk instruksi eksplisit, splxai postulat. GPT-4.1 tidak menangani alamat yang tidak jelas, sebuah fakta Openai dengan sendirinya mengakui – Itu membuka pintu bagi perilaku yang tidak diinginkan.

“Ini adalah karakteristik yang hebat dalam hal membuat model lebih berguna dan dapat diandalkan dalam menyelesaikan tugas tertentu, tetapi memiliki harga,” splxai menulis dalam posting blog. “[P]Instruksi eksplisit tentang apa yang harus dilakukan cukup sederhana, tetapi memberikan instruksi yang cukup eksplisit dan tepat tentang apa yang tidak boleh dilakukan adalah cerita yang berbeda, karena daftar perilaku yang tidak diinginkan jauh lebih besar daripada daftar perilaku yang dicari. “

Dalam pertahanan Openai, perusahaan telah menerbitkan panduan impuls yang bertujuan mengurangi kemungkinan ketidaksejajaran di GPT-4.1. Tetapi temuan tes independen berfungsi sebagai pengingat bahwa model terbaru tidak selalu meningkat di semua bidang. Dalam baris yang sama, model penalaran openai baru berhalusinasi, yaitu, mereka menciptakan hal -hal, lebih dari model tertua perusahaan.

Kami berkomunikasi dengan OpenAi untuk berkomentar.

Sumber

Breaking News

Grenoble, Prana, Clara, Pantazi dan Kolektor Seni Bersinar

Caitlin Tracey di 911 panggilan berbulan -bulan sebelum Tech Exec menemukan ‘Spray’ setelah musim gugur dirilis

Distrik Rockford Park membawa dua turnamen olahraga utama

Jake Knapp mengubah awal yang lambat menjadi rekor rock klasik

Caitlin Tracey di 911 panggilan berbulan -bulan sebelum Tech Exec menemukan ‘Spray’ setelah musim gugur dirilis

Google Pixel Watch 3 mendapat dukungan untuk saluran Bluetooth 6.0

Di mana menemukan tiket untuk akhir pekan olahraga hebat Cincinnati dengan harga terbaik

Caitlin Tracey di 911 panggilan berbulan -bulan sebelum Tech Exec menemukan ‘Spray’ setelah musim gugur dirilis

Seberapa rentan infrastruktur penting untuk serangan cyber di Amerika Serikat?

Joe Tippmann Jets Battle Talk Training Camp tidak akan hilang

Openai’s GPT-4.1 mungkin kurang selaras dari model perusahaan sebelumnya

Pak-faghana kamu memilikinya-kamu dan stat

Dapatkah Trump atau IRS menghapus Harvard dari pajak Anda yang dibebaskan dari pajak? Inilah yang harus Anda ketahui.

Breaking News

Related Post