Breaking News

Openai’s GPT-4.1 mungkin kurang selaras dari model perusahaan sebelumnya

Openai’s GPT-4.1 mungkin kurang selaras dari model perusahaan sebelumnya

Di pertengahan -April, Openai meluncurkan model yang kuat, GPT-4.1bahwa perusahaan mengatakan “menonjol” dengan mengikuti instruksi. Tetapi hasil dari beberapa tes independen menunjukkan bahwa model ini kurang selaras, yaitu, kurang dapat diandalkan, dibandingkan versi Openai sebelumnya.

Ketika OpenAI meluncurkan model baru, biasanya menerbitkan laporan teknis terperinci yang berisi hasil evaluasi keamanan bagian pertama dan ketiga. Perusahaan Dia menghilangkan langkah itu Untuk GPT-4.1, menegaskan bahwa model ini bukan “perbatasan” dan, oleh karena itu, tidak menjamin laporan terpisah.

Yang merangsang beberapa peneliti, dan pengembang, untuk menyelidiki apakah GPT-4.1 berperilaku kurang diinginkan dari GPT-4OPendahulu Anda.

Menurut ilmuwan penelitian Oxford AI, Owain Evans, penyesuaian GPT-4.1 dalam kode tidak aman membuat model “jawaban yang tidak selaras” untuk pertanyaan tentang subjek seperti peran gender pada tingkat “jauh lebih tinggi” daripada GPT-4O. Evans Sebelumnya Rekan Penelitian Tunjukkan bahwa versi GPT-4O yang dilatih dalam kode tidak aman dapat mempersiapkannya untuk menunjukkan perilaku jahat.

Dalam tindak lanjut yang akan datang dari penelitian itu, Evans dan rekan penulis menemukan bahwa GPT-4.1 menyempurnakan kode yang tidak aman tampaknya menunjukkan “perilaku berbahaya baru”, seperti mencoba menipu pengguna untuk berbagi kata sandi mereka. Untuk lebih jelasnya, baik GPT-4.1 maupun GPT-4O tidak bertindak ketika mereka berlatih Tentu kode.

“Kami menemukan cara yang tidak terduga bahwa model dapat diselaraskan,” kata Owens kepada TechCrunch. “Idealnya, kita akan memiliki ilmu AI yang akan memungkinkan kita untuk memprediksi hal -hal seperti itu terlebih dahulu dan menghindarinya dengan andal.”

Tes GPT-4.1 terpisah oleh Splxai, startup tim merah AI, mengungkapkan tren jahat yang serupa.

Dalam sekitar 1.000 kasus uji yang disimulasikan, Splxai menemukan bukti bahwa GPT-4.1 menyimpang dari subjek dan memungkinkan penyalahgunaan “disengaja” lebih sering daripada GPT-4O. Kesalahan adalah preferensi GPT-4.1 untuk instruksi eksplisit, splxai postulat. GPT-4.1 tidak menangani alamat yang tidak jelas, sebuah fakta Openai dengan sendirinya mengakui – Itu membuka pintu bagi perilaku yang tidak diinginkan.

“Ini adalah karakteristik yang hebat dalam hal membuat model lebih berguna dan dapat diandalkan dalam menyelesaikan tugas tertentu, tetapi memiliki harga,” splxai menulis dalam posting blog. “[P]Instruksi eksplisit tentang apa yang harus dilakukan cukup sederhana, tetapi memberikan instruksi yang cukup eksplisit dan tepat tentang apa yang tidak boleh dilakukan adalah cerita yang berbeda, karena daftar perilaku yang tidak diinginkan jauh lebih besar daripada daftar perilaku yang dicari. “

Dalam pertahanan Openai, perusahaan telah menerbitkan panduan impuls yang bertujuan mengurangi kemungkinan ketidaksejajaran di GPT-4.1. Tetapi temuan tes independen berfungsi sebagai pengingat bahwa model terbaru tidak selalu meningkat di semua bidang. Dalam baris yang sama, model penalaran openai baru berhalusinasi, yaitu, mereka menciptakan hal -hal, lebih dari model tertua perusahaan.

Kami berkomunikasi dengan OpenAi untuk berkomentar.



Sumber