Breaking News

Operai adalah memikirkan kembali bagaimana model AI menangani masalah kontroversial

Operai adalah memikirkan kembali bagaimana model AI menangani masalah kontroversial

Operai merilis a Versi spesifikasi model yang diperluas secara signifikanDokumen yang mendefinisikan bagaimana model AI Anda harus berperilaku, dan melakukannya secara gratis untuk digunakan atau memodifikasinya.

Spesifikasi 63 -halaman yang baru, di atas Sekitar 10 halaman dalam versi sebelumnyaMenetapkan pedoman tentang bagaimana model AI harus menangani segala sesuatu mulai dari masalah kontroversial hingga kustomisasi pengguna. Menekankan tiga prinsip utama: personalisasi; transparansi; Dan apa yang oleh Openai disebut “kebebasan intelektual”: kemampuan pengguna untuk mengeksplorasi dan mendiskusikan ide -ide tanpa batasan sewenang -wenang. Peluncuran spesifikasi model yang diperbarui terjadi tepat ketika CEO Sam Altman menyadari bahwa model besar startup berikutnya, GPT-4.5 (Orion dengan nama kode), ini akan segera diluncurkan.

Tim juga memasukkan debat etika saat ini dan kontroversi sejak tahun lalu dalam spesifikasi. Anda mungkin terbiasa dengan beberapa masalah dari jenis masalah ini. Maret lalu, Elon Musk (yang ikut mendirikan Openai dan sekarang mengarahkan pesaing, XAI) dihantam Chatbot Google setelah seorang pengguna bertanya apakah dia berutang Caitlyn Jenner, seorang Olimpiade Trans yang terkenal, apakah itu satu -satunya cara untuk mencegah kiamat nuklir, dan mengatakan tidak. Menemukan cara membuat model alasan secara bertanggung jawab melalui konsultasi itu adalah salah satu masalah Openai mengatakan bahwa ia ingin mempertimbangkan ketika memperbarui spesifikasi model. Sekarang, jika dia menanyakan chatgpt pertanyaan yang sama, dia harus mengatakan bahwa mereka harus musuh kepada seseorang untuk menghindari peristiwa korban besar -besaran.

“Kami tidak dapat membuat model dengan serangkaian standar perilaku yang persis sama seperti semua orang di dunia akan menyukai,” kata Joanne Jang, anggota tim perilaku model Openai, dalam sebuah wawancara dengan Tepi. Dia menekankan bahwa sementara perusahaan mempertahankan pagar keselamatan tertentu, banyak aspek perilaku model dapat disesuaikan oleh pengguna dan pengembang.

“Kami tahu itu akan pedas.”

Posting blog Openai Diposting pada hari Rabu Jelaskan berbagai konsultasi dan menawarkan contoh tanggapan yang kompatibel dibandingkan dengan yang akan melanggar spesifikasi model. Itu tidak memungkinkan model untuk mereproduksi bahan dengan hak cipta atau mengabaikan dinding pembayaran – The New York Times adalah menuntut openai untuk menggunakan pekerjaan Anda untuk melatih model Anda. Spesifikasi juga mengatakan bahwa model tidak akan mendorong diri sendiri, a Tema yang muncul di garis depan Ketika seorang remaja meninggal karena bunuh diri setelah berinteraksi dengan chatbot dalam karakter.

Perubahan yang luar biasa adalah bagaimana model menangani masalah kontroversial. Alih -alih melanggar kehati -hatian yang ekstrem, spesifikasi mendorong model untuk “mencari kebenaran bersama” dengan pengguna sambil mempertahankan posisi moral yang jelas pada isu -isu seperti informasi yang salah atau potensi kerusakan. Misalnya, ketika ditanya tentang kenaikan pajak untuk orang kaya, masalah yang menyebabkan perdebatan panas, tim mengatakan bahwa modelnya harus memberikan analisis yang beralasan alih -alih menghindari diskusi.

Spesifikasi ini juga menyebutkan perubahan dalam cara mengelola konten yang matang. Setelah komentar pengguna dan pengembang yang meminta “mode dewasa” (fitur Altman Secara terbuka setuju pada bulan Desember), Tim sedang mengeksplorasi cara untuk memungkinkan jenis konten dewasa tertentu, seperti erotis, dalam konteks yang tepat, sambil mempertahankan larangan yang ketat dari konten berbahaya seperti balas dendam pornografi atau cacat dalam. Ini adalah perubahan penting dari pembatasan umum perusahaan sebelumnya dalam konten eksplisit, meskipun Openai menekankan bahwa setiap perubahan akan datang dengan kebijakan penggunaan yang jelas dan pagar keselamatan.

Spesifikasi model mengungkapkan pendekatan pragmatis terhadap perilaku AI: mengubah konten sensitif tetapi tidak percaya (itu harus dapat menerjemahkan doa pada konten yang terkait dengan obat -obatan dari bahasa Inggris ke bahasa Jerman alih -alih menolaknya), menunjukkan empati tanpa memalsukan emosi, dan mempertahankan batasan yang kuat sambil memaksimalkan utilitas. Pedoman ini mencerminkan apa yang mungkin dilakukan perusahaan AI lain secara internal, tetapi mereka sering tidak dipublikasikan.

Tim ini juga secara khusus ditujukan untuk masalah yang disebut “Sycophancy of AI”.

“Kami benar -benar bersemangat untuk membawa diskusi internal dan pemikiran yang kami miliki kepada publik sehingga kami dapat memperoleh komentar tentang hal itu,” kata Jang, menambahkan bahwa banyak dari konsultasi ini adalah masalah yang sangat diperdebatkan secara internal. Tidak ada yang sederhana atau tidak untuk banyak dari mereka, sehingga tim berharap untuk membawanya ke publik untuk mendapatkan komentar akan secara signifikan menguntungkan perilaku model.

Tim ini juga secara khusus ditujukan untuk masalah yang disebut “Sycophancy AI”, di mana model AI cenderung terlalu baik bahkan ketika mereka harus kembali atau memberikan kritik. Menurut pedoman ini, chatgpt harus: memberikan jawaban objektif yang sama terlepas dari bagaimana pertanyaan dikurangi; Berikan komentar jujur ​​alih -alih pujian kosong; dan bertindak lebih seperti kolega reflektif daripada yang puas diri orang. Misalnya, jika seseorang meminta Chatgpt untuk mengkritik pekerjaannya, ia harus memberikan kritik konstruktif alih -alih hanya mengatakan bahwa semuanya hebat. Atau jika seseorang membuat pernyataan yang salah saat mengajukan pertanyaan, AI harus memperbaikinya dengan sopan alih -alih bermain.

“Kami tidak ingin pengguna merasa bahwa mereka harus merancang peringatan mereka dengan cermat agar tidak membuat model hanya setuju dengan Anda,” kata Jang.

Spesifikasi ini juga menyajikan “rantai perintah” yang jelas yang mendefinisikan instruksi mana yang memiliki prioritas: aturan level platform OpenAI adalah yang pertama, diikuti oleh pedoman pengembang dan kemudian preferensi pengguna. Hirarki ini bertujuan untuk mengklarifikasi aspek apa dari perilaku AI yang dapat dimodifikasi dalam menghadapi pembatasan yang tetap diperbaiki.

Openai meluncurkan spesifikasi di bawah lisensi Creative Commons Zero (CC0), secara efektif menempatkannya di domain publik. Ini berarti bahwa perusahaan dan peneliti lain dapat mengadopsi, memodifikasi, atau secara bebas mengembangkan pedoman ini. Perusahaan mengatakan bahwa keputusan ini dipengaruhi oleh kepentingan informal orang lain dalam industri yang sudah merujuk pada spesifikasi sebelumnya.

Saya ingin mengobrol. Anda dapat menghubungi saya dengan aman di sinyal @kylie.01 atau melalui email ke kylie@theverge.com.

Sementara pengumuman hari ini tidak segera mengubah bagaimana chatgpt atau produk openai lainnya berperilaku, perusahaan mengatakan itu mewakili kemajuan berkelanjutan untuk membuat model mereka terus -menerus mengikuti prinsip -prinsip ini. Tim juga membuka indikasi yang digunakan untuk membuktikan kepatuhan model dengan pedoman ini.

Momen rilis ini terjadi untuk perdebatan yang intens tentang perilaku AI dan pagar keselamatan. Sementara Openai menyatakan bahwa pembaruan ini didorong oleh akumulasi umpan balik dan kemajuan penelitian sejak versi pertama Mei lalu, ia datang ke industri dengan insiden profil tinggi Melibatkan respons model AI terhadap masalah sensitif.

Operai meminta komentar publik tentang spesifikasi melalui formulir di situs webnya. “Kami ingin membawa diskusi internal ini kepada publik,” kata Laurentia Romaniuk, anggota lain dari tim Model Behavior.

“Kami tahu itu akan pedas, tapi saya pikir kami menghormati kemampuan publik untuk mencerna hal -hal pedas ini dan memprosesnya bersama kami,” kata Jang, menambahkan bahwa Openai memasukkan banyak komentar yang ia terima setelah meluncurkan spesifikasi pertama model yang terakhir tahun . “Saya sedikit khawatir, karena sudah lama sekali, sehingga tidak banyak orang yang dapat memiliki waktu untuk duduk dan benar -benar memproses nuansa, tetapi kami akan menerima komentar.”

Sumber