Breaking News

Poin referensi crowdsourcing memiliki cacat serius, beberapa ahli mengatakan

Poin referensi crowdsourcing memiliki cacat serius, beberapa ahli mengatakan

Laboratorium AI semakin bergantung pada platform evaluasi komparatif crowdsourcing sebagai Chatbot Arena Untuk menyelidiki kekuatan dan kelemahan dari model terbarunya. Tetapi beberapa ahli mengatakan ada masalah serius dengan pendekatan ini. Dari perspektif etis dan akademik.

Dalam beberapa tahun terakhir, laboratorium, termasuk Openai, Google dan Meta, telah menggunakan platform yang merekrut pengguna untuk membantu mengevaluasi kemampuan model berikutnya. Ketika model memperoleh skor yang menguntungkan, laboratorium di belakangnya akan sering mempromosikan skor itu sebagai bukti peningkatan yang signifikan.

Namun, ini adalah pendekatan yang rusak, menurut Emily Bender, seorang profesor linguistik di University of Washington dan rekan penulis buku “The Ai with”. Bender mengambil masalah khusus dengan arena chatbot, yang tugasnya sebagai sukarelawan dengan penggabungan dua model anonim dan memilih respons yang mereka sukai.

“Agar valid, titik referensi harus mengukur sesuatu yang spesifik, dan harus berlaku untuk konstruksi, yaitu, harus ada bukti bahwa konstruksi bunga didefinisikan dengan baik dan bahwa pengukuran benar -benar berhubungan dengan konstruksi,” kata Bender. “Chatbot Arena belum menunjukkan bahwa memilih satu hasil pada yang lain benar -benar berkorelasi dengan preferensi, namun, mereka dapat didefinisikan.”

Asmelash Teka Hadgu, co -founder perusahaan Lesi dan anggota Lembaga Penelitian AI terdistribusi, mengatakan ia percaya bahwa poin referensi seperti Chatbot Arena sedang “dikooptasi” oleh AI Labs untuk “mempromosikan pernyataan yang berlebihan.” Hadgu menunjukkan kontroversi baru -baru ini yang melibatkan panggilan Meta 4 Maverick Model. Meta memurnikan versi maverick untuk mencetak gol dengan baik di chatbot arenahanya untuk mempertahankan model yang mendukung pelepasan a Versi kinerja yang lebih buruk.

“Poin referensi harus dinamis alih -alih set data statis,” kata Hadgu, “didistribusikan di berbagai entitas independen, seperti organisasi atau universitas, dan secara khusus beradaptasi dengan berbagai kasus penggunaan, seperti pendidikan, perawatan medis dan bidang lain yang dibuat oleh para profesional yang menggunakan ini menggunakan ini menggunakan ini, seperti pendidikan ini [models] Untuk bekerja. “

Hadgu dan Kristine Gloria, yang sebelumnya mengarahkan inisiatif teknologi yang muncul dan cerdas dari Institut Aspen, juga menyajikan kasus bahwa model evaluator harus dikompensasi untuk pekerjaan mereka. Gloria mengatakan bahwa IA laboratorium harus belajar dari kesalahan industri pelabelan data, yaitu terkenal oleh miliknya eksploitatif praktik. (Beberapa laboratorium telah dituduh dari hal yang sama.)

“Secara umum, proses evaluasi komparatif crowdsourcing sangat berharga dan mengingatkan saya pada inisiatif sains warga,” kata Gloria. “Idealnya, ini membantu memberikan perspektif tambahan untuk memberikan kedalaman dalam evaluasi dan penyesuaian data. Tetapi titik referensi tidak boleh menjadi satu -satunya metrik untuk evaluasi. Dengan industri dan inovasi yang bergerak cepat, titik referensi dapat menjadi tidak dapat diandalkan.”

Matt Fredrikson, CEO Gray Swan AI, yang mengarahkan kampanye tim merah crowdsourced untuk model, mengatakan bahwa sukarelawan tertarik pada platform Gray Swan karena berbagai alasan, termasuk “belajar dan mempraktikkan keterampilan baru.” (Grey Swan juga memberikan penghargaan tunai untuk beberapa tes). Meski begitu, ia mengakui bahwa poin referensi publik “bukan pengganti” untuk “berbayar”.

“[D]Evosores juga harus mempercayai poin referensi internal, tim merah algoritmik dan mempekerjakan tim merah yang dapat mengadopsi pendekatan yang lebih terbuka atau memberikan pengalaman spesifik dalam domain, “kata Fredriksson.” Penting bagi para pengembang model dan pencipta referensi, crowdsour atau dengan cara lain, mengomunikasikan hasilnya dengan jelas kepada mereka yang mengikuti dan bertanggung jawab ketika mereka ditanyai. “

Alex Atallah, CEO Model Marketplace OpenRouter, yang baru -baru ini dikaitkan dengan OpenAi untuk memberi pengguna akses awal ke Model OpenAI GPT-4Dia mengatakan tes terbuka dan evaluasi komparatif hanya “tidak cukup.” Wei-Lin Chiang, seorang mahasiswa doktoral di UC Berkeley dan salah satu pendiri Lmarena, yang menyimpan arena chatbot.

“Kami tentu mendukung penggunaan tes lain,” kata Chiang. “Tujuan kami adalah menciptakan ruang yang terbuka dan andal yang mengukur preferensi komunitas kami tentang berbagai model AI.”

Chiang mengatakan insiden seperti perbedaan referensi Maverick bukan hasil dari cacat dalam desain chatbot arena, tetapi laboratorium salah memahami kebijakan mereka. Lmarena telah mengambil langkah -langkah untuk mencegah perbedaan di masa depan terjadi, kata Chiang, termasuk memperbarui kebijakannya untuk “memperkuat komitmen kami terhadap evaluasi yang adil dan dapat direproduksi.”

“Komunitas kami tidak ada di sini sebagai sukarelawan atau penguji model,” kata Chiang. “Orang -orang menggunakan lmarena karena kami memberi mereka tempat yang terbuka dan transparan untuk berinteraksi dengan AI dan memberikan komentar kolektif. Sementara meja klasifikasi dengan setia mencerminkan suara masyarakat, kami menghargai bahwa itu dibagikan.”

Sumber