Breaking News

Studi ini menuduh LM Arena untuk membantu laboratorium Top AI bermain di titik referensi mereka

Studi ini menuduh LM Arena untuk membantu laboratorium Top AI bermain di titik referensi mereka

Peran baru Dari AI Lab Chere, Stanford, MIT dan AI2 menuduh LM Arena, organisasi di balik referensi Chatbot Arena yang populer dari AI AI, untuk membantu sekelompok perusahaan tertentu untuk mencapai skor yang lebih baik dalam klasifikasi dengan mengorbankan saingan.

Menurut penulis, LM Arena memungkinkan beberapa perusahaan pemimpin industri seperti Meta, Openai, Google dan Amazon untuk mencoba beberapa varian model AI, dan kemudian tidak menerbitkan skor artis terendah. Ini memfasilitasi perusahaan -perusahaan ini untuk mencapai tempat pertama di tabel klasifikasi platform, meskipun peluang tidak diberikan kepada semua perusahaan, kata penulis.

“Hanya segelintir [companies] Mereka diberitahu bahwa bukti pribadi ini tersedia dan jumlah bukti pribadi yang beberapa orang [companies] Diterima jauh lebih dari yang lain, “kata Wakil Presiden Investigasi Ai de Cohere dan rekan kerja penelitian, Sara Hooker, dalam sebuah wawancara dengan TechCrunch.” Ini gamifikasi. “

Dibuat pada tahun 2023 sebagai proyek penelitian akademik dari UC Berkeley, Chatbot Arena telah menjadi titik referensi bagi perusahaan AI. Ini bekerja dengan menempatkan respons dari dua model berbeda berdampingan dalam “pertempuran” dan meminta pengguna untuk memilih yang terbaik. Tidak jarang melihat model yang tidak dipublikasikan yang bersaing di pasir dengan nama samaran.

Suara dari waktu ke waktu berkontribusi pada skor model dan, akibatnya, lokasinya di tabel klasifikasi chatbot arena. Sementara banyak aktor komersial berpartisipasi dalam arena chatbot, LM Arena telah lama menyatakan bahwa titik rujukannya tidak memihak dan adil.

Namun, bukan itu yang menurut penulis surat kabar mereka temukan.

Perusahaan AI, Meta, dapat mencoba 27 varian model di Chatbot Arena antara Januari dan Maret sebelum peluncuran api 4 dari raksasa teknologi, kata penulis. Pada peluncuran tersebut, Meta hanya secara terbuka mengungkapkan skor -model tunggal, model yang terletak di dekat bagian atas klasifikasi chatbot arena.

Acara TechCrunch

Berkeley, CA.
|
5 Juni


Pesan sekarang

Tabel yang diekstraksi dari penelitian. (Kredit: Singh et al.)

Dalam email ke TechCrunch, co -founder LM Arena dan profesor UC Berkeley, Ion Stoica, mengatakan penelitian itu penuh dengan “ketidakakuratan” dan “analisis yang dipertanyakan.”

“Kami berkomitmen untuk evaluasi yang adil yang dipromosikan oleh masyarakat dan mengundang semua pemasok model untuk mengirim lebih banyak model untuk tes dan meningkatkan kinerja mereka dengan preferensi manusia,” kata LM Arena dalam sebuah pernyataan yang diberikan kepada TechCrunch. “Jika penyedia model memilih untuk mengirim lebih banyak bukti daripada penyedia model lain, ini tidak berarti bahwa penyedia model kedua diperlakukan tidak adil.”

Laboratorium yang seharusnya disukai

Para penulis dokumen mulai melakukan penyelidikan pada November 2024 setelah mengetahui bahwa beberapa perusahaan AI mungkin memiliki akses preferensial ke chatbot arena. Secara total, mereka mengukur lebih dari 2,8 juta pertempuran pasir chatbot dalam peregangan lima bulan.

Para penulis mengatakan mereka menemukan bukti bahwa LM Arena mengizinkan perusahaan AI tertentu, termasuk tujuan, Openai dan Google, mengumpulkan lebih banyak data dari Chatbot Arena dengan membuat model mereka muncul dalam model “pertempuran” yang lebih besar. Peningkatan tingkat pengambilan sampel ini memberi perusahaan -perusahaan ini keuntungan yang tidak adil, kata penulis.

Penggunaan data tambahan dari LM Arena dapat meningkatkan kinerja model pasir keras, Benchmark LM Arena lainnya mempertahankan, di 112%. Namun, LM Arena mengatakan dalam a Publikasikan di x Kinerja keras pasir ini tidak berkorelasi langsung dengan hasil pasir chatbot.

Hooker mengatakan bahwa tidak jelas bagaimana perusahaan AI tertentu dapat menerima akses prioritas, tetapi sesuai dengan LM Arena untuk meningkatkan transparansi secara mandiri.

Di dalam Publikasikan di xLM Arena mengatakan bahwa beberapa pernyataan dalam dokumen tidak mencerminkan kenyataan. Organisasi menunjukkan a Blog Dia menerbitkan awal minggu ini yang menunjukkan bahwa tidak ada model laboratorium utama yang muncul dalam lebih banyak pertempuran pasir chatbot daripada yang ditunjukkan oleh penelitian.

Keterbatasan penting dari penelitian ini adalah bahwa itu didasarkan pada “identifikasi diri” untuk menentukan model AI mana yang berada dalam tes pribadi di chatbot arena. Para penulis meminta model AI beberapa kali di perusahaan asal mereka, dan didasarkan pada tanggapan model untuk mengklasifikasikannya, metode yang tidak sempurna.

Namun, Hooker mengatakan bahwa ketika penulis berkomunikasi dengan LM Arena untuk berbagi temuan awal mereka, organisasi tidak memainkannya.

TechCrunch berkomunikasi dengan Meta, Google, Openai dan Amazon, yang semuanya disebutkan dalam penelitian ini, untuk komentar. Tidak ada yang menanggapi segera.

Lm pasir dalam air panas

Dalam dokumen tersebut, penulis meminta di LM Arena untuk mengimplementasikan serangkaian perubahan yang ditakdirkan untuk membuat Chatbot Arena lebih “adil.” Sebagai contoh, penulis mengatakan bahwa LM Arena dapat menetapkan batas yang jelas dan transparan dalam jumlah tes pribadi yang dapat dilakukan Laboratorium IA dan secara terbuka mengungkapkan skor tes ini.

Di dalam Publikasikan di X, LM Arena menolak saran -saran ini, mengklaim bahwa Anda telah menerbitkan informasi tentang tes pra -la Sejak Maret 2024. Organisasi evaluasi komparatif juga mengatakan bahwa “tidak masuk akal untuk menunjukkan skor untuk model pra -launch yang tidak tersedia untuk umum”, karena komunitas AI tidak dapat menguji model itu sendiri.

Para peneliti juga mengatakan bahwa LM Arena dapat menyesuaikan laju pengambilan sampel pasir chatbot untuk memastikan bahwa semua model di pasir muncul dalam jumlah pertempuran yang sama. LM Arena telah menerima rekomendasi ini secara publik, dan mengindikasikan bahwa itu akan membuat algoritma pengambilan sampel baru.

Dokumen itu tiba berminggu -minggu setelah gol ditangkap dalam titik referensi permainan di arena chatbot di sekitar peluncuran model -modelnya yang disebut 4 yang disebutkan di atas. Meta mengoptimalkan salah satu model panggilan 4 untuk “percakapan”, yang membantunya mencapai skor yang mengesankan dalam klasifikasi chatbot arena. Tetapi perusahaan tidak pernah meluncurkan model yang dioptimalkan dan versi vanilla Akhirnya berkinerja jauh lebih buruk Di arena chatbot.

Pada saat itu, LM Arena mengatakan bahwa tujuan seharusnya lebih transparan dalam pendekatan evaluasi komparatifnya.

Awal bulan ini, LM Arena mengumumkan bahwa itu Peluncuran perusahaandengan rencana untuk mengumpulkan modal investor. Studi ini meningkatkan pengawasan dalam organisasi referensi swasta, dan jika Anda dapat mempercayai mereka untuk mengevaluasi model AI tanpa pengaruh perusahaan yang awan proses.

Pembaruan pada 04/30/25 jam 21:35 PT: Versi sebelumnya dari cerita ini termasuk komentar dari insinyur Google DeepMind yang mengatakan bahwa bagian dari studi Chere tidak akurat. Peneliti tidak berpendapat bahwa Google mengirim 10 model ke LM Arena untuk tes pra -launch dari Januari hingga Maret, sebagai koheren, tetapi hanya menunjukkan bahwa tim open source perusahaan, yang bekerja di Gemma, hanya mengirim satu.

Sumber