Titik referensi untuk kecerdasan buatan (AI) Chatbots menghadapi pengawasan para peneliti yang mengklaim bahwa bukti mereka mendukung model yang dipatenkan dari perusahaan teknologi besar.
LM Arena secara efektif menempatkan dua model besar tidak teridentifikasi (LLM) dalam pertempuran untuk melihat mana yang paling dapat membahas pemberitahuan, dengan pengguna titik referensi yang memberikan suara untuk hasil yang paling mereka sukai. Hasilnya diumpankan dalam tabel klasifikasi yang melacak model mana yang bekerja lebih baik dan bagaimana mereka telah meningkat.
Namun, para peneliti telah menegaskan bahwa titik referensi bias, memberikan LLM utama “tes pribadi yang direveal” yang memberi mereka keuntungan dibandingkan Open Source LLM. Para peneliti menerbitkan temuan mereka pada 29 April di database preprint ArxivKemudian penelitian belum ditinjau oleh pasangan.
“Kami menunjukkan bahwa koordinasi antara beberapa pemasok preferensial dan kebijakan preferensial [later LM Arena] Menuju kelompok kecil yang sama, integritas ilmiah dan klasifikasi pasir yang andal, “tulis para peneliti dalam penelitian ini.” Sebagai sebuah komunitas, kita harus menuntut dengan lebih baik. “
Keberuntungan? Keterbatasan? Penanganan?
Dimulai sebagai Chatbot Arena, proyek penelitian yang dibuat pada tahun 2023 oleh para peneliti di University of California, Berkeley’s Laboratorium Komputer CieloLM Arena dengan cepat menjadi situs populer untuk perusahaan intelijen buatan utama dan open source tidak berdaya untuk menguji model mereka. Menyukai analisis “getaran” yang diekstraksi dari tanggapan pengguna pada titik referensi akademik, situs sekarang menerima lebih dari 1 juta pengunjung per bulan.
Untuk mengevaluasi ketidakberpihakan situs, para peneliti mengukur lebih dari 2,8 juta pertempuran yang diambil untuk jangka waktu lima bulan. Analisisnya menunjukkan bahwa segelintir pemasok favorit, model simbol perusahaan, termasuk Target, Openai, Google dan Amazon, telah “memberikan akses yang tidak proporsional ke data dan tes” karena model mereka muncul dalam jumlah yang lebih besar, memberikan versi akhir mereka dengan keuntungan yang signifikan.
“Pemasok seperti Google dan Openai telah menerima sekitar 19,2% dan 20,4% dari semua data di pasir, masing -masing,” tulis para peneliti. “Sebaliknya, 83 model bobot terbuka gabungan hanya menerima sekitar 29,7% dari total data.”
Selain itu, para peneliti menunjukkan bahwa pemilik diuji di LM Arena beberapa kali sebelum peluncuran resminya. Oleh karena itu, model -model ini memiliki lebih banyak akses ke data pasir, yang berarti bahwa ketika mereka akhirnya menghadapi LLM lain, mereka dapat dengan mudah mengatasinya, dengan hanya iterasi kinerja terbaik dari setiap LLM yang ditempatkan di tabel klasifikasi publik, kata para peneliti.
“Di satu ujung, kami mengidentifikasi 27 varian pribadi LLM yang diuji per finish pada periode sebelum versi LLAMA-4. Kami juga menetapkan bahwa model yang dipatenkan ditutup pada tingkat yang lebih tinggi (jumlah pertempuran) dan memiliki lebih sedikit model pasir daripada alternatif open source dan open source,” tulis para peneliti dalam studi tersebut. “Kedua kebijakan tersebut menyebabkan asimetri besar akses ke data dari waktu ke waktu.”
Memang, para peneliti berpendapat bahwa mereka dapat membuktikan banyak LLM pre -launch, memiliki kemampuan untuk menarik kembali skor referensi, hanya saja ia memiliki iterasi kinerja terbaik dari LLM -nya di tabel klasifikasi, serta model komersial tertentu yang muncul di aren lebih sering daripada yang lain, itu memberikan perusahaan besar IA kemampuan untuk “menguasai” model mereka. Ini berpotensi meningkatkan kinerja pasirnya pada pesaing, tetapi mungkin tidak berarti bahwa modelnya harus memiliki kualitas yang lebih baik.
Investigasi telah mempertanyakan Otoritas Arena LM sebagai titik referensi AI. LM Arena belum memberikan komentar resmi kepada Science Live, ia hanya menawarkan informasi latar belakang dalam tanggapan email. Tetapi organisasi itu menerbitkan jawaban untuk penelitian di platform sosial X.
“Mengenai deklarasi bahwa beberapa penyedia model tidak diperlakukan dengan cara yang adil: ini tidak benar. Mengingat kapasitas kami, kami selalu berusaha untuk menghormati semua permintaan evaluasi yang kami terima”, perwakilan perusahaan. menulis dalam publikasi. “Jika penyedia model memilih untuk mengirim lebih banyak tes daripada penyedia model lain, ini tidak berarti bahwa penyedia model kedua diperlakukan secara tidak adil. Setiap penyedia model membuat keputusan yang berbeda tentang cara menggunakan dan menilai preferensi manusia.”
LM Arena juga mengatakan bahwa ada kesalahan dalam data dan metodologi para peneliti, menanggapi bahwa pengembang LLM tidak dapat memilih skor terbaik untuk diungkapkan, dan bahwa hanya skor yang dicapai oleh LLM yang diterbitkan yang dimasukkan ke dalam tabel klasifikasi publik.
Namun, hasilnya menimbulkan pertanyaan tentang bagaimana LLMS dapat dibuktikan secara adil dan konsisten, terutama sebagai Lulus tes Turing Bukankah itu merek air yang bisa dikatakan sekali, dan itu Para ilmuwan mencari cara yang lebih baik untuk benar -benar mengevaluasi kemampuan pertumbuhan AI yang cepat.