Breaking News

Seorang siswa sekolah menengah membangun situs web yang memungkinkannya menantang model AI ke konstruksi minecraft

Seorang siswa sekolah menengah membangun situs web yang memungkinkannya menantang model AI ke konstruksi minecraft

Sebagai konvensional Benchmarking AI Tekniknya tidak pantas, pembangun IA menggunakan cara yang lebih kreatif untuk mengevaluasi kapasitas generatif model AI. Untuk sekelompok pengembang, yaitu Minecraft, game konstruksi Sandbox yang dimiliki oleh Microsoft.

Situs web Titik referensi minecraft (atau MC-Bench) dikembangkan dalam kolaborasi dalam model AI dalam kotak satu sama lain dalam tantangan langsung untuk menanggapi indikasi dengan kreasi Minecraft. Pengguna dapat memilih model apa yang mereka lakukan pekerjaan yang lebih baik, dan hanya setelah pemungutan suara dapat melihat apa yang dilakukan setiap Minecraft.

Kredit gambar:Titik referensi minecraft (Buka di jendela baru)

Bagi Adi Singh, siswa kelas 12 yang memulai MC-Bench, nilai Minecraft bukanlah permainan itu sendiri, tetapi keakraban yang dimiliki orang-orang dengan dia, bagaimanapun, adalah penjualan terbaik video game sepanjang masa. Bahkan untuk orang -orang yang belum memainkan permainan, masih mungkin untuk mengevaluasi representasi mana di blok nanas adalah yang terbaik.

“Minecraft memungkinkan orang untuk melihat kemajuan [of AI development] Jauh lebih mudah, “kata Singh kepada TechCrunch.” Orang -orang terbiasa dengan Minecraft, terbiasa dengan penampilan dan lingkungan. “

MC-Bench saat ini mencantumkan delapan orang sebagai pembayar pajak sukarela. Anthrope, Google, Openai dan Alibaba telah mensubsidi penggunaan produk mereka dengan proyek untuk mengelola indikasi referensi, menurut situs web MC-Bench, tetapi perusahaan tidak berafiliasi.

“Kami saat ini membuat kompilasi sederhana untuk merefleksikan seberapa jauh kami telah tiba dari era GPT-3, tetapi [we] Kita bisa melihat diri kita naik ke rencana ini dengan cara yang lebih panjang dan tugas yang berorientasi pada tujuan, “kata Singh.” Permainan bisa menjadi sarana untuk mencoba penalaran agen yang lebih aman daripada dalam kehidupan yang nyata dan lebih terkendali untuk tujuan bukti, yang membuatnya lebih ideal di mata saya. “

Game lain seperti Pokémon Merah, Street FighterDan Pictionary Mereka telah digunakan sebagai titik referensi eksperimental untuk AI, sebagian karena seni evaluasi komparatif AI Sangat rumit.

Para peneliti sering mencoba model AI Evaluasi standarTetapi banyak dari tes ini memberikan keunggulan bidang asal. Karena cara mereka dilatih, model secara alami dilengkapi pada jenis pemecahan masalah yang sempit, terutama pemecahan masalah yang membutuhkan memori atau ekstrapolasi dasar.

Singkatnya, sulit untuk mendapatkan apa artinya GPT-4 Openai dapat memperoleh dalam persentil ke-88 di LSAT, tetapi tidak dapat membedakan Berapa banyak Rs dalam kata “stroberi.” Antropik Claude 3.7 Sonnet Dia mencapai akurasi 62,3% pada titik rekayasa perangkat lunak standar, tetapi lebih buruk untuk bermain Pokémon daripada kebanyakan anak -anak lima tahun.

Kredit gambar:Titik referensi minecraft

MC-Bench secara teknis adalah titik referensi pemrograman, karena model yang menulis kode diminta untuk membuat konstruksi yang diminta, seperti “Frosty the Snowman” atau “kabin pantai tropis yang menawan di pantai pasir perawan.”

Tetapi lebih mudah bagi sebagian besar pengguna MC-Bench untuk mengevaluasi apakah seorang manusia salju terlihat lebih baik daripada memperdalam kode, yang memberikan proyek ini daya tarik yang lebih luas dan, oleh karena itu, potensi untuk mengumpulkan lebih banyak data pada model yang terus-menerus mendapatkan skor terbaik.

Jika skor ini sangat setara dengan utilitas AI, tentu saja, ia dalam perdebatan. Namun, Singh menyatakan bahwa mereka adalah sinyal yang kuat.

“Tabel klasifikasi saat ini cukup erat tercermin dengan pengalaman saya sendiri dalam menggunakan model -model ini, yang berbeda dari banyak titik referensi teks murni,” kata Singh. “Mungkin [MC-Bench] Bisa bermanfaat bagi perusahaan untuk mengetahui apakah mereka diarahkan ke arah yang benar. ”

Sumber