Breaking News

Model O3 AI Openai tidak ditemukan dalam uji referensi dalam uji Frontiermath

Model O3 AI Openai tidak ditemukan dalam uji referensi dalam uji Frontiermath

Operai Model Kecerdasan Buatan (AI) O3, yang diluncurkan minggu lalu, memiliki kinerja yang lebih rendah pada titik referensi tertentu. Epoch AI, perusahaan di belakang titik referensi Frontiermath, menekankan bahwa versi publik yang tersedia dari model O3 AI memperoleh 10 persen dalam pengujian, nilai yang jauh lebih rendah daripada klaim perusahaan pada peluncuran. Direktur riset perusahaan AI yang berbasis di San Francisco, Mark Chen, mengatakan bahwa model tersebut memperoleh 25 persen dalam pengujian, membuat rekor baru. Namun, perbedaan itu tidak berarti bahwa Operai berbohong pada metrik.

Model O3 AI Openai mendapat 10 persen di Frontiermath

Pada bulan Desember 2024, Openai merayakan a siaran langsung Di YouTube dan platform media sosial lainnya, mengumumkan model O3 AI. Pada saat itu, perusahaan menyoroti peningkatan kemampuan yang ditetapkan dalam Model Bahasa Besar (LLM), khususnya peningkatan kinerja dalam konsultasi berbasis penalaran.

Salah satu cara di mana perusahaan mencontohkan klaim tersebut adalah dengan berbagi skor referensi model dalam berbagai tes populer. Salah satu tes ini adalah frontiermath, dibuat Pada waktu ai. Tes matematika dikenal sebagai bukti yang menantang dan manipulasi, karena lebih dari 70 ahli matematika mengembangkan tes, dan masalahnya semuanya baru dan tidak dipublikasikan. Secara khusus, hingga Desember, tidak ada model AI yang memecahkan lebih dari sembilan persen pertanyaan dalam satu upaya.

Namun, pada saat peluncuran, Chen mengatakan bahwa O3 dapat membuat rekor baru dengan mencetak 25 persen dalam tes. Verifikasi eksternal kinerja tidak dimungkinkan pada waktu itu, karena model itu tidak tersedia di domain publik. Setelah O3 dan O4-Mini diluncurkan minggu lalu, Epoch AI membuat a surat Dalam X (sebelumnya dikenal sebagai Twitter), mengklaim bahwa model O3, pada kenyataannya, memperoleh 10 persen dalam tes.

Sementara skor 10 persen juga menjadikan model AI klasifikasi tertinggi dalam tes, jumlahnya kurang dari setengah dari apa yang diklaim perusahaan. Publikasi ini telah menyebabkan beberapa penggemar AI berbicara tentang validitas skor referensi.

Perbedaan itu tidak berarti bahwa Operai berbohong tentang kinerja model AI -nya. Sebaliknya, model perusahaan AI yang tidak dipublikasikan mungkin menggunakan perhitungan yang lebih baik untuk mendapatkan skor itu. Namun, versi komersial model mungkin disesuaikan dengan daya yang lebih efisien, dan dalam proses itu, bagian dari kinerjanya dilemahkan.

Secara terpisah, ARC Award, sebuah organisasi di balik uji referensi ARC-AGI, yang membuktikan kecerdasan umum model AI, juga menyadari Dalam X tentang perbedaan. Publikasi ini dikonfirmasi: “O3 yang diluncurkan adalah model yang berbeda dari yang kami coba pada bulan Desember 2024”. Perusahaan mengatakan bahwa tingkat komputasi model O3 yang dirilis lebih kecil dari versi yang diuji. Namun, ia mengkonfirmasi bahwa O3 tidak dilatih dalam data ARC-AGI, bahkan pada tahap sebelum pelatihan.

ARC Award mengatakan akan mencoba lagi model O3 AI dan menerbitkan hasil yang diperbarui. Perusahaan juga akan menguji model O4-Mini dan memberi label skor sebelumnya sebagai “pratinjau.” Tidak pasti bahwa versi O3 yang diluncurkan juga memiliki kinerja yang lebih rendah dalam tes ini.

Sumber

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *