Breaking News

Model o3 OpenAI lulus uji penalaran AI, namun belum menjadi AGI

Model o3 OpenAI lulus uji penalaran AI, namun belum menjadi AGI

OpenAI mengumumkan pencapaian besar untuk model o3 AI barunya

Rokás Tenys / Alamy

Model kecerdasan buatan o3 baru OpenAI telah mencapai skor tinggi dalam a tes penalaran AI yang bergengsi disebut ARC Challenge, menginspirasi beberapa penggemar AI untuk berspekulasi bahwa o3 telah berhasil kecerdasan buatan umum (AIG). Meskipun penyelenggara ARC Challenge menggambarkan pencapaian o3 sebagai tonggak sejarah besar, mereka juga memperingatkan bahwa o3 tidak memenangkan hadiah utama kompetisi, dan hanya merupakan langkah menuju AGI, sebuah istilah untuk masa depan AI hipotetis dengan kecerdasan serupa manusia. .

Model o3 adalah yang terbaru dari rangkaian rilis AI yang mengikuti model bahasa besar yang mendukung ChatGPT. “Ini adalah peningkatan fungsi langkah yang mencolok dan penting dalam kemampuan AI, yang menunjukkan kemampuan adaptasi tugas baru yang belum pernah terlihat pada model keluarga GPT,” katanya. François CholletInsinyur Google dan pencipta utama ARC Challenge, di a postingan blog.

Apa sebenarnya yang dilakukan model o3 OpenAI?

Chollet merancang Korpus abstraksi dan penalaran (ARC) Tantangan pada tahun 2019 untuk menguji seberapa baik AI dapat menemukan pola yang benar yang menghubungkan pasangan kisi-kisi berwarna. Teka-teki visual ini bertujuan untuk membuat AI menunjukkan suatu bentuk kecerdasan umum dengan kemampuan penalaran dasar. Namun mencurahkan daya komputasi yang cukup untuk teka-teki tersebut bahkan memungkinkan program non-penalaran untuk menyelesaikannya dengan kekerasan. Untuk menghindari hal ini, kontes ini juga mengharuskan penyerahan skor resmi memenuhi batasan tertentu pada daya komputasi.

Model o3 OpenAI yang baru-baru ini diumumkan, dijadwalkan untuk dirilis pada awal tahun 2025, mencapai skor kemajuan resmi sebesar 75,7 persen dalam tes “semi-pribadi” ARC Challenge, yang digunakan untuk menentukan peringkat pesaing pada tabel klasifikasi publik. Biaya komputasi untuk pencapaian mereka adalah sekitar $20 untuk setiap tugas teka-teki visual, memenuhi batas kompetisi yang totalnya kurang dari $10.000. Namun, tes “pribadi” yang lebih ketat yang digunakan untuk menentukan pemenang hadiah utama memiliki batas daya komputasi yang lebih ketat, setara dengan hanya menghabiskan 10 sen untuk setiap tugas, yang tidak dipenuhi oleh OpenAI.

Model o3 juga mencapai skor tidak resmi sebesar 87,5 persen dengan menerapkan daya komputasi sekitar 172 kali lebih banyak dibandingkan skor resmi. Sebagai perbandingan, skor manusia pada umumnya adalah 84 persen, dan skor 85 persen sudah cukup untuk memenangkan hadiah utama ARC Challenge sebesar $600.000, jika model tersebut juga dapat menjaga biaya komputasinya dalam batas yang disyaratkan.

Namun untuk mencapai skor tidak resminya, biaya o3 meroket hingga ribuan dolar dihabiskan untuk menyelesaikan setiap tugas. OpenAI meminta penyelenggara tantangan untuk tidak mempublikasikan biaya komputasi secara pasti.

Apakah pencapaian O3 ini menunjukkan bahwa AGI telah tercapai?

Tidak, penyelenggara ARC Challenge secara khusus mengatakan bahwa mereka tidak menganggap melampaui standar kompetisi ini sebagai indikator pencapaian AGI.

Model o3 juga gagal menyelesaikan lebih dari 100 tugas teka-teki visual, bahkan ketika OpenAI menerapkan banyak daya komputasi untuk mendapatkan skor tidak resmi, kata Mike Knoop, penyelenggara ARC Challenge di perusahaan perangkat lunak Zapier, dalam sebuah postingan di jejaring sosial. surat di X.

di jejaring sosial surat di langit biru, Melanie Mitchell di Santa Fe Institute di New Mexico mengatakan hal berikut tentang kemajuan o3 pada benchmark ARC: “Saya pikir menyelesaikan tugas-tugas ini menggunakan komputasi brute force menggagalkan tujuan awal.”

“Meskipun model baru ini sangat mengesankan dan mewakili tonggak sejarah besar dalam perjalanan menuju AGI, menurut saya ini bukanlah AGI; Masih ada sejumlah solusi yang sangat mudah. [ARC Challenge] tugas-tugas yang tidak dapat diselesaikan oleh o3,” kata Chollet di X lainnya surat.

Namun, Chollet menjelaskan bagaimana kita bisa mengetahui ketika suatu bentuk AGI telah menunjukkan kecerdasan tingkat manusia. “Anda akan mengetahui bahwa AGI ada di sini ketika upaya menciptakan tugas-tugas yang mudah bagi manusia biasa namun sulit bagi AI menjadi mustahil,” ujarnya dalam postingan blog.

Thomas Dieterrich di Oregon State University menyarankan cara lain untuk mengenali AGI. “Arsitektur ini mengklaim mencakup semua komponen fungsional yang diperlukan untuk kognisi manusia,” katanya. “Dengan ukuran ini, sistem AI komersial kekurangan memori episodik, perencanaan, penalaran logis, dan yang paling penting, metakognisi.”

Jadi, apa sebenarnya arti skor o3 tinggi?

Skor tinggi model o3 muncul ketika industri teknologi dan peneliti AI sedang mempertimbangkan a tingkat kemajuan yang lebih lambat dalam model AI terbaru pada tahun 2024, dibandingkan dengan perkembangan awal yang eksplosif pada tahun 2023.

Meski tidak memenangkan ARC Challenge, skor o3 yang tinggi menunjukkan bahwa model AI dapat melampaui benchmark kompetisi dalam waktu dekat. Di luar nilai tidak resmi yang tinggi, Chollet mengatakan banyak kiriman resmi dengan perhitungan rendah telah mendapat nilai di atas 81 persen pada rangkaian tes penilaian swasta.

Dietterich juga menganggap bahwa “ini adalah lompatan kinerja yang sangat mengesankan.” Namun, dia memperingatkan hal itu tanpa mengetahui lebih banyak tentang bagaimana OpenAI o1 dan model o3 berfungsi, tidak mungkin untuk menilai seberapa mengesankan skor tingginya. Misalnya, jika o3 dapat mempraktikkan soal ARC terlebih dahulu, hal itu akan membuatnya lebih mudah untuk dicapai. “Kita harus menunggu replikasi open source untuk memahami arti sebenarnya dari hal ini,” kata Dietterich.

Penyelenggara ARC Challenge sudah berupaya untuk meluncurkan serangkaian tolok ukur kedua yang lebih sulit pada tahun 2025. Mereka juga akan mempertahankan tantangan ARC Prize 2025 hingga seseorang berhasil memenangkan hadiah utama dan menemukan solusinya.

Topik:

Sumber