Apa yang disebut sebagai model penalaran kecerdasan buatan kini menjadi lebih mudah (dan lebih murah) untuk dikembangkan.
Pada hari Jumat, NovaSky, tim peneliti di Sky Computing Lab UC Berkeley, merilis Sky-T1-32B-Preview, model penalaran yang kompetitif dengan a versi lama OpenAI o1 pada serangkaian tolok ukur utama. Sky-T1 tampaknya menjadi model penalaran open source pertama dalam arti yang sebenarnya direplikasi dari awal; tim menerbitkan kumpulan data yang mereka gunakan untuk melatihnya, serta kode pelatihan yang diperlukan.
“Anehnya, Sky-T1-32B-Preview dilatih dengan biaya kurang dari $450,” tulis tim tersebut dalam sebuah postingan blog“Hal ini menunjukkan bahwa kemampuan penalaran tingkat tinggi dapat direplikasi dengan biaya yang terjangkau dan efisien.”
$450 mungkin tampak tidak begitu terjangkau. Namun belum lama ini harga pelatihan model dengan performa sebanding Seringkali jumlahnya berkisar jutaan dolar. Data pelatihan sintetis, atau data pelatihan yang dihasilkan oleh model lain, telah membantu mengurangi biaya. Palmyra X 004, model yang baru-baru ini diluncurkan oleh perusahaan kecerdasan buatan Writer, hampir seluruhnya dilatih tentang hal itu data sintetisDilaporkan biaya pengembangannya hanya $700.000.
Tidak seperti kebanyakan AI, model penalaran secara efektif memverifikasi dirinya sendiri membantu mereka menghindari beberapa kesalahan yang biasanya membuat model tersandung. Model penalaran membutuhkan waktu lebih lama (biasanya beberapa detik hingga menit lebih lama) untuk sampai pada solusi dibandingkan dengan model non-penalaran pada umumnya. Keuntungannya adalah mereka cenderung lebih dapat diandalkan dalam bidang-bidang seperti fisika, sains, dan matematika.
Tim NovaSky mengatakan mereka menggunakan model penalaran lain, Pratinjau Alibaba QwQ-32Buntuk menghasilkan data pelatihan awal untuk Sky-T1, lalu “mengkurasi” kombinasi data dan memanfaatkan OpenAI. GPT-4o-mini untuk memfaktorkan ulang data ke dalam format yang lebih bisa diterapkan. Pelatihan parameter 32 miliar Sky-T1 membutuhkan waktu sekitar 19 jam menggunakan rak 8 GPU Nvidia H100. (Parameter secara kasar sesuai dengan kemampuan pemecahan masalah model.)
Menurut tim NovaSky, Sky-T1 berkinerja lebih baik daripada versi pra-rilis o1 di MATH500, kumpulan tantangan matematika “tingkat kompetitif”. Model ini juga mengungguli pratinjau o1 pada serangkaian masalah LiveCodeBench yang sulit, yaitu penilaian pengkodean.
Namun, Sky-T1 tidak memenuhi pratinjau o1 GPQA-Diamond, yang berisi pertanyaan-pertanyaan terkait fisika, biologi, dan kimia yang diharapkan diketahui oleh lulusan PhD.
Penting juga untuk dicatat bahwa OpenAI o1 Rilis GA Ini adalah model yang lebih kuat daripada pratinjau o1, dan OpenAI diharapkan merilis model penalaran dengan kinerja yang lebih baik lagi, o3dalam beberapa minggu mendatang.
Namun tim NovaSky mengatakan Sky-T1 hanya menandai awal perjalanannya untuk mengembangkan model open source dengan kemampuan penalaran tingkat lanjut.
“Di masa depan, kami akan fokus pada pengembangan model yang lebih efisien yang mempertahankan kinerja penalaran yang kuat dan mengeksplorasi teknik-teknik canggih yang lebih meningkatkan efisiensi dan akurasi model pada waktu pengujian,” tulis tim tersebut dalam postingannya. “Nantikan terus kami bergerak maju dengan inisiatif-inisiatif menarik ini.”