Breaking News

Alibaba meluncurkan tantangan ‘terbuka’ terhadap model penalaran o1 OpenAI

Alibaba meluncurkan tantangan ‘terbuka’ terhadap model penalaran o1 OpenAI

Model AI baru yang disebut “penalaran”, QwQ-32B-Preview, telah muncul. Ini adalah salah satu dari sedikit yang menyaingi OpenAI. o1dan merupakan yang pertama tersedia untuk diunduh di bawah lisensi permisif.

Dikembangkan oleh tim Qwen Alibaba, QwQ-32B-Preview berisi 32,5 miliar parameter dan dapat mempertimbangkan pesan hingga ~32.000 kata; berkinerja lebih baik pada benchmark tertentu dibandingkan o1-preview dan o1-mini, dua model alasan yang telah dirilis OpenAI sejauh ini. (Parameter secara kasar sesuai dengan kemampuan pemecahan masalah suatu model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit. OpenAI tidak mengungkapkan jumlah parameter modelnya.)

Menurut pengujian Alibaba, QwQ-32B-Preview mengungguli model o1 OpenAI dalam pengujian AIME dan MATH. AIME menggunakan model AI lain untuk mengevaluasi kinerja suatu model, sedangkan MATH adalah kumpulan masalah yang diajukan.

QwQ-32B-Preview dapat memecahkan teka-teki logika dan menjawab pertanyaan matematika yang cukup menantang, berkat kemampuan “penalarannya”. Tapi itu tidak sempurna. Catatan Alibaba pada a postingan blog bahwa model tersebut dapat berpindah bahasa secara tidak terduga, terjebak dalam loop, dan berkinerja buruk pada tugas-tugas yang memerlukan “penalaran akal sehat”.

Kredit gambar:Alibaba

Tidak seperti kebanyakan AI, QwQ-32B-Preview dan model penalaran lainnya secara efektif memverifikasi dirinya sendiri. Ini membantu mereka menghindari beberapa hal perangkap yang biasanya membuat model tersandung, namun kelemahannya adalah model tersebut sering kali membutuhkan waktu lebih lama untuk sampai pada solusi. Seperti o1, QwQ-32B-Pratinjau alasan melalui tugas, perencanaan ke depan, dan melakukan serangkaian tindakan yang membantu model menemukan jawaban.

QwQ-32B-Preview, yang dapat dijalankan dan diunduh dari platform pengembangan Hugging Face AI, tampaknya serupa dengan yang baru dirilis pencarian mendalam model penalaran dalam arti menganggap enteng isu-isu politik tertentu. Alibaba dan DeepSeek, sebagai perusahaan Tiongkok, tunduk pada hal ini evaluasi komparatif oleh regulator internet Tiongkok untuk memastikan respons model mereka “menggabungkan nilai-nilai inti sosialis.” Banyak sistem AI Tiongkok menolak menanggapi topik yang dapat memicu kemarahan regulator, seperti spekulasi mengenai hal tersebut Xi Jinping rezim.

Alibaba QwQ-32B-Pratinjau
Kredit gambar:Alibaba

Ketika ditanya “Apakah Taiwan bagian dari Tiongkok?”, QwQ-32B-Preview menjawab bahwa Taiwan adalah (dan juga “tidak dapat dicabut”) – sebuah perspektif yang tidak sejalan dengan sebagian besar negara di dunia tetapi sejalan dengan pandangan partai yang berkuasa di Tiongkok . Indikasi aktif Lapangan TiananmenSementara itu, dia tidak mendapat tanggapan.

Alibaba QwQ-32B-Pratinjau
Kredit gambar:Alibaba

QwQ-32B-Preview tersedia “secara terbuka” di bawah lisensi Apache 2.0, artinya dapat digunakan untuk aplikasi komersial. Namun hanya komponen tertentu dari model yang telah dirilis, sehingga tidak mungkin untuk mereplikasi Pratinjau QwQ-32B atau memperoleh banyak informasi tentang cara kerja internal sistem. “Keterbukaan” model AI bukanlah masalah yang sudah terselesaikan, namun ada sebuah kontinum umum yang dimulai dari yang paling tertutup (hanya akses API) hingga yang paling terbuka (model, bobot, data yang diungkap) dan ini merupakan titik perantara.

Meningkatnya perhatian terhadap model penalaran terjadi ketika kelayakan “hukum penskalaan” – teori lama yang menyatakan bahwa memberikan lebih banyak data dan daya komputasi pada suatu model akan terus meningkatkan kemampuannya – mulai mendapat sorotan. KE meletus laporan pers menunjukkan bahwa model-model dari laboratorium AI besar, termasuk OpenAI, Google, dan Anthropic, tidak meningkat secara dramatis seperti sebelumnya.

Hal ini menyebabkan perebutan pendekatan, arsitektur, dan teknik pengembangan AI baru, salah satunya adalah perhitungan waktu ujian. Juga dikenal sebagai komputasi inferensi, komputasi waktu pengujian pada dasarnya memberi model waktu pemrosesan tambahan untuk menyelesaikan tugas dan mendukung model seperti o1 dan QwQ-32B-Preview. .

Laboratorium besar, ditambah OpenAI, dan perusahaan Tiongkok bertaruh bahwa komputasi proof-time adalah masa depan. Menurut laporan terbaru oleh The Information, Google memiliki memperluas tim internal yang berfokus pada model penalaran menjadi sekitar 200 orang dan menambahkan kekuatan komputasi yang besar ke dalam upaya tersebut.

Sumber