Operai meluncurkan model “penalaran” AI, O3-Mini, Jumat, yang terbaru dari perusahaan. atau keluarga model penalaran.
Opadai Pertama modelnya di bulan Desember Bersama dengan sistem yang lebih mampu yang disebut O3, tetapi peluncuran tiba pada saat yang penting bagi perusahaan, yang ambisinya, dan tantangan, tampaknya mereka tumbuh setiap hari.
Operai sedang berjuang melawan persepsi bahwa ia memberikan karier AI Perusahaan Cina seperti DeepseekOperai itu menuduh bahwa dia bisa mencuri IP -nya. Telah mencoba Daftar hubungan Anda dengan Washington Sejak secara bersamaan mengejar a Proyek pusat data yang ambisiusDan Seperti dilaporkan, rasakan pangkalannya untuk salah satu putaran pembiayaan terbesar dalam sejarah.
Yang membawa kita ke O3-Mini. Operai meluncurkan model barunya sebagai “kuat” dan “terjangkau.”
“Tanda peluncuran hari ini […] Langkah penting menuju perpanjangan aksesibilitas ke AI tingkat lanjut dalam melayani misi kami, ”kata seorang juru bicara opera kepada TechCrunch.
Penalaran yang lebih efisien
Tidak seperti kebanyakan model bahasa besar, model penalaran seperti ulasan O3-mini secara menyeluruh sebelum memberikan hasil. Ini membantu mereka Hindari beberapa perangkap Mereka biasanya menemukan model. Model penalaran ini membutuhkan waktu sedikit lebih lama untuk mencapai solusi, tetapi kompensasi adalah bahwa mereka cenderung lebih dapat diandalkan, meskipun tidak sempurna, dalam domain seperti fisika.
O3-Mini disesuaikan untuk masalah STEM, khususnya untuk pemrograman, matematika dan ilmu pengetahuan. Operai menyatakan bahwa model ini sebagian besar bersama dengan keluarga O1, O1 dan O1-Mini, dalam hal kemampuan, tetapi lebih cepat dan harganya lebih murah.
Perusahaan mengatakan bahwa penguji eksternal lebih suka respons O3-mini tentang O1-mini lebih dari setengah waktu. O3-Mini juga melakukan 39% lebih sedikit “kesalahan penting” dalam “pertanyaan dunia nyata yang sulit” di Tes A/B. versus O1-mini, dan menghasilkan jawaban “lebih jelas” sambil menawarkan sekitar 24% tanggapan.
O3-Mini akan tersedia untuk semua pengguna melalui Chatgpt Pada hari Jumat, tetapi pengguna yang membayar Openai ChatGPT Plus dan rencana tim akan mendapatkan batas tarif yang lebih tinggi dari 150 konsultasi per hari. Pelanggan ChatGPT Pro akan memiliki akses tanpa batas, dan O3-Mini akan datang ke CHATGPT Enterprise dan pelanggan CHATGPT EDU dalam seminggu. (Tidak ada kabar tentang CHATGPT GOV tetap).
Pengguna dengan paket premium dapat memilih O3-Mini menggunakan menu drop-down ChatGPT. Pengguna gratis dapat mengklik atau menyentuh tombol “alasan” baru di bilah obrolan, atau membuat chatgpt “menghasilkan” jawaban.
Pada hari Jumat, O3-Mini juga akan tersedia melalui OpenAI API untuk memilih pengembang, tetapi awalnya tidak akan mendukung gambar. Pengembang dapat memilih tingkat “upaya penalaran” (rendah, sedang atau tinggi) sehingga O3-mini “berpikir lebih keras” tergantung pada kasus penggunaan dan kebutuhan latensi mereka.
O3-Mini dihargai $ 0,55 per juta token dalam cache dan $ 4,40 per juta token keberangkatan, di mana satu juta token setara dengan sekitar 750.000 kata. Itu 63% lebih murah daripada O1-mini, dan kompetitif dengan harga model penalaran Deepseek. Deepseek Cobra $ 0,14 per juta token input yang disimpan dalam cache dan token output $ 2,19 per juta untuk akses R1 melalui API -nya.
Di ChatGPT, O3-Mini didirikan dalam upaya penalaran menengah, yang menurut OpenAI memberikan “kompensasi yang seimbang antara kecepatan dan presisi.” Pengguna pembayaran akan memiliki opsi untuk memilih “O3-Mini-High” di pemilih model, yang akan memberikan apa yang disebut Openai disebut “intelijen yang lebih besar” dengan imbalan jawaban yang lebih lambat.
Terlepas dari versi mana dari pengguna ChatGPT U3-Mini, model ini akan bekerja dengan pencarian untuk menemukan tanggapan yang diperbarui dengan sumber web yang relevan. Openai memperingatkan bahwa fungsionalitas adalah “prototipe”, karena ia bekerja untuk mengintegrasikan pencarian ke dalam model penalarannya.
“Sementara O1 masih merupakan model penalaran umum kami yang lebih luas, O3-Mini menyediakan alternatif khusus untuk domain teknis yang membutuhkan presisi dan kecepatan,” tulis Openai dalam posting blog pada hari Jumat. “Peluncuran O3-Mini menandai langkah lain dalam misi Openai untuk mengatasi batas-batas kecerdasan yang menguntungkan.”
Peringatan berlimpah
O3-Mini bukan model yang paling kuat di OpenAI hingga saat ini, juga tidak ada model penalaran Depseek R1 yang melompat pada setiap titik referensi.
O3-Mini melampaui R1 di AIME 2024, tes yang mengukur seberapa baik model memahami dan menanggapi instruksi yang kompleks, tetapi hanya dengan upaya penalaran yang hebat. Ini juga melebihi R1 dalam uji uji yang berpusat diverifikasi (dengan .1 poin), tetapi sekali lagi, hanya dengan upaya penalaran yang hebat. Dalam upaya penalaran yang rendah, O3-Mini menunda R1 di GPQA Diamond, yang menguji model dengan pertanyaan fisika, biologi dan kimia di tingkat doktoral.
Agar adil, O3-Mini merespons banyak konsultasi dengan biaya dan latensi rendah yang kompetitif. Dalam publikasi, Openai membandingkan kinerjanya dengan keluarga O1:
“Dengan upaya penalaran yang rendah, O3-Mini mencapai kinerja yang sebanding dengan O1-Mini, sementara dengan upaya rata-rata, O3-Mini mencapai kinerja yang sebanding dengan O1,” tulis Openai. “O3-Mini dengan upaya penalaran menengah bertepatan dengan kinerja O1 dalam matematika, pengkodean dan sains sambil menawarkan jawaban yang lebih cepat. Sementara itu, dengan upaya penalaran yang besar, O3-Mini melampaui O1-Mini dan O1 “.
Perlu dicatat bahwa keunggulan kinerja O3-mini dibandingkan O1 langka di beberapa daerah. Di AIME 2024, O3-Mini berakhir O1 hanya dengan 0,3 poin persentase ketika ditetapkan dalam upaya penalaran yang tinggi. Dan di GPQA Diamond, O3-Mini tidak melebihi skor O1 bahkan dalam upaya penalaran yang hebat.
Operai menyatakan bahwa O3-Mini begitu “aman” atau lebih aman daripada keluarga O1, namun, berkat upaya peralatan merah dan metodologi “penyelarasan deliberatif”, yang membuat model “berpikir” tentang politik tentang keamanan openai politik sambil menanggapi konsultasi . Menurut perusahaan, O3-Mini “secara signifikan” salah satu model andalan Openai, GPT-4Odalam “Evaluasi Keamanan dan Jailbreak yang menantang.”
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini Untuk mendapatkannya di baki masuk Anda setiap hari Rabu.