Breaking News

Model AI GPT-4.1 baru Openai fokus pada pengkodean

Model AI GPT-4.1 baru Openai fokus pada pengkodean

Openai meluncurkan keluarga model baru yang disebut GPT-4.1 pada hari Senin. Ya, “4.1”, seolah -olah nomenklatur perusahaan tidak lagi membingungkan.

GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano ini, yang semuanya Openai mengatakan “Excel” dalam pengkodean dan pengajaran berikut. Tersedia melalui API Openai tetapi tidak ChatgptModel multimodal memiliki jendela konteks 1 juta token, yang berarti mereka dapat mengambil sekitar 750.000 kata sekali (lebih banyak waktu daripada “perang dan perdamaian”).

GPT-4.1 tiba sebagai saingan openai seperti upaya traksi Google dan antropik dalam upaya membangun model pemrograman yang canggih. Google baru -baru ini dirilis Gemini 2.5 ProIni juga memiliki jendela konteks 1 juta token, tinggi pada titik -titik pengkodean yang populer. Begitu juga antropik Claude 3.7 Sonnet Dan startup China V3 ditingkatkan Depseek.

Ini adalah tujuan dari banyak raksasa teknologi, termasuk openai, untuk melatih model pengkodean IA yang mampu melakukan tugas rekayasa perangkat lunak yang kompleks. Ambisi besar Openai adalah membuat “insinyur perangkat lunak agen”, seperti CFO Sarah Firo Pontil It Selama KTT teknologi di London bulan lalu. Perusahaan menyatakan bahwa model masa depannya dapat memprogram aplikasi penuh ke ekstrem, menangani aspek -aspek seperti jaminan kualitas, tes kesalahan dan penulisan dokumentasi.

GPT-4.1 adalah langkah ke arah ini.

“Kami telah mengoptimalkan GPT-4.1 untuk penggunaan dunia nyata berdasarkan umpan balik langsung untuk meningkatkan di bidang yang paling mereka sayangi: kodifikasi perbatasan, membuat edisi yang lebih aneh, mengikuti format dengan andal, mematuhi struktur dan ketertiban respons, penggunaan alat yang konsisten dan banyak lagi,” kata juru bicara Openai TechCrunch melalui email. “Perbaikan ini memungkinkan pengembang untuk membangun agen yang jauh lebih baik dalam tugas rekayasa perangkat lunak dunia nyata.”

Openai menyatakan bahwa model GPT-4.1 mengatasinya GPT-4O dan GPT-4O Mini Model dalam poin pengkodean, termasuk SWE-Bench. Dikatakan bahwa GPT-4.1 Mini dan Nano lebih efisien dan lebih cepat dengan mengorbankan beberapa presisi, dan Operai mengatakan bahwa GPT-4.1 Nano adalah model tercepat dan paling murah dalam sejarah.

GPT-4.1 biaya $ 2 per juta token masuk dan token produksi $ 8 per juta. GPT-4.1 Mini adalah token input $ 0,40/juta dan token output $ 1,60/juta, dan GPT-4.1 Nano adalah token input $ 0,10/juta dan token output $ 0,40/juta.

Menurut tes internal OpenAI, GPT-4.1, yang dapat menghasilkan lebih banyak token serta GPT-4O (32.768 berbanding 16.384), memperoleh skor antara 52% dan 54,6% di bank yang diverifikasi VE, subset dari bank SWE SWE SWE. ; Angka -angka ini sedikit di bawah skor yang diinformasikan oleh Google dan Antrop untuk Gemini 2.5 Pro (63,8%) dan Claude 3.7 soneta (62,3%), masing -masing, dalam benchmark sendiri.

Dalam evaluasi terpisah, Operai mensurvei GPT-4.1 menggunakan video-MME, yang dirancang untuk mengukur kemampuan model untuk “memahami” konten dalam video. GPT-4.1 mencapai akurasi 72% dalam kategori video “Long, Without Subtitles”, kata Openai.

Meskipun GPT-4.1 memperoleh skor yang masuk akal pada titik referensi dan memiliki “pemotongan pengetahuan yang lebih baru, memberikan kerangka referensi yang lebih baik untuk peristiwa terkini (hingga Juni 2024), penting untuk diingat bahwa bahkan beberapa model terbaik saat ini bertarung dengan tugas-tugas yang tidak akan bertemu para ahli. Misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya, misalnya. banyak studi memiliki Itu ditampilkan Model pembuatan kode ini sering gagal menyelesaikan, dan bahkan memperkenalkan, kerentanan dan kesalahan keamanan.

Openai juga mengakui bahwa GPT-4.1 menjadi kurang dapat diandalkan (yaitu, lebih mungkin membuat kesalahan) semakin banyak token masuk yang harus Anda tangani. Dalam salah satu tes perusahaan sendiri, OpenAI-MRCR, ketepatan model menurun dari sekitar 84% dengan 8.000 token menjadi 50% dengan 1 juta token. GPT-4.1 juga cenderung lebih “literal” daripada GPT-4O, mengatakan bahwa perusahaan terkadang membutuhkan indikasi yang lebih spesifik dan eksplisit.

Sumber