Selasa, tujuan tetap ada Api pertamanya IA Developer Conference di Markas besar Menlo Park, di mana perusahaan akan mencoba untuk menghadirkan pengembang dalam pembangunan aplikasi dengan model terbuka mereka memanggil AI. Hanya setahun yang lalu, itu bukan penjualan yang sulit.
Namun, dalam beberapa bulan terakhir, Meta telah berjuang untuk mengikuti laboratorium “terbuka” seperti Deepseek dan pesaing komersial tertutup seperti Openai dalam karir yang berkembang pesat. Llamacon tiba pada waktu finish yang kritis dalam pencariannya untuk membangun ekosistem api yang luas.
Pengembang yang menang bisa sesederhana mengirimkan model terbuka yang lebih baik. Tapi itu bisa lebih sulit untuk dicapai daripada yang terlihat.
Awal yang menjanjikan lebih awal
Sasaran Peluncuran Api 4 Awal Bulan Ini Diseptor yang kecewa, dengan serangkaian skor referensi yang ditemukan di bawah model seperti Deepseek’s R1 dan V3. Itu jauh dari apa yang disebutnya adalah: Penyelarasan model yang mendorong batas.
Saat Meta meluncurkan panggilan modelnya 3.1 405b musim panas lalu, CEO Mark Zuckerberg mempromosikannya sebagai kemenangan besar. Di dalam BlogMeta disebut Llama 3.1 405b “Model dasar yang paling mampu yang tersedia secara terbuka”, dengan kinerja yang menyaingi model Openai terbaik pada waktu itu, GPT-4O.
Itu adalah model yang mengesankan, tidak diragukan lagi, dan begitu pula model keluarga lainnya menelepon 3. Jeremy Nixon, yang telah menjadi tuan rumah hackathon di rumah AGI di San Francisco dalam beberapa tahun terakhir, menyebut tombak ke -3 “momen sejarah.”
Dapat dikatakan bahwa ia menyebut 3 membuat kekasih di antara pengembang AI, menawarkan kinerja avant -garde dengan kebebasan untuk mengatur model di mana pun mereka memilih. Hari ini, model Meta Calls 3.3 diunduh lebih sering yang ia sebut 4, ia mengatakan bahwa memeluk produk dan pertumbuhan wajah, Jeff Boudier, dalam sebuah wawancara.
Bandingkan dengan penerimaan dengan panggilan keluarga 4, dan perbedaannya ditandai. Tapi dia menyebut 4 dia kontroversial sejak awal.
Kejahatan evaluasi komparatif
Meta mengoptimalkan versi salah satu model panggilannya 4, memanggil 4 maverick, untuk “percakapan”, yang membantunya mendapatkan tempat pertama di patokan patokan crowdsourcing benchmark. Namun, Meta tidak pernah meluncurkan model ini: versi Maverick yang diluncurkan secara luas Akhirnya berkinerja jauh lebih buruk Di LM Arena.
Kelompok di belakang LM Arena mengatakan Meta Seharusnya “lebih jelas” Tentang perbedaan. Ion Stoica, co -founder LM Arena dan profesor UC Berkeley yang juga ikut perusahaan, termasuk AnyScale dan databricks, mengatakan kepada TechCrunch bahwa insiden itu merusak kepercayaan komunitas pengembang di garis finish.
“[Meta] Seharusnya lebih eksplisit daripada model maverick yang masuk [LM Arena] Itu berbeda dari model yang diluncurkan, “kata Stoica kepada TechCrunch dalam sebuah wawancara.” Ketika ini terjadi, itu adalah kerugian kecil dengan komunitas. Tentu saja, mereka dapat memulihkan model yang lebih baik. “
Tanpa alasan
Kelalaian yang jelas dari keluarga Calls 4 adalah model penalaran AI. Model penalaran dapat dengan hati -hati menyelesaikan pertanyaan sebelum menjawabnya. Dalam setahun terakhir, sebagian besar Industri AI telah meluncurkan model penalaranMereka cenderung bekerja lebih baik pada titik referensi tertentu.
Sasaran mengolok -olok model penalaran api 4Tetapi perusahaan belum mengindikasikan kapan harus menunggu.
Nathan Lambert, seorang peneliti AI2, mengatakan bahwa fakta bahwa Meta tidak menerbitkan model penalaran dengan Flame 4 menunjukkan bahwa perusahaan dapat bergegas peluncuran.
“Semua orang meluncurkan model penalaran, dan membuat model mereka terlihat sangat baik,” kata Lambert. “Kenapa tidak bisa [Meta] Tunggu untuk melakukan itu? Saya tidak punya jawaban untuk pertanyaan itu. Tampaknya kelangkaan perusahaan yang normal. “
Lambert mengatakan bahwa saingan terbuka lebih dekat ke perbatasan dari sebelumnya dan sekarang datang dalam lebih banyak bentuk dan ukuran, sebagian besar meningkatkan tekanan target. Misalnya, Senin, Alibaba meluncurkan kumpulan model, QWEN3Itu seharusnya melebihi beberapa model pengkodean Openai dan Google terbaik di Codeforces, titik referensi pemrograman.
Untuk memulihkan keunggulan dari model terbuka, tujuan hanya perlu memberikan model superior, menurut Ravid Shwartz-Ziv, seorang peneliti AI di Pusat Ilmu Data NYU. Itu dapat melibatkan mengambil lebih banyak risiko, seperti menggunakan teknik baru, katanya kepada TechCrunch.
Tidak jelas apakah tujuan berada dalam posisi untuk menjalankan risiko besar saat ini. Kata karyawan saat ini dan sebelumnya Harta benda Laboratorium penelitian meta AI “sekarat kematian yang lambat.” Wakil Presiden Penelitian Perusahaan, Joelle Pineau, mengumumkan bulan ini bahwa dia pergi.
Llamas adalah tujuan untuk menunjukkan apa yang telah ia masak untuk mengatasi peluncuran AI Labs berikutnya seperti Openai, Google, XAI dan lainnya. Jika tidak dikirimkan, perusahaan dapat tetap lebih jauh di ruang ultra -kompetitif.