Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terkini dan konten eksklusif tentang liputan AI terkemuka di industri. Informasi lebih lanjut
Startup AI Tiongkok DeepSeek, yang dikenal karena menantang vendor AI besar dengan teknologi open source inovatifnya, hari ini meluncurkan model ultra-besar baru: DeepSeek-V3.
Tersedia melalui memeluk wajah Menurut perjanjian lisensi perusahaan, model baru ini hadir dengan parameter 671B tetapi menggunakan arsitektur pakar campuran untuk mengaktifkan hanya parameter yang dipilih, guna menangani tugas yang diberikan secara akurat dan efisien. Menurut tolok ukur yang dibagikan oleh DeepSeek, penawaran ini sudah menduduki puncak tangga lagu, bahkan melampaui model sumber terbuka utama Sasaran Api 3.1-405Bdan sangat cocok dengan performa model tertutup Anthropic dan OpenAI.
Rilis ini menandai kemajuan penting lainnya yang menjembatani kesenjangan antara AI sumber tertutup dan sumber terbuka. Pada akhirnya, DeepSeek, yang dimulai sebagai cabang dari dana lindung nilai kuantitatif Tiongkok Manajemen modal tingkat tinggiberharap bahwa perkembangan ini akan membuka jalan bagi kecerdasan umum buatan (AGI), dimana model akan memiliki kemampuan untuk memahami atau mempelajari tugas intelektual apa pun yang dapat dilakukan manusia.
Apa yang disediakan DeepSeek-V3?
Seperti pendahulunya DeepSeek-V2, model ultra-besar baru ini menggunakan arsitektur dasar yang sama Perhatian laten berkepala banyak (MLA) Dan Pencarian MendalamMoE. Pendekatan ini memastikan bahwa pelatihan dan inferensi yang efisien dipertahankan, dengan “ahli” bersama yang terspesialisasi (individu, jaringan saraf yang lebih kecil dalam model yang lebih besar) mengaktifkan 37 miliar dari 671 miliar parameter untuk setiap token.
Meskipun arsitektur dasar memastikan kinerja yang solid untuk DeepSeek-V3, perusahaan juga telah memperkenalkan dua inovasi untuk meningkatkan standar lebih jauh lagi.
Yang pertama adalah strategi penyeimbangan beban lossless tambahan. Hal ini secara dinamis memantau dan menyesuaikan jumlah pakar untuk menggunakannya secara seimbang tanpa mengurangi performa model secara keseluruhan. Yang kedua adalah prediksi multi-token (MTP), yang memungkinkan model memprediksi beberapa token di masa depan secara bersamaan. Inovasi ini tidak hanya meningkatkan efisiensi pelatihan tetapi juga memungkinkan model berjalan tiga kali lebih cepat, menghasilkan 60 token per detik.
“Selama pra-pelatihan, kami melatih DeepSeek-V3 tentang beragam token 14,8T berkualitas tinggi… Selanjutnya, kami melakukan perluasan panjang konteks dua tahap untuk DeepSeek-V3,” tulis perusahaan itu dalam sebuah dokumen teknis merinci model baru. “Pada tahap pertama, panjang konteks maksimum diperpanjang menjadi 32K dan pada tahap kedua diperpanjang lagi menjadi 128K. Setelah itu, kami melakukan pelatihan lebih lanjut, termasuk supervisored fine-tuning (SFT). ) pada model dasar DeepSeek-V3, untuk menyelaraskannya dengan preferensi manusia dan lebih jauh membuka potensinya. Pada tahap pasca pelatihan, kami menyaring kemampuan penalaran Seri Model DeepSeekR1Dan sementara itu, jagalah keseimbangan antara akurasi model dan durasi pembuatan secara hati-hati.”
Secara khusus, selama fase pelatihan, DeepSeek menggunakan beberapa optimasi algoritmik dan perangkat keras, termasuk kerangka pelatihan presisi campuran FP8 dan algoritma DualPipe untuk paralelisme saluran pipa, untuk mengurangi biaya proses.
Secara keseluruhan, ia mengklaim telah menyelesaikan semua pelatihan DeepSeek-V3 dalam waktu sekitar 2,788K jam GPU H800, atau sekitar $5,57 juta, dengan asumsi harga sewa $2 per jam GPU. Jumlah ini jauh lebih sedikit dibandingkan ratusan juta dolar yang biasanya dihabiskan untuk pra-pelatihan model bahasa besar.
Llama-3.1, misalnya, diperkirakan telah dilatih dengan investasi lebih dari $500 juta.
Model sumber terbuka paling kuat yang tersedia saat ini
Meskipun formasinya murah, DeepSeek-V3 telah menjadi model open source paling kuat di pasar.
Perusahaan melakukan beberapa pengujian untuk membandingkan kinerja AI dan menemukan bahwa kinerjanya secara meyakinkan mengungguli model terbuka terkemuka, termasuk Llama-3.1-405B dan Qwen 2.5-72B. Bahkan mengalahkan sumber tertutup GPT-4o di sebagian besar tolok ukur kecuali SimpleQA dan FRAMES yang berfokus pada bahasa Inggris, dengan model OpenAI tetap memimpin dengan skor masing-masing sebesar 38,2 dan 80,5 (naik dari 24,9 dan 73,3).
Secara khusus, performa DeepSeek-V3 sangat menonjol pada benchmark Tiongkok dan benchmark yang berfokus pada matematika, dan performanya lebih baik dibandingkan semua kompetitornya. Pada tes Math-500, dia mendapat nilai 90,2, disusul skor Qwen 80.
Satu-satunya model yang berhasil menantang DeepSeek-V3 adalah Claude Sonnet 3.5 oleh Antropismengunggulinya dengan skor lebih tinggi di MMLU-Pro, IF-Eval, GPQA-Diamond, SWE Verified dan Aider-Edit.
Penelitian ini menunjukkan bahwa open source semakin mendekati model close source, menjanjikan kinerja yang hampir setara pada berbagai tugas. Pengembangan sistem seperti ini sangat baik bagi industri karena berpotensi menghilangkan peluang satu pemain besar AI untuk mendominasi permainan. Ini juga memberi bisnis banyak pilihan untuk dipilih dan digunakan sambil mengatur tumpukan mereka.
Saat ini, kode untuk DeepSeek-V3 tersedia melalui GitHub di bawah lisensi dari MIT, sedangkan modelnya disediakan di bawah lisensi model perusahaan. Perusahaan juga dapat menguji model baru melalui Obrolan Pencarian Mendalamplatform yang mirip dengan ChatGPT, dan mengakses API untuk penggunaan komersial. DeepSeek menyediakan API di Harga sama dengan DeepSeek-V2 hingga 8 Februari. Setelah itu, Anda akan menagih $0,27/juta token masuk ($0,07/juta token dengan cache hits) dan $1,10/juta token keluar.
Sumber