Breaking News

Model AI open source dari Deepseek-V3 dengan arsitektur yang dirilis campuran

Model AI open source dari Deepseek-V3 dengan arsitektur yang dirilis campuran

Deepseek, seorang Cina kecerdasan buatan (AI) Tanda, meluncurkan model IA Deepseek-V3 pada hari Kamis. Model Bahasa Open Source (LLM) yang baru memiliki 671 miliar parameter massa, melebihi panggilan model target 3.1 yang memiliki 405 miliar parameter. Terlepas dari ukurannya, para peneliti menegaskan bahwa LLM berfokus pada efisiensi dengan arsitektur pencampuran ahli (MOE). Karena ini, model AI hanya dapat mengaktifkan parameter spesifik yang relevan dengan tugas yang diberikan dan menjamin efisiensi dan presisi. Secara khusus, ini adalah model berbasis teks dan tidak memiliki kemampuan multimodal.

Deepseek-V3 AI Model diluncurkan

Model Open Source AI saat ini sedang berlangsung ditempatkan Di wajah yang dipeluk. Menurut daftar, LLM berorientasi pada inferensi yang efisien dan pelatihan yang menguntungkan. Untuk ini, para peneliti mengadopsi perhatian laten beberapa kepala (MLA) dan arsitektur Deepseekmoe.

Pada dasarnya, model AI hanya mengaktifkan parameter yang relevan dengan tema pemberitahuan, memastikan pemrosesan yang lebih cepat dan presisi yang lebih besar dibandingkan dengan model khas dari ukuran ini. Pelatihan Prace di 14,8 miliar token, Deepseek-V3 menggunakan teknik seperti penyesuaian baik yang diawasi dan pembelajaran penguatan untuk menghasilkan respons berkualitas tinggi.

Perusahaan Cina mengatakan bahwa meskipun ukurannya, model AI benar -benar dilatih pada 2.788 juta jam dengan GPU NVIDIA H800. Arsitektur Deepseek-V3 juga mencakup teknik keseimbangan beban untuk meminimalkan degradasi kinerja. Teknik ini pertama kali digunakan dalam pendahulunya.

Setelah mencapai kinerja, para peneliti berbagi eval dari tes internal model dan mengatakan bahwa itu melebihi model target yang disebut 3.1 dan Qwen 2.5 dalam Big Bigh Bigh Big Big Performance (BBH), pemahaman bahasa multitasking massal (MMLU ), Humaneval, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, Matematika, dan beberapa poin referensi lainnya. Namun, ini saat ini tidak diverifikasi oleh peneliti pihak ketiga.

Salah satu aspek utama dari Deepseek-V3 adalah ukuran besar 671 miliar parameter. Meskipun ada model yang lebih besar, misalnya, Gemini 1.5 Pro memiliki satu miliar parameter, ukuran seperti itu di ruang open source jarang terjadi. Sebelum ini, model AI open source terbesar adalah Sasaran Hubungi 3.1 dengan 405 miliar parameter.

Saat ini, kode Depseek-V3 dapat diakses melalui daftar pelukan di bawah lisensi MIT untuk penggunaan pribadi dan komersial. Selain itu, model AI juga dapat diuji melalui platform chatbot perusahaan. Mereka yang berusaha membangun menggunakan model AI juga dapat mengakses API.

Untuk yang terakhir Berita Teknologi Dan UlasanIkuti 360 gadget masuk tidak dikenal, Facebook, Whatsapp, Rags Dan Berita Google. Untuk mendapatkan video terbaru tentang gadget dan teknologi, berlangganan kami Saluran YouTube. Jika Anda ingin tahu segalanya tentang orang -orang berpengaruh utama, ikuti internal kami Siapa itu360 di dalam Instagram Dan YouTube.


Harga Crypto Hari Ini: Bitcoin melihat penurunan harga, bergabung dengan sebagian besar cryptocurrency dalam koreksi seluruh pasar



Smartphone terbaik dari kisaran rata -rata 2024: Redmi Note 14 Pro+, OnePlus Nord 4, Realme 13 Pro+dan banyak lagi



Sumber