Breaking News

Model AI baru DeepSeek tampaknya menjadi salah satu penantang ‘terbuka’ terbaik

Model AI baru DeepSeek tampaknya menjadi salah satu penantang ‘terbuka’ terbaik

Sebuah laboratorium di Tiongkok telah menciptakan salah satu model AI “terbuka” yang paling kuat hingga saat ini.

modelnya, Pencarian Mendalam V3dikembangkan oleh perusahaan kecerdasan buatan DeepSeek dan dirilis pada hari Rabu di bawah lisensi permisif yang memungkinkan pengembang mengunduh dan memodifikasinya untuk sebagian besar aplikasi, termasuk aplikasi komersial.

DeepSeek V3 dapat menangani berbagai beban kerja dan tugas berbasis teks, seperti pengkodean, penerjemahan, dan penulisan esai dan email dari pesan deskriptif.

Menurut pengujian benchmark internal DeepSeek, DeepSeek V3 mengungguli model yang dapat diunduh “terbuka” dan model AI “tertutup” yang hanya dapat diakses melalui API. Dalam subset kontes coding yang diselenggarakan di Codeforces, sebuah platform untuk kontes pemrograman, DeepSeek mengungguli model lain, termasuk Meta. Hubungi 3.1 405BOpenAI GPT-4odan Qwen 2.5 72B dari Alibaba.

DeepSeek V3 juga mengalahkan persaingan di Aider Polyglot, sebuah pengujian yang dirancang untuk mengukur, antara lain, apakah suatu model berhasil menulis kode baru yang terintegrasi dengan kode yang sudah ada.

DeepSeek mengklaim bahwa DeepSeek V3 dilatih pada kumpulan data 14,8 miliar token. Dalam ilmu data, token digunakan untuk mewakili bit data mentah: 1 juta token setara dengan sekitar 750.000 kata.

Bukan hanya set pelatihannya yang besar. DeepSeek V3 berukuran sangat besar: 671 miliar parameter, atau 685 miliar pada platform pengembangan Hugging Face AI. (Parameter adalah variabel internal yang digunakan model untuk membuat prediksi atau keputusan). Itu sekitar 1,6 kali lipat ukuran Llama 3.1 405B, yang memiliki 405 miliar parameter.

Jumlah parameter sering kali (tetapi tidak selalu) berkorelasi dengan keterampilan; Model dengan parameter lebih banyak cenderung mengungguli model dengan parameter lebih sedikit. Namun model berukuran besar juga memerlukan perangkat keras yang lebih kuat untuk beroperasi. Versi DeepSeek V3 yang tidak dioptimalkan memerlukan kumpulan GPU kelas atas untuk menjawab pertanyaan dengan kecepatan yang wajar.

Meskipun bukan model yang paling praktis, DeepSeek V3 merupakan sebuah pencapaian dalam beberapa hal. DeepSeek mampu melatih model menggunakan GPU Nvidia H800 pusat data hanya dalam dua bulan, GPU yang baru-baru ini dibuat oleh perusahaan China. terbatas oleh Departemen Perdagangan AS untuk pengadaan. Perusahaan juga mengklaim bahwa mereka hanya menghabiskan $5,5 juta untuk melatih DeepSeek V3, a pecahan dari biaya pengembangan model seperti GPT-4 OpenAI.

Sisi negatifnya adalah pandangan politik model tersebut agak… dipaksakan. Tanyakan DeepSeek V3 tentang Lapangan Tiananmen, misalnya, dan itu tidak akan menjawab.

Kredit gambar:obrolan apa pun

DeepSeek, sebagai perusahaan Tiongkok, tunduk pada hal tersebut evaluasi komparatif oleh regulator internet Tiongkok untuk memastikan respons model mereka “menggabungkan nilai-nilai inti sosialis.” Banyak sistem AI Tiongkok menolak untuk menanggapi isu-isu yang dapat memicu kemarahan regulator, seperti spekulasi mengenai Xi Jinping rezim.

DeepSeek, yang pada akhir November tdk dpt tidur DeepSeek-R1, tanggapan terhadap Model “penalaran” OpenAI o1Ini adalah organisasi yang aneh. Hal ini didukung oleh High-Flyer Capital Management, dana lindung nilai kuantitatif Tiongkok yang menggunakan kecerdasan buatan untuk menginformasikan keputusan perdagangannya.

High-Flyer membangun cluster servernya sendiri untuk pelatihan model, salah satu yang terbaru dilaporkan Ini memiliki 10.000 GPU Nvidia A100 dan berharga 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI “super cerdas” melalui organisasinya DeepSeek.

di sebuah wawancara Awal tahun ini, Wenfeng menggolongkan AI sumber tertutup seperti OpenAI sebagai parit “sementara”. “[It] “Hal ini tidak menghentikan orang lain untuk mengejar ketinggalan,” katanya.

Memang.


TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.




Sumber