Kurang dari dua minggu yang lalu, sebuah perusahaan Cina yang nyaris tidak dikenal meluncurkan yang terakhir kecerdasan buatan (AI) Model dan mengirim gelombang kejut di seluruh dunia.
Deepseek diklaim dalam dokumen teknis yang dimuat GitHub Bahwa model R1 berat terbuka tercapai Hasil yang sebanding atau lebih baik Bahwa model AI yang dibuat oleh beberapa raksasa utama Lembah Silikon, yaitu, Openai Chatgpt, nyala Meta dan Claude of Anthrope. Dan yang paling menakjubkan, model ini mencapai hasil ini saat dilatih dan dieksekusi di sebagian kecil dari biaya.
Respons pasar terhadap berita hari Senin jelas dan brutal: karena Depseek meningkat menjadi Aplikasi gratis yang paling banyak diunduh Di App Store Apple, $ 1 miliar dihilangkan dari penilaian perusahaan teknologi Amerika utama.
Dan Nvidia, sebuah perusahaan yang menyebabkan chip grafis H100 High -end dianggap penting untuk pelatihan AI, kehilangan $ 589 miliar untuk dinilai Kehilangan pasar yang besar satu hari dalam sejarah Amerika Serikat. Lagipula Deepseek, mengatakan dia melatih model AI tanpa mereka, meskipun dia menggunakan chip nvidia yang kurang kuat. Perusahaan teknologi Amerika merespons dengan panik dan kemarahan, dengan perwakilan opera bahkan menyarankan bahwa Depseek bagian yang menjiplak dari model mereka.
Terkait: AI sekarang dapat direplikasi, tonggak sejarah yang memiliki ahli yang ketakutan
Pakar IA mengatakan bahwa darurat Deepseek telah membatalkan dogma utama yang mendukung pendekatan pertumbuhan industri, yang menunjukkan bahwa lebih besar tidak selalu lebih baik.
“Fakta bahwa Deepseek dapat dibangun dengan sedikit uang, lebih sedikit perhitungan dan lebih sedikit waktu dan dapat dieksekusi secara lokal dalam mesin yang lebih murah, berpendapat bahwa, karena semua orang berlari lebih besar dan lebih besar, kami kehilangan kesempatan untuk membangun lebih pintar dan lebih kecil”. Kristian Hammond, Seorang profesor ilmu komputer di Universitas Northwestern, mengatakan sains langsung dalam sebuah email.
Tapi apa yang membuat model Deepseek V3 dan R1 begitu mengganggu? Kuncinya, kata para ilmuwan, adalah efisiensi.
Apa yang membuat model Depseek bekerja?
“Entah bagaimana, kemajuan Deepseek lebih evolusi dari revolusioner,” Ambuj TewariProfesor Statistik dan Informatika di University of Michigan, kata Live Science. “Mereka masih beroperasi di bawah paradigma dominan model yang sangat besar (100 -an miliar parameter) dalam set data yang sangat besar (miliar token) dengan anggaran yang sangat besar.”
Jika kita mengambil klaim Deepseek atas surat itu, kata Tewari, inovasi utama dari pendekatan perusahaan adalah bagaimana ia menjalankan modelnya yang besar dan kuat untuk dieksekusi serta sistem lain sambil menggunakan lebih sedikit sumber daya.
Kunci untuk ini adalah sistem “campuran ahli” yang membagi model Depseek menjadi submodo yang berspesialisasi dalam tugas atau jenis data tertentu. Ini disertai dengan sistem beban yang, alih -alih menerapkan penalti umum untuk menunda sistem yang kelebihan beban seperti model lain, secara dinamis mengubah tugas submodeling dengan kelebihan pekerjaan ke submodel.
“[This] Ini berarti bahwa meskipun model V3 memiliki 671 miliar parameter, hanya 37 miliar yang sebenarnya diaktifkan untuk setiap token yang diberikan, “kata Tewari. File mengacu pada unit pemrosesan dalam model bahasa besar (LLM), setara dengan bagian teks.
Memaksa keseimbangan beban ini adalah teknik yang dikenal sebagai “skala komputasi inferensi”, sebuah dial dalam model Depseek yang landai menetapkan perhitungan naik atau turun untuk bertepatan dengan kompleksitas tugas yang ditugaskan.
Efisiensi ini meluas ke pelatihan model Depseek, yang dikutip oleh para ahli sebagai konsekuensi tak disengaja dari pembatasan ekspor AS. PorselenAkses ke chip NVIDIA H100 terbaru terbatas, sehingga Depseek menyatakan bahwa ia membangun modelnya dengan chip H800, yang memiliki kecepatan transfer data chip untuk mengurangi chip. NVIDIA merancang chip “terlemah” ini pada tahun 2023 khusus untuk menghindari kontrol ekspor.
Jenis model bahasa besar yang lebih efisien
Kebutuhan untuk menggunakan chip yang kurang kuat ini dipaksakan Deepseek untuk membuat kemajuan signifikan lainnya: kerangka presisi campurannya. Alih -alih mewakili semua bobot dari modelnya (angka -angka yang menetapkan kekuatan hubungan antara neuron buatan dari model AI) menggunakan angka mengambang 32 -bit (FP32), bagian terlatih dari modelnya dengan 8 dengan 8 kurang akurat Bit 8 bit angka (FP8), hanya berubah menjadi 32 bit untuk perhitungan yang lebih sulit di mana presisi penting.
“Ini memungkinkan pelatihan yang lebih cepat dengan sumber daya komputasi yang lebih sedikit.” Thomas CaoProfesor Kebijakan Teknologi di University of Tufts, kata Live Science. “Deepseek juga telah menyempurnakan hampir setiap langkah dalam pipa pelatihannya: pemuatan data, paralelisasi dan strategi optimisasi memori) untuk mencapai efisiensi yang sangat tinggi dalam praktiknya.”
Demikian pula, meskipun umum untuk melatih model AI menggunakan label yang disediakan oleh manusia untuk mendapatkan keakuratan tanggapan dan penalaran, alasan R1 tidak diawasi. Gunakan hanya koreksi dari tanggapan akhir dalam tugas -tugas seperti matematika dan pengkodean sinyal hadiah Anda, yang merilis sumber daya pelatihan untuk digunakan di tempat lain.
Semua ini menambah beberapa model yang sangat efisien. Sementara biaya pelatihan pesaing Deepseek bertemu puluhan juta hingga ratusan juta dolar Dan seringkali butuh beberapa bulan, perwakilan Deepseek mengatakan perusahaan melatih V3 dalam dua bulan hanya dengan $ 5,58 juta. Biaya eksekusi Deepseek V3 sama rendahnya – 21 kali lebih murah untuk dijalankan dari Sonnet Claude 3.5 dari Antrop.
CAO berhati -hati untuk mengingat bahwa penelitian dan pengembangan Deepseek, yang mencakup perangkat kerasnya dan sejumlah besar percobaan percobaan dan kesalahan, berarti bahwa ia hampir pasti menghabiskan lebih dari angka $ 5,58 juta ini. Namun, masih merupakan penurunan yang signifikan dalam biaya untuk menangkap pesaingnya yang datar.
Secara umum, para ahli AI mengatakan bahwa popularitas Deepseek mungkin positif untuk industri, mengurangi biaya sumber daya selangit dan mengurangi hambatan masuk bagi para peneliti dan perusahaan. Saya juga bisa menciptakan ruang untuk lebih banyak produsen chip yang NVIDIA memasuki balapan. Namun, ia juga datang dengan bahaya sendiri.
“Karena metode termurah dan paling efisien untuk mengembangkan model avant -garde tersedia untuk umum, mereka dapat memungkinkan lebih banyak peneliti di seluruh dunia untuk mencari pengembangan Vanguardia, yang berpotensi mempercepat kemajuan ilmiah dan penciptaan aplikasi,” kata CAO. “Pada saat yang sama, penghalang masuk yang lebih rendah ini menimbulkan tantangan peraturan baru, di luar persaingan antara Amerika Serikat dan Cina, pada penyalahgunaan atau berpotensi mendadak efek AI canggih oleh aktor negara dan non -negara,”.