Porselen Dia telah meluncurkan saingan sumber yang murah dan terbuka untuk Openai Chatgpt, dan membuat beberapa ilmuwan bersemangat dan khawatir tentang Silicon Valley.
Deepseek, orang Cina kecerdasan buatan (AI) Laboratorium di belakang inovasi, mempresentasikan model bahasa besar (LLM) Depseek-V3 pada akhir Desember 2024 dan Dia menegaskannya Itu dilatih dalam dua bulan hanya dengan $ 5,58 juta, sebagian kecil dari waktu dan biaya yang dibutuhkan oleh para pesaingnya di Silicon Valley.
Setelah tumitnya, ada model yang bahkan lebih baru yang disebut Depseek-R1, dirilis pada hari Senin (20 Januari). Dalam tes referensi pihak ketiga, Depseek-V3 bertepatan dengan kemampuan Openai dan Claude 3.5 GPT-4O antropi sementara melebihi yang lain, sebagai panggilan Meta 3.1 dan Qwen2.5 dari Alibaba, dalam tugas-tugas yang termasuk pemecahan masalah, pengkodean dan matematika.
Sekarang, R1 juga memiliki Terkenal Model O1 terbaru ChatGPT dalam banyak tes yang sama. Kinerja yang mengesankan ini untuk sebagian kecil dari biaya model lain, sifat open source semi-terbuka dan pelatihannya dalam unit pemrosesan grafis secara signifikan lebih sedikit (GPU) telah memikat para ahli di AI dan telah meningkatkan spektrum model model dari Cina yang mengatasi rekan -rekan Amerika mereka.
“Kita harus mendapatkan perkembangan dari Cina dengan sangat, sangat serius,” Satya NadellaCEO Microsoft, mitra strategis Openai, Mengatakan dalam forum ekonomi dunia Di Davos, Swiss, 22 Januari.
Terkait: AI sekarang dapat direplikasi, tonggak sejarah yang memiliki ahli yang ketakutan
Sistem AI belajar menggunakan data pelatihan yang diambil dari entri manusia, yang memungkinkan mereka untuk menghasilkan output berdasarkan probabilitas pola berbeda yang muncul dalam set data pelatihan itu.
Untuk model bahasa besar, data ini adalah teks. Misalnya, Openai GPT-3.5, yang diluncurkan pada tahun 2023, dilatih sekitar 570 GB data teks repositori Pelacakan umum – Setara dengan sekitar 300 miliar kata, diambil dari buku, artikel online, wikipedia dan halaman web lainnya.
Model penalaran, seperti R1 dan O1, adalah versi terbaru dari standar LLM yang menggunakan metode yang disebut “rantai pemikiran” untuk kembali dan Evaluasi kembali logika AndaItu memungkinkan mereka untuk mengatasi tugas yang lebih kompleks dengan presisi yang lebih besar.
Ini telah membuat model penalaran populer di kalangan ilmuwan dan insinyur yang ingin mengintegrasikan AI ke dalam pekerjaan mereka.
Tetapi tidak seperti ChatGPT O1, Depseek adalah model “bobot terbuka” yang (meskipun data pelatihan mereka tetap menjadi pemilik) memungkinkan pengguna untuk melihat dan memodifikasi algoritma mereka. Yang sama pentingnya adalah penurunan harga untuk pengguna, 27 kali lebih sedikit dari O1.
Selain kinerjanya, berlebihan di Depseek berasal dari profitabilitasnya; Pengurangan anggaran model kecil dibandingkan dengan puluhan juta hingga ratusan juta yang dihabiskan perusahaan saingan untuk melatih pesaing mereka.
Selain itu, kontrol ekspor AS, yang membatasi akses perusahaan Cina ke chip komputer kecerdasan buatan terbaik, memaksa pengembang R1 untuk membangun algoritma energi yang lebih cerdas dan lebih efisien untuk mengimbangi kurangnya kekuatan komputer. Menurut laporan, chatgpt diperlukan 10.000 GPU NVIDIA untuk memproses data pelatihan AndaInsinyur Deepseek mengatakan mereka mencapai hasil yang sama dengan lebih dari 2.000.
Masih harus dilihat seberapa berguna aplikasi ilmiah dan teknis, atau jika Deepseek hanya melatih modelnya untuk tes referensi ACE, masih harus dilihat. Para ilmuwan dan investor AIS mengawasi dengan cermat.