Kemajuan kecerdasan buatan yang mengirimkan gelombang kejut melalui pasar saham, raksasa silikon lembah silikon dan generasi napas dilakukan pada akhir domain teknologi Amerika Serikat dengan judul tanpa pretensi dan tidak stabil: “Kapasitas penalaran insentif di LLM di LLM di LLM di LLM dengan LLM dengan LLM dengan LLM di LLM di LLM di LLM di LLM di LLM dengan LLM dengan LLM di LLM di LLM di LLM di LLM di LLM di LLM dengan LLM dengan LLM di LLM di LLM di LLM di LLM di LLM dengan LLM dengan LLM di LLM di LLM di LLM di LLM di LLM di LLM dengan llm melalui pembelajaran penguatan “.
Dia 22 -Hard PaperBerlangsung minggu lalu oleh start-up Cina Tionghoa bernama Depseek, alarm tidak segera dimulai. Para peneliti membutuhkan waktu beberapa hari untuk mencerna pernyataan dokumen dan implikasi dari apa yang ia jelaskan. Perusahaan telah menciptakan model baru dari apa yang disebut Depseek-R1, dibangun oleh tim peneliti yang mengaku telah menggunakan jumlah chip AI kelas dua yang sederhana sehingga mereka bertepatan dengan kinerja model utama Amerika untuk sebagian kecil dari sebagian kecil dari biaya.
Deepseek mengatakan dia telah melakukan ini melalui penggunaan rekayasa pintar untuk menggantikan daya komputer mentah. Dan dia telah melakukannya di Cina, sebuah negara yang banyak ahli pikir dia berada di posisi kedua yang jauh dalam karier global AI.
Beberapa pengamat industri awalnya bereaksi terhadap kemajuan Deepseek dengan tidak percaya. Tentunya, pikir mereka, Depseek telah berselingkuh untuk mencapai hasil R1, atau menghindari jumlah mereka sehingga modelnya lebih mengesankan daripada sebelumnya. Mungkin pemerintah Cina mempromosikan propaganda untuk merusak narasi domain Amerika IA. Mungkin Depseek Sembunyikan chips ilegal simpanan nvidia h100dilarang di bawah kontrol ekspor AS dan berbohong tentang hal itu. Mungkin R1 sebenarnya hanyalah re-piel yang cerdas dari model-model Amerika yang tidak mewakili banyak di jalur kemajuan nyata.
Akhirnya, karena lebih banyak orang menggali detail Deepseek-R1, yang, tidak seperti sebagian besar model utama AI, diluncurkan sebagai perangkat lunak open source, yang memungkinkan orang asing untuk memeriksa pekerjaan internal mereka lebih dari dekat, skeptisismenya menjadi khawatir.
Dan pada akhir minggu lalu, ketika banyak orang Amerika mulai menggunakan model Depseek untuk diri mereka sendiri, dan aplikasi seluler Depseek mencapai tempat nomor satu di toko aplikasi Apple, itu bersandar pada panik penuh.
Saya skeptis terhadap bidikan paling dramatis yang pernah saya lihat dalam beberapa hari terakhir, seperti klaim, yang dibuat oleh Investor Lembah SilikonDeepseek itu adalah plot yang diuraikan dari pemerintah Cina untuk menghancurkan industri teknologi AS. Saya juga percaya bahwa masuk akal bahwa pengurangan anggaran perusahaan telah sangat dibesar -besarkan, atau bahwa itu penuh dengan kemajuan yang dibuat oleh perusahaan AS dengan cara yang belum terungkap.
Tapi saya pikir kemajuan Deepseek R1 itu nyata. Berdasarkan percakapan yang saya lakukan dengan para ahli industri, dan satu minggu para ahli yang mengejek dan membuktikan temuan surat kabar itu sendiri, tampaknya mempertanyakan beberapa asumsi penting yang telah dilakukan oleh industri teknologi Amerika.
Yang pertama adalah asumsi bahwa untuk membangun model Vanguard, Anda harus menghabiskan sejumlah besar uang untuk chip dan pusat data yang kuat.
Sulit untuk membesar -besarkan betapa mendasarnya dogma ini. Perusahaan seperti Microsoft, Meta dan Google telah menghabiskan puluhan miliar dolar yang membangun infrastruktur yang menganggap perlu untuk membangun dan melaksanakan model AI generasi berikutnya. Mereka Mereka berencana untuk menghabiskan puluhan miliar lagi – atau, dalam kasus Openai, hingga $ 500 miliar melalui a Perusahaan bersama dengan Oracle dan SoftBank Itu diumumkan minggu lalu.
Deepseek tampaknya telah menghabiskan sebagian kecil dari bangunan R1 itu. Kami tidak tahu biaya pastinya, dan ada Banyak peringatan untuk dilakukan pada angka yang telah diluncurkan sejauh ini. Hampir pasti bahwa itu melebihi $ 5,5 juta, jumlah yang dinyatakan perusahaan bahwa ia menghabiskan pelatihan model sebelumnya.
Tetapi bahkan jika R1 harganya 10 kali lebih banyak untuk melatih klaim Deepseek itu, dan bahkan jika Anda memperhitungkan biaya lain, mungkin telah dikecualikan, seperti gaji insinyur atau biaya melakukan penyelidikan dasar, masih akan menjadi pesanan sebesar ini kurang dari orang Amerika Perusahaan menghabiskan untuk mengembangkan model mereka yang paling cakap.
Kesimpulan yang jelas untuk menggambar bukanlah bahwa raksasa teknologi Amerika membuang -buang uang mereka. Masih mahal untuk melaksanakan model yang kuat begitu mereka dilatih, dan ada alasan untuk berpikir bahwa menghabiskan ratusan miliar dolar masih masuk akal bagi perusahaan seperti Openai dan Google, yang mampu tetap di kepala kepala kepala kepala kepala kepala paket.
Tetapi kemajuan Deepseek dalam tantangan biaya narasi “lebih baik” yang telah mempromosikan perlombaan senjata AI dalam beberapa tahun terakhir dengan menunjukkan bahwa model yang relatif kecil, ketika mereka dilatih dengan benar, dapat mencocokkan atau mengatasi kinerja model yang jauh lebih besar.
Itu, pada gilirannya, berarti bahwa perusahaan AI dapat mencapai kapasitas yang sangat kuat dengan investasi yang jauh lebih sedikit daripada yang diperkirakan sebelumnya. Dan dia menyarankan agar kita dapat segera melihat longsoran investasi di perusahaan -perusahaan kecil baru, dan lebih banyak persaingan untuk raksasa Silicon Valley. (Itu, karena biaya yang sangat besar untuk melatih model mereka, mereka telah bersaing terutama satu sama lain sejauh ini).
Ada lebih banyak alasan teknis lainnya mengapa semua orang di Silicon Valley memperhatikan Depseek. Dalam pekerjaan penelitian, perusahaan mengungkapkan beberapa detail tentang bagaimana R1 benar -benar dibangun, termasuk beberapa teknik avant -garde dalam distilasi model. (Pada dasarnya, itu berarti menekan model AI besar pada anak -anak kecil, membuat mereka lebih murah untuk berlari tanpa kehilangan banyak hal di jalan kinerja).
Deepseek juga termasuk detail itu Disarankan Bahwa itu tidak sesulit yang sebelumnya diperkirakan untuk mengubah model bahasa “vanilla” menjadi model penalaran yang lebih canggih, menerapkan teknik yang dikenal sebagai pembelajaran penguatan selain itu. (Jangan khawatir jika istilah -istilah ini melewati kepala mereka: yang penting adalah bahwa metode untuk meningkatkan sistem AI yang sebelumnya dilindungi oleh perusahaan teknologi AS sekarang ada di web, gratis sehingga siapa pun mengambilnya dan mereplikasi).
Bahkan jika harga tindakan raksasa teknologi Amerika pulih dalam beberapa hari ke depan, keberhasilan Depseek menimbulkan pertanyaan penting tentang strategi AI jangka panjang mereka. Jika perusahaan Cina dapat membangun model sumber murah dan open yang bertepatan dengan kinerja model Amerika yang mahal, mengapa ada orang yang membayar kami? Dan jika itu adalah tujuan, satu -satunya raksasa teknologi di Amerika Serikat yang melepaskan modelnya sebagai perangkat lunak open source gratis, yang mencegah Depseek atau perusahaan baru lainnya dari sekadar mengambil modelnya, di mana ia menghabiskan miliaran dolar dan menyaringnya di lebih kecil . , model yang lebih murah yang dapat ditawarkan untuk sen?
The Deepseek Advance juga merusak beberapa asumsi geopolitik yang telah dilakukan banyak ahli Amerika tentang posisi China dalam karier AI.
Pertama, ini menantang narasi bahwa Cina secara signifikan di belakang perbatasan, ketika datang untuk membangun model yang kuat. Selama bertahun -tahun, banyak pakar AI (dan perumusan kebijakan yang mendengarkan mereka) telah berasumsi bahwa Amerika Serikat memiliki kepemimpinan setidaknya beberapa tahun, dan bahwa menyalin kemajuan yang dibuat oleh perusahaan teknologi AS sangat sulit bagi perusahaan Cina dengan cepat.
Tetapi hasil Deepseek menunjukkan bahwa China memiliki kemampuan canggih yang dapat mencocokkan atau melampaui model opera dan perusahaan Amerika lainnya, dan bahwa kemajuan yang dibuat oleh perusahaan AS dapat sepele mudah bagi perusahaan Cina, atau, untuk kurang, perusahaan Cina, mereplikasi dalam masalah suatu masalah minggu.
(The New York Times memiliki terdakwa Operai dan mitranya, Microsoft, menuduh mereka melakukan pelanggaran hak cipta konten berita yang terkait dengan sistem AI. Operai dan Microsoft telah membantah pernyataan itu).
Hasilnya juga menimbulkan pertanyaan tentang apakah langkah -langkah yang telah diambil oleh pemerintah Amerika Serikat untuk membatasi penyebaran sistem AI yang kuat kepada musuh kita, yaitu kontrol ekspor yang digunakan untuk mencegah chip yang kuat dari Caigan di tangan Cina, Mereka bekerja seperti yang dirancang, atau jika peraturan tersebut harus beradaptasi untuk memperhitungkan bentuk -bentuk model pelatihan yang baru dan lebih efisien.
Dan, tentu saja, ada kekhawatiran tentang apa artinya bagi privasi dan sensor jika Cina mengambil inisiatif dalam pembangunan sistem AI yang kuat yang digunakan oleh jutaan orang Amerika. Pengguna model Deepseek Saya perhatikan Itu secara rutin menolak untuk menjawab pertanyaan tentang masalah -masalah rumit di Cina, seperti pembantaian Lapangan Tiananmen dan kamp penahanan Uyghur. Jika pengembang lain didasarkan pada model Depseek, seperti halnya dengan perangkat lunak open source, langkah -langkah sensor ini dapat diintegrasikan di seluruh industri.
Pakar privasi juga memiliki Gelisah Pada kenyataan bahwa pemerintah Cina dapat mengakses data yang dibagikan dengan model Deepseek. Jika Anda khawatir Tiktok akan digunakan sebagai instrumen pengawasan dan propaganda, kenaikan Deepseek juga harus khawatir.
Saya masih yakin apa dampak total dari kemajuan Deepseek, atau jika kita akan mempertimbangkan pelepasan R1 sebagai “momen sputnik” untuk industri AI, seperti yang telah dilakukan beberapa orang. reklamasi.
Tetapi tampaknya bijaksana untuk menganggap serius kemungkinan bahwa kita berada di era baru dari brinkmanship, mungkin lebih sulit bagi kita untuk berpikir.
Setidaknya, Depseek telah menunjukkan bahwa perlombaan senjata AI benar -benar menyala, dan bahwa setelah beberapa tahun kemajuan, masih ada lebih banyak kejutan di toko.