Breaking News

Perusahaan IA berjalan untuk menggunakan ‘distilasi’ untuk menghasilkan model yang lebih murah

Perusahaan IA berjalan untuk menggunakan ‘distilasi’ untuk menghasilkan model yang lebih murah

Perusahaan -perusahaan intelijen buatan utama, termasuk Openai, Microsoft dan Meta beralih ke proses yang disebut “distilasi” dalam perlombaan global untuk membuat model AI yang lebih murah sehingga konsumen dan perusahaan mengadopsi.

Teknik ini menarik perhatian umum setelah kedalaman Cina Membangun model yang kuat dan efisien Berdasarkan sistem open source yang diluncurkan oleh pesaing target dan Alibaba. Kemajuan itu mengguncang kepercayaan pada kepemimpinan AI Lembah Silikon, yang membuat investor Wall Street menghapus miliaran dolar dari nilai tindakan teknologi besar Amerika Serikat.

Melalui distilasi, perusahaan mengambil model bahasa besar, yang disebut model “master”, yang menghasilkan kata yang mungkin berikutnya dalam sebuah kalimat. Model guru menghasilkan data yang kemudian melatih model “siswa” yang lebih kecil, membantu dengan cepat mentransfer pengetahuan dan prediksi model terbesar ke yang terkecil.

Meskipun distilasi telah banyak digunakan selama bertahun -tahun, kemajuan baru -baru ini telah membuat para pakar industri percaya bahwa proses tersebut akan semakin menjadi berkah bagi perusahaan baru yang mencari cara menguntungkan untuk membangun aplikasi berbasis teknologi.

“Distilasi cukup ajaib,” kata Olivier Lodement, kepala produk dari platform Openai. “Ini adalah proses mengambil model perbatasan pintar yang sangat besar dan menggunakan model itu untuk mengajarkan model yang lebih kecil. . . Sangat mampu melakukan tugas -tugas khusus yang sangat murah dan sangat cepat untuk dieksekusi. ”

Model bahasa besar seperti OpenAI GPT-4, Google Gemini dan Meta Call membutuhkan sejumlah besar data dan daya komputer untuk mengembangkan dan memelihara. Sementara perusahaan belum mengungkapkan angka yang tepat tentang berapa biaya untuk melatih model besar, kemungkinan ratusan juta dolar.

Berkat distilasi, pengembang dan perusahaan dapat mengakses kemampuan model ini ke fraksi harga, memungkinkan pengembang aplikasi untuk menjalankan model dengan cepat pada perangkat seperti laptop dan smartphone.

Pengembang dapat menggunakan platform OpenAI untuk distilasi, belajar dari model bahasa besar yang mendukung produk seperti chatgpt. Sponsor terbesar di Openai, Microsoft, menggunakan GPT-4 untuk menyaring keluarga kecil model PHI sebagai bagian dari asosiasi komersial setelah menginvestasikan hampir $ 14 miliar di perusahaan.

Namun, perusahaan baru yang berbasis di San Francisco mengatakan bahwa Deepseek menyuling model Openai untuk melatih pesaingnya, sebuah gerakan yang akan bertentangan dengan ketentuan layanannya. Deepseek belum mengomentari pernyataan tersebut.

Sementara distilasi dapat digunakan untuk membuat model kinerja tinggi, para ahli menambahkan bahwa mereka lebih terbatas.

“Distilasi menghadirkan kompensasi yang menarik; Jika modelnya lebih kecil, itu pasti mengurangi kapasitas mereka, “kata Ahmed Awadallah dari Microsoft Research, yang mengatakan bahwa model suling dapat dirancang untuk menjadi sangat baik untuk meringkas email, misalnya,” tetapi itu benar -benar tidak akan baik sama sekali. “

David Cox, wakil presiden model AI di IBM Research, mengatakan bahwa sebagian besar perusahaan tidak memerlukan model besar untuk melaksanakan produk mereka, dan suling cukup kuat untuk tujuan seperti chatbots layanan pelanggan atau yang dieksekusi pada perangkat yang lebih kecil seperti ponsel.

“Setiap kali Anda bisa [make it less expensive] Dan itu memberi Anda kinerja yang tepat yang Anda inginkan, ada sangat sedikit alasan untuk tidak melakukannya, ”tambahnya.

Itu menghadirkan tantangan bagi banyak model komersial perusahaan utama AI. Bahkan jika pengembang menggunakan model suling perusahaan seperti OpenAI, harganya jauh lebih murah dalam pelaksanaan, harganya lebih murah untuk dibuat dan, oleh karena itu, menghasilkan lebih sedikit pendapatan. Produsen model seperti OpenAI sering kali lebih sedikit biaya untuk penggunaan model suling, karena mereka membutuhkan lebih sedikit beban komputasi.

Namun, Winged Openai berpendapat bahwa model bahasa besar masih akan diperlukan untuk “tugas intelijen tinggi dan taruhan tinggi”, di mana “perusahaan bersedia membayar lebih untuk tingkat ketepatan dan keandalan yang tinggi.” Dia menambahkan bahwa model hebat juga akan diperlukan untuk menemukan kemampuan baru yang kemudian dapat disuling di anak -anak kecil.

Meski begitu, perusahaan bertujuan untuk mencegah model -model hebatnya dari suling untuk melatih pesaing. Openai memiliki peralatan yang memantau digunakan dan dapat menghilangkan akses ke pengguna yang mencurigai bahwa mereka menghasilkan sejumlah besar data untuk mengekspor dan melatih saingan, seperti yang tampaknya telah dilakukan dengan akun yang menurut mereka terkait dengan Deepseek. Namun, banyak dari tindakan ini terjadi secara surut.

“Openai telah berusaha untuk melindungi dari distilasi untuk waktu yang lama, tetapi sangat sulit untuk menghindarinya sepenuhnya,” kata Douwe Kiela, direktur eksekutif AI Contextual, penciptaan baru alat pemulihan informasi untuk perusahaan.

Distilasi juga merupakan kemenangan bagi para pembela model terbuka, di mana teknologi tersedia secara gratis bagi pengembang yang akan dibangun. Deepseek telah membuat model terbaru juga terbuka untuk pengembang.

“Kami akan menggunakan [distillation] Dan memasukkannya ke dalam produk kami segera, ”kata Yann Lecun, Kepala Ilmuwan Meta. “Itulah ide open source. Itu mendapat manfaat dari semua dan kemajuan orang lain setiap kali proses ini terbuka. “

Distilasi juga berarti bahwa produsen model dapat menghabiskan miliaran dolar untuk memajukan kapasitas sistem intelijen buatan tetapi masih menghadapi pesaing yang sering dengan cepat mengejar ketinggalan, sebagaimana dibuktikan oleh peluncuran Deepseek baru -baru ini. Ini menimbulkan pertanyaan tentang keuntungan dari gerakan pertama dalam pembangunan LLM ketika kemampuan Anda dapat direplikasi dalam hitungan bulan.

“Di dunia di mana segalanya bergerak begitu cepat. . . Sebenarnya, saya bisa menghabiskan banyak uang, melakukannya dengan cara yang sulit, dan kemudian seluruh lapangan tepat di atas tumit, ”kata IBM Cox. “Jadi ini adalah panorama komersial yang menarik dan rumit.”

Laporan tambahan dari Michael Acton di San Francisco

Sumber