Kuat kecerdasan buatan Model (AI) seperti ChatGPT memerlukan energi dalam jumlah besar untuk beroperasi, sehingga biasanya dihosting di pusat data besar. Namun terobosan baru dapat memampatkan model AI ini agar muat di smartphone atau laptop.
Algoritme baru, yang disebut Dekomposisi Presisi Rendah Sadar Kalibrasi dengan Adaptasi Peringkat Rendah (CALDERA), memampatkan sejumlah besar data yang diperlukan untuk menjalankan model bahasa besar (LLM) dengan memangkas redundansi dalam kode dan mengurangi presisi lapisan informasinya. .
LLM yang lebih ramping ini bekerja dengan presisi dan nuansa pada tingkat yang sedikit lebih rendah dibandingkan versi tanpa kompresi, kata para ilmuwan dalam sebuah penelitian yang diterbitkan pada 24 Mei di database pracetak. arXivmenjelang presentasi di Neural Information Processing Systems Conference (NeurIPS) pada bulan Desember.
“Kapan pun Anda dapat mengurangi kompleksitas komputasi, penyimpanan, dan kebutuhan bandwidth dengan menggunakan model AI, Anda dapat mengaktifkan AI pada perangkat dan sistem yang tidak dapat menangani tugas dan memori intensif komputasi,” kata rekan penulis studi tersebut. Andrea Tukang Emasprofesor teknik elektro dan komputer di Universitas Princeton, mengatakan dalam a penyataan.
Setiap kali seseorang menggunakan ChatGPT (sebagai contoh populer) di ponsel atau laptop mereka, permintaan apa pun yang dibuat akan dikirim ke server jarak jauh yang sangat besar, tempat data diproses dengan biaya lingkungan dan finansial yang besar, kata para ilmuwan dalam penelitian tersebut. Hal ini karena model AI sebesar ini mengonsumsi daya pemrosesan dalam jumlah besar dengan memanfaatkan ratusan, bahkan ribuan, komponen seperti unit pemrosesan grafis (GPU). Oleh karena itu, untuk menjalankan permintaan ini menggunakan satu GPU pada perangkat kecil, ukuran dan cakupan model AI harus dikompresi.
Untuk mengompres LLM, CALDERA menggabungkan dua teknik. Teknik pertama adalah “presisi rendah”, yang mengurangi jumlah bit (data satu dan nol) yang digunakan untuk menyimpan informasi, mempercepat penyimpanan dan pemrosesan sekaligus meningkatkan efisiensi energi, kata para ilmuwan. Yang kedua, disebut “peringkat rendah,” mengacu pada pengurangan redundansi dalam parameter pembelajaran yang digunakan dalam pelatihan LLM.
“Kami mengusulkan algoritma generik untuk mengompresi kumpulan data atau matriks yang besar. Dan kemudian kami menyadari bahwa saat ini, bukan hanya kumpulan datanya yang besar, tetapi model yang diterapkan juga semakin besar.” algoritma kami untuk mengompresi model ini,” salah satu penulis studi tersebut. Rajarshi Sahakata seorang mahasiswa doktoral Universitas Stanford dalam pernyataannya. “Dengan menggunakan kedua properti secara bersamaan, kita bisa mendapatkan lebih banyak kompresi daripada yang bisa dicapai oleh salah satu teknik ini secara individual.”
Tim menguji algoritme pada model Llama 2 dan Llama 3 open source Meta dan mencatat peningkatan hingga 5% dibandingkan algoritme kompresi yang ada yang hanya menggunakan salah satu dari dua teknik tersebut. Hasilnya dapat membuka jalan bagi LLM untuk disimpan dan dijalankan di ponsel cerdas atau laptop di masa depan, ketika privasi adalah hal yang terpenting dan ketika presisi maksimum tidak diperlukan.
Namun, para ilmuwan memperingatkan bahwa LLM tidak dioptimalkan untuk berjalan secara efisien pada perangkat tersebut.
“Anda tidak akan senang jika Anda menjalankan LLM dan ponsel Anda kehabisan daya dalam satu jam. Tapi saya tidak akan mengatakan ada satu teknik pun yang menyelesaikan semua masalah,” kata Saha dalam pernyataannya. “Apa yang kami usulkan dalam makalah ini adalah teknik yang digunakan dalam kombinasi dengan teknik yang diusulkan dalam penelitian sebelumnya. Dan saya yakin kombinasi ini akan memungkinkan kami menggunakan LLM pada perangkat seluler dengan lebih efisien dan memperoleh hasil yang lebih akurat.”