Breaking News

Teknik populer untuk membuat AI lebih efisien memiliki kelemahan

Teknik populer untuk membuat AI lebih efisien memiliki kelemahan

Salah satu teknik yang paling banyak digunakan untuk membuat model AI lebih efisien, kuantisasi, memiliki batasan, dan industri dapat dengan cepat mendekati teknik tersebut.

Dalam konteks AI, kuantisasi mengacu pada pengurangan jumlah bit (unit terkecil yang dapat diproses komputer) yang diperlukan untuk merepresentasikan informasi. Pertimbangkan analogi ini: Ketika seseorang menanyakan waktu, Anda mungkin akan menjawab “siang”, bukan “oh, seribu dua ratus, satu detik empat milidetik”. Itu adalah kuantisasi; Kedua jawaban tersebut benar, namun ada satu jawaban yang sedikit lebih tepat. Seberapa presisi yang Anda perlukan bergantung pada konteksnya.

Model AI terdiri dari beberapa komponen yang dapat dikuantifikasi; khususnya parameter, variabel internal yang digunakan model untuk membuat prediksi atau keputusan. Hal ini memudahkan, mengingat model melakukan jutaan penghitungan saat dijalankan. Model terkuantisasi dengan bit lebih sedikit yang mewakili parameternya kurang menuntut secara matematis dan oleh karena itu menuntut komputasi. (Untuk lebih jelasnya, ini adalah proses yang berbeda dari “distilasi,” yang merupakan pemangkasan parameter yang lebih kompleks dan selektif.)

Namun kuantifikasi mungkin memiliki lebih banyak trade-off dibandingkan asumsi sebelumnya.

Model yang terus menyusut

Menurut a belajar Menurut peneliti di Harvard, Stanford, MIT, Databricks, dan Carnegie Mellon, kinerja model terkuantisasi akan lebih buruk jika versi asli model yang tidak terkuantisasi dilatih dalam jangka waktu lama dengan jumlah data yang besar. Dengan kata lain, pada titik tertentu, mungkin lebih baik melatih model yang lebih kecil daripada membuat model yang besar.

Hal ini bisa menjadi berita buruk bagi perusahaan AI yang melatih model berukuran sangat besar (dikenal dapat meningkatkan kualitas respons) dan kemudian mengukur model tersebut dalam upaya membuat layanan mereka lebih murah.

Dampaknya sudah terlihat. Beberapa bulan yang lalu, pengembang Dan akademik melaporkan bahwa kuantifikasi Meta Telepon 3 Model tersebut cenderung “lebih merusak” dibandingkan model lainnya, kemungkinan karena cara pelatihannya.

“Menurut pendapat saya, kerugian nomor satu bagi semua orang dalam AI adalah dan akan terus terjadi pada inferensi, dan penelitian kami menunjukkan bahwa satu cara penting untuk menguranginya tidak akan berhasil selamanya,” kata Tanishq Kumar, seorang mahasiswa matematika Harvard dan penulis pertama buku tersebut. penelitian. kertas, katanya kepada TechCrunch.

Bertentangan dengan kepercayaan umum, inferensi model AI (menjalankan model, seperti kapan ObrolanGPT menjawab pertanyaan: secara keseluruhan seringkali lebih mahal daripada pelatihan model. Misalnya, Google menghabiskan a Sayangku 191 juta dolar untuk melatih salah satu kapal andalannya Gemini model: tentu saja jumlah yang sangat besar. Namun jika perusahaan menggunakan model yang hanya menghasilkan jawaban 50 kata untuk setengah dari seluruh kueri Google Penelusuran, maka perusahaan tersebut akan mengeluarkan biaya hampir tidak 6 miliar dolar setahun.

Laboratorium AI besar telah mengadopsi model pelatihan pada kumpulan data yang sangat besar dengan asumsi bahwa “peningkatan” (meningkatkan jumlah data dan komputasi yang digunakan dalam pelatihan) akan menghasilkan AI yang semakin mampu.

Misalnya, Meta melatih Llama 3 dengan kumpulan 15 miliar token. (Token mewakili bit data mentah; 1 juta token setara dengan sekitar 750.000 kata). Generasi sebelumnya, Llama 2, dilatih dengan “hanya” 2 miliar token.

Bukti menunjukkan bahwa peningkatan skala pada akhirnya menghasilkan keuntungan yang semakin berkurang; Antropo dan Google dilaporkan Baru-baru ini melatih model besar yang tidak memenuhi ekspektasi tolok ukur internal. Namun hanya ada sedikit tanda bahwa industri ini siap untuk beralih secara signifikan dari pendekatan penskalaan yang sudah mengakar ini.

Seberapa tepatnya?

Jadi, jika laboratorium enggan melatih model pada kumpulan data yang lebih kecil, apakah ada cara untuk membuat model tidak terlalu rentan terhadap degradasi? Mungkin. Kumar mengatakan dia dan rekan penulisnya menemukan bahwa model pelatihan dengan “presisi rendah” dapat membuatnya lebih kuat. Bersabarlah bersama kami sejenak sementara kami menyelaminya sedikit.

“Presisi” di sini mengacu pada jumlah digit yang dapat direpresentasikan secara akurat oleh tipe data numerik. Tipe data adalah kumpulan nilai data, biasanya ditentukan oleh sekumpulan nilai yang mungkin dan operasi yang diizinkan; Tipe data FP8, misalnya, hanya menggunakan 8 bit untuk mewakili a nomor titik mengambang.

Sebagian besar model saat ini dilatih dengan 16 bit atau “setengah presisi” dan “dikuantisasi setelah pelatihan” dengan presisi 8-bit. Komponen tertentu dari model (misalnya, parameternya) dikonversi ke format presisi yang lebih rendah dengan mengorbankan beberapa presisi. Anggap saja seperti melakukan perhitungan ke beberapa tempat desimal dan kemudian membulatkannya ke persepuluhan terdekat, yang sering kali memberi Anda hasil terbaik dari kedua hal tersebut.

Vendor perangkat keras seperti Nvidia mendorong presisi yang lebih rendah dalam inferensi model terkuantisasi. Chip Blackwell baru dari perusahaan mendukung presisi 4-bit, khususnya tipe data yang disebut FP4; Nvidia telah menyajikan hal ini sebagai keuntungan bagi pusat data yang memorinya terbatas dan dayanya terbatas.

Namun presisi kuantisasi yang sangat rendah mungkin tidak diinginkan. Menurut Kumar, kecuali model aslinya sangat besar dalam hal jumlah parameter, presisi yang lebih rendah dari 7 atau 8 bit dapat menyebabkan penurunan kualitas yang nyata.

Jika semua ini tampak sedikit teknis, jangan khawatir. Namun intinya adalah bahwa model AI tidak sepenuhnya dipahami, dan pintasan yang diketahui berfungsi di banyak jenis komputasi tidak berfungsi di sini. Anda tidak akan mengatakan “siang” jika seseorang bertanya kepada Anda kapan mereka memulai lomba lari 100 meter, bukan? Tentu saja tidak begitu jelas, tetapi idenya sama:

“Poin utama dari pekerjaan kami adalah adanya keterbatasan yang tidak dapat diabaikan begitu saja,” simpul Kumar. “Kami berharap pekerjaan kami menambah nuansa pada diskusi yang sering kali mencari standar akurasi yang semakin rendah untuk pelatihan dan inferensi.”

Kumar mengakui bahwa penelitiannya dan penelitian rekan-rekannya dilakukan dalam skala yang relatif kecil; Mereka berencana untuk mengujinya dengan lebih banyak model di masa depan. Namun dia yakin setidaknya ada satu gagasan yang akan melekat: Tidak ada yang gratis dalam hal pengurangan biaya inferensi.

“Ketepatan sedikit itu penting dan itu tidak gratis,” katanya. “Anda tidak dapat menguranginya selamanya tanpa penderitaan para model. Model-model tersebut memiliki kapasitas yang terbatas, jadi daripada mencoba memasukkan satu triliun token ke dalam model yang kecil, saya pikir lebih banyak upaya akan dilakukan untuk melakukan kurasi dan pemfilteran data secara cermat, sehingga hanya data dengan kualitas terbaik yang dapat ditempatkan dalam model yang lebih kecil. . “Saya optimis bahwa arsitektur baru yang bertujuan untuk menstabilkan pelatihan dengan presisi rendah akan menjadi penting di masa depan.”

Sumber