Yang paling canggih kecerdasan buatan (AI) memperoleh, semakin “halusin” dan memberikan informasi yang salah dan tidak akurat.
Penyelidikan Dilakukan oleh Openai, ia menemukan bahwa model penalaran terakhir dan paling kuat, O3 dan O4-Mini, berhalusinasi 33% dan 48% dari waktu, masing-masing, ketika titik referensi Personqa de Openai diuji. Itu lebih dari dua kali lipat tingkat model O1 sebelumnya. Sementara O3 menawarkan informasi yang lebih tepat daripada pendahulunya, tampaknya memiliki biaya halusinasi yang lebih tidak akurat.
Ini menimbulkan kekhawatiran terhadap ketepatan dan keandalan model bahasa besar (LLM) seperti AI Chatbots, katanya Eleanor WatsonAnggota Institute of Electrical and Electronic Engineers (IEEE) dan Ethics Engineer di University of Singularity.
“Ketika suatu sistem menghasilkan informasi yang diproduksi, seperti menciptakan fakta, janji temu atau acara, dengan fluiditas dan koherensi yang sama yang digunakan untuk konten yang tepat, berisiko menipu pengguna dengan cara yang halus dan konsekuen,” kata Watson kepada Live Science.
Masalah halusinasi menyoroti kebutuhan untuk mengevaluasi dan mengawasi informasi yang dihasilkan oleh sistem AI dengan cermat saat menggunakan LLM dan model penalaran, kata para ahli.
Apakah AIS memimpikan domba listrik?
Quid dari model penalaran adalah bahwa ia dapat menangani tugas -tugas kompleks dengan membaginya pada dasarnya menjadi komponen individual dan menciptakan solusi untuk mengatasinya. Alih -alih mencari respons berdasarkan probabilitas statistik, model penalaran muncul untuk menyelesaikan masalah, serta bagaimana manusia berpikir.
Untuk mengembangkan solusi kreatif dan berpotensi baru untuk masalah, AI perlu berhalusinasi; Sebaliknya dibatasi oleh data kaku yang Intakes LLM.
“Penting untuk diingat bahwa halusinasi adalah karakteristik, bukan kesalahan, AI”, Sohrob KazerounianSeorang peneliti AI AI, kata Live Science. “Mengutip kolega saya, ‘Segala sesuatu yang keluar dari LLM adalah halusinasi. Hanya saja beberapa halusinasi itu benar.’ Jika AI hanya menghasilkan output literal yang telah saya lihat selama pelatihan, semua AI akan dikurangi menjadi masalah pencarian besar -besaran. “
“Itu hanya bisa menghasilkan kode komputer yang telah ditulis sebelumnya, menemukan protein dan molekul yang propertinya telah dipelajari dan dijelaskan, dan menjawab pertanyaan tugas yang telah dibuat sebelumnya. Namun, saya tidak bisa meminta LLM untuk menulis surat album konseptual yang difokuskan pada keunikan AI, menggabungkan gaya liris Dog Snoop dan Bob Dylan.”
Memang, LLMS dan sistem AI yang mereka makan perlu berhalusinasi, alih -alih hanya melayani informasi yang ada. Ini serupa, secara konseptual, dengan cara di mana manusia bermimpi atau membayangkan skenario dengan menyulap ide -ide baru.
Berpikir Terlalu Di Luar Kotak
Namun, Asignasi IA Sajikan masalah ketika datang untuk memberikan informasi yang tepat dan benar, terutama jika pengguna mengambil informasi ke nilai nominal tanpa cek atau pengawasan.
“Ini terutama bermasalah dalam domain di mana keputusan bergantung pada ketepatan objektif, seperti kedokteran, hukum atau keuangan,” kata Watson. “Sementara model yang paling canggih dapat mengurangi frekuensi tujuan yang jelas, masalahnya berlanjut dengan cara yang lebih halus. Seiring waktu, kesusahan mengikis persepsi sistem AI sebagai instrumen yang andal dan dapat menyebabkan kerusakan material ketika konten yang tidak diverifikasi bertindak.”
Dan masalah ini tampaknya diperburuk saat AI berkembang. “Ketika kemampuan model meningkat, kesalahan sering menjadi kurang terbuka tetapi lebih sulit dideteksi,” kata Watson. “Konten yang diproduksi semakin terintegrasi ke dalam cerita yang masuk akal dan rantai penalaran yang konsisten. Ini memperkenalkan risiko tertentu: pengguna mungkin tidak menyadari bahwa kesalahan ada dan dapat memperlakukan output sebagai definitif ketika tidak. Masalahnya berubah dari menyaring kesalahan mentah untuk mengidentifikasi distorsi halus yang hanya dapat mengungkapkan diri mereka di bawah pengawasan ketat.”
Kazerounian mendukung sudut pandang ini. “Terlepas dari keyakinan umum bahwa masalah halusinasi AI dapat dan akan membaik dari waktu ke waktu, tampaknya generasi terbaru dari model penalaran canggih mungkin mulai berhalusinasi lebih dari rekan -rekannya yang paling sederhana, dan tidak ada penjelasan menurut mengapa hal ini terjadi,” katanya.
Situasinya bahkan lebih rumit karena bisa sangat sulit untuk menentukan bagaimana LLM menyajikan jawaban mereka; Anda bisa menggambar paralel dengan bagaimana kita masih belum benar -benar tahu, dengan cara yang tidak terpisahkan, bagaimana otak manusia bekerja.
Baru -baru ini latihan, Dario AmodeiCEO Anthrope Perusahaan AI menyoroti kurangnya pemahaman tentang bagaimana AIS menyajikan jawaban dan informasi. “Ketika generatif sistem AI melakukan sesuatu, seperti merangkum dokumen keuangan, kami tidak tahu, pada tingkat yang spesifik atau tepat, mengapa itu membuat keputusan yang dibuat: mengapa memilih kata -kata tertentu daripada orang lain, atau mengapa kadang -kadang membuat kesalahan meskipun tepat,” tulisnya.
Masalah yang disebabkan oleh AI berhalusinasi informasi yang tidak akurat sudah sangat nyata, kata Kazerounian. “Tidak ada bentuk universal dan dapat diverifikasi dan mendapatkan LLM untuk menjawab pertanyaan dengan benar tentang beberapa corpus data yang dapat Anda akses,” katanya. “Contoh -contoh referensi berhalusinasi yang tidak ada, chatbot berorientasi pelanggan yang membentuk kebijakan perusahaan, dll., Sekarang terlalu umum.”
Mimpi yang luar biasa
Baik Kazerounian dan Watson mengatakan kepada Live Science bahwa, pada akhirnya, halusinasi AI bisa sulit dihilangkan. Tetapi mungkin ada cara untuk mengurangi masalah.
Watson menyarankan bahwa “generasi pemulihan akuatik”, yang berdasarkan pada keluar dari model dalam sumber pengetahuan eksternal yang disembuhkan dapat membantu memastikan bahwa informasi yang dihasilkan oleh AI berlabuh oleh data yang dapat diverifikasi.
“Pendekatan lain menyiratkan pengenalan struktur dalam penalaran model. Ketika memintanya untuk memverifikasi outputnya sendiri, membandingkan perspektif yang berbeda atau mengikuti langkah -langkah logis, bingkai penalaran perancah mengurangi risiko spekulasi yang tidak terbatas dan meningkatkan konsistensi dan pelatihan humanan atau pelatihan humans. AI ke evaluator AI untuk menghirup evaluator pendekatan AI terhadap evaluator AI pada puncak evaluator kepada manusia. jawaban.
“Akhirnya, sistem dapat dirancang untuk mengenali ketidakpastian mereka sendiri. Alih -alih memasukkan jawaban yang aman, model dapat diajarkan ketika mereka tidak aman atau berbeda penilaian manusia jika perlu,” tambah Watson. “Meskipun strategi ini tidak menghilangkan risiko konspirasi sepenuhnya, mereka menawarkan jalur praktis untuk membuat outlet IA lebih dapat diandalkan.”
Karena halusinasi AI hampir tidak mungkin untuk dihilangkan, terutama dalam model canggih, Kazerounian menyimpulkan bahwa, pada akhirnya, informasi yang dihasilkan oleh LLMS harus diperlakukan dengan “skeptisisme yang sama yang kita pesan untuk rekan manusia.”