Generatif kecerdasan buatan (AI) sistem dapat memberikan beberapa hasil yang mendalam, namun penelitian baru menunjukkan bahwa sistem tersebut tidak memiliki pemahaman yang koheren tentang dunia nyata dan aturan.
Di dalam sebuah studi baru Diterbitkan dalam database pracetak arXiv, para ilmuwan dari MIT, Harvard, dan Cornell menemukan bahwa model bahasa besar (LLM), seperti GPT-4 atau antropik Karya Claude 3mereka gagal menghasilkan model dasar yang secara akurat mewakili dunia nyata.
Ketika ditugaskan untuk memberikan petunjuk arah mengemudi belokan demi belokan di Kota New York, misalnya, LLM menyampaikannya dengan akurasi hampir 100%. Namun peta dasar yang digunakan penuh dengan jalan dan rute yang tidak ada saat para ilmuwan mengekstraknya.
Para peneliti menemukan bahwa ketika perubahan tak terduga ditambahkan ke arahan (seperti jalan memutar dan penutupan jalan), keakuratan arahan yang diberikan oleh LLM menurun drastis. Dalam beberapa kasus, hal ini mengakibatkan kegagalan total. Oleh karena itu, ada kekhawatiran bahwa sistem AI yang diterapkan dalam situasi dunia nyata, misalnya pada mobil tanpa pengemudi, akan berkinerja buruk ketika dihadapkan pada lingkungan atau tugas yang dinamis.
“Salah satu harapannya adalah, karena LLM dapat mencapai semua hal luar biasa ini dalam bahasa, mungkin kita dapat menggunakan alat yang sama di bidang sains lainnya juga. Namun pertanyaan apakah LLM mempelajari model dunia yang koheren sangatlah penting jika kita ingin gunakan teknik ini untuk membuat penemuan baru,” kata penulis utama Ashesh Rambachanasisten profesor ekonomi dan peneliti utama di Laboratorium MIT untuk Sistem Informasi dan Keputusan (LIDS), di a penyataan.
transformator yang rumit
Inti dari AI generatif terletak pada kemampuan LLM untuk belajar dari sejumlah besar data dan parameter secara paralel. Untuk ini mereka didasarkan pada model transformatoryang merupakan kumpulan jaringan saraf dasar yang memproses data dan memungkinkan aspek pembelajaran mandiri LLM. Proses ini menciptakan apa yang disebut “model dunia” yang dapat digunakan oleh LLM terlatih untuk menyimpulkan jawaban dan menghasilkan hasil untuk pertanyaan dan tugas.
Salah satu penggunaan teoritis model dunia adalah dengan mengambil data dari perjalanan taksi melalui suatu kota untuk menghasilkan peta tanpa perlu susah payah memetakan setiap rute, seperti yang dibutuhkan oleh alat navigasi saat ini. Namun jika peta tersebut tidak akurat, penyimpangan yang dilakukan dari suatu rute akan menyebabkan navigasi berbasis AI berkinerja buruk atau gagal.
Untuk mengevaluasi keakuratan dan konsistensi LLM transformator dalam memahami aturan dan lingkungan dunia nyata, para peneliti mengujinya menggunakan kelas masalah yang disebut otomatisasi terbatas deterministik (DFA). Ini adalah masalah dengan urutan keadaan, seperti aturan permainan atau persimpangan rute menuju tujuan. Dalam hal ini, para peneliti menggunakan DFA yang diambil dari papan permainan Othello dan navigasi melalui jalanan New York.
Untuk menguji transformator dengan DFA, para peneliti melihat dua metrik. Yang pertama adalah “penentuan urutan”, yang menilai apakah LLM transformatif telah membentuk model dunia yang koheren jika melihat dua negara bagian yang berbeda dari hal yang sama: dua papan Othello atau peta kota dengan penutupan jalan dan satu lagi tanpa penutupan jalan. Metrik kedua adalah “kompresi urutan”, suatu urutan (dalam hal ini daftar titik data yang digunakan untuk menghasilkan hasil) yang harus menunjukkan bahwa LLM dengan model dunia yang koheren dapat memahami bahwa dua keadaan identik (misalnya dua papan Othello yang persis sama) memiliki urutan langkah yang mungkin sama untuk diikuti.
Mengandalkan LLM adalah bisnis yang berisiko
Dua kelas LLM umum diuji dengan metrik ini. Satu dilatih dengan data yang dihasilkan dari rangkaian yang dihasilkan secara acak, sementara yang lain dengan data yang dihasilkan mengikuti proses strategis.
Para ilmuwan menemukan bahwa transformator yang dilatih berdasarkan data acak membentuk model dunia yang lebih akurat. Hal ini mungkin terjadi karena LLM melihat kemungkinan langkah yang lebih luas. Penulis utama Keyon Vafaseorang peneliti Harvard, menjelaskan dalam sebuah pernyataan: “Di Othello, jika Anda melihat dua komputer acak bermain alih-alih pemain juara, secara teori Anda akan melihat serangkaian kemungkinan gerakan, bahkan gerakan buruk yang tidak akan dilakukan oleh pemain kejuaraan.” Dengan melihat lebih banyak kemungkinan pergerakan, meskipun buruk, LLM secara teoritis lebih siap untuk beradaptasi dengan perubahan acak.
Namun, meskipun menghasilkan pergerakan Othello yang valid dan arah yang akurat, hanya satu transformator yang menghasilkan model dunia yang koheren untuk Othello, dan tidak satu pun dari jenis tersebut menghasilkan peta New York yang akurat. Ketika peneliti memperkenalkan hal-hal seperti jalan memutar, semua model navigasi yang digunakan oleh LLM gagal.
“Saya terkejut betapa cepatnya kinerja menurun segera setelah kami menambahkan jalan memutar. Jika kami menutup hanya 1 persen dari kemungkinan jalan, keakuratannya langsung turun dari hampir 100 persen menjadi hanya 67 persen,” tambah Vafa.
Hal ini menunjukkan bahwa pendekatan berbeda dalam menggunakan LLM diperlukan untuk menghasilkan model global yang akurat, kata para peneliti. Tidak jelas apa pendekatan ini, namun pendekatan ini menyoroti kerapuhan LLM transformator ketika dihadapkan dengan lingkungan yang dinamis.
“Kita sering melihat model-model ini melakukan hal-hal yang mengesankan dan berpikir bahwa mereka pasti memahami sesuatu tentang dunia,” Rambachan menyimpulkan. “Saya harap kita dapat meyakinkan masyarakat bahwa ini adalah pertanyaan yang perlu dipikirkan dengan sangat hati-hati dan kita tidak harus bergantung pada intuisi kita sendiri untuk menjawabnya.”