Perusahaan IA berjuang untuk mendominasi industri ini, tetapi kadang -kadang mereka juga berjuang di gym Pokémon.
Sebagai Google Dan Antropik Keduanya mempelajari bagaimana model IA terbaru mereka menavigasi melalui game Pokémon pertama, hasilnya bisa sama menyenangkannya dengan mencerahkan, dan kali ini, Google DeepMind memiliki Ditulis dalam sebuah laporan Gemini 2.5 itu menjadi panik ketika Pokémon -nya hampir mati. Ini dapat membuat pengalaman pengalaman AI “degradasi yang dapat diamati secara kualitatif dalam kapasitas penalaran model”, menurut laporan tersebut.
Evaluasi komparatif AI, atau proses membandingkan kinerja model AI yang berbeda, adalah a Seni yang diragukan sering menyediakan konteks kecil Untuk kapasitas nyata dari model yang diberikan. Tetapi beberapa peneliti memikirkan itu Pelajari bagaimana model AI bermain video game Bisa jadi berguna (Atau, setidaknya, agak menyenangkan).
Dalam beberapa bulan terakhir, dua pengembang yang tidak berafiliasi dengan Google dan Anthrope telah menetapkan masing -masing transmisi Twitch yang disebut “Gemini memerankan Pokémon” Dan “Claude memerankan Pokémon“Di mana siapa pun dapat melihat secara real time sementara AI mencoba menavigasi video game anak -anak selama lebih dari 25 tahun.
Setiap aliran menunjukkan proses “penalaran” AI, atau terjemahan bahasa alami tentang bagaimana AI mengevaluasi masalah dan mencapai jawaban, yang memberi kita gambaran tentang cara kerja model -model ini.
Sementara kemajuan model AI ini sangat mengesankan, mereka belum terlalu baik untuk bermain Pokémon. Gemini membutuhkan waktu ratusan jam untuk bernalar melalui permainan yang bisa diselesaikan oleh seorang anak dalam waktu yang lebih sedikit secara eksponensial.
Hal yang menarik tentang melihat AI menavigasi permainan Pokémon tidak begitu banyak tentang momen akhirnya, tetapi bagaimana perilaku itu di jalan.
“Dalam perjalanan permainan, Gemini 2.5 Pro memasuki beberapa situasi yang membuat model mensimulasikan ‘panik’,” kata laporan itu.
Keadaan “panik” ini dapat membuat kinerja model memburuk, karena IA dapat berhenti menggunakan alat tertentu yang Anda inginkan untuk bagian permainan. Sementara AI tidak berpikir atau mengalami emosi, tindakan mereka meniru cara manusia dapat membuat keputusan yang buruk dan terburu -buru ketika berada di bawah tekanan, respons yang menarik tetapi mengganggu.
“Perilaku ini telah terjadi dalam contoh yang cukup terpisah sehingga anggota obrolan Twitch telah secara aktif memperhatikan ketika itu terjadi,” kata laporan itu.
Claude juga menunjukkan beberapa perilaku aneh dalam perjalanannya melalui Kanto. Dalam satu kasus, AI mengumpulkan pola bahwa ketika semua Pokémonnya kehabisan kesehatan, karakter pemain “putih” dan akan kembali ke pusat Pokémon.
Ketika Claude terperangkap dalam Cueva del Monte Moon, ia secara keliru berhipotesis bahwa jika ia dengan sengaja memiliki semua Pokémon -nya yang pingsan, itu akan diangkut melalui gua ke pusat Pokemon di kota berikutnya.
Namun, ini bukan cara kerja permainan. Ketika semua Pokémonnya mati, ia kembali ke pusat Pokémon mana pun yang akan menggunakan lebih baru, bukan geografis terdekat. Para penonton yang diamati dengan ngeri sementara AI pada dasarnya mencoba melakukan bunuh diri dalam permainan.
Terlepas dari kekurangan mereka, ada beberapa cara di mana AI dapat mengatasi pemain manusia. Dari peluncuran Gemini 2.5 Pro, AI dapat menyelesaikan teka -teki dengan presisi yang mengesankan.
Dengan beberapa bantuan manusia, AI membuat alat agen, mempromosikan contoh milik Gemini 2.5 kepada tugas -tugas tertentu, untuk menyelesaikan teka -teki batuan batu dan menemukan rute yang efisien untuk mencapai tujuan.
“Dengan hanya satu pemberitahuan yang menggambarkan fisika Boulder dan deskripsi tentang cara memverifikasi rute yang valid, Gemini 2.5 Pro hanya dapat menembak beberapa teka -teki batu yang kompleks ini, yang diperlukan untuk maju melalui jalan La Victoria,” kata laporan itu.
Karena Gemini 2.5 Pro melakukan banyak pekerjaan dalam pembuatan alat -alat ini saja, Google berteori bahwa model saat ini mungkin dapat membuat alat ini tanpa intervensi manusia. Siapa tahu, mungkin Gemini adalah terapi untuk membuat modul “bukan panik”.