Penelitian baru telah mengungkapkan set tugas lain yang dapat dilakukan oleh kebanyakan manusia dengan mudah kecerdasan buatan (AI) Pasukan dengan: Baca jam analog atau temukan hari tanggal akan turun.
AI dapat menulis kode, menghasilkan gambar yang realistis, membuat teks yang terdengar manusia dan bahkan menyetujui ujian (untuk berbagai tingkat keberhasilan) Namun, secara rutin salah memahami posisi tangan dalam jam tangan sehari -hari dan kegagalan dalam aritmatika dasar yang diperlukan untuk tanggal kalender.
Para peneliti mengungkapkan cacat tak terduga ini dalam presentasi di Konferensi Internasional Representasi Pembelajaran 2025 (ICLR). Mereka juga menerbitkan temuan mereka pada 18 Maret di server pracetak ArxivJadi mereka belum ditinjau oleh pasangan.
“Kebanyakan orang dapat mengatakan waktu dan menggunakan kalender sejak usia dini. Temuan kami menyoroti kesenjangan yang signifikan dalam kemampuan AI untuk melaksanakan keterampilan yang cukup mendasar bagi orang -orang”, penulis utama penelitian ini. Rohit SaxenaPeneliti di University of Edimburg, kata dalam sebuah pernyataan. Defisit ini harus diatasi jika sistem AI harus berhasil dalam aplikasi yang sensitif terhadap dunia nyata, seperti pemrograman, otomatisasi, dan teknologi bantuan. “
Untuk menyelidiki keterampilan waktu IA, para peneliti memberi makan data gambar dan gambar kalender khusus dalam beberapa model bahasa multimoda besar, yang dapat memproses informasi visual dan tekstual. Model yang digunakan dalam penelitian ini meliputi panggilan sasaran 3.2-visi, Sonnet Claude-3.5 dari Anthrope, Gemini 2.0 dari Google dan GPT-4O dari Openai.
Dan hasilnya buruk, dan model tidak dapat mengidentifikasi waktu yang tepat dari gambar jam atau hari dalam seminggu untuk tanggal sampel lebih dari setengah waktu.
Terkait: AI Modela ‘jalan buntu’ untuk kecerdasan di tingkat manusia, para ilmuwan setuju
Namun, para peneliti memiliki penjelasan untuk keterampilan membaca waktu yang sangat buruk dari AI.
“Sistem pertama dilatih sesuai dengan contoh berlabel. Pembacaan jam membutuhkan sesuatu yang berbeda: penalaran spasial,” kata Saxena. “Model ini harus mendeteksi tangan yang tumpang tindih, mengukur sudut dan menavigasi berbagai desain seperti bilangan Romawi atau dial bergaya. Ai mengakui bahwa ‘ini adalah jam’ lebih mudah daripada membacanya.”
Tanggal itu sama sulitnya. Ketika dia diberi tantangan sebagai “apa yang akan terjadi pada tanggal 15 tahun ini?”, Tingkat kegagalannya sama -sama tinggi: sistem AI mengatakan jam tangan dengan benar hanya 38,7% dan kalender hanya 26,3%.
Kekurangan ini sama -sama mengejutkan karena aritmatika adalah landasan dasar komputasi, tetapi seperti yang dijelaskan Saxena, AI menggunakan sesuatu yang berbeda. “Aritmatika sepele untuk komputer tradisional, tetapi tidak untuk model bahasa besar. AI tidak menjalankan algoritma matematika, memprediksi pola berdasarkan data pelatihan,” katanya. Jadi, meskipun Anda dapat menjawab pertanyaan aritmatika dengan benar kadang -kadang, alasan Anda tidak konsisten atau berdasarkan aturan, dan pekerjaan kami menyoroti kesenjangan itu. “
Proyek ini adalah yang terakhir dalam badan penelitian yang berkembang yang menyoroti perbedaan antara cara -cara di mana “memahami” dibandingkan dengan cara manusia. Model mendapatkan tanggapan dari pola keluarga dan menonjol ketika ada cukup contoh dalam data pelatihan mereka, tetapi mereka gagal ketika mereka diminta untuk menggeneralisasi atau menggunakan penalaran abstrak.
“Apa yang bagi kami adalah tugas yang sangat sederhana bagaimana membaca jam bisa sangat sulit bagi mereka, dan sebaliknya,” kata Saxena.
Penelitian ini juga mengungkapkan masalah yang dimiliki AI ketika dilatih dengan data terbatas, dalam hal ini, fenomena yang relatif jarang seperti perhitungan lompatan atau kalender gelap. Meskipun LLMS memiliki banyak contoh yang menjelaskan bertahun -tahun lompatan sebagai sebuah konsep, itu tidak berarti bahwa mereka membuat koneksi yang diperlukan untuk menyelesaikan tugas visual.
Penelitian ini menyoroti kebutuhan untuk contoh yang lebih spesifik dalam data pelatihan dan kebutuhan untuk memikirkan kembali bagaimana AI menangani kombinasi penalaran logis dan spasial, terutama dalam tugas -tugas yang tidak sering ditemukannya.
Yang terpenting, itu mengungkapkan satu area lagi di mana kepergian AI terlalu banyak mempercayai Datang ke bahaya kita.
“AI sangat kuat, tetapi ketika tugas mencampur persepsi dengan penalaran yang tepat, kita masih membutuhkan bukti yang ketat, logika alternatif dan, dalam banyak kasus, manusia dalam lingkaran,” kata Saxena.