Breaking News

Tes yang sangat sulit sehingga tidak ada sistem AI yang dapat lulus, tetapi

Tes yang sangat sulit sehingga tidak ada sistem AI yang dapat lulus, tetapi

Jika Anda mencari alasan baru untuk gugup tentang kecerdasan buatan, cobalah ini: beberapa manusia paling cerdas di dunia berjuang untuk menciptakan bukti bahwa sistem AI tidak dapat terjadi.

Selama bertahun -tahun, sistem AI diukur dengan memberikan model baru berbagai tes referensi standar. Banyak dari tes ini terdiri dari masalah yang menantang dari kaliber duduk di bidang -bidang seperti matematika, sains dan logika. Bandingkan skor model dari waktu ke waktu yang berfungsi sebagai ukuran perkiraan kemajuan AI.

Tetapi sistem kecerdasan buatan akhirnya menjadi terlalu bagus dalam tes -tes itu, sehingga tes baru dan lebih sulit dibuat, seringkali dengan jenis pertanyaan yang dapat ditemukan oleh siswa lulusan dalam ujian mereka.

Tes -tes itu tidak dalam kondisi yang baik. Model -model baru perusahaan seperti OpenAI, Google dan Anthrope telah memperoleh skor tinggi dalam banyak tantangan tingkat doktoral, membatasi kegunaan tes ini dan mengarah pada pertanyaan mengerikan: Apakah sistem IA terlalu cerdas sehingga kami dapat mengukur?

Minggu ini, para peneliti dari Pusat Keamanan dan AI AI meluncurkan jawaban yang mungkin untuk pertanyaan itu: evaluasi baru, disebut “Pemeriksaan terakhir umat manusia“Bahwa mereka mengklaim bahwa itu adalah tes paling sulit yang pernah dikelola untuk sistem AI.

Pemeriksaan terakhir kemanusiaan adalah ciptaan Dan Hendrycks, seorang peneliti keamanan AI yang terkenal dan direktur Pusat Keamanan AI. (Nama asli tes, “Stand of Humanity”, dikesampingkan karena terlalu dramatis).

Tn. Hendrycks bekerja dengan skala AI, sebuah perusahaan AI, di mana ia adalah penasihat, untuk mengkompilasi tes, yang terdiri dari sekitar 3.000 pertanyaan pilihan ganda dan respons singkat yang dirancang untuk menguji keterampilan sistem AI di area mulai dari filosofi analitik hingga roket rekayasa.

Para ahli di bidang ini mengajukan pertanyaan, termasuk profesor universitas dan ahli matematika pemenang penghargaan, yang diminta untuk menyajikan pertanyaan yang sangat sulit yang diketahui jawabannya.

Di sini, coba pertanyaan tentang anatomi burung kolibri dari tes:

Burung kolibri di dalam apodiform memiliki tulang oval yang dikeluarkan secara bilateral, sesamoid yang tertanam di bagian caudolateral aponeurosis en -insersi dari M yang diberkahi dan dilintasi M. depressor caudae. Berapa banyak tendon yang cocok didukung oleh tulang sesamoid ini? Jawaban dengan nomor.

Atau, jika fisika lebih kecepatan Anda, coba ini:

Sebuah blok ditempatkan di rel horizontal, di mana ia dapat meluncur tanpa gesekan. Ini terkait dengan ujung batang yang kaku dan tanpa massa panjang R. Ini bergabung dengan adonan di ujung yang lain. Kedua objek memiliki berat W. Sistem ini awalnya stasioner, dengan adonan langsung di blok. Adonan menerima dorongan yang sangat kecil, sejajar dengan rel. Asumsikan bahwa sistem dirancang sehingga batang dapat berputar melalui 360 derajat lengkap tanpa gangguan. Ketika bilah horizontal, ia membawa ketegangan T1. Ketika bilah kembali vertikal, dengan adonan langsung di bawah blok, ia membawa tegangan T2. (Kedua kuantitas bisa negatif, yang akan menunjukkan bahwa bilah sedang dalam kompresi). Berapa nilai (T1 – T2)/W?

(Saya akan mencetak jawaban di sini, tetapi itu akan merusak tes untuk sistem AI apa pun yang dilatih di kolom ini. Selain itu, saya terlalu bodoh untuk memverifikasi jawabannya sendiri).

Pertanyaan tentang pemeriksaan terakhir umat manusia melalui proses penyaringan dua langkah. Pertama, pertanyaan yang diajukan kepada model AI utama untuk dipecahkan diberikan.

Jika model tidak dapat menjawabnya (atau jika, dalam hal pertanyaan pilihan ganda, model membuatnya lebih buruk daripada dengan divinance acak), pertanyaan diberikan kepada sekumpulan pengulas manusia, yang menyempurnakan mereka dan memverifikasi jawaban yang benar. Para ahli yang menulis pertanyaan yang lebih berkualitas dibayar antara $ 500 dan $ 5.000 per pertanyaan, selain menerima kredit karena berkontribusi pada ujian.

Kevin Zhou, seorang peneliti postdoctoral dalam fisika teoretis partikel di University of California, Berkeley, menyajikan beberapa pertanyaan untuk diuji. Tiga pertanyaannya dipilih, yang semuanya mengatakan kepada saya bahwa mereka “di sepanjang kisaran atas apa yang bisa dilihat orang dalam ujian pascasarjana.”

Hendrycks, yang membantu membuat tes AI yang banyak digunakan yang dikenal sebagai pemahaman bahasa multitasking besar -besaran, atau MMLU, mengatakan ia terinspirasi untuk membuat tes yang lebih sulit melalui percakapan dengan Elon Musk. ;

“Elon melihat pertanyaan MMLU dan berkata: ‘Ini adalah tingkat sarjana. Saya ingin hal -hal yang dapat dilakukan oleh seorang ahli kelas dunia, ”kata Hendrycks.

Ada tes lain yang mencoba mengukur kemampuan lanjutan AI di domain tertentu, seperti Frontiermath, tes yang dikembangkan oleh Epoch AI dan Busur-agiTes Dikembangkan oleh peneliti François Chollet.

Tetapi pemeriksaan terakhir tentang kemanusiaan bertujuan untuk menentukan seberapa baik sistem AI untuk menjawab pertanyaan kompleks dalam berbagai masalah akademik, memberi kita apa yang dapat dianggap sebagai skor intelijen umum.

“Kami mencoba memperkirakan sejauh mana AI dapat mengotomatisasi banyak pekerjaan intelektual yang sangat sulit,” kata Hendrycks.

Setelah daftar pertanyaan dikompilasi, para peneliti memberikan pemeriksaan terakhir tentang kemanusiaan kepada enam model para pemimpin, termasuk Gemini 1.5 Pro dari Google dan Sonnet Claude 3.5 dari Anthrope. Mereka semua gagal total. Sistem OpenAI O1 memperoleh skor kelompok tertinggi, dengan skor 8,3 persen.

(The New York Times memiliki terdakwa Operai dan mitranya, Microsoft, menuduh mereka melakukan pelanggaran hak cipta konten berita yang terkait dengan sistem AI. Operai dan Microsoft telah membantah pernyataan itu).

Hendrycks mengatakan dia mengharapkan skor itu dengan cepat dan berpotensi melebihi 50 persen pada akhir tahun. Pada saat itu, katanya, sistem AI dapat dianggap sebagai “nubuat kelas dunia”, yang mampu menjawab pertanyaan tentang subjek apa pun dengan ketepatan yang lebih besar daripada para ahli manusia. Dan kita mungkin harus mencari cara lain untuk mengukur dampak AI, seperti mengamati data ekonomi atau menilai apakah Anda dapat membuat penemuan baru di bidang -bidang seperti matematika dan sains.

“Anda dapat membayangkan versi yang lebih baik dari ini di mana kami dapat memberikan pertanyaan kepada mereka yang masih belum tahu jawabannya, dan kami dapat memverifikasi apakah model tersebut dapat membantu Anda menyelesaikannya,” kata Summer Yue, skala Direktur Penelitian AI dan ujian Penyelenggara.

Bagian dari apa yang begitu membingungkan tentang kemajuan AI hari ini adalah betapa tidak teraturnya itu. Kami memiliki model yang mampu mendiagnosis penyakit lebih efektif daripada dokter manusia, Pemenang Medali Perak di Mathematics International Olympiad Dan mengatasi programmer manusia terbaik Tentang tantangan pengkodean kompetitif.

Tetapi model yang sama ini terkadang bertarung dengan tugas -tugas dasar, seperti aritmatika atau menulis puisi. Itu telah memberi mereka reputasi yang sangat cemerlang dalam beberapa hal dan sama sekali tidak berguna pada orang lain, dan telah menciptakan kesan yang sangat berbeda tentang seberapa cepat itu meningkatkan AI, tergantung pada apakah Anda melihat hasil terbaik atau terburuk.

Ketidakteraturan ini juga telah menghambat pengukuran model -model ini. Saya menulis tahun lalu itu Kami membutuhkan evaluasi yang lebih baik untuk sistem AI. Saya masih percaya itu. Tetapi saya juga percaya bahwa kita membutuhkan metode yang lebih kreatif untuk melacak kemajuan AI yang tidak bergantung pada tes standar, karena sebagian besar dari apa yang dilakukan manusia, dan apa yang kita takutkan bahwa AI akan melakukannya lebih baik daripada kita, Anda tidak dapat menangkap Dalam ujian tertulis.

Tn. Zhou, peneliti teoretis fisika partikel yang mengajukan pertanyaan kepada pemeriksaan terakhir umat manusia, mengatakan kepada saya bahwa, meskipun model IA sering mengesankan untuk menjawab pertanyaan kompleks, dia tidak menganggap mereka ancaman baginya dan rekan -rekannya, karena mereka Pekerjaan menyiratkan lebih dari sekadar meludahkan jawaban yang benar.

“Ada jurang yang hebat antara apa artinya mengikuti ujian dan apa artinya menjadi fisikawan dan peneliti dalam olahraga,” katanya. “Bahkan AI yang dapat menjawab pertanyaan -pertanyaan ini mungkin tidak siap membantu dalam penelitian, yang secara inheren kurang terstruktur.”

Sumber