Para ilmuwan telah merancang cara baru untuk mengukur seberapa mampu kecerdasan buatan (AI) Sistemnya adalah: seberapa cepat mereka dapat mengatasi atau bersaing dengan manusia dalam tugas yang menantang.
Sementara AIS umumnya dapat mengatasi manusia dalam tugas prediksi dan pengetahuan teks, ketika proyek yang lebih substantif diberikan untuk dilakukan, seperti bantuan eksekutif jarak jauh, mereka kurang efektif.
Untuk mengukur keuntungan kinerja ini dalam model AI, sebuah studi baru telah mengusulkan untuk mengukur AI tergantung pada durasi tugas yang dapat diselesaikan, dibandingkan dengan berapa lama waktu yang dibutuhkan manusia. Para peneliti menerbitkan temuan mereka pada 30 Maret di database preprint ArxivJadi mereka belum ditinjau oleh pasangan.
“Kami menemukan bahwa mengukur durasi tugas yang dapat diselesaikan oleh model adalah lensa yang berguna untuk memahami kemampuan AI saat ini. Ini masuk akal: agen -agen IA sering berjuang untuk menyatukan urutan tindakan yang lebih panjang dari mereka yang kekurangan keterampilan atau pengetahuan yang diperlukan untuk menyelesaikan langkah -langkah unik”, para peneliti organisasi AI IA dari IA Evaluasi Model dan Penelitian Ancaman (METR) dijelaskan dalam a Blog Menemani penelitian ini.
Para peneliti menemukan bahwa model AI menyelesaikan tugas yang akan memakan waktu kurang dari empat menit dengan tingkat keberhasilan mendekati 100%. Namun, ini turun menjadi 10% untuk tugas yang memakan waktu lebih dari empat jam. Model AI tertua bekerja lebih buruk dalam tugas lebih lama dari sistem terakhir.
Ini diharapkan, dengan penelitian ini menyoroti bahwa durasi tugas yang dapat diselesaikan oleh generalis AIS dengan keandalan 50% telah dua kali lipat kira -kira setiap tujuh bulan selama enam tahun terakhir.
Untuk melakukan studi mereka, para peneliti membawa berbagai model AI, dari Sonnet 3.7 dan GPT-4 ke model Claude 3 dan GPT tertua, dan menghadapi mereka dengan satu set tugas. Ini berubah dari tugas -tugas mudah yang umumnya membawa manusia selama beberapa menit, seperti mencari pertanyaan objektif dasar di Wikipedia) kepada mereka yang memimpin para ahli manusia beberapa jam: tugas pemrograman kompleks seperti menulis inti CUDA atau memperbaiki kesalahan halus di Pytorch, misalnya.
Tes alat yang termasuk Hast Dan Kembali ke bank Mereka digunakan; Yang pertama memiliki 189 tugas perangkat lunak otonomi untuk mengevaluasi kemampuan agen AI dalam pengelolaan tugas di sekitar pembelajaran otomatis, keselamatan cybernetic dan rekayasa perangkat lunak, sementara yang terakhir menggunakan tujuh tugas yang menantang dari rekayasa pembelajaran mesin terbuka, seperti mengoptimalkan inti CPU, dibandingkan dengan para ahli manusia.
Kemudian, para peneliti menggambarkan tugas -tugas ini untuk “gangguan”, untuk melihat dan mengevaluasi bagaimana beberapa tugas berisi hal -hal seperti kebutuhan untuk koordinasi antara beberapa arus kerja dalam waktu nyata, yang membuat tugas lebih tidak teratur, dan oleh karena itu, mereka lebih mewakili tugas -tugas dunia nyata.
Para peneliti juga mengembangkan perangkat lunak atom scium (SWAA) untuk menetapkan seberapa cepat orang yang nyata dapat diselesaikan. Ini adalah satu tugas -langkah yang berubah dari satu hingga 30 detik, berdasarkan karyawan METR.
Memang, penelitian ini menemukan bahwa “kapasitas perhatian” AI bergerak dengan kecepatan tinggi. Ketika tren ini diekstrapolasi, para peneliti diproyeksikan (jika pada kenyataannya, hasilnya umumnya dapat diterapkan pada tugas -tugas dunia nyata) bahwa AI dapat mengotomatiskan satu bulan pengembangan perangkat lunak manusia pada tahun 2032.
Untuk lebih memahami kemajuan AI dan dampak potensial serta risiko bagi masyarakat, penelitian ini dapat membentuk titik referensi baru terkait dengan hasil dunia nyata untuk memungkinkan “interpretasi yang signifikan dari kinerja absolut, tidak hanya kinerja relatif,” kata para ilmuwan.
Perbatasan baru untuk mengevaluasi AI?
Titik referensi potensial baru dapat memungkinkan kita untuk lebih memahami kecerdasan dan kapasitas nyata sistem AI.
“Tidak mungkin bahwa metrik itu sendiri akan mengubah jalannya pengembangan AI, tetapi akan melacak kecepatan dengan jenis tugas tertentu di mana sistem kecerdasan buatan akan digunakan secara ideal.” Sohrob KazerounianSeorang peneliti AI -AI terkemuka, kata Live Science.
“Mengukur AI terhadap waktu bahwa manusia untuk mencapai tugas tertentu adalah metrik proxy yang menarik untuk kecerdasan dan kapasitas umum,” kata Kazerounian. “Pertama, karena tidak ada metrik unik yang menangkap apa yang kita maksud ketika kita mengatakan” Kecerdasan. “Kedua, behalouse kemungkinan melakukan tugas yang berkepanjangan tanpa penyimpangan atau kesalahan menjadi sangat kecil. Thard, terbaik itu adalah ukuran langsung terhadap jenis tugas yang kami harap dapat memanfaatkan AI untuk;
Eleanor WatsonAnggota Insinyur IEEE dan Etika di AI di Singularity University, setuju bahwa penelitian bermanfaat.
Pengukuran AI pada durasi tugas -tugas itu “berharga dan intuitif” dan “secara langsung mencerminkan kompleksitas dunia nyata, menangkap domain AI untuk mempertahankan perilaku yang konsisten yang ditujukan pada tujuan dari waktu ke waktu”, dibandingkan dengan tes tradisional yang mengevaluasi kinerja AI secara singkat dan terisolasi, ia mengatakan kepada sains langsung.
Generalis mendekat
Dapat dikatakan bahwa, selain metrik referensi baru, dampak terbesar dari artikel ini adalah untuk menyoroti seberapa cepat sistem AI bergerak maju, bersama dengan tren naik dalam kemampuannya untuk menangani tugas yang panjang. Dengan pemikiran ini, Watson memperkirakan bahwa penampilan agen umum AI yang dapat menangani berbagai tugas akan segera terjadi.
“Pada tahun 2026, kita akan melihat bahwa AI menjadi semakin umum, menangani beragam tugas selama satu hari atau minggu alih -alih tugas pendek dan pendek,” kata Watson.
Untuk perusahaan, kata Watson, ini dapat menghasilkan AIS yang dapat mengambil bagian substansial dari beban kerja profesional, yang tidak hanya dapat mengurangi biaya dan meningkatkan efisiensi, tetapi juga memungkinkan orang untuk fokus pada tugas yang lebih kreatif, strategis, dan interpersonal.
“Untuk konsumen, AI akan berkembang dari asisten sederhana menjadi manajer pribadi yang andal, yang mampu menangani tugas -tugas hidup yang kompleks, seperti perencanaan perjalanan, pemantauan kesehatan atau manajemen portofolio keuangan, selama berhari -hari atau berminggu -minggu, dengan pengawasan minimal,” tambah Watson.
Memang, kemampuan AIS untuk menangani berbagai tugas panjang dapat memiliki dampak yang signifikan pada bagaimana masyarakat berinteraksi dan menggunakan AI di tahun -tahun mendatang.
“Sementara spesialisasi alat akan bertahan dalam aplikasi niche untuk alasan efisiensi, agen generalis AI yang kuat, yang mampu berubah secara fleksibel di antara berbagai tugas, akan muncul dengan jelas,” Watson menyimpulkan. “Sistem ini akan mengintegrasikan keterampilan khusus dalam alur kerja yang lebih luas dan diarahkan oleh tujuan, renovasi kehidupan sehari -hari dan praktik profesional secara mendasar.”