Model penalaran kecerdasan buatan (AI) tidak secerdas yang telah dilakukan. Bahkan, mereka mengalami keruntuhan total ketika tugas menjadi terlalu kompleks, kata para peneliti Apple.
Model penalaran, seperti Meta Claude, O3 O3 dan Deepseek’s R1, adalah model bahasa khusus (LLM) yang menghabiskan lebih banyak waktu dan kekuatan komputer untuk menghasilkan jawaban yang lebih tepat dari pendahulunya tradisional.
Munculnya model -model ini telah menyebabkan Klaim baru perusahaan teknologi besar yang akan akan mengembangkan mesin dengan Kecerdasan Umum Buatan (AGI) – Sistem yang melebihi manusia di sebagian besar tugas.
Namun, sebuah studi baru, yang diterbitkan pada 7 Juni di Situs Web Research Pembelajaran Mesin AppleDia telah menanggapi untuk mendapatkan pukulan besar terhadap pesaing perusahaan. Model penalaran tidak hanya berhenti menunjukkan penalaran umum, para ilmuwan mengatakan dalam penelitian ini bahwa penalaran mereka berantakan ketika tugas melebihi ambang batas kritis.
“Melalui eksperimen luas di berbagai teka -teki, kami menunjukkan bahwa LRM perbatasan menghadapi keruntuhan total di luar kompleksitas tertentu,” tulis para peneliti dalam penelitian ini. “Selain itu, mereka menunjukkan batas skala yang bertentangan: upaya penalaran mereka meningkat dengan kompleksitas masalah sampai batas tertentu dan kemudian berkurang meskipun memiliki anggaran token yang memadai.”
LLMS tumbuh dan belajar dengan menyerap data pelatihan dari sejumlah besar produksi manusia. Bertulis pada data ini memungkinkan model untuk menghasilkan pola probabilistik dari jaringan neuron mereka dengan memberi makan mereka ke depan ketika mereka diberi peringatan.
Terkait: Ai ‘hallucina’ terus -menerus, tetapi ada solusi
Model penalaran adalah upaya untuk meningkatkan keakuratan AI menggunakan proses yang dikenal sebagai “rantai pemikiran”. Ini bekerja dengan melacak pola melalui data ini menggunakan beberapa langkah respons, meniru bagaimana manusia dapat menerapkan logika untuk mencapai kesimpulan.
Ini memberi chatbots kemampuan untuk Evaluasi kembali alasan Andamemungkinkan mereka untuk mengatasi tugas yang lebih kompleks dengan presisi yang lebih besar. Selama proses rantai pemikiran, model menjelaskan logika mereka dalam bahasa sederhana untuk setiap langkah yang mereka ambil sehingga tindakan mereka dapat dengan mudah diamati.
Namun, karena proses ini didasarkan pada dugaan statistik alih -alih pemahaman nyata, chatbots memiliki kecenderungan yang nyata untuk ‘berhalusinasi’, lempar tanggapan yang salah, berbohong Saat data Anda tidak memiliki jawaban dan membuang dengan aneh dan sesekali berbahaya Tip untuk pengguna.
A Laporan Teknis Openai Dia menekankan bahwa model penalaran jauh lebih mungkin untuk tergelincir dengan halusinasi daripada rekan -rekan generik mereka, dan masalahnya hanya memburuk seiring dengan meningkatnya model.
Ketika tugas merangkum fakta tentang orang, perusahaan O3 dan O4-mini dari perusahaan menghasilkan informasi yang salah masing-masing 33% dan 48% dari waktu, dibandingkan dengan tingkat halusinasi 16% dari model O1 sebelumnya. Perwakilan Operai mengatakan mereka tidak tahu mengapa ini terjadi, menyimpulkan bahwa “diperlukan lebih banyak penelitian untuk memahami penyebab hasil ini.”
“Kami percaya bahwa kurangnya analisis sistematis yang menyelidiki pertanyaan -pertanyaan ini adalah karena keterbatasan dalam paradigma evaluasi saat ini,” tulis para penulis dalam studi Apple yang baru. “Evaluasi yang ada berfokus terutama pada titik matematika dan pengkodean yang sudah ada, yang, meskipun berharga, sering menderita masalah polusi data dan tidak memungkinkan kondisi eksperimental yang terkontrol di lingkungan dan kompleksitas yang berbeda. Selain itu, evaluasi ini tidak memberikan informasi tentang struktur dan kualitas jejak penalaran.”
Melihat ke dalam kotak hitam
Untuk memperdalam masalah ini, para penulis studi baru membentuk bot generik dan penalaran, yang meliputi model O1 dan O3 Openai, Deepseek R1, Sonnet Claude 3.7 Anthrope, Gemini dari Google, empat teka -teki klasik untuk dipecahkan (persimpangan sungai, lompatan pemeriksa, pelat blok dan baterai, baterai, blokir dan baterai, empat teka Menara Hanoi). Kemudian mereka dapat menyesuaikan kompleksitas teka -teki antara rendah, sedang dan tinggi dengan menambahkan lebih banyak potongan.
Untuk tugas -tugas kompleksitas yang rendah, para peneliti menemukan bahwa model generik memiliki keuntungan dalam rekan mereka yang bernalar, memecahkan masalah tanpa biaya komputasi tambahan yang diperkenalkan oleh rantai penalaran. Ketika tugas menjadi lebih kompleks, model penalaran memperoleh keuntungan, tetapi ini tidak bertahan ketika ia menghadapi teka -teki yang sangat kompleks, karena kinerja kedua model “runtuh menjadi nol.”
Ketika ambang kritis dilewati, model penalaran mengurangi token (blok konstruksi mendasar merinci data) yang mereka ditugaskan untuk tugas yang lebih kompleks, yang menunjukkan bahwa mereka lebih sedikit penalaran dan memiliki keterbatasan mendasar untuk mempertahankan rantai pemikiran. Dan model terus mengenai kait ini bahkan ketika mereka diberi solusi.
“Ketika kami memberikan algoritma solusi untuk Tower of Hanoi kepada model, kinerja mereka dalam teka -teki ini tidak membaik,” tulis para penulis dalam penelitian ini. “Selain itu, menyelidiki gerakan pertama dari model yang mengungkapkan perilaku mengejutkan. Misalnya, mereka dapat melakukan hingga 100 gerakan yang benar di menara Hanoi, tetapi tidak dapat memberikan lebih dari 5 gerakan yang benar dalam teka -teki sungai persimpangan.”
Temuan menunjukkan model yang lebih didasarkan pada pengakuan pola, dan lebih sedikit pada logika yang muncul, daripada mereka yang mengumumkan pernyataan intelijen mesin yang akan segera terjadi. Tetapi para peneliti menyoroti keterbatasan utama untuk studi mereka, termasuk bahwa masalah hanya mewakili “bagian sempit” dari tugas penalaran yang mungkin bahwa model dapat ditugaskan.
Apple juga memiliki kuda yang tertinggal dalam karier AI. Perusahaan itu Aguando untuk saingannya dengan Siri ditemukan oleh analisis 25% kurang akurat dari chatgpt Saat menjawab konsultasi dan, sebagai gantinya, memprioritaskan pengembangan perangkat dan efisien daripada model penalaran yang besar.
Ini pasti membuat beberapa orang menuduh Apple anggur asam. “Strategi baru Apple yang brilian adalah untuk menunjukkan bahwa itu tidak ada,” Minggu PedrosProfesor Ilmu dan Teknik Komputer Emeritus di University of Washington, Dia menulis dengan bercanda di X.
Namun, beberapa peneliti IA telah mengumumkan penelitian ini sebagai akumulasi air dingin yang diperlukan Klaim bagus Tentang kapasitas alat AI saat ini untuk satu hari untuk menjadi pengawas.
“Apple melakukan lebih banyak untuk AI daripada siapa pun: mereka menunjukkan melalui publikasi yang ditinjau oleh orang -orang bahwa LLM hanya jaringan saraf dan, dengan demikian, mereka memiliki semua keterbatasan jaringan neuron lainnya yang dilatih dengan cara yang diawasi, bahwa saya dan beberapa suara lainnya mencoba untuk mentransmisikan, tetapi kebisingan dari banyak agitator dan sycophan mereka juga tidak ada,” Andriy BurkovAhli Kecerdasan Buatan dan Mantan Pemimpin Tim Pembelajaran Otomatis dari Gartner Research Saran, menulis dalam x. “Sekarang, saya berharap para ilmuwan melakukan sains nyata lagi ketika mempelajari LLM sementara matematikawan belajar berfungsi dan tidak berbicara dengan mereka sementara psikiater berbicara dengan orang sakit.”