Sebelum AI Apple menjadi gila dan mulai mengarang berita palsu, para insinyurnya memperingatkan akan adanya kelemahan besar dalam teknologi tersebut

Dan mereka tetap membebaskannya.

Sekilas berita, teman

Komitmen terbaru Apple terhadap AI, Apple Intelligence, telah terwujud sebagian besar mengecewakan. Secara khusus, ringkasan beritanya mendapat kritik yang luas berita utama yang gagal Dan melaporkan informasi palsu itu minggu ini Apple menghentikan seluruh program sampai bisa diperbaiki.

Semua ini tidak mengherankan. “Halusinasi” AI ini adalah masalah yang melekat pada semua model bahasa besar yang belum terpecahkan oleh siapa pun. jika itu bisa dipecahkan. Namun meluncurkan model AI Anda sendiri terdengar istimewa Ceroboh mengingat para insinyur Apple telah memperingatkan tentang kelemahan besar teknologi tersebut.

Peringatan itu datang dalam a studi yang diterbitkan Oktober lalu. Karya yang belum ditinjau oleh rekan sejawat, yang menguji “penalaran” matematis dari beberapa LLM terkemuka di industri, menambah konsensus bahwa model AI sebenarnya tidak memiliki alasan.

“Sebaliknya,” para peneliti menyimpulkan, ““Mereka mencoba meniru langkah-langkah penalaran yang diamati dalam data pelatihan mereka.”

matematika itu sulit

Untuk menguji model AI, para peneliti membuatnya Cobalah ribuan soal matematika dari patokan yang banyak digunakan Kumpulan data GSM8K. Pertanyaan yang umum diajukan adalah: “James membeli 5 bungkus daging sapi, masing-masing seberat 4 pon. Harga daging sapi tersebut $5,50 per pon. Berapa yang dia bayar?” Beberapa pertanyaan memang sedikit lebih rumit, tetapi tidak ada yang tidak dapat dipecahkan oleh siswa sekolah menengah terpelajar.

Cara para peneliti mengungkap kesenjangan ini dalam model AI ternyata sangat sederhana: mereka hanya mengubah angka pada pertanyaan. Hal ini mencegah kontaminasi data; Dengan kata lain, hal ini memastikan bahwa AI belum pernah melihat masalah serupa sebelumnya dalam data pelatihan mereka, tanpa membuatnya menjadi lebih rumit.

Hal ini saja menyebabkan penurunan akurasi yang kecil namun nyata di masing-masing dari 20 LLM yang diuji. Namun ketika para peneliti mengambil langkah lebih jauh dengan juga mengubah nama dan menambahkan detail yang tidak relevan, seperti dalam pertanyaan tentang menghitung buah, mencatat bahwa beberapa di antaranya “lebih kecil dari biasanya,” penurunan kinerja tersebut, menurut pendapat para peneliti. para peneliti. editorialnya sendiri, “bencana”: sampai dengan 65 persen.

Ini bervariasi antar model, namun yang paling cerdas sekalipun, pratinjau o1 OpenAI, anjlok 17,5 persen. (Pendahulunya, GPT-4o, turun 32 persen.)

salin kucing

Dan itulah mengapa kesimpulannya kasar.

“Hal ini mengungkapkan kelemahan kritis dalam kemampuan model untuk membedakan informasi yang relevan dengan pemecahan masalah, kemungkinan karena alasan mereka tidak formal dalam akal sehat dan terutama bergantung pada pencocokan pola,” tulis para peneliti.

Dengan kata lain, AI sangat pandai dalam tampil cerdas dan sering kali memberikan Anda jawaban yang benar. Namun begitu Anda tidak bisa menyalin pekerjaan rumah seseorang kata demi kata, Anda akan mendapat banyak masalah.

Anda mungkin mengira hal ini akan menimbulkan pertanyaan serius tentang memercayai model AI untuk memunculkan berita utama (bertukar kata tanpa benar-benar memahami bagaimana hal itu mengubah makna keseluruhan), namun ternyata tidak. Apple mengetahui kelemahan serius yang ditunjukkan oleh semua LLM hingga saat ini dan tetap merilis modelnya sendiri. Sejujurnya, ini adalah modus operandi seluruh industri AI.

Lebih lanjut tentang AI: Startup Baru yang Mengerikan Menggunakan Agen AI untuk Membanjiri Reddit dengan Postingan yang Menjual Produk Pelanggan

Sumber

Breaking News

Teknologi ISRO ditransfer ke 6 perusahaan India dalam dorongan strategis untuk sendirinya spasial

Platform olahraga fantasi online ilegal di California, kata AG

Peta jalan yang disaring Apple mengungkapkan setiap Mac yang diluncurkan hingga 2026

Boeser menolak penawaran kontrak Maple Leafs

Daya pembelian teknologi telah berubah

Daya pembelian teknologi telah berubah

Patriots memiliki rencana ‘menarik’ baru untuk Christian Barmore

Daya pembelian teknologi telah berubah

Liburan di pasar saham pada Juli 2025: Pasar saham akan tetap buka pada 7 Juli untuk Muharram? NSE dan BSE akan tetap ditutup dengan negosiasi selama 8 hari, lihat daftar lengkapnya di sini

Maple Leafs Terkait dengan Operasi Kipas Lanjutan dalam Gerakan Sampul

Sebelum AI Apple menjadi gila dan mulai mengarang berita palsu, para insinyurnya memperingatkan akan adanya kelemahan besar dalam teknologi tersebut

Dan mereka tetap membebaskannya.

Sekilas berita, teman

matematika itu sulit

salin kucing

Samsung Galaxy S25 Slim: berita terbaru, rumor, dan semua yang kami dengar sejauh ini

OpenAI merayu Trump dengan visi ‘AI di Amerika’

Breaking News

Dan mereka tetap membebaskannya.

Sekilas berita, teman

matematika itu sulit

salin kucing

Related Post