Kecerdasan buatan Chatbots suka Chatgpt Mereka menjadi jauh lebih pintar, jauh lebih alami dan jauh lebih banyak … seperti manusia. Masuk akal: manusia adalah mereka yang membuat model bahasa besar yang mendukung sistem AI Chatbots. Tetapi ketika alat -alat ini meningkat dalam “penalaran” dan meniru wacana manusia, apakah mereka cukup cerdas untuk menyetujui tes Turing?
Selama beberapa dekade, Turing Test tetap menjadi titik referensi utama dalam kecerdasan mesin. Sekarang, para peneliti sebenarnya diuji LLM sebagai chatgpt. Jika chatgpt dapat lewat, pencapaian akan menjadi tonggak penting dalam pengembangan AI.
Jadi bisakah chatgpt lulus tes Turing? Menurut beberapa peneliti, ya. Namun, hasilnya tidak sepenuhnya pasti. Tes Turing bukan lulus/kegagalan sederhana, yang berarti hasilnya tidak benar -benar berwarna hitam dan putih. Selain itu, bahkan jika chatgpt dapat lulus tes Turing, itu mungkin tidak benar -benar memberi tahu kita bagaimana “manusia” benar -benar llm.
Kami akan memecahnya.
Apa tes Turing?
Konsep tes Turing benar -benar sangat sederhana.
Tes ini awalnya diusulkan oleh ahli matematika Inggris Alan Turing, bapak ilmu komputer modern dan pahlawan untuk kutu buku dunia. Pada 1949 atau 1950, dia mengusulkan permainan imitasi – Tes untuk kecerdasan mesin yang sejak itu dinamai olehnya. Tes Turing menyiratkan bahwa hakim manusia memiliki percakapan dengan manusia dan mesin tanpa mengetahui mana (atau siapa, jika Anda percaya pada AGI). Jika hakim tidak bisa mengatakan apa mesin itu dan apa manusia, mesin lulus tes Turing. Dalam konteks investigasi, bukti dilakukan berkali -kali dengan banyak hakim.
Tentu saja, tes tidak dapat menentukan apakah model bahasa yang besar benar -benar sama cerdasnya dengan manusia (atau paling cerdas), hanya jika mampu melalui manusia.
Apakah LLM benar -benar berpikir seperti kita?
Model bahasa besar, tentu saja, tidak memiliki model otak, kesadaran atau dunia. Mereka tidak menyadari keberadaan mereka sendiri. Mereka juga tidak memiliki pendapat atau keyakinan yang sebenarnya.
Di sisi lain, model bahasa besar dilatih dalam set informasi besar -besaran: buku, artikel internet, dokumen, transkrip. Ketika pengguna memasukkan teks, model AI menggunakan “penalaran” untuk menentukan makna dan niat entri yang paling mungkin. Kemudian, model menghasilkan jawaban.
Pada tingkat paling dasar, LLMS adalah mesin prediksi kata. Dengan menggunakan data pelatihan yang luas, mereka menghitung probabilitas untuk “token” pertama (biasanya hanya satu kata) dari respons menggunakan kosa kata Anda. Mereka mengulangi proses ini sampai respons lengkap dihasilkan. Itu adalah penyederhanaan yang berlebihan, tentu saja, tetapi mari kita tetap sederhana: LLM menghasilkan respons terhadap entri berdasarkan probabilitas dan statistik. Kemudian, respons LLM didasarkan pada matematika, bukan pada pemahaman yang nyata tentang dunia.
Kecepatan cahaya yang dapat dipasangkan
Jadi tidak, llm tidak juga memikirkan Dalam arti kata apa pun.
Apa yang dikatakan studi tentang tes chatgpt dan Turing?
Joseph Maldonado / Mashable Composite oleh Rene Ramos
Kredit: Mashable
Ada cukup banyak penelitian untuk menentukan apakah chatgpt telah menyetujui tes Turing, dan banyak dari mereka Dia memiliki temuan positif. Itulah sebabnya beberapa ilmuwan komputer berpendapat bahwa, ya, model bahasa besar seperti GPT-4 dan GPT-4.5 sekarang dapat lulus tes Turing yang terkenal.
Sebagian besar tes fokus pada model OpenAI GPT-4, yang menggunakan sebagian besar pengguna chatgpt. Menggunakan model itu, a UC San Diego Study Mereka menemukan bahwa dalam banyak kasus, hakim manusia tidak dapat membedakan GPT-4 dari manusia. Dalam penelitian ini, dianggap bahwa GPT-4 adalah manusia 54% dari waktu. Namun, ini masih di belakang manusia sejati, yang dianggap manusia 67% dari waktu.
Kemudian, GPT-4.5 diluncurkan, dan peneliti UC San Diego Dia melakukan ruang belajar lagi. Kali ini, model bahasa besar mengidentifikasi 73% dari waktu, Melampaui manusia sejati. Tes ini juga menemukan bahwa target finish api-3.1-405b dapat menyetujui tes.
Studi lain di luar UC San Diego juga telah memberikan peringkat persetujuan GPT. A 2024 Studi Universitas Membaca GPT-4 Model telah membuat jawaban untuk evaluasi untuk dibawa pulang untuk program sarjana. Siswa tes tidak diberitahu tentang percobaan, dan hanya menandai salah satu dari 33 inning. ChatGPT menerima kualifikasi sebelumnya rata -rata dengan 32 input lainnya.
Jadi, apakah studi ini? definitif? Tidak cukup. Beberapa kritikus (dan ada banyak dari mereka) mengatakan bahwa studi penelitian ini Mereka tidak mengesankan seperti yang terlihat. Itulah sebabnya kami tidak siap untuk mengatakan bahwa chatgpt lulus tes Turing.
Kita dapat mengatakan bahwa sementara LLM generasi sebelumnya seperti GPT-4 kadang-kadang lulus tes Turing, gelar persetujuan menjadi lebih umum karena LLM lebih berkembang. Dan ketika model avant-garde seperti GPT-4.5 keluar, kami dengan cepat menuju model yang dapat dengan mudah lulus tes Turing.
Operai sendiri tentu membayangkan dunia di mana tidak mungkin membedakan manusia dari AI. Itulah sebabnya CEO Operai, Sam Altman, telah berinvestasi dalam proyek verifikasi manusia dengan a Mesin Globe Escane Oculare Called Orbe.
Apa yang dikatakan chatgpt dalam dirinya sendiri?
Kami memutuskan untuk bertanya kepada ChatGPT apakah dia bisa lulus tes Turing, dan dia memberi tahu kami bahwa, dengan peringatan yang sama seperti yang telah kita bahas. Ketika kami mengajukan pertanyaan, “Bisakah chatgpt lulus tes Turing?” Al Chatbot AI (Menggunakan Model 4), dia memberi tahu kami: “Chatgpt Bisa Lulus tes Turing dalam beberapa skenario, tetapi tidak andal atau universal. “Chatbot menyimpulkan:” Turing tes dengan pengguna rata -rata dalam kondisi kasual, tetapi interogator tertentu dan reflektif hampir selalu bisa membuka kedoknya. “

Gambar yang dihasilkan oleh IA.
Kredit: Openai
Keterbatasan Tes Turing
Beberapa ilmuwan komputer sekarang percaya bahwa tes Turing sudah ketinggalan zaman, dan itu tidak begitu berguna untuk menilai model bahasa besar. Gary Marcus, seorang psikolog Amerika, ilmuwan kognitif, penulis dan prognosis populer AI, merangkumnya lebih baik Posting blog terbarudi mana dia menulis: “Seperti saya (dan banyak lainnya) Saya katakan selama bertahun -tahunTes Turing adalah tes kredibilitas manusia, bukan tes intelijen. “
Perlu juga memperhitungkan bahwa Turing Test lebih tentang persepsi kecerdasan bukannya saat ini intelijen. Itu adalah perbedaan penting. Model seperti ChatGPT 4 bisa saja meniru wacana manusia. Tidak hanya itu, tetapi jika model bahasa besar lulus atau tidak tes akan bervariasi sesuai dengan masalah dan penguji. ChatGPT dapat dengan mudah mensimulasikan pembicaraan kecil, tetapi bisa mengalami kesulitan dengan percakapan yang membutuhkan kecerdasan emosional sejati. Tidak hanya itu, tetapi sistem modern digunakan untuk lebih dari sekadar obrolan, terutama ketika kita menuju ke dunia agen.
Tidak ada yang mengatakan bahwa tes Turing tidak relevan. Ini adalah titik referensi historis yang tertib, dan tentu saja menarik bahwa model bahasa besar dapat melewatinya. Tetapi tes Turing bukanlah titik standar emas dari kecerdasan mesin. Seperti apa titik referensi yang lebih baik? Itu adalah kaleng cacing lain yang harus kita simpan untuk cerita lain.
Pengungkapan: Ziff Davis, perusahaan induk Mashable, mengajukan gugatan terhadap Openai pada bulan April, mengklaim bahwa ia melanggar hak cipta Ziff Davis dalam pelatihan dan pengoperasian sistem AI -nya.
Topik
Kecerdasan buatan