Pada tahun 1977, Andrew Barto, sebagai peneliti di University of Massachusetts, Amherst, mulai mengeksplorasi teori baru itu Neuron berperilaku seperti hedonis. Gagasan dasarnya adalah bahwa otak manusia didorong oleh miliaran sel saraf mencoba memaksimalkan kesenangan dan meminimalkan rasa sakit.
Setahun kemudian, peneliti muda lainnya, Richard Sutton. Bersama -sama, mereka bekerja untuk menjelaskan kecerdasan manusia menggunakan konsep sederhana ini dan menerapkannya pada kecerdasan buatan. Hasilnya adalah “pembelajaran penguatan”, cara bagi sistem AI untuk belajar dari digital yang setara dengan kesenangan dan rasa sakit.
Pada hari Rabu, Asosiasi untuk Komputasi Mesin, perusahaan terbesar di dunia profesional komputer, mengumumkan bahwa Dr. Barto dan Dr. Sutton telah memenangkan Turing Award tahun ini untuk pekerjaan mereka dalam pembelajaran penguatan. Penghargaan Turing, yang diperkenalkan pada tahun 1966, sering disebut Hadiah Komputer Nobel. Kedua ilmuwan akan berbagi hadiah $ 1 juta yang disertakan dengan hadiah.
Selama dekade terakhir, pembelajaran penguatan telah memainkan peran penting dalam munculnya kecerdasan buatan, termasuk teknologi inovatif seperti Google Alpha Dan Openai Chatgpt. Teknik -teknik yang mempromosikan sistem ini didasarkan pada karya Dr. Barto dan Dr. Sutton.
“Mereka adalah pelopor pembelajaran penguatan yang tak terbantahkan,” kata Oren Etzioni, Profesor Emeritus Ilmu Komputer di Universitas Washington dan Direktur Eksekutif Pendiri Institut Allen untuk Kecerdasan Buatan. “Mereka menghasilkan ide -ide kunci, dan menulis buku tentang masalah ini.”
Bukunya, “Penguatan Pembelajaran: An Pendahuluan”, yang diterbitkan pada tahun 1998, tetap menjadi eksplorasi pasti dari sebuah gagasan bahwa banyak ahli mengatakan bahwa itu baru mulai menyadari potensinya.
Psikolog telah lama mempelajari cara -cara di mana manusia dan hewan belajar dari pengalaman mereka. Pada tahun 1940 -an, perintis ilmiah Inggris Alan Turing menyarankan agar mesin dapat belajar dengan cara yang sama.
Tapi Dr. Barto dan Dr. Sutton yang mulai mengeksplorasi matematika tentang bagaimana ini bisa bekerja, berdasarkan teori yang diusulkan oleh A. Harry Klopf, seorang ilmuwan komputer yang bekerja untuk pemerintah. Barto membangun laboratorium di UMass Amherst yang didedikasikan untuk ide itu, sementara Dr. Sutton mendirikan jenis laboratorium yang serupa di University of Alberta di Kanada.
“Ini adalah ide yang jelas ketika Anda berbicara tentang manusia dan hewan,” kata Dr. Sutton, yang juga seorang ilmuwan riset di Keen Technologies, perusahaan AI baru dan anggota Alberta Machine Intelligence Institute, salah satu dari tiga Laboratorium Nasional Kanada. “Seperti yang kami relive, itu adalah mesin.”
Ini tetap menjadi pencarian akademis sampai kedatangan Alphago pada tahun 2016. Sebagian besar ahli percaya bahwa 10 tahun lagi akan terjadi sebelum seseorang membangun sistem AI yang dapat mengatasi pemain terbaik di dunia dalam permainan Go.
Tetapi selama pertandingan di Seoul, Korea Selatan, Alphago mengalahkan Lee Sedol, pemain terbaik dekade terakhir. Triknya adalah bahwa sistem telah memainkan jutaan pertandingan melawan dirinya sendiri, belajar dengan bukti dan kesalahan. Dia belajar gerakan apa yang mereka bawa kesuksesan (kesenangan) dan mana yang membawa kegagalan (rasa sakit).
Tim Google yang membangun sistem dipimpin oleh David Silver, seorang peneliti yang telah mempelajari pembelajaran penguatan dengan Dr. Sutton di Universitas Alberta.
Banyak ahli masih mempertanyakan apakah pembelajaran penguatan dapat bekerja di luar permainan. Keuntungan game ditentukan oleh poin, yang memudahkan mesin untuk membedakan antara keberhasilan dan kegagalan.
Tetapi pembelajaran penguatan juga memainkan peran penting dalam chatbots online.
Sebelum peluncuran ChatGPT pada musim gugur 2022, Operai mempekerjakan ratusan orang untuk menggunakan versi awal dan memberikan saran yang tepat yang dapat meningkatkan keterampilan mereka. Mereka menunjukkan chatbot bagaimana menjawab pertanyaan tertentu, menggambarkan jawaban mereka dan memperbaiki kesalahan mereka. Saat menganalisis saran -saran itu, ChatGPT belajar menjadi chatbot yang lebih baik.
Para peneliti menyebut ini “pembelajaran penguatan pembelajaran umpan balik manusia”, atau rlhf dan Is Salah satu alasan utama Chatbots hari ini merespons dengan cara yang sangat realistis.
(The New York Times memiliki terdakwa Operai dan mitranya, Microsoft, atas pelanggaran hak cipta konten berita yang terkait dengan sistem AI. Operai dan Microsoft telah membantah pernyataan itu).
Baru -baru ini, perusahaan seperti openai dan Perusahaan Deepseek yang baru Mereka telah mengembangkan bentuk pembelajaran penguatan yang memungkinkan chatbots untuk belajar dari diri mereka sendiri, seperti Alphago. Saat mengerjakan beberapa masalah matematika, misalnya, chatbot dapat mempelajari metode mana yang mengarah pada jawaban yang benar dan mana yang tidak.
Jika Anda mengulangi proses ini dengan serangkaian masalah yang sangat besar, bot dapat belajar meniru alasan manusia bernalar – setidaknya entah bagaimana. Hasilnya adalah sistem penalaran yang disebut SO seperti OpenAI O1 atau Deepseek R1.
Barto dan Dr. Sutton mengatakan bahwa sistem ini menyarankan cara -cara di mana mesin akan belajar di masa depan. Akhirnya, kata mereka, robot yang diilhami akan belajar dari coba -coba di dunia nyata, seperti yang dilakukan manusia dan hewan.
“Belajar mengendalikan tubuh melalui pembelajaran penguatan, itu adalah sesuatu yang sangat alami,” kata Dr. Barto.