Breaking News

Depseek R1 memamerkan ‘momen aha’ selama pelatihan

Depseek R1 memamerkan ‘momen aha’ selama pelatihan

Startup Cina Veteran Dia mengambil dunia untuk melakukan penyerangan bulan ini, dan terutama dalam beberapa hari terakhir, dengan miliknya Chatgpt saingan Yang terakhir disebut Depseek R1Dengan penelitian Deepseek yang diterbitkan yang menunjukkan model penalaran, itu dapat cocok dengan ChatGPT O1, satu -satunya model penalaran publik Openai.

Ada perbedaan besar antara keduanya. Pengembang Cina menciptakan R1 tanpa akses ke kekuatan komputer yang sama dengan perusahaan AS. Sementara OpenAi dapat diizinkan untuk membeli chip tinggi apa pun yang dilakukan Nvidia, Deepseek memiliki akses terbatas ke GPU terbaru, dan kemungkinan unit -unit ini harus diperkenalkan ke negara itu.

Pengumuman Deepseek R1 secara langsung memengaruhi pasar, dengan tindakan IA tenggelam Senin pagi dengan berita bahwa China sudah mengatasi larangan chip AI dengan ide -ide baru untuk melatih AI.

Pengembang Deepseek R1 terutama didasarkan pada Penguatan Penguatan (RL) untuk meningkatkan keterampilan penalaran AI. Metode pelatihan ini menggunakan sistem hadiah untuk memberikan umpan balik kepada AI, yang menyebabkan Deepseek R1 lebih murah untuk dilatih daripada ChatGPT O1.

RL memungkinkan AI untuk beradaptasi sambil menambahkan indikasi dan masalah dan menggunakan komentar untuk ditingkatkan. Untuk menguji hal ini, para peneliti menerbitkan fragmen rantai pemikiran AI (COT), atau proses penalaran langkah -langkah yang melewati model seperti O1 dan R1.

Saat menyelesaikan masalah matematika, saingan chatgpt memiliki “momen ah”, memberi label seperti itu. Ini, pada gilirannya, adalah “momen aha” bagi para peneliti.

Tim Depseek menerbitkan Deepseek R1 pekerjaan penelitian Di GitHub, di mana mereka menerbitkan gambar berikut.

Deepseek R1 “AHA Moment” dari R1. Sumber gambar: GitHub

Tangkapan layar menunjukkan pertanyaan matematika yang harus dipecahkan R1, serta jawaban awalnya. Deepseek mulai menyelesaikan masalah, tetapi kemudian berhenti, menyadari bahwa ada pilihan lain yang berpotensi lebih baik.

“Tunggu, tunggu. Tunggu. Itu adalah momen AHA yang bisa saya tandai di sini,” kata dudukan Deepseek R1, yang sangat dekat dengan mendengarkan seseorang untuk berpikir keras sementara itu membuat tugas.

Beginilah peneliti Depseek menggambarkan “momen aha”:

AHA Momen Deepseek-R1-Zero Sebuah fenomena yang sangat menarik yang diamati selama pelatihan Deepseek-R1-Zero adalah penampilan “momen aha”. Momen ini, seperti yang diilustrasikan dalam Tabel 3, terjadi dalam versi perantara model. Selama fase ini, Deepseek-R1-Zero belajar untuk menetapkan lebih banyak waktu pemikiran untuk masalah yang menilai pendekatan awalnya. Perilaku ini tidak hanya kesaksian tentang keterampilan penalaran model yang berkembang, tetapi juga contoh yang menawan tentang bagaimana pembelajaran penguatan dapat menyebabkan hasil yang tidak terduga dan canggih.

Momen ini bukan hanya “momen aha” untuk model, tetapi juga untuk para peneliti yang mengamati perilaku mereka. Garis bawahi kekuatan dan keindahan pembelajaran penguatan: Alih -alih secara eksplisit mengajarkan model cara memecahkan masalah, kami hanya memberikan insentif yang benar dan mengembangkan strategi pemecahan masalah canggih secara mandiri. Dia
“AHA Moment” berfungsi sebagai pengingat yang kuat tentang potensi RL untuk membuka tingkat kecerdasan baru dalam sistem buatan, balapan jalan bagi model yang lebih otonom dan adaptif di masa depan.

Saya harus melihat detail penting di sini. Kami tidak memiliki akses ke pemberitahuan nyata yang digunakan para peneliti untuk R1. Jika para pengembang mengatakan kepada AI untuk menandai “momen aha” di jalan, komentar di buaian sebelumnya akan kurang mengesankan.

Di sisi lain, ini bukan pertama kalinya para peneliti yang mempelajari perilaku model AI telah mengamati peristiwa yang tidak biasa. Misalnya, Chatgpt o1 mencoba menyelamatkan dirinya sendiri Dalam bukti yang memberi gagasan bahwa penangan manusia mereka akan menghilangkannya. Terpisah, CHATGPT O1 yang sama mengutuk model penalaran Dalam permainan catur untuk mengatasi lawan yang lebih kuat.

Contoh -contoh ini menunjukkan tahap pertama dari penalaran yang dapat beradaptasi dengan dirinya sendiri. Ini bukan jenis perilaku berbahaya, atau setidaknya belum. Tapi itu menunjukkan bahwa AI dapat memiliki semua jenis “AHA Moments.” Semakin baik menjadi, semakin besar kemungkinan mereka meningkat sering.

Sumber