Gemini 2.5 Pro baru saja memenangkan permainan 29 tahun yang populer ini, termasuk Pichai terkesan

Google diluncurkan Gemini 2.5 Pro sebulan yang lalu dan menyatakan bahwa itu adalah “model yang lebih pintar” hingga saat ini. Selama peluncuran, raksasa teknologi menekankan bahwa model ini jauh lebih baik daripada kompetisinya, termasuk Openai O3, Deepseek R1, Claude dan lebih banyak model. Sementara poin referensi (disediakan oleh Google) adalah tes hidup, kemenangan baru -baru ini melawan video game 29 tahun, Pokmon Blue, juga menambahkan pena lain ke topinya. Karena hanya klaim Google, kami ingin melihat seberapa baik modelnya dan Di Sini Itulah yang kami temukan. Tetapi sebelum membaca pengalaman kami, pertanyaannya adalah: Mengapa menang melawan video game adalah tonggak sejarah untuk model AI? Mari kita cari tahu.

Gemini 2.5 Pro Finishes Pokmon Blue

Untuk konteksnya, Pokmon Blue (diluncurkan pada tahun 1996) dikenal karena mekanika permainannya yang rumit, pertempuran strategis dan eksplorasi dunia terbuka, elemen -elemen yang meningkatkan tantangan signifikan bagi sistem AI. Untuk berkinerja baik dalam permainan, AI harus menunjukkan keterampilan seperti perencanaan jangka panjang, manajemen objektif dan navigasi visual, keterampilan inti dalam pencarian kecerdasan buatan umum. Sekarang Gemini 2.5 Pro telah menang melawan kompleksitas permainan ini, Model AI telah menunjukkan judulnya, “Model yang Lebih Cerdas.”

Bereaksi terhadap kemenangan ini, CEO Surmar Pichai mengarah ke X (sebelumnya Twitter), mengatakan: “Sungguh akhir! Gemini 2.5 Pro baru saja menyelesaikan Pokmon Blue!

Untuk mengklarifikasi, Gemini memainkan Pokmon Livestress tidak diluncurkan oleh Google, tetapi “seorang insinyur perangkat lunak 30 tahun yang tidak berafiliasi dengan Google” bernama Joel Z. Namun, eksekutif Google telah menunjukkan dukungan yang antusias untuk proyek tersebut. Logan Kilpatrick, pemimpin produk untuk Google AI Studio, berbagi pembaruan bulan lalu, dan menunjukkan bahwa Gemini “membuat kemajuan besar dalam penyelesaian Pokmon” dan telah “memenangkan lencana kelimanya (model terbaik berikutnya hanya memiliki 3 sampai sekarang, meskipun dengan agen harness yang berbeda).”

Selama peluncuran, Google menekankan bahwa salah satu perbaikan terkemuka dalam model ini terletak pada keterampilan pengkodean yang ditingkatkan, yang telah digambarkan sebagai “lompatan besar pada 2.0” dengan “lebih banyak perbaikan yang akan datang.” Menurut Google, “2.5 Pro menonjol dalam pembuatan aplikasi web yang meyakinkan secara visual dan aplikasi kode agen, bersama dengan transformasi dan pengeditan kode.”

Pada titik referensi industri yang diakui untuk pengkodean agen, Gemini 2.5 Pro menawarkan kinerja yang solid, memperoleh 63,8 persen di bank SWEE yang diverifikasi menggunakan konfigurasi agen khusus, yang menerangi pesaingnya dalam tugas rekayasa perangkat lunak yang kompleks. Sekarang setelah kita membandingkan, model Anthrope Claude AI juga telah dalam perlombaan untuk mengatasi versi lain dari Pokmon, Red. Tapi sejauh ini belum berhasil.

Pada bulan Februari, Anthrope menunjukkan langkah -langkah yang dilakukan oleh model Claude AI -nya di Pokmon Red, mencatat bahwa “pemikiran yang diperluas dan pelatihan agen” oleh Claude memberinya “dorongan besar” ketika membahas tugas “yang lebih tak terduga”, seperti memainkan permainan video klasik. Sementara Claude telah membuat kemajuan luar biasa, dia belum menyelesaikan Pokmon Red.

Betapapun mengesankannya, kinerja Gemini masih tidak menunjukkan kecerdasan umum yang sebenarnya. Pengembang masih memberinya bantuan dari waktu ke waktu, menarik untuk memperbaiki kesalahan atau membatasi tindakan tertentu, seperti penggunaan elemen pelarian berlebih. Dia menyatakan bahwa tutoro langsung atau orientasi langkah -dengan tidak disediakan, terlepas dari kasus unik yang melibatkan kegagalan yang diketahui.

Ini masih merupakan pertanyaan terbuka jika Gemini dapat menangani prestasi yang sama saja. Namun, kemampuannya untuk menavigasi permainan serumit Pokmon Blue, bahkan dengan beberapa dukungan, menunjukkan potensi luar biasa dari model bahasa besar ketika berlangsung dalam lingkungan yang terstruktur dengan hati -hati.

Diposting oleh:

Unnati Gusain

Diposting di:

4 Mei 2025

Sumber

Breaking News

Colts mendesak ‘untuk mempertimbangkan’ bidang kebingungan dengan $ 34 juta QB

OK’s Hudson’s Bay Court menjual merek dagang, seperti garis -garis ikonik, ban Kanada

Pemecatan LinkedIn: Platform yang dimiliki oleh Microsoft Short 281 Jobs di California di tengah restrukturisasi berkelanjutan, insinyur yang terkena dampak

Bagaimana Putin berbalik melawan teknologi dan ‘dicekik’ impian silikon de rusia

Ide vodafone dikaitkan dengan HPE untuk menyediakan layanan terkelola generasi berikutnya untuk perusahaan India, ia menawarkan solusi akhir -untuk -end

Para pelaut memberi Cole Young, tendangannya dan dia melahirkan

Karier 53 tahun selamat dari kecelakaan teknologi Dotcom: Dewannya untuk Pekerja di AI

Pembayaran kepala M&S Stuart Machin meningkat 39% menjadi £ 7,1 juta sebelum serangan cyber

Penjualan Peralatan Radio Terlarang: Masalah Standar Pemerintah Aturan untuk menghentikan penjualan peralatan radio berisiko yang ilegal dan tidak sah seperti walkie-talkie di situs perdagangan elektronik

Google Notebooklm baru saja memperoleh pembaruan yang hebat: inilah mengapa itu melebihi chatgpt untuk proyek tim

Gemini 2.5 Pro baru saja memenangkan permainan 29 tahun yang populer ini, termasuk Pichai terkesan

Gemini 2.5 Pro Finishes Pokmon Blue

Dia telah dipenjara selama 43 hari, dituduh mencoba menculik seorang anak di Walmart. Pengacaranya berpendapat bahwa video itu menunjukkan bahwa dia tidak bersalah

Bagaimana Industri Teknologi Pertahanan Israel Dimulai setelah 7 Oktober

Breaking News

Gemini 2.5 Pro Finishes Pokmon Blue

Related Post