Model dunia (algoritme AI yang mampu menghasilkan lingkungan simulasi secara real time) mewakili salah satu aplikasi pembelajaran mesin yang paling mengesankan. Pada tahun lalu, ada banyak pergerakan di bidang ini dan, untuk itu, Google DeepMind mengumumkan Jenius 2 pada hari Rabu. Meskipun pendahulunya terbatas pada menghasilkan dunia 2D, model baru ini dapat membuat dunia 3D dan mempertahankannya lebih lama.
Genie 2 bukanlah mesin permainan; sebaliknya, ini adalah model difusi yang menghasilkan gambar saat pemain (baik manusia atau agen AI lainnya) bergerak melalui dunia yang disimulasikan oleh perangkat lunak. Saat Anda membuat bingkai, Genie 2 dapat menyimpulkan ide tentang lingkungan, memberi Anda kemampuan untuk memodelkan efek air, asap, dan fisika, meskipun beberapa interaksi tersebut bisa sangat menyenangkan. Model ini juga tidak terbatas pada rendering adegan dari sudut pandang orang ketiga, namun juga dapat menangani sudut pandang isometrik dan orang pertama. Yang Anda perlukan untuk memulai hanyalah satu gambar, yang disediakan oleh Google sendiri Gambar 3 model atau gambar sesuatu dari dunia nyata.
Memperkenalkan Genie 2: model AI kami yang dapat menciptakan variasi dunia 3D yang dapat dimainkan tanpa batas, semuanya dari satu gambar. 🖼️
Model global dasar berskala besar seperti ini memungkinkan agen masa depan dilatih dan dievaluasi di berbagai lingkungan virtual. →… pic.twitter.com/qHCT6jqb1W
-Google DeepMind (@GoogleDeepMind) 4 Desember 2024
Secara khusus, Genie 2 dapat mengingat bagian-bagian dari adegan simulasi bahkan setelah bagian-bagian tersebut meninggalkan bidang pandang pemain dan dapat secara akurat merekonstruksi elemen-elemen tersebut setelah elemen tersebut terlihat kembali. Hal ini berbeda dengan model global lainnya seperti Oasisbahwa, setidaknya dalam versi yang diperlihatkan Desart kepada publik pada bulan Oktober, mengalami kesulitan mengingat desainnya minecraft level yang dihasilkan secara real time.
Namun, ada batasan mengenai apa yang dapat dilakukan Genie 2 dalam hal ini. DeepMind mengatakan model tersebut dapat menghasilkan dunia yang “konsisten” hingga 60 detik, dan sebagian besar contoh yang dibagikan perusahaan pada hari Rabu berlangsung jauh lebih singkat; Dalam hal ini, sebagian besar video berdurasi antara 10 dan 20 detik. Selain itu, artefak diperkenalkan dan kualitas gambar diperhalus seiring waktu yang dibutuhkan Genie 2 untuk mempertahankan ilusi dunia yang konsisten.
DeepMind tidak merinci bagaimana mereka melatih Genie 2, selain mengatakan bahwa itu didasarkan pada “dataset video berskala besar.” Jangan berharap DeepMind juga akan merilis Genie 2 ke publik dalam waktu dekat. Untuk saat ini, perusahaan melihat model tersebut terutama sebagai alat untuk melatih dan mengevaluasi agen AI lainnya, termasuk agen AI miliknya sendiri. Algoritma SIMAdan sesuatu yang dapat digunakan oleh seniman dan desainer untuk membuat prototipe dan menguji ide dengan cepat. Di masa depan, DeepMind menyarankan bahwa model global seperti Genie 2 kemungkinan akan memainkan peran penting dalam jalur menuju kecerdasan umum buatan.
“Pelatihan agen yang lebih umum secara tradisional terhambat oleh ketersediaan lingkungan pelatihan yang cukup kaya dan beragam,” kata DeepMind. “Seperti yang kami tunjukkan, Genie 2 memungkinkan agen masa depan untuk dilatih dan diuji dengan kurikulum dunia baru yang tidak terbatas.”