Breaking News

Apa yang dimaksud dengan ‘model dunia’ AI dan mengapa hal itu penting?

Apa yang dimaksud dengan ‘model dunia’ AI dan mengapa hal itu penting?

Beberapa model dunia, yang juga dikenal sebagai simulator dunia, disebut-sebut sebagai hal besar berikutnya dalam AI.

Pelopor AI Fei-Fei Li Laboratorium dunia telah mengumpulkan $230 juta untuk membangun “model dunia besar” dan DeepMind berkontraksi salah satu pencipta generator video OpenAI, sorauntuk mengerjakan “simulator dunia”. (Sora dibebaskan pada hari Senin; Berikut beberapa kesan pertama..)

Tapi apa-apaan ini adalah hal-hal ini?

Model dunia terinspirasi oleh model mental dunia yang dikembangkan manusia secara alami. Otak kita mengambil representasi abstrak dari indera kita dan mengubahnya menjadi pemahaman yang lebih konkrit tentang dunia di sekitar kita, menghasilkan apa yang kita sebut “model” jauh sebelum AI mengadopsi istilah tersebut. Prediksi yang dibuat otak kita berdasarkan model ini memengaruhi cara kita memandang dunia.

KE kertas oleh peneliti AI David Ha dan Jürgen Schmidhuber memberikan contoh pemukul bisbol. Para pemukul mempunyai waktu beberapa milidetik untuk memutuskan bagaimana cara memukul, kurang dari waktu yang dibutuhkan sinyal visual untuk mencapai otak. Alasan mereka mampu melakukan pukulan fastball dengan kecepatan 100 mil per jam adalah karena mereka secara naluriah dapat memprediksi ke mana arah bola, kata Ha dan Schmidhuber.

“Bagi pemain profesional, semua ini terjadi tanpa disadari,” tulis duo peneliti tersebut. “Otot Anda secara refleks menggerakkan pemukul pada waktu dan tempat yang tepat, sesuai prediksi model internal Anda. “Mereka dapat dengan cepat bertindak berdasarkan prediksi mereka tentang masa depan tanpa perlu secara sadar menerapkan kemungkinan skenario masa depan untuk membuat rencana.”

Aspek penalaran bawah sadar dari model dunia inilah yang diyakini sebagian orang sebagai prasyarat bagi kecerdasan tingkat manusia.

Membentuk dunia

Meskipun konsep ini telah ada selama beberapa dekade, model global baru-baru ini mendapatkan popularitas karena penerapannya yang menjanjikan di bidang video generatif.

Sebagian besar, jika tidak semua, video yang dihasilkan AI mengarah ke wilayah lembah yang luar biasa. Lihatlah mereka cukup lama dan beberapa aneh Hal itu akan terjadi, seperti anggota tubuh yang terpelintir dan menyatu satu sama lain.

Meskipun model generatif yang dilatih berdasarkan video selama bertahun-tahun mungkin secara akurat memprediksi bola basket akan memantul, model tersebut sebenarnya tidak mengetahui alasannya, seperti halnya model bahasa yang tidak benar-benar memahami konsep di balik kata dan frasa. Namun model dunia yang memiliki pemahaman dasar tentang mengapa bola basket memantul seperti itu akan lebih baik dalam menunjukkan bahwa bola tersebut memantul.

Untuk mengaktifkan jenis wawasan ini, model dunia dilatih dengan berbagai data, termasuk foto, audio, video, dan teks, dengan tujuan menciptakan representasi internal tentang cara kerja dunia dan kemampuan untuk berpikir tentang konsekuensi tindakan. .

Contoh model pembuatan video Gen-3 startup AI Runway. Kredit gambar:Petunjuk

“Pemirsa mengharapkan dunia yang mereka lihat berperilaku serupa dengan kenyataan,” Alex Mashrabov, mantan kepala AI di Snap dan CEO Snap bidang higgsyang sedang membangun model generatif untuk video, katanya. “Jika sehelai bulu jatuh seberat landasan atau bola bowling melesat ratusan kaki ke udara, hal itu akan mengejutkan dan membuat penonton kehilangan momen tersebut. Dengan model dunia yang kuat, alih-alih pencipta menentukan bagaimana setiap objek diharapkan bergerak (yang membosankan, tidak praktis, dan membuang-buang waktu), model akan memahami hal ini.”

Namun pembuatan video yang lebih baik hanyalah puncak gunung es untuk model global. Para peneliti, termasuk kepala ilmuwan AI Meta, Yann LeCun, mengatakan bahwa model tersebut suatu hari nanti dapat digunakan untuk peramalan dan perencanaan yang canggih baik di bidang digital maupun fisik.

di sebuah bicara Awal tahun ini, LeCun menjelaskan bagaimana model dunia dapat membantu mencapai tujuan yang diinginkan melalui penalaran. Sebuah model dengan representasi dasar dari “dunia” (misalnya, video ruangan kotor), diberi tujuan (ruangan bersih), dapat merancang serangkaian tindakan untuk mencapai tujuan tersebut (menerapkan penyedot debu untuk menyapu, membersihkan mencuci piring, membuang sampah) bukan karena itu adalah pola yang telah Anda amati, namun karena Anda tahu lebih dalam bagaimana mengubah dari kotor menjadi bersih.

“Kita membutuhkan mesin yang memahami dunia; [machines] bahwa mereka dapat mengingat sesuatu, mereka memiliki intuisi, bahwa mereka memiliki akal sehat, hal-hal yang dapat bernalar dan merencanakan pada tingkat yang sama dengan manusia,” kata LeCun. “Terlepas dari apa yang mungkin Anda dengar dari beberapa orang yang paling antusias, sistem AI saat ini tidak mampu melakukan semua hal ini.”

Meskipun LeCun memperkirakan bahwa kita setidaknya berjarak satu dekade lagi dari model dunia yang ia impikan, model dunia saat ini menjanjikan sebagai simulator fisika dasar.

OpenAI Sora Minecraft
Sora mengontrol pemain di Minecraft dan mewakili dunia. Kredit gambar:Buka AI

OpenAI mencatat dalam blognya bahwa Sora, yang dianggap sebagai model dunia, dapat mensimulasikan tindakan seperti seorang pelukis yang meninggalkan sapuan kuas di atas kanvas. Model seperti Sora… dan Sora diri — sebenarnya juga bisa mensimulasikan video pertandingan. Misalnya, Sora dapat mewakili antarmuka pengguna dan dunia permainan yang mirip dengan Minecraft.

Model dunia masa depan dapat menghasilkan dunia 3D sesuai permintaan untuk game, fotografi virtual, dan banyak lagi, kata salah satu pendiri World Labs Justin Johnson dalam sebuah pernyataan. episode dari podcast a16z.

“Kami sudah memiliki kemampuan untuk menciptakan dunia virtual dan interaktif, namun hal ini membutuhkan biaya ratusan juta dolar dan banyak waktu pengembangan,” kata Johnson. “[World models] Ini akan memungkinkan Anda tidak hanya mendapatkan gambar atau klip, tetapi juga dunia 3D yang sepenuhnya disimulasikan, dinamis, dan interaktif.”

Hambatan yang tinggi

Meskipun konsepnya menarik, banyak tantangan teknis yang menghalanginya.

Pelatihan dan menjalankan model dunia memerlukan daya komputasi yang sangat besar, bahkan dibandingkan dengan jumlah yang saat ini digunakan oleh model generatif. Meskipun beberapa model bahasa terbaru dapat dijalankan pada ponsel cerdas modern, Sora (mungkin salah satu model pertama di dunia) memerlukan ribuan GPU untuk dilatih dan dijalankan, terutama jika penggunaannya sudah menjadi hal yang umum.

Model dunia, seperti semua model AI, juga demikian berhalusinasi – dan internalisasikan bias dalam data pelatihan Anda. Model global yang sebagian besar dilatih menggunakan video cuaca cerah di kota-kota Eropa, misalnya, mungkin kesulitan memahami atau mewakili kota-kota di Korea yang kondisinya bersalju, atau mungkin melakukan kesalahan dalam memahaminya.

Kurangnya data pelatihan secara umum dapat memperburuk masalah ini, kata Mashrabov.

“Kami telah melihat pola yang sangat terbatas pada generasi orang dari tipe atau ras tertentu,” katanya. “Data pelatihan untuk model global harus cukup luas untuk mencakup beragam skenario, tetapi juga sangat spesifik di mana AI dapat memahami secara mendalam nuansa skenario tersebut.”

Baru-baru ini suratCristóbal Valenzuela, CEO startup AI Runway, mengatakan masalah data dan rekayasa menghalangi model saat ini untuk secara akurat menangkap perilaku penghuni dunia (misalnya manusia dan hewan). “Model perlu menghasilkan peta lingkungan yang konsisten,” katanya, “dan kemampuan untuk bernavigasi dan berinteraksi di lingkungan tersebut.”

OpenAI Sora
Sebuah video yang dibuat oleh Sora. Kredit gambar:Buka AI

Namun, jika semua kendala utama dapat diatasi, Mashrabov yakin model-model dunia dapat “lebih solid” menghubungkan AI dengan dunia nyata, sehingga menghasilkan kemajuan tidak hanya dalam generasi dunia virtual namun juga dalam bidang robotika dan pengambilan keputusan dengan AI.

Mereka juga bisa menghasilkan robot yang lebih mampu.

Robot masa kini terbatas dalam apa yang dapat mereka lakukan karena mereka tidak memiliki kesadaran terhadap dunia di sekitar mereka (atau tubuh mereka sendiri). Model-model dunia dapat memberi mereka kesadaran tersebut, kata Mashrabov, setidaknya sampai batas tertentu.

“Dengan model dunia yang canggih, AI dapat mengembangkan pemahaman pribadi tentang skenario apa pun yang dihadapinya,” katanya, “dan mulai memikirkan solusi yang mungkin dilakukan.”

TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.

Cerita ini pertama kali diterbitkan pada 28 Oktober 2024 dan diperbarui pada 14 Desember 2024 dengan pembaruan baru tentang Sora.

Sumber