Breaking News

Google DeepMind menghadirkan model video baru untuk menyaingi Sora

Google DeepMind menghadirkan model video baru untuk menyaingi Sora

Google DeepMind, laboratorium penelitian AI utama Google, ingin mengalahkan OpenAI dalam permainan pembuatan video, dan mungkin akan berhasil, setidaknya untuk sementara.

Pada hari Senin, DeepMind mengumumkan Veo 2, AI penghasil video generasi berikutnya dan penerusnya Jadi begituyang memberi makan a pertumbuhan nomor produk di seluruh portofolio Google. Veo 2 dapat membuat klip berdurasi lebih dari dua menit dalam resolusi hingga 4K (4096 x 2160 piksel).

Khususnya, resolusinya 4 kali lipat dan durasinya lebih dari 6 kali lipat, menurut OpenAI. sora dapat mencapai.

Tentu saja, ini merupakan keuntungan teoretis untuk saat ini. Dalam alat pembuatan video eksperimental Google, VideoFX, di mana Veo 2 kini tersedia secara eksklusif, video dibatasi pada 720p dan durasi delapan detik. (Sora dapat menghasilkan klip hingga 1080p dan berdurasi 20 detik.)

Saya melihat 2 di VideoFX.Kredit gambar:Google

VideoFX berada di belakang daftar tunggu, tetapi Google mengatakan pihaknya menambah jumlah pengguna yang dapat mengaksesnya minggu ini.

Eli Collins, wakil presiden produk di DeepMind, juga mengatakan kepada TechCrunch bahwa Google akan menyediakan Veo 2 melalui Verteks AI platform pengembangan “saat model siap digunakan dalam skala besar.”

“Selama beberapa bulan ke depan, kami akan terus melakukan iterasi berdasarkan masukan pengguna,” kata Collins, “dan [we’ll] berupaya mengintegrasikan kemampuan Veo 2 yang diperbarui ke dalam kasus penggunaan yang menarik di seluruh ekosistem Google… [W]Kami berharap dapat membagikan lebih banyak pembaruan tahun depan.”

Lebih terkendali

Seperti Veo, Veo 2 dapat menghasilkan video dengan pesan teks (misalnya, “Mobil melaju kencang di jalan raya”) atau teks dan gambar referensi.

Apa yang baru di Veo 2? DeepMind mengatakan model tersebut, yang dapat menghasilkan klip dalam berbagai gaya, memiliki “pemahaman” yang lebih baik tentang fisika dan kontrol kamera, serta menghasilkan gambar yang “lebih jelas”.

Dengan lebih jelas, DeepMind berarti tekstur dan gambar dalam klip lebih tajam, terutama pada adegan dengan banyak gerakan. Adapun kontrol kamera yang ditingkatkan, memungkinkan Veo 2 memposisikan “kamera” virtual dalam video yang dihasilkannya dengan lebih tepat dan menggerakkan kamera tersebut untuk menangkap objek dan orang dari berbagai sudut.

DeepMind juga mengklaim bahwa Veo 2 dapat memodelkan gerakan, dinamika fluida (seperti kopi yang dituangkan ke dalam cangkir), dan sifat cahaya (seperti bayangan dan pantulan) dengan lebih realistis. Itu mencakup lensa dan efek sinematik yang berbeda, kata DeepMind, serta ekspresi manusia yang “bernuansa”.

Google, saya mengerti 2
Contoh Spy Google 2. Harap perhatikan bahwa artefak kompresi diperkenalkan dalam konversi klip ke GIF. Kredit gambar:Google

DeepMind membagikan beberapa sampel Veo 2 yang dipilih sendiri dengan TechCrunch minggu lalu. Untuk video yang dihasilkan AI, tampilannya cukup bagus, bahkan sangat bagus. I Spy 2 tampaknya memiliki pemahaman mendalam tentang pembiasan dan cairan rumit, seperti sirup maple, dan kemampuan untuk meniru animasi gaya Pixar.

Namun meskipun DeepMind bersikeras bahwa model tersebut kecil kemungkinannya berhalusinasi Elemen seperti jari ekstra atau “benda tak terduga”, I Spy 2 tidak dapat membersihkan lembah luar biasa.

Perhatikan mata tak bernyawa pada makhluk kartun mirip anjing ini:

Google, saya mengerti 2
Kredit gambar:Google

Dan anehnya jalan licin dalam rekaman ini, ditambah pejalan kaki di latar belakang yang menyatu satu sama lain dan bangunan dengan fasad yang secara fisik tidak mungkin:

Google, saya mengerti 2
Kredit gambar:Google

Collins mengakui ada pekerjaan yang harus diselesaikan.

“Koherensi dan konsistensi adalah area pertumbuhan,” katanya. “Veo dapat terus-menerus mengikuti perintah selama beberapa menit, namun [it can’t] mematuhi indikasi kompleks dalam jangka panjang. Demikian pula, konsistensi karakter dapat menjadi suatu tantangan. “Ada juga ruang untuk perbaikan dalam menghasilkan detail yang rumit, gerakan yang cepat dan kompleks, serta terus mendorong batas-batas realisme.”

DeepMind terus bekerja dengan seniman dan produser untuk menyempurnakan model dan alat pembuatan videonya, tambah Collins.

“Kami mulai bekerja dengan orang-orang kreatif seperti Donald Glover, The Weeknd, d4vd, dan lainnya di awal pengembangan Veo untuk benar-benar memahami proses kreatif mereka dan bagaimana teknologi dapat membantu mewujudkan visi mereka,” kata Collins. “Pekerjaan kami dengan pencipta Veo 1 menginformasikan pengembangan Veo 2, dan kami berharap dapat bekerja sama dengan pencipta dan penguji tepercaya untuk mendapatkan masukan mengenai model baru ini.”

Keamanan dan pelatihan

Saya melihat 2 dilatih dengan banyak video. Beginilah cara kerja model AI secara umum: berbekal contoh demi contoh beberapa jenis data, model mendeteksi pola dalam data yang memungkinkan model menghasilkan data baru.

DeepMind tidak akan mengatakan secara pasti di mana mereka mengekstrak video untuk melatih Veo 2, tetapi YouTube adalah sumber yang memungkinkan; Google memiliki YouTube dan DeepMind sebelumnya mengatakan kepada TechCrunch bahwa model Google seperti Veo “dapat” dilatih pada beberapa konten YouTube.

“Veo telah dilatih tentang kombinasi video dan deskripsi berkualitas tinggi,” kata Collins. “Pasangan deskripsi video adalah video dan deskripsi terkait tentang apa yang terjadi dalam video itu.”

Google, saya mengerti 2
Kredit gambar:Google

Meskipun DeepMind, melalui Google, menghosting alat yang memungkinkan webmaster mencegah robot lab mengekstraksi data pelatihan dari situs web mereka, DeepMind tidak menawarkan mekanisme yang memungkinkan pembuat konten menghapus pekerjaan dari set pelatihan yang ada. Lab dan perusahaan induknya berpendapat bahwa model pelatihan yang menggunakan data publik adalah penggunaan wajarartinya DeepMind yakin tidak perlu meminta izin dari pemilik data.

Tidak semua materi iklan setuju, terutama dalam hal ini studi Diperkirakan AI dapat mengganggu puluhan ribu pekerjaan di bidang film dan televisi di tahun-tahun mendatang. Beberapa perusahaan AI, termasuk startup eponymous di balik aplikasi seni AI populer Midjourney, sedang dalam proses. garis bidik dari tuntutan menuduh mereka melanggar hak artis dengan membuat konten tanpa persetujuan.

“Kami berkomitmen untuk bekerja sama dengan para pencipta dan mitra kami untuk mencapai tujuan bersama,” kata Collins. “Kami terus bekerja dengan komunitas kreatif dan orang-orang di seluruh industri, mengumpulkan ide dan mendengarkan masukan, termasuk mereka yang menggunakan VideoFX.”

Berkat perilaku model generatif saat ini saat dilatih, model tersebut memiliki risiko tertentu, seperti regurgitasi, yang mengacu pada saat model menghasilkan salinan cermin dari data pelatihan. Solusi DeepMind adalah filter tingkat pesan, bahkan untuk konten kekerasan, grafis, dan eksplisit.

dari google kebijakan kompensasiyang memberikan pembelaan kepada pelanggan tertentu terhadap tuduhan pelanggaran hak cipta yang timbul dari penggunaan produknya, tidak akan berlaku untuk Veo 2 sampai tersedia secara luas, kata Collins.

Google, saya mengerti 2
Kredit gambar:Google

Untuk mengurangi risiko deepfake, DeepMind mengatakan mereka menggunakan teknologi watermarking miliknya, SynthID, untuk menyematkan penanda yang tidak terlihat dalam bingkai yang dihasilkan oleh Veo 2. Namun, seperti semua teknologi watermarking, SynthID itu tidak sempurna.

Pembaruan gambar

Selain Veo 2, Google DeepMind pagi ini mengumumkan pembaruan untuk Gambar 3model pembuatan gambar komersialnya.

Versi baru Image 3 akan dirilis untuk pengguna ImageFX, alat pencitraan Google, mulai Senin. Ini dapat menghasilkan gambar dan foto yang “lebih cerah dan tersusun lebih baik” dalam gaya seperti fotorealisme, impresionisme, dan anime, menurut DeepMind.

“Peningkatan ini [to Imagen 3] Ini juga mengikuti isyarat lebih dekat dan menghasilkan detail dan tekstur yang lebih kaya,” tulis DeepMind dalam postingan blog yang diberikan kepada TechCrunch.

Gambar oleh GoogleFX
Kredit gambar:Google

Pembaruan UI untuk ImageFX sedang diterapkan bersama dengan modelnya. Sekarang, ketika pengguna menulis pesan, istilah kunci dalam pesan tersebut akan menjadi “chiplet” dengan menu drop-down berisi kata-kata yang disarankan dan terkait. Pengguna dapat menggunakan chip untuk mengulangi apa yang telah mereka ketik atau memilih dari deretan deskriptor yang dibuat secara otomatis di bawah pesan.

Sumber