Google mempresentasikan generasi berikutnya dari model buatan (AI) model generasi gambar dan gambar pada hari Selasa di acara E/S 2025. Doublados Image 4 dan saya melihat 3, model AI multimodal ini tiba dengan kemampuan baru dan pembaruan tentang pendahulunya. Sementara Image 4 menyajikan waktu pembuatan yang lebih cepat dan representasi teks yang lebih baik, saya melihat 3 memperoleh kapasitas pembuatan audio asli dan dapat mengintegrasikan suara latar belakang dan dialog dalam video yang dihasilkan. Bersama dengan model -model baru, raksasa teknologi ini juga menyajikan aplikasi film baru dengan makanan terlipat.
Apa yang baru dalam gambar 4 dan saya melihat 3?
Di dalam BlogRaksasa teknologi yang didasarkan pada tampilan gunung merinci model -model baru dari generasi gambar dan video. Gambar 4 tiba hampir setahun setelah pendahulunya dirilis. Pada bulan Desember 2024, Google juga diluncurkan saya melihat 2 dan gambar 3 yang diperbarui dengan kemampuan baru.
Sekarang, dengan Image 4, perusahaan berfokus pada kecepatan generasi dan ketepatan model. Mirip dengan generasi sebelumnya, model gambar terbaru juga mendukung teks dan gambar sebagai entri. Gambar yang dihasilkan adalah saksi perbaikan dengan menambahkan detail halus, seperti kain rumit, tetesan air dan kulit hewan dalam gambar. Anda juga dapat menghasilkan gambar yang jauh lebih cepat daripada pendahulu Anda.
Google mengatakan bahwa gambar 4 juga dapat menghasilkan gambar yang lebih baik dalam fotorealisme dan gaya abstrak. Ini menghasilkan jalan keluar dalam berbagai hubungan aspek dan resolusi hingga 2K. Selain itu, perusahaan telah melakukan perbaikan dalam representasi teks dengan berfokus pada ejaan kata dan tipografi. Model ini sekarang lebih sadar akan konteks pada lokasi teks, pilihan ukuran sumber, serta pengambilan keputusan kreatif pada gaya sumber.
Gambar 4 saat ini tersedia di aplikasi Gemini, Whisk, Vertex AI (untuk perusahaan) dan di semua aplikasi ruang kerja seperti dokumen, slide, video dan banyak lagi. Tidak jelas apakah Google berencana untuk memperluas model ke semua pengguna Gemini atau hanya untuk pelanggan yang dibayarkan. Akhir tahun ini, perusahaan juga berencana untuk meluncurkan versi model AI yang dapat menghasilkan gambar 10 kali lebih cepat dari gambar 3.
Setelah tiba di I See 3, model pembuatan video Google terbaru sekarang hadir dengan generasi audio asli, dan dapat menggabungkan suara lingkungan, kebisingan latar belakang, dan video dalam video. Dalam demonstrasi yang ditunjukkan dalam acara E/S 2025, dua karakter animasi dapat berbicara satu sama lain dengan suara yang jelas dan alami.
Selain itu, saya melihat 3 juga membawa peningkatan dalam adhesi yang cepat, fisika dunia nyata dan sinkronisasi bibir yang tepat. Saat ini tersedia untuk pelanggan Google AI Ultra di AS Gemini Aplikasi dan aliran yang disebut Aplikasi yang baru diperkenalkan. Perusahaan dapat mengaksesnya melalui platform AI Vertex.
Aliran adalah alat film yang memanfaatkan model Gemini, gambar dan lihat. Pengguna dapat menggambarkan klip video menggunakan indikasi bahasa alami, dan aplikasi dapat menghasilkan video panjang delapan detik. Dikatakan bahwa aplikasi ini memiliki adhesi cepat yang besar, dan dapat menghasilkan kerangka kerja wajib yang konsisten, lokasi, objek dan gaya. Ini tersedia untuk pelanggan Google AI Pro dan Ultra Plan di AS.