Breaking News

‘Insane’: Openai menyajikan generasi gambar asli GPT-4O dan sudah memikat pengguna

‘Insane’: Openai menyajikan generasi gambar asli GPT-4O dan sudah memikat pengguna


Bergabunglah dengan buletin harian dan mingguan kami untuk mendapatkan pembaruan terbaru dan konten eksklusif tentang liputan pemimpin industri. Dapatkan informasi lebih lanjut


Kami tiba pada peringatan satu tahun sejak Operai meluncurkan model “omni” atau multimodal pertamanya, GPT-4O pada Mei 2024, tetapi negara tua itu masih memiliki beberapa trik di bawah lengan.

Casing di titik, hari ini Operai akhirnya menyalakan kemampuan pembuatan gambar multimodal asli GPT-4O untuk pengguna chatbot chatgpt yang sukses di tingkat plus, profesional, peralatan, dan penggunaan gratis, meskipun perusahaan mengatakan bahwa segera juga akan tersedia untuk perusahaan, EDU yang sudah melalui antarmuka pemrograman aplikasi (API).

Berbeda dengan model gambar generatif sebelumnya yang tersedia di chatgpt – Dall-e 3 dari openaiModel transformator difusi klasik yang dilatih untuk membangun kembali gambar dari indikasi teks dengan menghilangkan kebisingan piksel: generator gambar baru ini adalah bagian dari model yang sama yang meludahkan teks dan kode, karena OpenAI melatih seluruh model untuk memahami semua bentuk media ini pada saat yang sama.

Presiden Operai Greg Brockman Dia sudah lama sekali kapasitas GPT-4O asli ini pada bulan Mei 2024, tetapi karena alasan yang masih belum diketahui secara publik, perusahaan menempel sejauh ini, setelah rilis publik tentang apa yang dilihat oleh banyak pengguna IA sebagai karakteristik yang sama dari Google AI Studio dengan model eksperimental Gemini 2 Flash.

Ini telah menghasilkan generator gambar berkualitas lebih tinggi yang menghasilkan banyak gambar yang lebih realistis dan teks panggang yang tepat, dan sudah mengesankan pengguna, salah satunya membutuhkan kualitas “gila. “

Demikian pula (Word Game), Openai belum mengatakan secara tepat dalam data apa yang dilatih kapasitas generasi GPT-4O, dan mengingat sejarah perusahaan dan pemasok model lainnya, itu mungkin termasuk banyak karya seni yang dikikis dari web, beberapa di antaranya mungkin memiliki hak cipta, yang mungkin akan marah pada para seniman di belakang mereka.

Bawa Generasi Gambar ke Chatgpt dan Sora

Openai bertujuan untuk menjadikan generasi gambar sebagai kapasitas sentral dari model AI -nya. Dengan GPT-4O, pengguna sekarang dapat menghasilkan gambar secara langsung di ChatGPT, menyempurnakannya melalui percakapan dan menyesuaikan detail pada pawai.

Model ini juga terintegrasi di Sora, platform video gosip video OpenAI, lebih lanjut memperluas kemampuan multimodal.

Dalam sebuah iklan di X, Operai mengkonfirmasi bahwa generasi gambar GPT-4O dirancang untuk:

  • Hentikan teks dengan presisi dalam gambar, memungkinkan pembuatan tanda, menu, undangan dan infografis.
  • Ikuti indikasi kompleks dengan presisi, mempertahankan kesetiaan tinggi bahkan dalam komposisi terperinci.
  • Bangun gambar dan teks sebelumnya, memastikan konsistensi visual dalam beberapa interaksi.
  • Ini mendukung beberapa gaya artistik, dari fotorealisme hingga ilustrasi bergaya.

Pengguna dapat menggambarkan gambar di chatgpt, menentukan detail seperti rasio penampilan, skema warna (kode heksadesimal) atau transparansi, dan GPT-4O akan menghasilkannya dalam satu menit.

Seperti yang ditulis oleh konsultan independen IA Allie K. Miller dalam X, itu adalah “Lompatan besar dalam generasi teks“Dan itu adalah model” terbaik “dari generasi gambar IA yang telah Anda lihat.

Kemampuan utama dan kasus penggunaan

GPT-4O dirancang untuk membuat generasi gambar tidak hanya mengesankan secara visual tetapi juga praktis. Beberapa aplikasi utama meliputi:

  • Desain dan Merek: Hasilkan logo, poster, dan iklan dengan penempatan teks yang tepat.
  • Pendidikan dan Visualisasi: Buat diagram ilmiah, infografis, dan gambar historis untuk belajar.
  • Pengembangan Game: Pertahankan konsistensi karakter dalam iterasi desain yang berbeda.
  • Pemasaran dan Pembuatan Konten: Menghasilkan aset media sosial, undangan acara, dan ilustrasi digital yang disesuaikan dengan kebutuhan merek.

Bagaimana GPT-4O meningkatkan gambar generatif di Dall-E

Menurut utas Openai resmi di X, GPT-4O menyajikan beberapa peningkatan pada model sebelumnya:

  • Integrasi teks yang lebih baik: Tidak seperti model masa lalu yang bertarung dengan teks yang dapat dibaca dan berlokasi baik, GPT-4O sekarang dapat dengan tepat menyematkan kata-kata di dalam gambar.
  • Peningkatan pemahaman kontekstual: GPT-4O mengambil keuntungan dari riwayat obrolan, memungkinkan pengguna untuk memperbaiki gambar secara interaktif dan mempertahankan koherensi dalam beberapa generasi.
  • Tautan beberapa objek yang ditingkatkan: Sementara model sebelumnya mengalami kesulitan untuk memposisikan banyak objek yang berbeda dalam suatu adegan, GPT-4O sekarang dapat menangani hingga 10-20 objek secara bersamaan.
  • Adaptasi Gaya Serbaguna: Model ini dapat menghasilkan atau mengubah gambar menjadi berbagai gaya, dari sketsa yang digambar tangan hingga fotorealisme resolusi tinggi.

Batasan

Terlepas dari kemajuannya, GPT-4O masih memiliki beberapa tantangan yang diketahui:

  • Masalah pemotongan: Gambar besar, seperti poster, terkadang bisa memotong terlalu banyak.
  • Presisi teks dalam skrip non -Latin: Beberapa karakter yang bukan bahasa Inggris mungkin tidak membayar dengan benar.
  • Detail dalam teks kecil: Teks sumber yang sangat rinci atau kecil mungkin kehilangan kejelasan.
  • Presisi Edisi: Modifikasi bagian spesifik suatu gambar secara tidak sengaja dapat mempengaruhi elemen lain.

Operai secara aktif mengatasi masalah ini melalui penyempurnaan yang sedang berlangsung.

Tindakan keamanan dan pelabelan

Sebagai bagian dari komitmen Openai untuk pengembangan AI yang bertanggung jawab, semua gambar yang dihasilkan oleh GPT-4O termasuk C2PA metadata, yang memungkinkan pengguna untuk memverifikasi asal AI mereka.

Selain itu, OpenAI telah membuat alat pencarian internal untuk membantu mendeteksi gambar yang dihasilkan oleh AI.

Ada pelindung ketat untuk memblokir konten berbahaya dan menghindari penyalahgunaan, seperti melarang gambar eksplisit, menyesatkan atau berbahaya.

Operai juga memastikan bahwa gambar dengan orang sungguhan tunduk pada batasan yang lebih tinggi.

CEO Operai, Sam Altman, dijelaskan Peluncuran sebagai “merek air tinggi baru untuk kebebasan kreatif”, menekankan bahwa pengguna dapat membuat berbagai macam gambar, dengan Openai mengamati dan memperbaiki pendekatan mereka berdasarkan penggunaan dunia nyata.

Karena gambar yang dihasilkan oleh AI menjadi lebih tepat dan dapat diakses, GPT-4O mewakili langkah maju yang signifikan untuk menjadikan pembuatan gambar sebagai alat konvensional untuk komunikasi, kreativitas, dan produktivitas.


Sumber