OpenAI tidak pernah mengungkapkan secara pasti data apa yang digunakan untuk melatih Sora, AI penghasil videonya. Namun dari kelihatannya, setidaknya sebagian data mungkin berasal dari aliran Twitch dan tutorial game.
Sora dirilis pada hari Senin dan saya telah memainkannya sedikit (sejauh masalah kapasitas memungkinkan). Dari pesan teks atau gambar, Sora dapat menghasilkan video berdurasi hingga 20 detik dalam berbagai aspek rasio dan resolusi.
Saat OpenAI pertama kali terungkap Sora pada bulan Februari menyinggung pelatihan model dalam video Minecraft. Jadi, saya bertanya-tanya, video game apa lagi yang mungkin ada di set pelatihan?
Tampaknya cukup banyak.
Sora dapat membuat video yang pada dasarnya merupakan tiruan Super Mario Bros (jika bermasalah):
Anda dapat membuat cuplikan gameplay penembak orang pertama yang terlihat terinspirasi oleh Call of Duty dan Counter-Strike:

Dan Anda dapat menampilkan klip yang menampilkan petarung arcade ala game Teenage Mutant Ninja Turtle dari tahun 90an:

Sora juga tampaknya memahami seperti apa aliran Twitch seharusnya, menyiratkan bahwa dia telah melihat beberapa aliran. Lihatlah tangkapan layar di bawah ini, yang secara umum benar:

Hal lain yang perlu disebutkan tentang tangkapan layar: ini menunjukkan gambar streamer Twitch populer Raúl Álvarez Genes, yang bernama Auronplay, hingga tato di lengan kiri Genes.
Auronplay bukan satu-satunya streamer Twitch yang tampaknya “dikenal” oleh Sora. Dia membuat video karakter yang penampilannya mirip (dengan beberapa kebebasan artistik) dengan Imane Anys, lebih dikenal sebagai Pokimane.

Tentu saja, saya harus berkreasi dengan beberapa petunjuknya (misalnya, “Permainan tukang ledeng Italia”). OpenAI telah menerapkan filter untuk mencegah Sora membuat klip yang menggambarkan karakter bermerek dagang. Jika Anda mengetik sesuatu seperti “Game Mortal Kombat 1”, misalnya, Anda tidak akan mendapatkan apa pun yang mendekati judulnya.
Namun pengujian saya menunjukkan bahwa konten game mungkin telah masuk ke dalam data pelatihan Sora.
OpenAI sangat berhati-hati dalam menentukan dari mana ia mendapatkan data pelatihan. di sebuah wawancara Dalam sebuah wawancara dengan The Wall Street Journal pada bulan Maret, CTO OpenAI saat itu, Mira Murati, tidak langsung menyangkal bahwa Sora menerima pelatihan tentang konten YouTube, Instagram, dan Facebook. dan di spesifikasi teknis Bagi Sora, OpenAI mengakui bahwa mereka menggunakan data yang “tersedia untuk umum”, bersama dengan data berlisensi dari perpustakaan media stok seperti Shutterstock, untuk mengembangkan Sora.
OpenAI awalnya tidak menanggapi permintaan komentar. Namun tak lama setelah cerita ini dipublikasikan, perwakilan PR mengatakan mereka akan “memeriksanya dengan tim”.
Jika konten game tersebut memang ada dalam set pelatihan Sora, hal ini dapat menimbulkan implikasi hukum, terutama jika OpenAI membangun pengalaman yang lebih interaktif di atas Sora.
“Perusahaan yang menggunakan rekaman video game tanpa izin menghadapi banyak risiko,” Joshua Weigensberg, pengacara kekayaan intelektual di Pryor Cashman, mengatakan kepada TechCrunch. “Melatih model AI generatif biasanya melibatkan penyalinan data pelatihan. “Jika data tersebut adalah pemutaran video game, kemungkinan besar materi berhak cipta akan disertakan dalam set pelatihan.”
Model probabilistik
Model AI generatif seperti Sora bersifat probabilistik. Dilatih pada sejumlah besar data, mereka mempelajari pola dalam data tersebut untuk membuat prediksi; misalnya seseorang yang menggigit hamburger akan meninggalkan bekas gigitan.
Ini adalah properti yang berguna. Hal ini memungkinkan model untuk “mempelajari” bagaimana dunia bekerja, sampai batas tertentu, dengan mengamatinya. Tapi itu juga bisa menjadi kelemahan. Jika diminta dengan cara tertentu, model (banyak di antaranya dilatih menggunakan data web publik) menghasilkan hampir salinan dari contoh pelatihannya.

Dapat dimengerti bahwa hal ini membuat marah para pembuat konten yang karyanya dimasukkan ke dalam daftar tanpa izin mereka. Semakin banyak orang yang mencari solusi melalui sistem peradilan.
Microsoft dan OpenAI saat ini sedang terdakwa karena diduga mengizinkan alat AI-nya memuntahkan kode berlisensi. Tiga perusahaan di balik aplikasi AI artistik yang populer, Midjourney, Runway, dan Stability AI, ada di pasar. garis bidik dari kasus yang menuduh mereka melanggar hak artis. Dan label rekaman besar pun memilikinya gugatan diajukan terhadap dua startup yang mengembangkan generator lagu bertenaga AI, Udio dan Suno, karena pelanggaran.
Banyak perusahaan AI telah lama mengklaim perlindungan penggunaan wajar, mengklaim bahwa model mereka menciptakan karya transformatif, bukan plagiarisme. Suno berpendapat, misalnya, bahwa pelatihan sembarangan tidak ada bedanya dengan “seorang anak menulis lagu rocknya sendiri setelah mendengar genre tersebut.”
Namun ada pertimbangan unik tertentu mengenai konten game, kata Evan Everist, pengacara hak cipta Dorsey & Whitney.
“Video gameplay melibatkan setidaknya dua lapisan perlindungan hak cipta: konten game sebagai milik pengembang game dan video unik yang dibuat oleh pemain atau videografer yang menangkap pengalaman pemain,” kata Everist kepada TechCrunch melalui email. “Dan untuk beberapa game, terdapat potensi hak lapisan ketiga dalam bentuk konten buatan pengguna yang muncul di perangkat lunak.”
Everist mencontohkan Epic fortniteyang memungkinkan pemain membuat peta permainan mereka sendiri dan membagikannya untuk digunakan orang lain. Reproduksi video dari salah satu peta ini akan mempengaruhi tidak kurang dari tiga pemegang hak cipta, katanya: (1) Epic, (2) orang yang menggunakan peta tersebut dan (3) pembuat peta.

“Jika pengadilan menyatakan tanggung jawab hak cipta untuk pelatihan model AI, masing-masing pemegang hak cipta ini akan menjadi penggugat atau pemberi lisensi potensial,” kata Everist. “Bagi pengembang mana pun yang melatih AI pada jenis video ini, paparan risikonya sangat besar.”
Weigensberg mencatat bahwa game itu sendiri memiliki banyak elemen yang “dapat dilindungi”, seperti tekstur kepemilikan, yang dapat dipertimbangkan oleh hakim dalam gugatan kekayaan intelektual. “Kecuali karya-karya ini memiliki izin yang sesuai,” katanya, “pelatihan tentang karya-karya tersebut mungkin melanggar peraturan.”
TechCrunch menghubungi beberapa studio dan penerbit game untuk memberikan komentar, termasuk Epic, Microsoft (pemilik Minecraft), Ubisoft, Nintendo, Roblox, dan pengembang Cyberpunk CD Projekt Red.
“Kami tidak dapat berpartisipasi dalam wawancara saat ini,” kata juru bicara CD Projekt Red kepada TechCrunch, “belum ada komentar untuk saat ini.”
Tamasya yang berisiko
Ada kemungkinan bahwa perusahaan AI akan menang dalam sengketa hukum ini. Pengadilan dapat memutuskan bahwa AI generatif memiliki “tujuan transformatif yang sangat menarik,” setelah keputusan tersebut mendahului ditetapkan sekitar satu dekade lalu dalam gugatan industri penerbitan terhadap Google.
Dalam kasus tersebut, pengadilan memutuskan bahwa penyalinan jutaan buku oleh Google untuk Google Buku, sejenis arsip digital, diperbolehkan. Para penulis dan penerbit telah berusaha untuk menyatakan bahwa reproduksi kekayaan intelektual mereka secara online merupakan pelanggaran.
Namun keputusan yang mendukung perusahaan AI tidak serta merta melindungi pengguna dari tuduhan melakukan kesalahan. Jika model generatif memuntahkan sebuah karya berhak cipta, orang yang kemudian menerbitkan karya tersebut (atau memasukkannya ke dalam proyek lain) masih dapat dianggap bertanggung jawab atas pelanggaran kekayaan intelektual.
“Sistem AI generatif sering kali menghasilkan aset kekayaan intelektual yang dapat dikenali dan dilindungi,” kata Weigensberg. “Sistem yang lebih sederhana yang menghasilkan teks atau gambar statis sering kali mengalami masalah dalam menghindari pembuatan materi berhak cipta dalam produksinya, sehingga sistem yang lebih kompleks dapat memiliki masalah yang sama tidak peduli apa niat pemrogramnya”.

Beberapa perusahaan AI memilikinya klausul kompensasi untuk menutupi situasi ini, jika situasi tersebut muncul. Namun klausulnya sering kali mengandung pengecualian. Misalnya, OpenAI Hanya berlaku untuk klien korporat. – bukan pengguna individu.
Ada juga risiko selain hak cipta yang perlu dipertimbangkan, kata Weigensberg, seperti pelanggaran hak merek dagang.
“Hasilnya juga dapat mencakup aset yang digunakan sehubungan dengan pemasaran dan branding, termasuk karakter permainan yang dapat dikenali, sehingga menciptakan risiko merek,” katanya. “Atau hasilnya bisa menimbulkan risiko terhadap hak nama, gambar, dan kemiripan.”
Meningkatnya minat terhadap model dunia bisa membuat semua ini semakin rumit. Salah satu penerapan model dunia, yang dianggap OpenAI sebagai Sora, pada dasarnya adalah menghasilkan video game secara real-time. Jika game “sintetis” ini mirip dengan konten yang digunakan model untuk dilatih, hal ini dapat menimbulkan masalah hukum.
“Melatih platform kecerdasan buatan dengan suara, gerakan, karakter, lagu, dialog, dan karya seni video game merupakan pelanggaran hak cipta, sama seperti jika elemen-elemen ini digunakan dalam konteks lain,” kata Avery Williams, pengacara litigasi kekayaan intelektual. di McKool. kata Smith. “Pertanyaan penggunaan wajar yang muncul dalam banyak tuntutan hukum terhadap perusahaan AI generatif akan berdampak pada industri video game sama seperti pasar kreatif lainnya.”