Pada hari Sabtu, tiga kali lipat CEO Oleksandr Tomchuk diberitahu bahwa situs e-commerce perusahaannya tidak aktif. Tampaknya itu semacam serangan penolakan layanan terdistribusi.
Dia segera mengetahui bahwa pelakunya adalah bot OpenAI yang tanpa lelah mencoba mengikis seluruh situs besarnya.
“Kami memiliki lebih dari 65.000 produk, setiap produk memiliki halaman,” kata Tomchuk kepada TechCrunch. “Setiap halaman memiliki setidaknya tiga foto.”
OpenAI mengirimkan “puluhan ribu” permintaan ke server untuk mencoba mengunduh semuanya, ratusan ribu foto, beserta deskripsi detailnya.
“OpenAI menggunakan 600 IP untuk mengekstrak data, dan kami masih menganalisis log dari minggu lalu, mungkin masih banyak lagi,” katanya tentang alamat IP yang digunakan bot untuk mencoba menggunakan situsnya.
“Perayap mereka menghancurkan situs kami,” katanya. “Itu pada dasarnya adalah serangan DDoS.”
Situs web Triplegangers adalah bisnis Anda. Perusahaan, yang memiliki tujuh karyawan, telah menghabiskan lebih dari satu dekade menyusun apa yang disebutnya sebagai database terbesar “manusia digital ganda” di web – yaitu, file gambar 3D yang dipindai dari model manusia nyata.
Jual file objek 3D serta foto (dari tangan hingga rambut, kulit, dan seluruh tubuh) kepada seniman 3D, pembuat video game, dan siapa saja yang perlu membuat ulang fitur manusia asli secara digital.
Tim Tomchuk, yang berbasis di Ukraina tetapi juga memiliki lisensi di AS dari Tampa, Florida, memiliki halaman ketentuan layanan di situs mereka yang melarang bot mengambil gambar Anda tanpa izin. Tapi itu saja tidak menghasilkan apa-apa. Situs web harus menggunakan file robot.txt yang dikonfigurasi dengan benar dengan tag yang secara khusus memberi tahu robot OpenAI, GPTBot, untuk meninggalkan situs tersebut. (OpenAI juga memiliki beberapa bot lain, ChatGPT-User dan OAI-SearchBot, yang memiliki tagnya sendiri, menurut halaman informasi mereka tentang pelacak mereka.)
Robot.txt, juga dikenal sebagai Protokol Pengecualian Robot, dibuat untuk memberi tahu situs mesin pencari apa yang tidak boleh dirayapi saat mengindeks web. OpenAI mengatakan pada halaman informasinya bahwa mereka menghormati file-file tersebut ketika mereka dikonfigurasikan dengan kumpulan label jangan-perayapannya sendiri, meskipun ia juga memperingatkan bahwa dibutuhkan waktu hingga 24 jam bagi botnya untuk mengenali file robot.txt yang diperbarui. .
Seperti yang dialami Tomchuk, jika sebuah situs tidak menggunakan robot.txt dengan benar, OpenAI dan pihak lain akan menafsirkannya sebagai bahwa mereka dapat melakukannya sepuasnya. Ini bukan sistem opt-in.
Yang lebih parah lagi, Triplegangers tidak hanya dibuat offline oleh bot OpenAI selama jam kerja AS, namun Tomchuk mengharapkan peningkatan tagihan AWS berkat semua CPU bot dan aktivitas pengunduhan.
Robot.txt juga tidak aman dari kegagalan. Perusahaan AI mematuhinya secara sukarela. Startup AI lainnya, Perplexity, terungkap musim panas lalu dalam investigasi Wired ketika beberapa bukti menyiratkan bahwa tidak ada kebingungan menghormatinya.
Saya tidak tahu pasti apa yang diambil.
Pada hari Rabu, beberapa hari setelah bot OpenAI kembali, Triplegangers memiliki file robot.txt yang dikonfigurasi dengan benar dan juga akun Cloudflare dikonfigurasi untuk memblokir GPTBotnya dan beberapa bot lain yang ditemukannya, seperti Barkrowler (perayap SEO) dan Bytespider (pelacak Tokyo) . Tomchuk juga berharap bisa memblokir pelacak dari perusahaan pemodelan AI lainnya. Hingga Kamis pagi, situs tersebut tidak mogok, katanya.
Namun Tomchuk masih belum memiliki cara yang masuk akal untuk mengetahui secara pasti apa yang berhasil diambil oleh OpenAI atau menghapus materi tersebut. Dia tidak menemukan cara untuk menghubungi OpenAI dan bertanya. OpenAI tidak menanggapi permintaan komentar TechCrunch. Dan OpenAI sejauh ini gagal memberikan alat penyisihan yang telah lama dijanjikanseperti yang dilaporkan TechCrunch baru-baru ini.
Ini adalah masalah yang sangat rumit bagi Tripleganger. “Kami berada dalam bisnis di mana hak asasi manusia merupakan isu yang serius, karena kami memindai orang-orang di dunia nyata,” katanya. Dengan undang-undang seperti GDPR Eropa, “mereka tidak bisa begitu saja mengambil foto siapa pun di web dan menggunakannya.”
Situs web Triplegangers juga merupakan penemuan yang sangat menyenangkan bagi pelacak AI. Startup bernilai miliaran dolar, seperti Scale AItelah diciptakan di mana manusia dengan susah payah memberi label pada gambar untuk melatih AI. Situs Triplegangers berisi foto-foto yang diberi label secara detail: etnis, usia, tato vs. bekas luka, semua tipe tubuh, dll.
Ironisnya, keserakahan robot OpenAI inilah yang mengingatkan Tripleganger akan betapa terbukanya robot tersebut. Jika dia menggoresnya dengan lebih hati-hati, Tomchuk tidak akan pernah mengetahuinya, katanya.
“Ini menakutkan karena tampaknya ada celah yang digunakan perusahaan-perusahaan ini untuk melacak data dengan mengatakan ‘Anda dapat memilih untuk tidak memperbarui robot.txt Anda dengan tag kami,'” kata Tomchuk, namun hal ini membebani pemilik bisnis untuk memahami cara memblokirnya.

Dia ingin bisnis online kecil lainnya mengetahui bahwa satu-satunya cara untuk mengetahui apakah bot AI mengambil properti berhak cipta dari sebuah situs web adalah dengan mencari secara aktif. Dia tentu bukan satu-satunya yang merasa takut pada mereka. Pemilik situs web lain baru-baru ini berkata Informasi bisnis orang dalam bagaimana bot OpenAI merusak situs Anda dan meningkatkan tagihan AWS Anda.
Masalahnya semakin besar pada tahun 2024. Penelitian baru dari perusahaan periklanan digital DoubleVerify menemukan pelacak AI itu dan scraper menyebabkan peningkatan sebesar 86% pada “lalu lintas tidak valid umum” pada tahun 2024, yaitu lalu lintas yang tidak berasal dari pengguna sebenarnya.
Namun, “sebagian besar situs tidak menyadari bahwa mereka telah dihapus oleh bot ini,” Tomchuk memperingatkan. “Sekarang kami harus memantau aktivitas log setiap hari untuk mendeteksi robot-robot ini.”
Jika Anda memikirkannya, keseluruhan model bekerja seperti pemerasan mafia: bot AI akan mengambil apa pun yang mereka inginkan kecuali Anda memiliki perlindungan.
“Mereka harus meminta izin, bukan hanya mengambil data,” kata Tomchuk.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.