Bluesky sudah menghadapi masalah AI besar pertamanya, meskipun pemiliknya menyatakan bahwa hal itu akan terjadi. jangan pernah melatih AI generatif tentang data pengguna.
Dilaporkan oleh 404Media Pada tanggal 26 November, satu juta postingan publik dari Bluesky, lengkap dengan informasi identifikasi pengguna, dirayapi dan kemudian diunggah ke perusahaan AI Hugging Face. Kumpulan data ini dibuat oleh pustakawan pembelajaran mesin Daniel van Strien dan dimaksudkan untuk digunakan dalam pengembangan model bahasa dan pemrosesan bahasa alami, serta analisis umum tren media sosial, moderasi konten, dan pola penerbitan. Ini berisi pengidentifikasi terdesentralisasi (DID) pengguna dan bahkan memiliki fungsi pencarian untuk menemukan konten dari pengguna tertentu.
Menurut deskripsi kumpulan data, kumpulan tersebut “berisi 1 juta postingan publik yang dikumpulkan dari Firehose API (antarmuka pemrograman aplikasi) Bluesky Social, yang ditujukan untuk penelitian pembelajaran mesin dan eksperimen dengan data media sosial. Setiap postingan berisi konten teks, metadata, dan informasi tentang lampiran dan hubungan respons.”
Kecepatan cahaya yang dapat dihancurkan
Pengguna Bluesky tidak menyetujui penggunaan konten mereka, namun Bluesky juga tidak secara tegas melarangnya. Firehose API platform adalah “aliran kronologis gabungan dari semua pembaruan data publik yang terjadi di seluruh jaringan, termasuk postingan, suka, mengikuti, penanganan perubahan, dan banyak lagi.” Bluesky API, bersama dengan protokol Authenticated Transfer (AT) publik dan terdesentralisasi yang menjadi dasar situs ini, berarti bahwa konten Bluesky terbuka dan tersedia untuk pengembang pihak ketiga yang coba diadili oleh platform tersebut, jelas 404Media.
Penawaran Black Friday yang dapat Anda beli sekarang
Tim pemasaran kami memilih produk yang tersedia untuk dibeli di sini melalui tautan afiliasi. Jika Anda membeli sesuatu melalui tautan di situs kami, Mashable dapat memperoleh komisi afiliasi.
Hal ini bisa menjadi tanda peringatan besar bagi jutaan pengguna baru situs tersebut, banyak di antaranya meninggalkan pesaingnya Kebijakan pelatihan AI yang baru dan mengkhawatirkan.. Perwakilan Bluesky menanggapi permintaan komentar dari 404Media: “Bluesky adalah jaringan sosial publik yang terbuka, seperti situs web di Internet. Sama seperti file robots.txt yang tidak selalu mencegah perusahaan luar merayapi situs tersebut, hal yang sama juga berlaku. di sini Kami ingin menemukan cara bagi pengguna Bluesky untuk berkomunikasi dengan organisasi/pengembang eksternal jika mereka menyetujui hal ini dan jika organisasi eksternal menghormati persetujuan pengguna, dan kami secara aktif mendiskusikan cara mencapai hal ini.”
Tak lama setelah artikel tersebut diterbitkan, kumpulan data tersebut dihapus dari Hugging Face. “Saya menghapus data Bluesky dari repositori. Meskipun saya ingin mendukung pengembangan alat untuk platform, saya menyadari bahwa pendekatan ini melanggar prinsip transparansi dan persetujuan dalam pengumpulan data. Saya minta maaf atas kesalahan ini,” tulis van Strien dalam sebuah menindaklanjuti. -di atas pos langit biru.