Sebuah tim yang terdiri dari lebih dari dua lusin peneliti dari MIT, University of Cornell, University of Toronto dan lembaga -lembaga lain telah melatih model bahasa besar hanya menggunakan data yang memiliki lisensi secara terbuka atau di domain publik, domain publik, itu Washington Post informasiMemberikan rencana untuk mengembangkan teknologi secara etis.
Tapi, seperti yang diakui oleh pencipta, itu jauh mudah
Seperti yang dijelaskan dalam a kertas Diterbitkan minggu ini, menjadi jelas bahwa itu tidak akan menghitung daya mempertahankannya, tetapi orang.
Ini karena teks dalam kumpulan data lebih dari delapan terabyte yang mereka kumpulkan, yang mereka sebut tumpukan umum v0.1, harus dibersihkan dan reformit secara manual untuk melakukannya sesuai untuk pelatihan AI, Wapo Menjelaskan. Kemudian adalah jumlah pekerjaan lembar tambahan yang mengejutkan yang harus dilakukan untuk menggandakan status hak cipta semua data, karena banyak pekerjaan online memiliki lisensi yang salah.
“Ini bukan sesuatu di mana Anda dapat memperluas sumber daya yang Anda miliki”, seperti akses ke lebih banyak chip komputer dan goresan web yang elegan, mempelajari co -othor Stella Biderman, seorang ilmuwan komputer dan direktur eksekutif organisasi nirlaba Eleuther AI, kata Wapo. “Kami menggunakan alat otomatis, tetapi semua barang kami secara manual dicatat pada akhir hari dan mereka yang diverifikasi oleh orang -orang. Dan itu sangat sulit.”
Meski begitu, Biderman dan rekan -rekannya telah melakukan Melakukan pekerjaan itu.
Setelah pengembaraan menyeluruh dari penciptaan tumpukan umum berakhir, mereka menggunakan set data mereka tanpa rasa bersalah untuk melatih LLM tujuh miliar parameter. Hasilnya? AI yang secara mengagumkan membandingkan dengan model industri sebagai panggilan tujuan 1 dan panggilan 2 7B, yang mengesankan, tetapi itu diterbitkan versi lebih dari dua tahun yang lalu. Itu praktis kehidupan dalam karier AI.
Tentu saja, ini dicapai oleh tim tentang RAGTAG dan bukan perusahaan dengan miliaran dolar sumber daya, dan harus mengkompensasi goresan. Temuan yang sangat cerdik adalah seperangkat lebih dari 130.000 buku dalam bahasa Inggris di Perpustakaan Kongres yang telah diabaikan.
Hak cipta tetap menjadi salah satu masalah etika dan hukum terbesar yang datang ke AI. Pemimpin seperti Openai dan Google Burned jumlah data yang tidak terduga Di permukaan web untuk mencapai tempat mereka berada, melahap segala sesuatu mulai dari artikel berita hingga hal -hal invasif seperti publikasi mereka di jejaring sosial. Dan tujuan telah dituntut oleh penulis yang menuduh bahwa dia menggunakan secara ilegal Tujuh juta buku dengan hak cipta yang bajak laut melatih AIS -nya.
Industri teknologi telah membenarkan permintaan data raptornya diskusi bahwa semuanya dianggap sebagai penggunaan yang adil, dan lebih eksistensial, yang akan “mustahil“Kembangkan teknologi ini tanpa calon konten semua orang secara gratis.
Karya terakhir ini adalah penolakan terhadap garis lembah silikon ini, meskipun tidak jelas semua masalah etis. Ini masih merupakan model bahasa yang besar, sebuah teknologi yang secara fundamental ditakdirkan untuk menghancurkan pekerjaan, dan mungkin tidak semua yang pekerjaannya telah berakhir di domain publik akan senang dengan AI yang berangkat kembali oleh AI, jika mereka bukan seniman mati yang hak ciptanya telah berlalu, tentu saja.
Bahkan jika perusahaan AI memerintah dan dilakukan untuk menggunakan hanya bekerja dengan izin atau kompensasi, faktanya, faktanya adalah sementara perusahaan -perusahaan ini dipertahankan, akan ada tekanan yang signifikan pada pemegang hak cipta untuk memungkinkan pelatihan AI.
Biderman sendiri tidak memiliki ilusi bahwa selera Openai tiba -tiba akan memberikan lembar baru dan mulai menjadi bumper dalam pasokan data etika. Tapi dia berharap pekerjaannya setidaknya akan berhenti menyembunyikan apa yang mereka gunakan untuk melatih model AI mereka.
“Bahkan transparansi parsial memiliki banyak nilai sosial dan sejumlah nilai ilmiah,” katanya kepada Wapo.
Lebih lanjut tentang AI: Jika Anda pikir Facebook sudah beracun, sekarang mengganti moderator manusianya dengan AI