Eleutherai meluncurkan satu set data pelatihan teks domain besar dan terbuka

Eleutherai, sebuah organisasi penelitian AI, telah menerbitkan apa yang dinyatakan bahwa itu adalah salah satu lisensi terbesar dan koleksi domain terbuka untuk melatih model AI.

Kumpulan data, yang disebut Pila Common v0.1, membutuhkan waktu sekitar dua tahun untuk menyelesaikan kolaborasi dengan perusahaan AI baru di sebelah kolam renang, memeluk wajah dan lainnya, bersama dengan beberapa lembaga akademik. Dengan berat 8 terabyte, baterai umum v0.1 digunakan untuk melatih dua model baru Eleutherai, Coma V0.1-1T dan COMA V0.1-2T, yang diklaim Eleutherai berfungsi secara berpasangan dengan model yang dikembangkan menggunakan data dengan hak cipta tanpa lisensi.

Perusahaan AI, termasuk Openai, dibungkus tuntutan Pada praktik pelatihan AI mereka, yang bergantung pada mengikis web, termasuk materi hak cipta seperti buku dan majalah penelitian, untuk membangun set data pelatihan model. Sementara beberapa perusahaan AI telah menetapkan perjanjian lisensi dengan pemasok konten tertentu, mayoritas berpendapat bahwa doktrin hukum AS.

Eleutherai berpendapat bahwa tuntutan -tuntutan ini telah “secara drastis mengurangi” transparansi perusahaan AI, yang menurut organisasi itu telah merugikan bidang penelitian AI yang lebih luas dengan membuatnya lebih sulit untuk memahami bagaimana model bekerja dan apa cacat mereka.

“[Copyright] Tuntutan belum secara signifikan mengubah praktik penawaran data [model] Pelatihan, tetapi telah menurun secara dramatis di mana perusahaan transparansi berpartisipasi, ”tulis Stella Biderman, direktur eksekutif Eleutherai di a Blog Di wajahnya dipeluk Jumat pagi. “Para peneliti dari beberapa perusahaan yang telah kita bicarakan juga secara khusus memanggil tuntutan seperti alasan mengapa mereka tidak dapat mempublikasikan penelitian yang mereka lakukan di daerah yang sangat fokus pada data.”

Common V0.1, yang dapat diunduh dari platform AI Dev Hugging Face dan GitHub, dibuat dengan berkonsultasi dengan para ahli hukum, dan didasarkan pada sumber, termasuk 300.000 buku domain publik yang digital oleh Perpustakaan Kongres dan file Internet. Eleutherai juga menggunakan Whisper, Model Teks OpenAi Open Source, untuk menuliskan konten audio.

Eleutherai menegaskan Coma V0.1-1T dan COMA V0.1-2T adalah bukti bahwa tiang umum V0.1 disembuhkan dengan cukup hati-hati untuk memungkinkan pengembang membangun model kompetitif dengan alternatif eksklusif. Menurut Eleutherai, model, yang memiliki 7 miliar parameter ukuran dan dilatih hanya dalam sebagian kecil dari tumpukan umum V0.1, model saingan seperti model pertama dari api tujuan dalam titik referensi untuk pengkodean, pemahaman gambar dan matematika.

Parameter, kadang -kadang disebut peso, adalah komponen internal dari model AI yang memandu perilaku dan jawaban mereka.

“Secara umum, kami percaya bahwa gagasan umum bahwa teks tanpa lisensi mendorong kinerja tidak dapat dibenarkan,” tulis Biderman dalam publikasi. “Karena jumlah domain publik yang dapat diakses dan data berlisensi tumbuh secara terbuka, kami dapat mengharapkan kualitas model yang dilatih dalam lisensi terbuka untuk ditingkatkan.”

Tumpukan umum v0.1 tampaknya sebagian merupakan upaya untuk memperbaiki kesalahan historis Eleutherai. Bertahun -tahun yang lalu, perusahaan meluncurkan baterai, koleksi teks pelatihan terbuka yang mencakup materi hak cipta. Perusahaan IA telah dikritik, dan tekanan hukum, karena menggunakan baterai untuk melatih model.

Eleutherai berjanji untuk meluncurkan set data terbuka lebih sering bekerja sama dengan mitra penelitian dan infrastrukturnya.

Diperbarui 9:48 AM Pasifik: Bidermano membilas Dalam publikasi X yang dikontribusikan Eleutherai pada peluncuran data dan model, tetapi perkembangannya melibatkan banyak mitra, termasuk University of Toronto, yang membantu memimpin penyelidikan.

Sumber

Breaking News

Imane Khelif, Olimpiade Peraih Medali Emas Paris 2024, Melewati Eindhoven Box Cup setelah tinju dunia menyajikan tes seks wajib

Rasa sakit kita bukan keadilan

Dukungan tumbuh untuk mengevaluasi teknologi hebat untuk membiayai layanan universal

Saham penggemar Travis Kelce dan Taylor Swift Encounter, dan jika itu ‘cinta sejati’

Raja Shreyas, nous, wawasan dan kemampuan di depan

Dukungan tumbuh untuk mengevaluasi teknologi hebat untuk membiayai layanan universal

Bingkai analisis baru mengukur empati orang yang ditangkap dalam rekaman video

Carl Radke menyiapkan rencana darinya untuk ‘rumah musim panas’

Carlo Ancelotti melakukan debutnya sebagai pelatih untuk Brasil sambil mengklaim hasil imbang tanpa gol dengan Ekuador di kualifikasi Piala Dunia FIFA 2026

AI memperluas pembagian teknologi antara RIAS dan bank

Eleutherai meluncurkan satu set data pelatihan teks domain besar dan terbuka

Tinggalkan Balasan Batalkan balasan

Pionir masa depan Teknologi Inggris Memenuhi Investor Utama – UCRI

Benmont Tench dalam lagu -lagu terbaiknya, dari Tom Petty ke Bob Dylan

Breaking News

Tinggalkan Balasan Batalkan balasan

Related Post