Breaking News

Eleutherai meluncurkan satu set data pelatihan teks domain besar dan terbuka

Eleutherai meluncurkan satu set data pelatihan teks domain besar dan terbuka

Eleutherai, sebuah organisasi penelitian AI, telah menerbitkan apa yang dinyatakan bahwa itu adalah salah satu lisensi terbesar dan koleksi domain terbuka untuk melatih model AI.

Kumpulan data, yang disebut Pila Common v0.1, membutuhkan waktu sekitar dua tahun untuk menyelesaikan kolaborasi dengan perusahaan AI baru di sebelah kolam renang, memeluk wajah dan lainnya, bersama dengan beberapa lembaga akademik. Dengan berat 8 terabyte, baterai umum v0.1 digunakan untuk melatih dua model baru Eleutherai, Coma V0.1-1T dan COMA V0.1-2T, yang diklaim Eleutherai berfungsi secara berpasangan dengan model yang dikembangkan menggunakan data dengan hak cipta tanpa lisensi.

Perusahaan AI, termasuk Openai, dibungkus tuntutan Pada praktik pelatihan AI mereka, yang bergantung pada mengikis web, termasuk materi hak cipta seperti buku dan majalah penelitian, untuk membangun set data pelatihan model. Sementara beberapa perusahaan AI telah menetapkan perjanjian lisensi dengan pemasok konten tertentu, mayoritas berpendapat bahwa doktrin hukum AS.

Eleutherai berpendapat bahwa tuntutan -tuntutan ini telah “secara drastis mengurangi” transparansi perusahaan AI, yang menurut organisasi itu telah merugikan bidang penelitian AI yang lebih luas dengan membuatnya lebih sulit untuk memahami bagaimana model bekerja dan apa cacat mereka.

“[Copyright] Tuntutan belum secara signifikan mengubah praktik penawaran data [model] Pelatihan, tetapi telah menurun secara dramatis di mana perusahaan transparansi berpartisipasi, ”tulis Stella Biderman, direktur eksekutif Eleutherai di a Blog Di wajahnya dipeluk Jumat pagi. “Para peneliti dari beberapa perusahaan yang telah kita bicarakan juga secara khusus memanggil tuntutan seperti alasan mengapa mereka tidak dapat mempublikasikan penelitian yang mereka lakukan di daerah yang sangat fokus pada data.”

Common V0.1, yang dapat diunduh dari platform AI Dev Hugging Face dan GitHub, dibuat dengan berkonsultasi dengan para ahli hukum, dan didasarkan pada sumber, termasuk 300.000 buku domain publik yang digital oleh Perpustakaan Kongres dan file Internet. Eleutherai juga menggunakan Whisper, Model Teks OpenAi Open Source, untuk menuliskan konten audio.

Eleutherai menegaskan Coma V0.1-1T dan COMA V0.1-2T adalah bukti bahwa tiang umum V0.1 disembuhkan dengan cukup hati-hati untuk memungkinkan pengembang membangun model kompetitif dengan alternatif eksklusif. Menurut Eleutherai, model, yang memiliki 7 miliar parameter ukuran dan dilatih hanya dalam sebagian kecil dari tumpukan umum V0.1, model saingan seperti model pertama dari api tujuan dalam titik referensi untuk pengkodean, pemahaman gambar dan matematika.

Parameter, kadang -kadang disebut peso, adalah komponen internal dari model AI yang memandu perilaku dan jawaban mereka.

“Secara umum, kami percaya bahwa gagasan umum bahwa teks tanpa lisensi mendorong kinerja tidak dapat dibenarkan,” tulis Biderman dalam publikasi. “Karena jumlah domain publik yang dapat diakses dan data berlisensi tumbuh secara terbuka, kami dapat mengharapkan kualitas model yang dilatih dalam lisensi terbuka untuk ditingkatkan.”

Tumpukan umum v0.1 tampaknya sebagian merupakan upaya untuk memperbaiki kesalahan historis Eleutherai. Bertahun -tahun yang lalu, perusahaan meluncurkan baterai, koleksi teks pelatihan terbuka yang mencakup materi hak cipta. Perusahaan IA telah dikritik, dan tekanan hukum, karena menggunakan baterai untuk melatih model.

Eleutherai berjanji untuk meluncurkan set data terbuka lebih sering bekerja sama dengan mitra penelitian dan infrastrukturnya.

Diperbarui 9:48 AM Pasifik: Bidermano membilas Dalam publikasi X yang dikontribusikan Eleutherai pada peluncuran data dan model, tetapi perkembangannya melibatkan banyak mitra, termasuk University of Toronto, yang membantu memimpin penyelidikan.

Sumber

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *