Apakah mungkin bagi AI untuk berlatih hanya dengan data yang dihasilkan oleh AI lain? Ini mungkin tampak seperti ide gila. Namun hal ini sudah ada sejak lama, dan karena semakin sulitnya mendapatkan data baru yang nyata, hal ini mulai berkembang.
Anthropic menggunakan beberapa data sintetis untuk melatih salah satu model andalannya, Claude Soneta 3.5. Meta menyetelnya Hubungi 3.1 model menggunakan data yang dihasilkan oleh AI. Dan OpenAI dikatakan memperoleh data pelatihan sintetis dari o1model “penalarannya”, untuk selanjutnya Orion.
Tapi mengapa AI membutuhkan data dan apa lembut Data apa yang Anda butuhkan? Dan dapatkah data ini nyatanya Apakah akan digantikan oleh data sintetis?
Pentingnya anotasi
Sistem AI adalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti “siapa” dalam email biasanya mendahului “mungkin tertarik”.
Anotasi, biasanya teks yang memberi label pada makna atau bagian data yang diserap sistem, merupakan bagian penting dalam contoh ini. Mereka berfungsi sebagai pemandu, “mengajarkan” model untuk membedakan benda, tempat, dan gagasan.
Perhatikan model klasifikasi foto yang menampilkan banyak foto dapur berlabel kata “dapur”. Saat dilatih, model akan mulai membuat asosiasi antara “memasak” dan hal umum. karakteristik dapur (misalnya, berisi lemari es dan meja dapur). Setelah pelatihan, jika diberikan foto dapur yang tidak disertakan dalam contoh awal, model harus dapat mengidentifikasinya. (Tentu saja, jika gambar dapur diberi label “sapi”, maka gambar tersebut akan diidentifikasi sebagai sapi, yang menekankan pentingnya anotasi yang baik.)
Minat terhadap AI dan kebutuhan untuk menyediakan data berlabel untuk pengembangannya telah meroket di pasar layanan anotasi. Riset Pasar Dimensi perkiraan yang saat ini bernilai 838,2 juta dolar dan akan bernilai 10,340 juta dolar dalam 10 tahun mendatang. Meskipun tidak ada perkiraan pasti berapa banyak orang yang terlibat dalam pekerjaan pelabelan, pada tahun 2022 kertas menetapkan angka dalam “jutaan.”
Perusahaan besar dan kecil bergantung pada pekerja yang dipekerjakan oleh perusahaan anotasi data untuk membuat label untuk set pelatihan AI. Beberapa dari pekerjaan ini memberikan bayaran yang cukup baik, terutama jika pelabelan memerlukan pengetahuan khusus (misalnya, pengetahuan matematika). Yang lainnya bisa melelahkan. Pencetak gol di negara-negara berkembang Rata-rata mereka hanya dibayar beberapa dolar per jamtanpa manfaat atau jaminan apa pun untuk konser di masa depan.
Data pengeringan dengan baik
Jadi ada alasan humanistik untuk mencari alternatif selain label yang dibuat oleh manusia. Misalnya, Uber sedang memperluas armadanya Pekerja lepas akan mengerjakan anotasi AI dan pelabelan data. Tapi ada juga yang praktis.
Manusia hanya bisa memberi label dengan begitu cepat. Pencetak gol juga punya prasangka yang dapat muncul dalam anotasi Anda dan, selanjutnya, dalam model apa pun yang dilatih berdasarkan anotasi tersebut. Pencetak gol melakukannya kesalahanatau dapatkan tersandung melalui instruksi pelabelan. Dan membayar manusia untuk melakukan sesuatu itu mahal.
Data umumnya Faktanya, itu mahal. Shutterstock mengenakan biaya puluhan juta dolar kepada vendor AI untuk mengaksesnya arsipsementara Reddit memiliki Itu menghasilkan ratusan juta dengan melisensikan data ke Google, OpenAI, dan lainnya.
Terakhir, data juga semakin sulit diperoleh.
Sebagian besar model didasarkan pada pengumpulan data publik dalam jumlah besar, data yang semakin banyak dipilih oleh pemilik untuk disembunyikan karena takut hal tersebut akan terjadi dijiplak atau bahwa mereka tidak akan menerima kredit atau atribusi untuk itu. Lebih dari 35% dari 1.000 situs web teratas dunia sekarang memblokir scraper web OpenAI. Dan sekitar 25% data dari sumber “berkualitas tinggi” telah dibatasi dari kumpulan data utama yang digunakan untuk melatih model, menurut sebuah penelitian baru-baru ini. belajar ditemukan.
Jika tren pemblokiran akses saat ini terus berlanjut, kelompok riset Epoch AI proyek bahwa pengembang akan kehabisan data untuk melatih model AI generatif antara tahun 2026 dan 2032. Hal ini, ditambah dengan kekhawatiran akan tuntutan hukum hak cipta Dan materi yang tidak pantas Membobol kumpulan data terbuka telah memaksa vendor AI untuk mengambil keputusan.
Alternatif sintetis
Sekilas, data sintetis sepertinya bisa menjadi solusi untuk semua masalah ini. Apakah Anda memerlukan catatan? Hasilkan mereka. Lebih banyak contoh data? Tidak masalah. Langit adalah batasnya.
Dan sampai batas tertentu, hal ini memang benar.
“Jika ‘data adalah minyak baru’, data sintetis disajikan sebagai biofuel, yang dapat diciptakan tanpa eksternalitas negatif dari produk sebenarnya,” kata Os Keyes, kandidat doktor di Universitas Washington yang mempelajari dampaknya, kepada TechCrunch. etika teknologi yang sedang berkembang. . “Anda dapat mengambil sekumpulan data awal yang kecil dan mensimulasikan serta mengekstrapolasi masukan baru darinya.”
Industri AI telah mengambil konsep tersebut dan menerapkannya.
Bulan ini, Writer, sebuah perusahaan AI generatif yang berfokus pada perusahaan, memperkenalkan model, Palmyra X 004, yang hampir seluruhnya dilatih pada data sintetis. Biaya pengembangannya hanya $700.000, kata Writer. dibandingkan dengan perkiraan $4,6 juta untuk model OpenAI dengan ukuran yang sebanding.
Microsoft Fi Model terbuka sebagian dilatih menggunakan data sintetis. Begitu pula dengan Google Permata model. NVIDIA musim panas ini memperkenalkan rangkaian model yang dirancang untuk menghasilkan data pelatihan sintetik, dan startup AI Hugging Face baru-baru ini merilis apa yang diklaimnya Kumpulan data pelatihan AI terbesar teks sintetik.
Menghasilkan data sintetis telah menjadi bisnis tersendiri, yang bisa dilakukan bernilai $2,34 miliar pada tahun 2030. Gartner meramalkan bahwa 60% data yang digunakan untuk proyek kecerdasan buatan dan analitik tahun ini akan dihasilkan secara sintetis.
Luca Soldaini, ilmuwan riset senior di Allen Institute for AI, mencatat bahwa teknik data sintetis dapat digunakan untuk menghasilkan data pelatihan dalam format yang tidak mudah diperoleh melalui scraping (atau bahkan melalui lisensi konten). Misalnya saat melatih generator video Anda. Generasi filmMeta menggunakan Llama 3 untuk membuat keterangan gambar dalam data pelatihan, yang kemudian disempurnakan manusia untuk menambahkan lebih banyak detail, seperti deskripsi pencahayaan.
Sejalan dengan hal yang sama, OpenAI mengatakan telah menyempurnakannya GPT-4o menggunakan data sintetis untuk membuat buku sketsa Kanvas fungsi untuk ChatGPT. Dan Amazon punya pepatah yang menghasilkan data sintetis untuk melengkapi data dunia nyata yang digunakannya untuk melatih model pengenalan suara untuk Alexa.
“Model data sintetis dapat digunakan untuk memperluas intuisi manusia dengan cepat tentang data apa yang diperlukan untuk mencapai perilaku model tertentu,” kata Soldaini.
Risiko sintetis
Namun, data sintetis bukanlah obat mujarab. Ia mengalami masalah “sampah masuk, sampah keluar” yang sama seperti semua AI. Model membuat data sintetis, dan jika data yang digunakan untuk melatih model ini memiliki bias dan keterbatasan, hasilnya juga akan terkontaminasi. Misalnya, kelompok yang kurang terwakili dalam data dasar akan kurang terwakili dalam data sintetik.
“Masalahnya adalah, tidak banyak yang bisa Anda lakukan,” kata Keyes. “Misalnya Anda hanya memiliki 30 orang kulit hitam dalam satu kumpulan data. Ekstrapolasi mungkin bisa membantu, tapi jika 30 orang tersebut semuanya kelas menengah atau berkulit terang, seperti itulah data yang ‘representatif’ akan terlihat.”
Sampai saat ini, tahun 2023 belajar Para peneliti di Rice University dan Stanford menemukan bahwa ketergantungan berlebihan pada data sintetis selama pelatihan dapat menciptakan model yang “kualitas atau keragamannya semakin menurun”. Bias pengambilan sampel (representasi dunia nyata yang buruk) menyebabkan keragaman model menjadi lebih buruk setelah beberapa generasi pelatihan, menurut para peneliti (walaupun mereka juga menemukan bahwa mencampurkan sedikit data dunia nyata membantu mengurangi hal ini).
Keyes melihat risiko tambahan dalam model kompleks seperti o1 OpenAI, yang menurutnya dapat menghasilkan model yang lebih sulit dideteksi. halusinasi dalam data sintetis Anda. Hal ini, pada gilirannya, dapat mengurangi keakuratan model yang dilatih berdasarkan data, terutama jika sumber halusinasi tidak mudah diidentifikasi.
“Model yang rumit memukau; Data yang dihasilkan oleh model kompleks mengandung halusinasi,” tambah Keyes. “Dan dengan model seperti o1, pengembangnya sendiri belum bisa menjelaskan mengapa artefak tersebut muncul.”
Halusinasi yang parah dapat menyebabkan pola-pola yang melontarkan omong kosong. KE belajar diterbitkan di jurnal Nature mengungkapkan bagaimana model, yang dilatih dengan data yang penuh kesalahan, menghasilkan bahkan lebih data yang penuh kesalahan dan bagaimana putaran umpan balik ini menurunkan model generasi mendatang. Para peneliti menemukan bahwa model tersebut kehilangan pemahamannya terhadap pengetahuan yang lebih esoteris dari generasi ke generasi, menjadi lebih umum dan seringkali menghasilkan jawaban yang tidak relevan terhadap pertanyaan yang diajukan kepada mereka.
tindak lanjut belajar menunjukkan bahwa jenis model lain, seperti imager, juga tidak kebal terhadap jenis keruntuhan ini:
Soldaini setuju bahwa data sintetis “mentah” tidak dapat dipercaya, setidaknya jika tujuannya adalah untuk menghindari pelatihan chatbot yang pelupa dan generator gambar yang homogen. Untuk menggunakannya dengan “aman,” katanya, Anda perlu meninjau, memilih, dan memfilternya dengan cermat, dan idealnya menggabungkannya dengan data baru yang nyata, sama seperti yang Anda lakukan pada kumpulan data lainnya.
Kegagalan untuk melakukan hal ini pada akhirnya bisa terjadi menyebabkan keruntuhan modelketika suatu model menjadi kurang “kreatif” (dan lebih bias) dalam menghasilkan hasil, yang pada akhirnya sangat mengurangi fungsinya. Meskipun proses ini dapat diidentifikasi dan dihentikan sebelum menjadi serius, hal ini tetap berisiko.
“Para peneliti harus memeriksa data yang dihasilkan, mengulangi proses pembuatannya, dan mengidentifikasi upaya perlindungan untuk menghilangkan titik data berkualitas rendah,” kata Soldaini. “Pipa data sintetik bukanlah mesin yang dapat berkembang dengan sendirinya; “produksinya harus diperiksa dan ditingkatkan secara cermat sebelum digunakan untuk pelatihan.”
CEO OpenAI Sam Altman pernah berpendapat bahwa A.I. suatu hari nanti menghasilkan data sintetis yang cukup baik untuk dilatih secara efektif. Namun, jika hal itu memungkinkan, teknologinya belum ada. Belum ada laboratorium AI besar yang merilis model terlatih hanya berdasarkan data sintetis.
Setidaknya di masa mendatang, tampaknya kita memerlukan manusia yang berpengetahuan. suatu tempat untuk memastikan bahwa pelatihan model tidak salah.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.
Pembaruan: Cerita ini awalnya diterbitkan pada tanggal 23 Oktober dan diperbarui pada tanggal 24 Desember dengan informasi lebih lanjut.