Kredit: arXiv (2024). DOI: 10.48550/arxiv.2405.18193
Bidang pembelajaran mesin secara tradisional dibagi menjadi dua kategori utama: pembelajaran “diawasi” dan “tanpa pengawasan”. Dalam pembelajaran yang diawasi, algoritme dilatih pada data berlabel, di mana setiap masukan dipasangkan dengan keluaran yang sesuai, sehingga memberikan panduan yang jelas kepada algoritme. Sebaliknya, pembelajaran tanpa pengawasan hanya mengandalkan data masukan, sehingga memerlukan algoritme untuk menemukan pola atau struktur tanpa hasil yang diberi label.
Dalam beberapa tahun terakhir, paradigma baru yang dikenal sebagai “pembelajaran dengan pengawasan mandiri” (SSL) telah muncul, mengaburkan batasan antara kategori-kategori tradisional ini. Pembelajaran yang diawasi sangat bergantung pada manusia yang ahli untuk memberi label pada data dan bertindak sebagai “penyelia”. Namun, SSL menghindari ketergantungan ini dengan menggunakan algoritma untuk secara otomatis menghasilkan label dari data mentah.
Algoritme SSL digunakan untuk berbagai aplikasi, mulai dari pemrosesan bahasa alami (NLP) hingga visi komputer, bioinformatika, dan pengenalan suara. Pendekatan SSL tradisional mendorong representasi pasangan yang serupa secara semantik (positif) menjadi dekat dan pasangan yang berbeda (negatif) menjadi semakin terpisah.
Pasangan positif biasanya dihasilkan menggunakan teknik augmentasi data standar seperti pengacakan warna, tekstur, orientasi, dan pemotongan. Penyelarasan representasi pasangan positif dapat dipandu oleh invarian, yang mendorong ketidakpekaan terhadap peningkatan ini, atau dengan kesetaraan, yang mempertahankan sensitivitas terhadap peningkatan tersebut.
Namun tantangannya adalah menerapkan invarian atau ekivalen pada serangkaian augmentasi yang telah ditentukan sebelumnya akan menimbulkan “prior induktif” yang kuat (asumsi bawaan tentang sifat-sifat yang harus dipenuhi oleh representasi yang dipelajari) yang jauh dari universal dalam berbagai proses hilir. tugas.
di sebuah kertas diterbitkan di arXiv server pracetak, tim dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) MIT dan Universitas Teknik Munich telah mengusulkan pendekatan baru untuk pembelajaran mandiri yang mengatasi keterbatasan mengandalkan augmentasi data yang telah ditentukan sebelumnya dan, sebagai gantinya, itu belajar dari representasi umum yang dapat beradaptasi dengan transformasi yang berbeda dengan memperhatikan konteksyang mewakili gagasan abstrak tentang tugas atau lingkungan.
Hal ini memungkinkan pembelajaran representasi data yang lebih fleksibel dan mudah beradaptasi dengan berbagai tugas hilir, berbagai simetri, dan fitur sensitif, sehingga menghilangkan kebutuhan pelatihan ulang berulang untuk setiap tugas.
Menyebut metode mereka “Pembelajaran Mandiri Kontekstual” (Contextual Self-Supervised Learning) (ContextSSL), para peneliti menunjukkan keefektifannya melalui eksperimen ekstensif pada beberapa kumpulan data tolok ukur. Ide utamanya adalah untuk memperkenalkan konteks yang terinspirasi oleh model dunia: representasi lingkungan agen yang menangkap dinamika dan strukturnya.
Dengan menggabungkan model dunia ini, pendekatan ini memungkinkan model untuk secara dinamis mengadaptasi representasinya menjadi invarian atau ekivalen bergantung pada tugas yang ada. Hal ini menghilangkan kebutuhan untuk melatih representasi terpisah untuk setiap tugas berikutnya dan memungkinkan dilakukannya tugas yang lebih umum dan pendekatan yang fleksibel ke SSL.
ContextSSL menggunakan modul transformator untuk menyandikan konteks sebagai rangkaian triplet keadaan-tindakan-keadaan berikutnya, yang mewakili pengalaman transformasi sebelumnya. Dengan memperhatikan konteks, model belajar menerapkan invarian atau ekivalen secara selektif berdasarkan kelompok transformasi yang diwakili dalam konteks.
“Secara khusus, tujuan kami adalah untuk melatih representasi yang menjadi lebih setara dengan kelompok transformasi yang mendasarinya dengan konteks yang semakin meningkat,” kata CSAIL Ph.D. mahasiswa Sharut Gupta, penulis utama makalah baru yang ditulis oleh para peneliti termasuk profesor MIT Tommi Jaakkola dan Stefanie Jegelka. “Kami tidak ingin menyesuaikan model setiap saat, melainkan membangun model tujuan umum yang fleksibel dan dapat melayani lingkungan berbeda seperti yang dilakukan manusia.”
ContextSSL menunjukkan peningkatan kinerja yang signifikan pada beberapa tolok ukur visi komputer, termasuk 3DIEBench dan CIFAR-10, untuk tugas yang memerlukan invarian dan ekivalen. Bergantung pada konteksnya, representasi yang dipelajari oleh ContextSSL disesuaikan dengan fitur yang benar dan berguna untuk tugas downstream tertentu.
Sebagai contoh, tim menguji kemampuan ContextSSL untuk mempelajari representasi atribut khusus gender di MIMIC-III, kumpulan besar rekam medis yang mencakup pengidentifikasi penting seperti obat-obatan, demografi pasien, lama rawat inap (LOS), dan data kelangsungan hidup. .
Tim menyelidiki kumpulan data ini karena dapat menangkap tugas-tugas dunia nyata yang mendapat manfaat dari kesetaraan dan invariansi: kesetaraan sangat penting untuk tugas-tugas seperti diagnosa medis dimana dosis obat bergantung pada jenis kelamin dan karakteristik fisiologis pasien, sedangkan invarian sangat penting untuk memastikan keadilan dalam memprediksi hasil seperti lama rawat inap di rumah sakit atau biaya pengobatan.
Pada akhirnya, para peneliti menemukan bahwa ketika ContextSSL memperhatikan konteks yang mendorong sensitivitas gender, keakuratan prediksi gender dan prediksi perawatan medis akan meningkat seiring dengan konteksnya. Sebaliknya, ketika konteks mendorong invariansi, kinerja meningkat dalam memprediksi lama masa tinggal (LOS) dan beberapa metrik ekuitas yang diukur dengan peluang yang sama (EO) dan peluang yang sama (EOPP).
“Tujuan utama dari pembelajaran mandiri adalah untuk menghasilkan representasi fleksibel yang dapat beradaptasi dengan banyak tugas berikutnya,” kata Dilip Krishnan, ilmuwan riset senior di Google DeepMind, yang tidak terlibat dalam makalah ini. “Daripada mengandalkan invariansi atau ekivalen apriori, akan lebih berguna jika menentukan sifat-sifat ini dengan cara yang spesifik untuk tugas tertentu.
“Makalah menarik ini mengambil langkah penting ke arah ini. Dengan secara cerdik memanfaatkan kemampuan pembelajaran dalam konteks model transformator, pendekatan mereka dapat digunakan untuk menerapkan invarian atau ekivalen pada berbagai transformasi dengan cara yang sederhana dan efektif.”
Informasi lebih lanjut:
Sharut Gupta dkk, Simetri dalam konteks: pembelajaran mandiri melalui model dunia kontekstual, arXiv (2024). DOI: 10.48550/arxiv.2405.18193
Disediakan oleh
Institut Teknologi Massachusetts
Kutipan: Pembelajaran mesin dengan pengawasan mandiri beradaptasi dengan tugas baru tanpa pelatihan ulang (2024, 23 Desember) diambil 30 Desember 2024 dari https://techxplore.com/news/2024-12-machine-tasks-retraining.html
Dokumen ini memiliki hak cipta. Terlepas dari transaksi wajar untuk tujuan studi atau penelitian pribadi, tidak ada bagian yang boleh direproduksi tanpa izin tertulis. Konten disediakan untuk tujuan informasi saja.