Dalam waktu kurang dari satu dekade, kecerdasan buatan telah berkembang dari sebuah ide yang menjanjikan menjadi mesin yang berfungsi penuh yang mendorong perubahan dalam cara hidup dan bekerja di seluruh dunia. Tentu saja, mesin membutuhkan bahan bakar, dan banyaknya data yang digunakan untuk melatih AI mendorong inovasi ini secara online.
Ke Inisiatif Data Kelembagaan (IDI), sebuah program baru yang bertempat di dalam Perpustakaan Sekolah Hukum HarvardUpaya telah dilakukan untuk memperluas dan meningkatkan sumber daya data yang tersedia untuk pelatihan AI. Pada peluncuran publik inisiatif tersebut pada 12 Desember, direktur fakultas Laboratorium Inovasi Perpustakaan, Jonathan Zittrain ’95dan CEO IDI Greg Leppert mengumumkan rencana untuk memperluas ketersediaan data domain publik dari lembaga pengetahuan (termasuk teks dari hampir satu juta buku yang dipindai di Perpustakaan Harvard) untuk melatih model AI.
“Perpustakaan dan pengelola kumpulan pengetahuan umat manusia lainnya dapat berpikir dalam jangka waktu berabad-abad: melestarikannya dan menyediakan akses untuk kegunaan yang diketahui dan tujuan yang sama sekali tidak terduga,” kata Zittrain, Profesor Hukum Internasional George Bemis di Harvard Law School dan wakil dekan Harvard Perpustakaan Sekolah Hukum.
“Tujuan IDI adalah untuk mengatasi kepentingan baru sektor-sektor ini dalam teks-teks yang tidak jelas, dengan cara yang menjaga nilai-nilai institusi. Hal ini berarti berupaya untuk mencapai akses setiap orang terhadap karya-karya di domain publik yang masih dipagari: akses untuk mata manusia dan mesin pemrosesan imajinatif. Yang terakhir ini memerlukan contoh-contoh, jika bukan standar absolut, untuk memfasilitasi penggunaan yang terbaik dan termudah, mulai dari model terdepan yang ada saat ini hingga mahasiswa dan akademisi yang ingin melakukan eksplorasi dan bereksperimen.”
Leppert berbicara dengan Harvard Law Today untuk membahas misi IDI dan menjelaskan mengapa data yang dikelola oleh institusi seperti Harvard adalah kunci untuk membangun masa depan AI yang lebih baik.
Hukum Harvard Saat Ini: Apa Itu Inisiatif Data Institusional?
Greg Leppert: Pekerjaan kami di Institutional Data Initiative berfokus pada menemukan cara untuk meningkatkan aksesibilitas data institusional untuk semua penggunaan, termasuk kecerdasan buatan. Perpustakaan Sekolah Hukum Harvard adalah gudang besar buku, abstrak, artikel penelitian, dll. domain publik. Terlepas dari bagaimana informasi ini awalnya disimpan (sampul tebal, sampul tipis, perkamen, dll.), sejumlah besar informasi telah diubah ke format digital. Di IDI kami berupaya memastikan bahwa kumpulan data besar yang berada di domain publik ini berfungsi, seperti yang berasal dari perpustakaan Fakultas Hukum yang membentuk Proyek untuk akses ke yurisprudensimereka menjadi terbuka dan mudah diakses, terutama untuk pelatihan AI. Harvard tidak sendirian dalam hal skala dan kualitas datanya; Perangkat serupa ada di institusi akademik dan perpustakaan umum kita. Sistem AI sama beragamnya dengan data tempat mereka dilatih, dan kumpulan data domain publik ini harus menjadi bagian dari pola makan yang sehat untuk pelatihan AI di masa depan.
HLT: Masalah apa yang coba dipecahkan oleh Inisiatif Data Institusional?
penderita kusta: Saat ini, data yang digunakan untuk melatih AI biasanya terbatas dalam hal skala, cakupan, kualitas, dan kelengkapan. Berbagai kelompok dan perspektif kurang terwakili dalam data yang saat ini digunakan untuk melatih AI. Saat ini, AI tidak akan melayani outlier sebagaimana mestinya, dan bisa saja, dengan memasukkan data yang kurang terwakili tersebut. Negara Islandia, misalnya, melakukan upaya nasional yang dipimpin pemerintah untuk menyediakan materi dari perpustakaan nasionalnya untuk aplikasi AI. Ini karena mereka sangat prihatin bahwa bahasa dan budaya Islandia tidak terwakili dalam model AI. Kami juga berupaya untuk menegaskan kembali Harvard dan institusi lain sebagai pengelola koleksi mereka. Melihat menjamurnya rangkaian pelatihan berdasarkan materi domain publik merupakan hal yang menggembirakan, namun hal ini penting agar materi tersebut tidak rentan terhadap penghilangan atau perubahan penting. Selama berabad-abad, lembaga-lembaga pengetahuan telah berperan sebagai penjaga informasi dalam rangka mempromosikan kepentingan publik dan mempromosikan representasi beragam ide, kelompok budaya, dan cara memandang dunia. Oleh karena itu, kami percaya bahwa lembaga-lembaga ini adalah sumber data pelatihan AI yang tepat jika kami ingin mengoptimalkan kemampuannya untuk melayani umat manusia. Saat ini, masih banyak ruang untuk perbaikan.
HLT: Bagaimana kumpulan data Harvard muncul dan materi apa saja yang terlibat?
Leppert: Dia Proyek untuk akses ke yurisprudensi Itu adalah upaya beberapa tahun di Laboratorium Inovasi Perpustakaandimulai pada tahun 2015. Selama kurang lebih tiga tahun, 360 tahun yurisprudensi Amerika dipindai, dianalisis, dan disusun menjadi kumpulan data pertama dari jenisnya. Kumpulan data tersebut sekarang menjadi tulang punggung kumpulan pelatihan AI legal. Kami kini berupaya menerbitkan sekitar satu juta buku domain publik, yang dipindai di Perpustakaan Harvard selama proyek Google Buku. Dua dekade yang lalu, Perpustakaan Harvard menjadi salah satu peserta pertama dalam proyek tersebut dan upaya besar dilakukan tidak hanya untuk memindai buku-buku tersebut tetapi juga untuk memilihnya. Tujuan mendasar dari proyek ini adalah untuk meningkatkan aksesibilitas informasi ini dan mengubah karya-karya ini menjadi “warga kelas satu” di Internet, di mana buku-buku itu sendiri akan menjadi sumber referensi utama. Salah satu misi IDI adalah melanjutkan semangat tersebut dengan membuat informasi tersebut dapat diakses melalui media baru, serta oleh Perpustakaan Harvard yang menyediakannya bagi komunitas riset Harvard.
HLT: Bisakah Anda menjelaskan awal mula Inisiatif Data Institusional?
Leppert: Konsep IDI dimulai di Lab Inovasi Perpustakaan di Perpustakaan Harvard Law School. Saya tertarik untuk menemukan cara agar para peneliti akademis di sekitar saya dapat memberikan dampak pada perkembangan AI. Saya melihat banyak peneliti terjun ke industri untuk mengerjakan model-model mutakhir. Saya melihat sumber daya teknologi yang diperlukan untuk menciptakan model-model tersebut menjadi semakin mahal. Namun saya juga melihat besarnya jumlah data di kalangan akademisi dan lembaga pengetahuan lainnya. Saya tertarik untuk menemukan cara memanfaatkan sumber daya data institusional untuk memastikan adanya partisipasi akademis dalam membangun AI. Saya menyampaikan ide itu kepada Jonathan. [Zittrain] dan, untungnya, dia sangat mendukung. Amanda Watson, dekan di Perpustakaan Harvard Law School, juga. Dan, tentu saja, Jack Cushman, direktur Lab Inovasi Perpustakaan, menciptakan waktu dan ruang untuk menginkubasinya.
HLT: Kendala apa saja yang menghambat IDI mencapai tujuannya?
Leppert: Meskipun perpustakaan akademik dan lembaga pengetahuan lainnya mempunyai posisi yang baik untuk memberikan informasi kepada AI dan menentukan dampaknya, kelangkaan sumber daya dan keterbatasan waktu merupakan permasalahan praktis yang penting. Pesatnya kemajuan teknologi apa pun juga cenderung melampaui ketersediaan keahlian teknis. Pada saat yang sama, terdapat insentif dari para pencipta AI untuk mau berinteraksi dengan data yang dimiliki oleh lembaga-lembaga tersebut, sehingga IDI dimaksudkan untuk mendukung lembaga-lembaga tersebut untuk membantu mereka berpartisipasi. IDI berupaya mengembangkan tim ilmuwan data dan pembangun komunitas yang dapat bekerja dengan lembaga pengetahuan dan menunjukkan bagaimana mereka dapat menyediakan koleksinya untuk AI dan pelatihan. Dengan membantu lembaga-lembaga lain mengidentifikasi cara yang paling efektif dan efisien untuk memajukan misi mereka, kami dapat membantu memitigasi tantangan terbatasnya sumber daya yang tidak dapat dihindari. Masih banyak yang bisa kita pelajari tentang masa depan AI, jadi bagian dari misi kami adalah membangun forum yang kuat agar pembicaraan penting tersebut bisa terwujud.
HLT: Apakah IDI melibatkan lembaga pengetahuan lain untuk menjajaki peluang kolaborasi?
Leppert: Tentu saja, kami sedang bekerja sama dengan Perpustakaan Umum Boston dan sedang dalam pembicaraan dengan beberapa pihak lainnya. Dengan peluncuran kami, kami berharap dapat membangun koneksi dengan sebanyak mungkin institusi pengetahuan. Kami adalah data scientist yang siap dan bersedia membantu menyempurnakan data, mempersiapkannya untuk dipublikasikan, dan mempublikasikannya ke server. Kami dapat membantu merancang strategi dan memberikan saran kepada lembaga lain mengenai pilihan mekanisme akses. Kami siap dan bersedia melakukan banyak pekerjaan dan hanya membutuhkan lembaga-lembaga yang tertarik untuk berpartisipasi untuk mendekati kami. Kami bersedia melakukan sisanya.
Kami juga merencanakan simposium pada musim semi untuk mempertemukan lembaga-lembaga ini dan memulai pembicaraan tentang bagaimana kita dapat bekerja sama. Ini seharusnya seluas mungkin dan memungkinkan orang lain untuk merilis data mereka ke seluruh dunia. Kami mencoba untuk memungkinkan praktik komunitas berkembang antar lembaga dan agar mereka dapat menginformasikan misi dan tujuan mereka. Peningkatan AI sangat kuat dan, jika digunakan dengan benar, dapat benar-benar memperkuat misi lembaga pengetahuan di seluruh dunia.
HLT: Bagaimana perusahaan AI saat ini memperoleh manfaat dari pekerjaan umum? Bagaimana seharusnya masyarakat mendapatkan manfaat dari kerja perusahaan AI?
Leppert: Seluruh komunitas AI mendapat manfaat besar dari investasi bersejarah di lembaga pengetahuan publik karena data tersebut memberikan banyak landasan bagi model AI. Tanpa pekerjaan umum, kita tidak akan memiliki tingkat informasi berkualitas tinggi yang diperlukan untuk mendorong model-model canggih yang kita lihat saat ini. Kita mempunyai kesempatan untuk menggunakan investasi publik tersebut (beberapa di antaranya dilakukan berabad-abad yang lalu) untuk memastikan bahwa AI memberikan manfaat seluas-luasnya bagi umat manusia. Ini adalah saat yang tepat untuk berinvestasi dalam manajemen pengetahuan dan ini adalah saat yang tepat untuk berinvestasi kembali di dalamnya seiring kita menuju masa depan AI.
Ingin tetap mendapatkan informasi terkini tentang Harvard Law Today? Berlangganan buletin mingguan kami.