Evaluator Manusia: Pahlawan AI Generatif Tanpa Tanda Jasa
Sistem AI seperti Gemini tidak melakukan semuanya dengan benar sejak awal. Perkembangannya bergantung pada pasukan analis, yang sering disebut “insinyur cepat”, yang bertugas mengevaluasi respons yang dihasilkan oleh AI. Evaluator ini mengevaluasi hasil berdasarkan faktor-faktor seperti kebenaran dan relevansi, memastikan bahwa AI meningkat seiring waktu.
Bagi Gemini, penilaian ini dikelola oleh kontraktor dari GlobalLogic, sebuah perusahaan outsourcing milik Hitachi. Tugas ini memerlukan keseimbangan yang cermat antara pengetahuan umum dan keahlian domain, karena evaluator sering kali menangani pertanyaan yang mencakup segala hal mulai dari pertanyaan biasa hingga topik yang sangat teknis atau khusus.
Perubahan besar dalam cara evaluasi indikasi
Sampai saat ini, penilai GlobalLogic memiliki opsi untuk melewati perintah jika mereka merasa tidak memenuhi syarat untuk menilai secara akurat. Misalnya, kontraktor tanpa latar belakang medis mungkin memilih untuk tidak mengevaluasi respons terkait penyakit langka. Sistem ini memungkinkan penguji untuk fokus pada area di mana mereka dapat memberikan kontribusi yang berarti sambil memastikan bahwa pertanyaan teknis ditinjau oleh seseorang dengan keahlian yang sesuai.
Tapi itu berubah minggu lalu. Menurut komunikasi internal yang ditinjau oleh TechCrunch.dllGoogle telah memerintahkan kontraktor untuk mengevaluasi semua indikasi, terlepas dari pengetahuan mereka tentang subjek tersebut. Kini, daripada melewatkan tugas-tugas yang tidak mereka persiapkan, penilai diharapkan menilai bagian-bagian yang mereka pahami dan meninggalkan catatan untuk mengakui kurangnya pengalaman mereka.
Satu-satunya pengecualian? Peninjau dapat mengabaikan pesan jika pesan tersebut tidak lengkap atau berisi materi berbahaya yang memerlukan persetujuan khusus untuk dievaluasi.
Kekhawatiran akan akurasi menjadi hal yang besar
Perubahan kebijakan ini telah menimbulkan kekhawatiran yang signifikan mengenai potensi dampak terhadap keakuratan Gemini, terutama ketika berhadapan dengan topik yang sangat terspesialisasi atau sensitif. Tanpa kemampuan untuk melewati perintah, penilai tanpa pengetahuan domain yang memadai mungkin secara tidak sengaja memberikan evaluasi yang tidak akurat, yang pada akhirnya dapat mengganggu pemahaman AI terhadap topik tersebut.
“Saya pikir tujuan dari menghilangkannya adalah untuk meningkatkan akurasi dengan menyerahkannya kepada orang yang lebih baik?” Seorang penguji dilaporkan mempertanyakannya dalam komunikasi internal.
Risiko ini terutama terlihat pada bidang-bidang seperti layanan kesehatan, dimana risiko misinformasi sangat tinggi. Respons AI yang dinilai buruk terhadap pertanyaan medis dapat menimbulkan konsekuensi nyata jika pengguna mengandalkan AI untuk membuat keputusan penting.
Tindakan penyeimbangan yang sulit
Tidak sulit untuk memahami mengapa Google mendorong pendekatan yang lebih universal terhadap penilaian cepat. Membiarkan kontraktor melewatkan perintah dapat memperlambat proses evaluasi dan menimbulkan kemacetan. Dengan mengharuskan setiap orang untuk meninjau semua perintah, sistem menjadi lebih efisien, namun berpotensi mengorbankan keandalan.
Pergeseran ini juga menggarisbawahi tantangan yang lebih luas dalam pengembangan AI: bagaimana meningkatkan skala sistem tanpa mengorbankan kualitas. Karena model AI seperti Gemini diterapkan di berbagai bidang seperti layanan kesehatan, hukum, dan pendidikan, hasilnya harus akurat dan dapat diandalkan. Namun untuk mencapai tingkat keandalan tersebut mungkin memerlukan pengawasan khusus, yang tidak sejalan dengan upaya efisiensi.
Bagaimana nasib Gemini?
Perdebatan mengenai pedoman baru Google menyoroti pekerjaan rumit di balik layar yang terlibat dalam pembangunan sistem AI generatif dan implikasi nyata dari kesalahan yang dilakukan. Meskipun evolusi Gemini bergantung pada umpan balik dari penguji manusia, efektivitas umpan balik tersebut bergantung pada apakah penguji tersebut diperlengkapi untuk menangani perintah yang diberikan kepada mereka.
Untuk saat ini, pertanyaannya tetap: dapatkah sistem AI generatif mencapai keseimbangan yang tepat antara kecepatan dan akurasi? Dan pengorbanan apa yang ingin kita terima demi mewujudkan teknologi yang semakin mumpuni?
Ponsel terbaik di India
Cerita pertama kali diterbitkan: Kamis, 19 Desember 2024, 10:01 [IST]