TL;DR
- Google baru-baru ini merevisi cara mereka menginstruksikan kontraktor untuk mengevaluasi respons AI.
- Para pengulas kini cenderung menolak memberikan komentar karena mereka tidak memiliki keahlian khusus mengenai suatu topik.
- Google membela kepentingannya terhadap data ini dengan menunjukkan berbagai faktor yang mempengaruhi masukan yang dicarinya.
Kapan pun kita membicarakannya Kontroversi seputar AI“elemen manusia” sering kali muncul sebagai argumen tandingan. Khawatir tentang AI mengambil pekerjaan Anda? Ya, seseorang masih harus membuat kode AI, mengelola kumpulan data yang melatih AI, dan menganalisis keluarannya untuk memastikan tidak ada omong kosong, bukan? Masalahnya adalah pengawasan manusia hanya berlaku sejauh perusahaan di balik model AI ini tertarik untuk menerapkannya, dan sebuah laporan baru menimbulkan beberapa pertanyaan mengkhawatirkan mengenai batasan tersebut bagi Google dan Gemini.
Google mengalihdayakan beberapa pekerjaan untuk meningkatkan Gemini ke perusahaan seperti GlobalLogic, seperti yang dijelaskan TechCrunch.dll. Salah satu hal yang dilakukannya adalah meminta pengulas untuk mengevaluasi kualitas jawaban Gemini, dan secara historis hal itu mencakup instruksi untuk melewatkan pertanyaan yang berada di luar basis pengetahuan pengulas: “Jika Anda tidak memiliki keahlian penting (misalnya, coding, matematika) untuk nilai pesan ini, lewati tugas ini.”
Pada pandangan pertama, hal ini tampak seperti pedoman yang cukup masuk akal, membantu meminimalkan dampak yang dapat ditimbulkan oleh non-ahli dengan mengarahkan respons AI ke arah yang salah. tapi bagaimana caranya TechCrunch.dll Saya menemukan bahwa hal itu berubah baru-baru ini, dan aturan baru yang dibagikan GlobalLogic dengan kontributornya mengarahkan mereka untuk “tidak melewatkan perintah yang memerlukan pengetahuan domain khusus” dan untuk terus maju dan setidaknya “menilai bagian dari instruksi yang Anda pahami.” Mereka setidaknya diminta untuk menunjukkan dalam sistem bahwa penilaian sedang dilakukan meskipun mereka kurang memiliki pengetahuan.
Meskipun ada banyak hal yang perlu dievaluasi mengenai respons AI lebih dari sekedar “apakah informasi teknis ini akurat, lengkap, dan relevan?”, mudah untuk melihat mengapa perubahan kebijakan seperti ini dapat menjadi perhatian; Setidaknya, hal ini tampaknya menurunkan standar dalam upaya memproses lebih banyak data. Beberapa orang yang bertugas mengevaluasi data ini rupanya memiliki kekhawatiran yang sama, menurut obrolan internal.
Google menawarkan TechCrunch.dll penjelasan ini, dari juru bicara Shira McNamara:
Penguji melakukan berbagai tugas di berbagai produk dan platform Google. Mereka tidak hanya meninjau tanggapan terhadap konten, namun juga memberikan masukan berharga mengenai gaya, format, dan faktor lainnya. Peringkat yang diberikan tidak secara langsung memengaruhi algoritme kami, namun jika digabungkan, peringkat tersebut merupakan data yang berguna untuk membantu kami mengukur seberapa baik kinerja sistem kami.
Hal ini sebagian besar sesuai dengan apa yang kami baca mengenai apa yang tampaknya terjadi di sini, namun kami tidak yakin hal ini cukup untuk menghilangkan semua keraguan masyarakat yang skeptis terhadap AI. Karena pengawasan manusia sangat penting dalam mengendalikan perilaku AI yang tidak diinginkan, setiap dugaan bahwa standar diturunkan hanya akan menimbulkan kekhawatiran.