Breaking News

Openai Codex adalah bagian dari kohort baru alat pengkodean agen

Openai Codex adalah bagian dari kohort baru alat pengkodean agen

Jumat lalu, OpenAI menyajikan sistem pengkodean baru yang disebut Codex, yang dirancang untuk melakukan tugas pemrograman yang kompleks berdasarkan perintah bahasa alami. Codex memindahkan OpenAi ke kohort baru alat pengkodean agen yang nyaris tidak mulai terbentuk.

Dari co -pilot awal GitHub hingga alat kontemporer seperti kursor dan windsurf, sebagian besar asisten pengkode bekerja sebagai bentuk diri yang sangat cerdas. Alat biasanya hidup di lingkungan pengembangan terintegrasi, dan pengguna berinteraksi langsung dengan kode yang dihasilkan oleh AI. Kemungkinan hanya menugaskan tugas dan kembali setelah selesai sebagian besar di luar jangkauan.

Tetapi alat pengkodean agen baru ini, yang dipimpin oleh produk seperti Devin, Agen SWE, LenganDan OpenAi Codex yang disebutkan di atas, mereka dirancang untuk berfungsi tanpa pengguna yang berkaitan dengan kode tersebut. Tujuannya adalah untuk beroperasi sebagai manajer tim teknik, menetapkan masalah melalui sistem di tempat kerja seperti Asana atau Slack dan Daftarkan ketika solusi telah tercapai.

Bagi orang percaya dalam bentuk AI yang sangat mampu, ini adalah langkah logis berikutnya dalam perkembangan alami dari otomatisasi yang menangani lebih banyak pekerjaan perangkat lunak.

“Pada awalnya, orang-orang baru saja menulis kode dengan menekan setiap denyut nadi kunci,” jelas Kilian Liert, peneliti Princeton dan anggota tim SWE-Ant. “GitHub Copilot adalah produk pertama yang menawarkan pelengkap diri sejati, yang merupakan semacam tahap dua. Anda masih benar-benar dalam loop, tetapi kadang-kadang Anda dapat mengambil jalan pintas.”

Tujuan sistem agen adalah untuk melampaui lingkungan pengembang sepenuhnya, alih -alih menghadirkan agen pengkodean masalah dan membiarkan mereka menyelesaikannya sendiri. “Kami membawa barang -barang ke lapisan administrasi, di mana saya hanya menetapkan laporan kesalahan dan bot mencoba untuk menyelesaikannya sepenuhnya secara mandiri,” kata Lierte.

Ini adalah tujuan yang ambisius, dan sejauh ini, telah terbukti sulit.

Setelah Devin umumnya tersedia pada akhir 2024, ia menggambar pedas kritik ahli YouTube, serta kritik yang lebih terukur dari pelanggan awal di Menjawab. Kesan umum akrab bagi para veteran yang menyandikan getaran: dengan begitu banyak kesalahan, mengawasi model membutuhkan kedua pekerjaan dan melakukan tugas secara manual. (Sementara penyebaran Devin agak sulit, itu tidak mencegah pengumpul dana untuk mengenali potensi: pada bulan Maret, matriks Devin, kognisi AI, menurut laporan, dikumpulkan ratusan juta dolar pada penilaian $ 4 miliar.

Bahkan pendukung teknologi memperingatkan terhadap pengkodean lingkungan yang tidak divermentasi, melihat agen pengkodean baru sebagai elemen kuat dalam proses pembangunan yang diawasi manusia.

“Pada saat ini, dan saya akan mengatakan bahwa, di masa depan yang dapat diprediksi, seorang manusia harus campur tangan pada saat peninjauan kode untuk melihat kode yang telah ditulis,” kata Robert Brennan, CEO All Hands AI, yang tetap terbuka. “Saya telah melihat beberapa orang bekerja dalam bencana hanya dengan secara otomatis mempercepat setiap bagian dari kode yang ditulis oleh agen. Itu keluar dari kendali dengan cepat.”

Halusinasi juga merupakan masalah yang berkelanjutan. Brennan ingat sebuah insiden di mana, ketika ditanya tentang API yang telah diluncurkan setelah pemotongan data pelatihan agen OpenHands, agen membuat rincian API yang disesuaikan dengan deskripsi. Semua tangan, AI mengatakan bahwa mereka bekerja pada sistem untuk menangkap halusinasi ini sebelum mereka dapat menyebabkan kerusakan, tetapi tidak ada solusi sederhana.

Dapat dikatakan bahwa ukuran terbaik dari kemajuan pemrograman agen adalah Tabel Klasifikasi SWE-Benchdi mana pengembang dapat mencoba model mereka dengan serangkaian masalah repositori gitub terbuka yang belum terselesaikan. OpenHands saat ini menempati tempat pertama dalam tabel klasifikasi terverifikasi, memecahkan 65,8% dari set masalah. Operai menyatakan bahwa salah satu model yang menggerakkan Codex, Codex-1, dapat melakukan lebih baik, mendaftarkan skor 72,1% dalam pengumumannya, meskipun skor datang dengan beberapa peringatan dan belum diverifikasi secara mandiri.

Kekhawatiran di antara banyak orang dalam industri teknologi adalah bahwa skor referensi yang tinggi tidak perlu diterjemahkan ke dalam pengkodean agen yang benar -benar tanpa keraguan. Jika encoder agen hanya dapat menyelesaikan tiga dari empat masalah, mereka akan membutuhkan pengawasan yang signifikan terhadap pengembang manusia, terutama ketika mereka membahas sistem yang kompleks dengan berbagai tahap.

Karena kebanyakan alat kecerdasan buatan, harapan adalah bahwa perbaikan dalam model yayasan akan datang dengan kecepatan konstan, yang pada akhirnya memungkinkan sistem pengkodean agen untuk menjadi alat pengembang yang andal. Tetapi menemukan cara untuk mengelola halusinasi dan masalah keandalan lainnya akan sangat penting untuk sampai ke sana.

“Saya pikir ada efek penghalang suara kecil,” kata Brennan. “Pertanyaannya adalah, seberapa besar kepercayaan diri itu dapat berubah menjadi agen, sehingga lebih banyak beban kerja mereka dihilangkan pada akhir hari?”

Sumber