Nvidia meluncurkan prototipe avatar AI di CES 2025 yang ada di desktop PC Anda. Asisten AI, R2XIni terlihat seperti karakter video game dan dapat membantu Anda menavigasi aplikasi di komputer Anda.
Avatar R2X dirender dan dianimasikan menggunakan model AI Nvidia, dan pengguna dapat menjalankan avatar tersebut di LLM populer pilihan mereka, seperti GPT-4o OpenAI atau Grok xAI. Pengguna dapat berbicara dengan R2X melalui teks dan suara, mengunggah file untuk diproses, atau bahkan mengizinkan asisten AI melihat apa yang terjadi secara langsung di layar atau kamera mereka.
Perusahaan teknologi baru-baru ini menciptakan banyak avatar AI, tidak hanya di video game tetapi juga untuk pelanggan bisnis dan konsumen. Demo pertama memang aneh, tetapi beberapa orang menganggap avatar ini adalah antarmuka pengguna yang menjanjikan untuk asisten AI. Dengan R2X, Nvidia mencoba menggabungkan kemampuan game generatif dengan LLM mutakhir untuk menciptakan asisten AI yang terlihat dan terasa seperti manusia.
Perusahaan berencana untuk membuat avatar-avatar ini menjadi open source pada paruh pertama tahun 2025. Nvidia melihat ini sebagai antarmuka pengguna baru yang dapat dibuat oleh pengembang, memungkinkan pengguna untuk menghubungkan produk perangkat lunak AI favorit mereka atau bahkan menjalankan avatar-avatar ini secara lokal.
sangat mirip Fitur pemulihan Microsoft (yang telah tertunda karena masalah privasi), R2X dapat mengambil tangkapan layar layar Anda secara konstan dan menjalankannya melalui model AI untuk diproses, meskipun fitur ini dinonaktifkan secara default. Jika diaktifkan, ini dapat memberikan umpan balik pada aplikasi yang berjalan di komputer Anda dan, misalnya, membantu Anda melakukan tugas pengkodean yang rumit.
R2X masih berupa prototipe, dan bahkan Nvidia mengakui masih ada beberapa bug yang harus diperbaiki. Dalam demo dengan TechCrunch, avatar Nvidia memiliki kesan lembah yang luar biasa: wajahnya terkadang terjebak dalam posisi yang aneh dan nadanya terkadang terasa sedikit agresif. Dan secara umum, saya merasa agak aneh jika ada avatar humanoid yang menatap saya saat saya bekerja.
R2X umumnya menawarkan instruksi yang bermanfaat dan melihat secara akurat apa yang ada di layar. Namun pada satu titik, avatar tersebut memberi kami instruksi yang salah dan kemudian tidak lagi dapat melihat layar. Hal ini mungkin merupakan masalah pada model AI yang mendasarinya (dalam hal ini, GPT-4o), namun contoh tersebut menunjukkan keterbatasan teknologi awal ini.
Dalam demonya, pemimpin produk Nvidia menunjukkan bagaimana R2X dapat melihat dan membantu pengguna dengan aplikasi di layar mereka. Secara khusus, R2X membantu kami menggunakan fitur pengisian generatif Adobe Photoshop. Foto yang kami pilih adalah CEO Nvidia Jensen Huang berdiri di sebuah restoran Asia bersama dua pekerja restoran. Avatar Nvidia berhalusinasi dan memberikan instruksi yang salah tentang di mana menemukan fitur pengisian generatif di Photoshop. Dia kemudian kehilangan kemampuan untuk melihat layar, tetapi setelah mengubah model AI yang kami gunakan menjadi Grok xAI, avatar tersebut mendapatkan kembali kemampuannya untuk melihat layar.
Dalam demo lainnya, R2X dapat menyerap PDF dari desktop dan kemudian menjawab pertanyaan tentangnya. Proses ini didukung oleh fungsi local retrieval augmented generation (RAG), yang memberikan avatar AI ini kemampuan untuk mengekstrak informasi dari dokumen dan memprosesnya menggunakan LLM yang mendasarinya.
Nvidia menggunakan beberapa model kecerdasan buatan dari divisi video gamenya untuk menyempurnakan tampilan avatar tersebut. Untuk menghasilkan avatar, Nvidia menggunakan algoritma wajah saraf RTX-nya. Untuk mengotomatisasi pergerakan wajah, bibir dan lidah, Nvidia menggunakan model baru bernama Audio2Faceā¢-3D. Model itu sepertinya berhenti di beberapa titik, menjaga wajah avatarnya dalam posisi yang canggung.
Perusahaan juga mengatakan bahwa avatar R2X ini akan dapat bergabung dalam rapat Microsoft Teams dan bertindak sebagai asisten pribadi.
Seorang pemimpin produk Nvidia mengatakan bahwa perusahaannya juga berupaya untuk memberikan kemampuan agen pada avatar AI ini, sehingga R2X suatu hari nanti dapat mengambil tindakan di desktop Anda. Kemampuan ini tampaknya masih jauh dan mungkin memerlukan kemitraan dengan pembuat perangkat lunak seperti Microsoft dan Adobe, yang mencoba mengembangkan sendiri sistem agen serupa.
Belum jelas bagaimana Nvidia menghasilkan suara dalam produk ini. Suara R2X saat menggunakan GPT-4o terdengar unik dari suara preset ChatGPT mana pun, sedangkan chatbot Grok xAI belum memiliki mode suara apa pun.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.