Breaking News

Operai menyajikan model audio baru untuk mendefinisikan kembali suara AI dengan kemampuan bicara -real -time | Berita Teknologi

Operai menyajikan model audio baru untuk mendefinisikan kembali suara AI dengan kemampuan bicara -real -time | Berita Teknologi

Operai telah menyajikan serangkaian model audio baru untuk memberi makan agen suaranya, dan sekarang tersedia untuk pengembang di seluruh dunia. Pembaruan terbaru menetapkan langkah penting dalam teknologi suara. AI Powerhouse telah memperkenalkan alat dan model baru yang dapat memungkinkan pengembang untuk membuat agen suara atau sistem yang dipromosikan oleh AI yang mampu melakukan interaksi ucapan waktu nyata.

Meskipun suara itu adalah antarmuka manusia alami, sebagian besar masih kurang dimanfaatkan dalam aplikasi saat ini. Dengan sejumlah besar pembaruan, Openai bertujuan untuk mengubah ini, pada dasarnya memungkinkan perusahaan dan pengembang untuk membuat agen suara yang lebih canggih. Sistem ini dapat bekerja sendiri, membantu pengguna melalui interaksi lisan dalam berbagai kasus penggunaan yang dapat bervariasi dari layanan pelanggan hingga bahasa pembelajaran.

Apa yang baru?

Operai telah memperkenalkan tiga kemajuan utama dalam AI AI. Ini adalah dua model suara untuk teks generasi terakhir, model teks baru untuk disuarakan dan beberapa perbaikan untuk SDK agen. Model suara untuk teks baru telah melampaui model Whisper Openai sebelumnya di hampir semua tangel yang terbukti, dengan peningkatan yang signifikan dalam presisi dan efisiensi transkripsi.

Cerita berlanjut di bawah pengumuman ini

Di sisi lain, model teks baru untuk disuarakan memungkinkan kontrol yang tepat tidak hanya tentang kata -kata yang diucapkan, tetapi juga dalam bagaimana mereka dikatakan, yang meningkatkan ekspresi umum dari wacana yang dihasilkan oleh AI. Dengan SDK dari agen, pembaruan terakhir memfasilitasi konversi agen berbasis teks menjadi asisten berbasis suara yang menawarkan interaksi yang sempurna.

Apa yang dilakukan agen suara?

Agen suara bekerja mirip dengan asisten berbasis teks. Namun, mereka beroperasi melalui pidato alih -alih interaksi teks. Beberapa kasus penggunaan termasuk layanan pelanggan, di mana AI menanggapi panggilan dan mengelola konsultasi; Pembelajaran bahasa, di mana pelatih dengan AI dapat membantu pengguna dengan pengucapan dan berlatih percakapan; dan alat aksesibilitas, di mana mereka menawarkan asisten yang dikontrol suara untuk pengguna penyandang cacat.

Bagaimana cara membangun AI suara?

Ketika datang untuk membangun suara suara, pada dasarnya ada dua pendekatan: suara untuk menyuarakan (S2S) dan suara ke teks (S2T2S). Model S2S mengambil pintu masuk lisan dan menghasilkan output lisan tanpa transkripsi menengah. Seperti yang dilaporkan, pendekatan ini mempertahankan nuansa seperti intonasi, emosi dan penekanan. Sementara itu, model S2T2S awalnya menuliskan pidato sebagai teks, memprosesnya dan mengubahnya lagi menjadi pidato. Meskipun ini lebih mudah diimplementasikan, mereka sering kehilangan detail kunci dan dapat menambah latensi. Pembaruan OpenAI terbaru menekankan keunggulan suara untuk pemrosesan suara, yang membuat interaksi IA lebih alami dan cair.

Transkrip GPT-4O dan Transkrip Mini GPT-4O

Operai juga telah memperkenalkan dua model transkripsi baru: Transcribe GPT-4O dan Transkrip Mini GPT-4O. Sementara transkrip GPT-4O adalah model bicara besar yang telah dilatih dalam sejumlah besar data audio dengan transkrip yang sangat tepat, transkrip Mini GPT-4O adalah model yang lebih kecil dan lebih efisien yang telah dirancang untuk transkripsi yang lebih cepat dan lebih menguntungkan. Operai telah menegaskan bahwa kedua model memberikan tingkat kesalahan kata -kata terkemuka di industri, secara signifikan meningkatkan versi Whisper sebelumnya. Ketika datang ke harga, transkrip GPT-4O ditawarkan pada $ 0,006 per menit, seperti bisikan, sedangkan transkrip mini GPT-4O adalah $ 0,03 per menit.

Cerita berlanjut di bawah pengumuman ini

Pembaruan OpenAI terbaru tampaknya menyarankan bahwa suara akan menjadi pendekatan utama untuk pengembangan AI. Model -model ini kemungkinan dengan faktor keterjangkauan mereka untuk mendorong perusahaan dan pengembang untuk membangun agen suara berkualitas tinggi.

© IE Online Media Services Pvt Ltd



Sumber