Perusahaan Tiongkok terus merilis model AI yang menyaingi kemampuan sistem yang dikembangkan oleh OpenAI dan perusahaan AI lain yang berbasis di AS.
Minggu ini, minimakssebuah startup yang didukung oleh Alibaba dan Tencent yang memilikinya meningkatkan sekitar $850 juta dalam modal ventura dan bernilai lebih dari $2,5 miliar, memulai debutnya tiga model baru: MiniMax-Text-01, MiniMax-VL-01 dan T2A-01-HD. MiniMax-Text-01 adalah model teks saja, sedangkan MiniMax-VL-01 dapat memahami gambar dan teks. Sedangkan T2A-01-HD menghasilkan audio, khususnya suara.
MiniMax mengklaim bahwa MiniMax-Text-01, yang memiliki ukuran 456 miliar parameter, memiliki kinerja lebih baik dibandingkan model seperti yang baru-baru ini diperkenalkan oleh Google. Gemini 2.0 Flash pada tolok ukur seperti MMLU dan SimpleQA, yang mengukur kemampuan model dalam menjawab permasalahan matematika dan pertanyaan berdasarkan fakta. Parameter secara kasar sesuai dengan kemampuan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit.
Sedangkan untuk MiniMax-VL-01, menurut MiniMax, ia menyaingi Anthropic. Claude Soneta 3.5 dalam penilaian yang memerlukan pemahaman multimodal, seperti ChartQA, yang menugaskan model dengan menjawab pertanyaan terkait bagan dan diagram (misalnya, “Berapa nilai maksimum garis oranye pada bagan ini?”). Tentu saja, MiniMax-VL-01 tidak mengungguli Gemini 2.0 Flash dalam banyak pengujian ini. OpenAI GPT-4o dan model terbuka yang disebut InternVL2.5 juga mengunggulinya beberapa kali.
Perlu dicatat bahwa MiniMax-Text-01 memiliki jendela konteks yang sangat besar. Konteks model, atau jendela konteks, mengacu pada masukan (misalnya, teks) yang dipertimbangkan model sebelum menghasilkan keluaran (teks tambahan). Dengan jendela konteks 4 juta token, MiniMax-Text-01 dapat menganalisis sekitar 3 juta kata sekaligus, atau lebih dari lima salinan “War and Peace.”
Untuk konteks (tidak ada permainan kata-kata), jendela konteks MiniMax-Text-01 berukuran sekitar 31 kali ukuran GPT-4o dan Llama 3.1.
Model MiniMax terbaru yang dirilis minggu ini, T2A-01-HD, adalah generator audio yang dioptimalkan untuk ucapan. T2A-01-HD dapat menghasilkan suara sintetis dengan irama, nada, dan tenor yang dapat disesuaikan dalam sekitar 17 bahasa berbeda, termasuk Inggris dan Cina, dan mengkloning suara hanya dari rekaman audio berdurasi 10 detik.
MiniMax tidak mempublikasikan hasil benchmark yang membandingkan T2A-01-HD dengan model generasi audio lainnya. Namun di telinga jurnalis ini, keluaran T2A-01-HD terdengar setara dengan model audio dari Sasaran dan startup sejenisnya Mainkan AI.
Kecuali T2A-01-HD, yang tersedia secara eksklusif melalui MiniMax API dan platform Hailuo AI, model MiniMax baru dapat diunduh dari GitHub dan platform pengembangan Hugging Face AI.
Namun, hanya karena model tersedia secara “terbuka” tidak berarti model tersebut tidak terkunci dalam aspek tertentu. MiniMax-Teks-01 dan MiniMax-VL-01 Mereka tidak benar-benar open source dalam artian MiniMax belum mempublikasikan komponen (misalnya data pelatihan) yang diperlukan untuk membuatnya kembali dari awal. Selain itu, mereka berada di bawah lisensi MiniMax yang terbatas, yang melarang pengembang menggunakan model tersebut untuk meningkatkan model AI saingannya dan mengharuskan platform dengan lebih dari 100 juta pengguna aktif bulanan untuk mengajukan lisensi MiniMax khusus.
MiniMax didirikan pada tahun 2021 oleh mantan karyawan SenseTime, salah satu perusahaan kecerdasan buatan terbesar di Tiongkok. Proyek perusahaan mencakup aplikasi seperti Talkie, platform permainan peran bertenaga AI yang serupa Karakter AIdan model teks-ke-video yang diluncurkan MiniMax di Hailuo.
Beberapa produk MiniMax telah menjadi subyek kontroversi kecil.
Talkie, yang dihapus dari App Store Apple pada bulan Desember karena alasan “teknis” yang tidak ditentukan, menampilkan avatar tokoh masyarakat dengan kecerdasan buatan, termasuk Donald Trump, Taylor Swift, Elon Musk, dan LeBron James, yang tampaknya tidak ada satupun yang memberikan persetujuan Anda untuk tampil. pada aplikasi.
Pada bulan Desember, majalah Broadcast dilaporkan bahwa generator video MiniMax dapat mereproduksi logo saluran televisi Inggris, menunjukkan bahwa model MiniMax dilatih dengan konten saluran tersebut. Dan MiniMax kabarnya dituntut oleh iQiyi, layanan streaming video Tiongkok yang menuduh MiniMax dilatih secara ilegal tentang rekaman berhak cipta iQiyi.
Model MiniMax baru tiba beberapa hari setelah masa pemerintahan Biden berakhir diajukan peraturan ekspor yang lebih ketat dan pembatasan teknologi kecerdasan buatan untuk perusahaan Tiongkok. Perusahaan-perusahaan di Tiongkok telah dilarang membeli chip AI yang canggih, namun jika peraturan baru ini berlaku seperti yang tertulis, perusahaan akan menghadapi batasan yang lebih ketat pada teknologi semikonduktor dan model yang diperlukan untuk meluncurkan sistem AI yang canggih.
Pada hari Rabu, pemerintahan Biden diumumkan Langkah-langkah tambahan difokuskan untuk menjauhkan chip canggih dari Tiongkok. Pabrik pengecoran chip dan perusahaan pengemasan yang ingin mengekspor chip tertentu akan tunduk pada persyaratan perizinan yang lebih luas kecuali mereka melakukan pengawasan dan uji tuntas yang lebih ketat untuk mencegah produk mereka menjangkau pelanggan Tiongkok.