Pada hari Kamis model bahasa besar bahasa Prancis (Llm) pengembang Mistral Dia meluncurkan API baru untuk pengembang yang menangani dokumen PDF yang kompleks. Mistral OCR Ini adalah API pengenalan karakter optik (OCR) yang dapat mengubah PDF menjadi file teks untuk memfasilitasi model AI.
LLMS, yang mendukung alat -alat populer Genai seperti Openai Chatgpt, bekerja dengan sangat baik dengan teks yang belum diproses. Oleh karena itu, perusahaan yang ingin membuat alur kerja AI mereka sendiri tahu bahwa telah menjadi sangat penting untuk menyimpan dan mengindeks data dalam format bersih sehingga data ini dapat digunakan kembali untuk pemrosesan AI.
Tidak seperti kebanyakan API OCR, Mistral OCR adalah API multimodal, yang berarti dapat mendeteksi ketika ada ilustrasi dan foto yang terkait dengan blok teks. API OCR membuat gambar yang membatasi di sekitar elemen grafis ini dan memasukkannya pada output.
Mistral OCR tidak hanya menghasilkan dinding teks yang besar; Keluar diformat dalam Markdown, sintaks format yang digunakan pengembang untuk menambahkan tautan, header, dan elemen format lainnya ke file teks tanpa format.
LLM sangat bergantung pada penurunan harga untuk set data pelatihan mereka. Demikian pula, ketika Anda menggunakan AI Assistant, seperti Mistral atau Openai Chatgpt Chat, mereka sering menghasilkan Markdown untuk membuat daftar peluru, menambahkan tautan atau menempatkan beberapa elemen dalam huruf tebal. Asisten Aplikasi Memformat keberangkatan Markdown tanpa masalah di outlet teks yang kaya. Itulah sebabnya teks yang belum diproses, dan penurunan harga, telah menjadi lebih penting dalam beberapa tahun terakhir, sejak Genai telah dihapus.
“Selama bertahun -tahun, organisasi telah mengumpulkan banyak dokumen, seringkali dalam format PDF atau slide, yang tidak dapat diakses oleh LLM, terutama sistem kain. Dengan Mistral OCR, klien kami sekarang dapat mengubah dokumen yang kaya dan kompleks menjadi konten yang dapat dibaca dalam semua bahasa, ”kata co -founder dan direktur Ilmu Mistral, Guillaume Lample.
“Ini adalah langkah penting menuju adopsi umum peserta AI di perusahaan yang perlu menyederhanakan akses ke dokumentasi internal mereka yang luas,” tambahnya.
Mistral OCR tersedia di platform API Mistral OA melalui mitra cloud -nya (AWS, Azure, Google Cloud Vertex, dll.). Dan untuk perusahaan yang bekerja dengan data rahasia atau rahasia, Mistral menawarkan implementasi di fasilitas.
Menurut perusahaan AI dengan kantor pusat di Paris, Mistral OCR bekerja lebih baik daripada Google, Microsoft dan Openai API. Perusahaan telah menguji model OCR -nya dengan dokumen kompleks yang mencakup ekspresi matematika (format lateks), desain atau tabel canggih. Seharusnya juga bekerja lebih baik dengan dokumen yang bukan bahasa Inggris.
Karena Mistral OCR melakukan satu hal dan satu hal, perusahaan percaya bahwa itu juga lebih cepat daripada yang ada. Itu tidak mengejutkan jika dibandingkan dengan LLM multimodal seperti GPT-4O, yang juga memiliki kapasitas OCR (di antara banyak karakteristik lain).
Mistral juga menggunakan OCR Mistral untuk asisten AI sendiri Le chat. Ketika pengguna memuat file PDF, perusahaan menggunakan Mistral OCR di latar belakang untuk memahami apa yang ada dalam dokumen sebelum memproses teks.
Kemungkinan besar, perusahaan dan pengembang menggunakan OCR Mistral dengan sistem RAG (juga dikenal sebagai generasi pemulihan pemulihan) untuk menggunakan dokumen multimodal sebagai masuk ke LLM. Dan ada banyak kasus potensial. Misalnya, kita bisa membayangkan firma hukum yang menggunakannya untuk membantu mereka bergerak cepat melalui banyak dokumen.
Rag adalah teknik yang digunakan untuk memulihkan data dan menggunakannya sebagai konteks dengan model generatif.