Mistral, PDF belgelerini AI uyumlu bir formata dönüştürebilen yeni bir OCR-API tanıtıyor

uzman

Active member
Katılım
25 Eyl 2020
Mesajlar
52,742
Puanları
36
Mistral Perşembe günü Mistral Optik Karakter Tanıma (OCR) Uygulama Programlama Arayüzü'nü (API) tanıttı. Yapay Zeka için AI modeli (AI) PDF belgelerini analiz edebilir ve işleyebilir ve Markdown veya Ham metin dosyası gibi AI'ye hazır bir metin biçimine dönüştürebilir. Araç, AI modelleri için sindirilebilir hale getirmek için PDF'lerden veri çıkarabilir. Paris merkezli AI şirketi, Mistral OCR-API'nin PDF dosyaları için AI uygulamaları oluşturmasını ve yeni AI modellerini eğitmek için veri kayıtları oluşturmasını sağlayacağını iddia ediyor.

Mistral OCR -API tanıtıldı


PDF belgeleri, yapay zeka modelleri için benzersiz bir zorluktur. Örneğin, bir AI uygulamasını bilgi bulmak için dizüstü bilgisayarınızdaki PDF belgelerini taramanız isterseniz, bunu yapmak zor olabilir.

Bu, AI uygulamaları oluşturan geliştiricilerin PDF analiz yetenekleri sunmakla sınırlı olduğu anlamına gelir. Google'ın NotbokLM'si, Adobe'nin AI asistanı ve diğer bazı araçlar bu zorluğun üstesinden gelmek için özel OCR araçlarını kullanırken, açık kaynak topluluğundaki geliştiricilerin yüksek verimli bir araca erişimi yoktur.

Mistral-LOC-API, geliştiricilerin PDF verilerini AI özellikli bir formata çıkarmalarını sağlayarak bu zorluğu çözer. Bir haber odası katkısında şirket, aracın medya, metin, tablolar ve yüksek doğrulukla denklemler dahil olmak üzere belgelerdeki ayrı unsurları anlayabileceğini iddia ediyor. Analizden sonra, bilgileri işaretleme veya ham metin dosya biçiminde çıkarabilir ve sunabilir.

KI modelleri daha sonra bu çıkarılan metni kullanabilir, çünkü giriş ve koleksiyon sistemleri ona kolayca erişebilir ve bu konudaki sorguları cevaplayabilir. “Mistral OCR, iç içe görüntüler, matematiksel ifadeler, tablolar ve lateks biçimlendirme gibi gelişmiş düzenler dahil olmak üzere karmaşık belge öğelerini anlamak için karakterize edilir. Model, diyagramlar, diyagramlar, denklemler ve çizimlerle bilimsel çalışma gibi zengin belgelerin daha derin bir şekilde anlaşılmasını sağlar ”diyor Post.

Şirket, Mistral OCR'nin tek bir düğümde dakikada 2.000 sayfaya kadar işleyebileceğini iddia etti. API ile geliştiriciler, araçların ve AI temsilcilerinin işlevlerini oluşturmak için belgeyi hızlı ve zincir çıktılar olarak da kullanabilirler.

Dahili testlere dayanarak, Google Document AI, Azure OCR ve GPT-4O sürüm 2024-11-20 gibi Mistral OCR modelleri “yalnızca metin” belgeleri için aşıldı. Ayrıca çok dilli işlevlerde Google ve Azure'u aştı.

Modelin yeteneğini denemek isteyenler Mistral'dan LE sohbet platformuna gidebilir. API'ye LA PlateForme tarafından erişilebilir.


Samsung, Xiaomi, Realme, OnePlus, Oppo ve Barselona'daki Mobil Dünya Kongresi'nin diğer şirketlerinden en son başlangıçlar ve haberler MWC 2025 merkezimizde bulunabilir.




Donald Trump Stratejik Bitcoin Reserve, Kuşkusuz Varlıklar Kullanarak Kripto Kampları Ekledi
 
Üst