Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

Mistral AIは、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。多言語に対応し、数式や画像もサポートする。

[ITmedia] PC用表示関連情報

LINE

Hatena

　仏AI企業のMistral AIは3月6日（現地時間）、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。

　生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。

　Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown（リンクやヘッダなどの書式設定要素を追加するための書式設定構文）でフォーマットする。

　PDFからデータを抽出するサービスは既にあるが、画像や表組み、数式も高精度で理解するのがMistral OCRの特徴だ。以下のようなベンチマークを紹介している。なお、比較している他のLLMには画像抽出機能はない。

　APIでの提供は、1000ページ当たり1ドル。Mistralの他、AWS、Azure、Google Cloud Vertexなどのクラウドパートナーを通じても提供する。また、機密性の高いデータを扱う企業向けに、オンプレミス展開も提供する。

　公式ブログに、数式やヒンディー語の文書など、OCR前後の文書の比較例が掲載されている。

Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

関連記事

関連リンク