Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始
Mistral AIは、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。多言語に対応し、数式や画像もサポートする。
仏AI企業のMistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。
生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。
Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown(リンクやヘッダなどの書式設定要素を追加するための書式設定構文)でフォーマットする。
PDFからデータを抽出するサービスは既にあるが、画像や表組み、数式も高精度で理解するのがMistral OCRの特徴だ。以下のようなベンチマークを紹介している。なお、比較している他のLLMには画像抽出機能はない。
APIでの提供は、1000ページ当たり1ドル。Mistralの他、AWS、Azure、Google Cloud Vertexなどのクラウドパートナーを通じても提供する。また、機密性の高いデータを扱う企業向けに、オンプレミス展開も提供する。
公式ブログに、数式やヒンディー語の文書など、OCR前後の文書の比較例が掲載されている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
無料生成AIアプリ「Le Chat by Mistral AI」、日本を含む世界で公開
仏生成AI企業のMistral AIは、無料の生成AIチャットアプリ「Le Chat by Mistral AI」をApp StoreとGoogle Playストアで公開した。日本語でも利用できる。画像についての質問や画像の生成も可能だ。
Mistral、チャットAI「Le Chat」に画像生成やPDF分析、Web検索などの新機能追加
Mistral AIは、AIチャットbot「Le Chat」に複数の新機能を追加した。画像生成やChatGPTの「Canvas」のような機能、大容量のPDFの内容を分析する機能などだ。日本語もサポートするβ版を無料で利用できる。
Mistral AI、スマホでも使える新AIモデル「les Ministraux」リリース
仏AI企業Mistral AIは、デバイス上でのコンピューティングとエッジユースケース向けに設計された最先端モデル「les Ministraux」を発表した。3BモデルのAPIは出力/入力トークン100万個当たり4セントで利用可能だ。
Mistral AI、初のマルチモーダルAIモデル「Pixtral」リリース 画像を理解
仏AI新興企業のMistral AIは、画像も処理できる初のマルチモーダル生成AIモデル「Pixtral 12B」を発表した。

