Mistral、文書解析OCRの新版「OCR 4」公開 文字の位置や信頼度スコアを出力、日本語を含む170言語に対応
仏AI企業のMistral AIは6月23日(現地時間)、文書からテキストやレイアウト構造を抽出するOCRモデルの新版「Mistral OCR 4」を公開した。APIのほか、Mistral Studio、Amazon SageMaker、Microsoft Foundryを通じて提供する。Snowflakeの「Parse Document」にも近く対応予定としている。
Mistral OCRは、PDFや画像から表やレイアウトといった要素を高精度に抽出し、構造化した形式で出力するOCRとして、2025年3月に初代が公開された。当初はMarkdown形式で出力し、API利用料は1000ページ当たり1ドルだった。
新版のOCR 4は、PDF、DOC、PPT、OpenDocumentなどの文書を読み取り、抽出したテキストとともに、各要素の位置を示すバウンディングボックスや、見出し、表組、数式、署名などの「ブロック種別」の分類、ページ単位、単語単位の信頼度スコアを返す。新版の特徴は、文書が「何を述べているか」だけでなく、各要素が「どこにあり」「どんな役割で」「モデルがどの程度確信しているか」まで構造化して出力できる点だ。中でもバウンディングボックスは最も要望が多かった機能だとしている。
対応言語は日本語を含む170言語に上る。競合システムの精度が落ちやすい希少言語やリソースの少ない環境でも高い精度を保つと謳う。単一コンテナで動作するため、自社インフラでの完全な自己ホスティングが可能で、データの所在地要件や主権、コンプライアンス上の制約がある組織でも、文書データを外部に出さずに処理できるという。
ベンチマークでは、独立した評価者による人手の比較評価で、テストした主要なOCR・文書AIシステムすべてに対してOCR 4の出力が好まれ、勝率は平均72%だったとしている。また公開ベンチマーク「OlmOCRBench」で85.20、「OmniDocBench」で93.07のスコアを得た。ただし、これらのベンチマークには採点上の既知の限界があり、正しい出力が誤りと判定されるケースもあるとして、数値は「決定的なものではなく方向性を示すもの」と位置付けている。
価格はAPI経由で1000ページ当たり4ドル。バッチAPIを使うと50%引きの1000ページ当たり2ドルになる。構造化JSON出力などの機能を加える「Document AI」は1000ページ当たり5ドルだ。OCR 4は、同社のオープンソースの検索フレームワーク「Mistral Search Toolkit」(パブリックプレビュー版)の取り込みコンポーネントとしても利用でき、RAGや企業内検索のパイプラインに組み込めるとしている。
なお同社は、OCR 4は文書理解のためのモデルであり、医療診断や法的判断、重大な金融上の意思決定などの用途には向かないとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
日立、メインフレーム事業から撤退へ ハード製造終了から9年後の決断
-
2
国産AI「Sakana Fugu」なぜドル建て? 円建てニーズ「受け止める」とSakana AI
-
3
Excelの10万行データを3分でAIに処理させる、M365 Copilotの使い方
-
4
Sakana AI、一部「ミュトス越えの性能」うたうAIを提供 複数モデルの“集合知”を活用
-
5
ループエンジニアリングとは? チャットとAIコーディングの往復から卒業する新しい開発スタイル
-
6
業務でAIを使う人の約38%「禁止されても利用継続」 セキュリティ企業が調査
-
7
NRIセキュア、未公表の脆弱性を「Mythosと同等のレベルで」検出する診断サービス提供
-
8
Claude Codeに指示を出す「7つの方法」と使い分け 公式が解説
-
9
ダイハツがAI品質検査システムを共同開発、アルミ加工穴内部の目視検査を自動化
-
10
「最初は壊れ過ぎてビビった」──1220億円投じたソフトバンク「AIスパコン」、それでもNVIDIAのGPUを選ぶワケ
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR