Mistral、文書解析OCRの新版「OCR 4」公開 文字の位置や信頼度スコアを出力、日本語を含む170言語に対応

 仏AI企業のMistral AIは6月23日(現地時間)、文書からテキストやレイアウト構造を抽出するOCRモデルの新版「Mistral OCR 4」を公開した。APIのほか、Mistral Studio、Amazon SageMaker、Microsoft Foundryを通じて提供する。Snowflakeの「Parse Document」にも近く対応予定としている。

 Mistral OCRは、PDFや画像から表やレイアウトといった要素を高精度に抽出し、構造化した形式で出力するOCRとして、2025年3月に初代が公開された。当初はMarkdown形式で出力し、API利用料は1000ページ当たり1ドルだった。

 新版のOCR 4は、PDF、DOC、PPT、OpenDocumentなどの文書を読み取り、抽出したテキストとともに、各要素の位置を示すバウンディングボックスや、見出し、表組、数式、署名などの「ブロック種別」の分類、ページ単位、単語単位の信頼度スコアを返す。新版の特徴は、文書が「何を述べているか」だけでなく、各要素が「どこにあり」「どんな役割で」「モデルがどの程度確信しているか」まで構造化して出力できる点だ。中でもバウンディングボックスは最も要望が多かった機能だとしている。

バウンディングボックスや署名の検出例(画像:Mistralの動画より)

 対応言語は日本語を含む170言語に上る。競合システムの精度が落ちやすい希少言語やリソースの少ない環境でも高い精度を保つと謳う。単一コンテナで動作するため、自社インフラでの完全な自己ホスティングが可能で、データの所在地要件や主権、コンプライアンス上の制約がある組織でも、文書データを外部に出さずに処理できるという。

 ベンチマークでは、独立した評価者による人手の比較評価で、テストした主要なOCR・文書AIシステムすべてに対してOCR 4の出力が好まれ、勝率は平均72%だったとしている。また公開ベンチマーク「OlmOCRBench」で85.20、「OmniDocBench」で93.07のスコアを得た。ただし、これらのベンチマークには採点上の既知の限界があり、正しい出力が誤りと判定されるケースもあるとして、数値は「決定的なものではなく方向性を示すもの」と位置付けている。

人手による比較評価でのOCR 4の勝率(画像:Mistral)

 価格はAPI経由で1000ページ当たり4ドル。バッチAPIを使うと50%引きの1000ページ当たり2ドルになる。構造化JSON出力などの機能を加える「Document AI」は1000ページ当たり5ドルだ。OCR 4は、同社のオープンソースの検索フレームワーク「Mistral Search Toolkit」(パブリックプレビュー版)の取り込みコンポーネントとしても利用でき、RAGや企業内検索のパイプラインに組み込めるとしている。

 なお同社は、OCR 4は文書理解のためのモデルであり、医療診断や法的判断、重大な金融上の意思決定などの用途には向かないとしている。

印刷する
SNSでシェア
SpecialPR

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR