Mistral OCR 4とは(バウンディングボックス対応の文書AI)
Mistral OCR 4 が1つの文書から返すデータ
Mistral OCR 4は、フランスのAI企業 Mistral AI が2026年6月23日に公開した、文書読み取り(OCR)に特化したAIモデルです。OCR(Optical Character Recognition=光学文字認識)とは、画像やPDFの中の文字をコンピューターが扱えるテキストに変換する技術を指します。ここではまず、OCR 4が何を返すのか、バウンディングボックスとは何か、そして従来のOCRとの違いを順に整理します。
Mistral OCR 4の定義と返ってくるデータ
Mistral OCR 4は、文書の中身を単なる文字の羅列ではなく、構造を保った状態で取り出すモデルです。抽出したテキストとあわせて、バウンディングボックス、種類分けされたブロック、そして読み取りの確からしさを示す信頼度スコアまで返します。
returns bounding boxes, typed-block classification (titles, tables, equations, signatures, and more), and inline confidence scores — Mistral OCR 4 発表本文より
つまり、紙の請求書や契約書、論文のPDFを読み込ませると、文章はMarkdown形式のテキストとして、表は表として、数式は数式として、それぞれが「どの種類のブロックで」「ページのどこにあるか」という情報付きで返ってきます。この構造化された出力が、後工程でデータを扱う際の手間を大きく減らします。
バウンディングボックスとは(文字の位置を示す枠)
バウンディングボックス(bounding box)とは、抽出した文字や図がページのどこにあるかを示す、長方形の座標枠のことです。OCR 4では、各ブロックの左上と右下の座標(top_left_x、top_left_y、bottom_right_x、bottom_right_y)として返されます。この位置情報があることで、AIが出した答えが元の文書のどの部分に基づくのかを、ハイライトで指し示せるようになります。
Bounding boxes, our most-requested capability, localize text for in-context highlighting and reliable data pipelines. — Mistral OCR 4 発表本文より
Mistralはバウンディングボックスを「最も多く要望された機能」と位置づけています。たとえばAIに「この契約書の解約条項はどこか」と尋ねたとき、答えだけでなく原本の該当箇所を枠で示せれば、内容を人が確かめやすくなります。実際に請求書や契約書のPDFをAIに処理させていると、文字は起こせても「どこに書いてあったか」まで戻れず、確認に手間取る場面が少なくありません。バウンディングボックスは、その手戻りを減らす機能です。文書の自動処理で誤りが許されない場面ほど、この「どこを読んだか」を追える性質が効いてきます。
従来のOCRとの違い(ブロック分類・信頼度スコア)
これまでのOCRは、主に文字や表をテキストに起こすことを目的にしていました。OCR 4はそこから一歩進み、読み取った要素を「ブロック」という単位に分け、それぞれを種類ごとに分類します。各ブロックはバウンディングボックスで位置が特定され、タイトル・表・数式・署名といった種類に分類された構造化データとして返ってきます。
Each block is localized with a bounding box, classified by type, and inline confidence scores are generated per-page and per-word. — Mistral OCR 4 発表本文より
従来型のOCRとの違いを、観点ごとに整理すると次のようになります。
| 観点 | 従来型のOCR | Mistral OCR 4 |
|---|---|---|
| 主な出力 | 文字・表のテキスト化 | Markdownテキスト+構造化データ |
| 文字の位置情報 | 持たないことが多い | バウンディングボックスで座標を返す |
| ブロックの種類分け | 限定的 | 見出し・表・数式・署名などに分類 |
| 読み取りの確からしさ | 示されないことが多い | ページ単位・単語単位の信頼度スコア |
| 後工程での扱い | 整形・分割を作り込む必要 | そのまま検索・データ化に渡しやすい |
※従来型OCRの欄は一般的な特徴の整理です。製品によって対応範囲は異なります。
加えて、ページ単位・単語単位で信頼度スコアが付くため、読み取りがあやしい箇所を後から重点的に確認できます。文字を起こすだけだった従来型に対し、OCR 4は「どこに・何が・どれくらい確実に」あるかまでを一度に返す点が、実務での扱いやすさにつながっています。
Mistral OCR 4でできること・ベンチマーク性能
Mistral OCR 4 の公開ベンチマーク・評価
棒の長さは0〜100で統一。OlmOCRBench・OmniDocBench はベンチマークのスコア、勝率は主要OCR・文書AIとの人手比較で選ばれた割合。指標が異なるため単純な横並び比較はできません。数値はMistral公式値(2026年6月時点)。
Mistral OCR 4の実力は、対応範囲の広さと公開ベンチマークの両面で確認できます。ここでは多言語対応とブロック分類、信頼度スコアを活かした使い方、そしてベンチマークでの評価を見ていきます。
170言語対応とブロックの種類分け
OCR 4は幅広い言語に対応します。対応言語は170言語にのぼり、10の言語グループにまたがるとされています。日本語を含む多言語の文書をまとめて処理したい場面でも使いやすい設計です。
170 languages across 10 language groups — Mistral OCR 4 発表本文より
ブロックの種類分けも実務で役立ちます。見出し・表・数式・署名などを区別して返すため、たとえば表だけを抜き出して表計算ソフトに取り込む、署名欄の有無だけを確認する、といった処理を後段で組み立てやすくなります。文書全体をひとかたまりのテキストとして扱うより、必要な部分を狙って取り出せるのが利点です。
信頼度スコアと出典付き引用(RAG・グラウンディング)
ブロックの種類と信頼度スコアは、AIに文書を読ませて回答させる仕組みと相性が良いものです。ブロックの種類と信頼度スコアは、出典に基づく引用や、伏せ字処理、人による最終確認といった用途を支えるとされています。
block types and confidence scores drive source-grounded citations, redactions, and human-in-the-loop verification. — Mistral OCR 4 発表本文より
信頼度スコアはページ単位だけでなく単語単位でも付きます。そのため、数字や固有名詞のように一文字の誤りが致命的になる箇所だけを抜き出して人が確認する、といった運用ができます。すべてを目視するのではなく、確からしさの低い箇所に絞って人手を入れられる点は、大量の文書を扱う現場ほど効いてきます。
これは、RAG(検索拡張生成=手元の文書を検索してAIの回答の根拠にする仕組み)の前処理として効いてきます。種類ごとに整理され、出典をたどれる形に整ったブロックは、AIに渡す「検索の単位」として質が高くなります。手元のPDFをAIに読み込ませる流れの全体像は、あわせて PDFをChatGPTに読み込ませる方法の解説記事 も参考になります。
ベンチマークでの評価(OlmOCRBench 85.20・勝率72%)
公開された評価では、OCR 4は高い数値を示しています。公開ベンチマークOlmOCRBenchで85.20を記録し、Mistralはテストした中で最も高い総合スコアだとしています。
the top overall score amongst the models we tested on the public OlmOCRBench (85.20) — Mistral OCR 4 発表本文より
文書解析の総合的なベンチマークでも、高い数値が出ています。OmniDocBenchではOCR 4が93.07というスコアを記録しています。
On OmniDocBench, OCR 4 achieves a score of 93.07. — Mistral OCR 4 発表本文より
人手による評価でも、OCR 4は他システムより好まれたとされています。Mistralによれば、独立した評価者は、テストした主要なOCR・文書AIシステムのいずれと比べてもOCR 4を好み、その勝率は平均72%だったとしています。ただしベンチマークの数値は、比較対象や試行条件によって見え方が変わります。指標ごとに測っているものが違うため、自分の用途に近い評価を重く見るのが現実的です。
無料ツールPDF→Markdown変換PDFの内容をMarkdown形式に変換。ドキュメントのテキスト再利用に。今すぐ使ってみる →
Mistral OCR 4の料金とAPIの使い方
Mistral OCR 4 の料金(1,000ページあたり・ドル)
棒の長さは料金(ドル)。バッチAPIはまとめて処理する割引方式。Document AIは構造化の注釈まで付けるプラン。出典:Mistral公式(2026年6月時点)。
料金と使い方は、導入を検討するうえで欠かせない情報です。ここではページあたりの料金、APIの呼び出し方、そして自前サーバーでの運用や提供プラットフォームを整理します。
料金(1,000ページあたり4ドル・バッチで2ドル)
OCR 4の料金は、処理するページ数に応じた従量制です。標準のOCRは1,000ページあたり4ドル、まとめて処理するバッチAPIを使うと1,000ページあたり2ドルになります。
$4 per 1,000 pages, dropping to $2 with the Batch-API discount. — Mistral OCR 4 発表本文(Pricing)より
| プラン | 料金(1,000ページあたり) | 主な用途 |
|---|---|---|
| 標準OCR | 4ドル | 通常の文書読み取り |
| バッチAPI | 2ドル | 大量の文書をまとめて処理 |
| Document AI(注釈付き) | 5ドル | 構造化した注釈まで付ける |
急ぎでない大量の文書をまとめて処理するなら、バッチAPIで費用を半分に抑えられます。料金は改定されることがあるため、契約前には公式の料金情報を確認してください。
APIの使い方(mistral-ocr-latestと対応形式)
OCR 4は、1つのAPI呼び出しで使えます。プログラムからは client.ocr.process() を呼び、モデル名に mistral-ocr-latest を指定するだけで利用できます。OCR 4特有の機能を使う場合は、モデル名に mistral-ocr-4-0 以降を指定します。
client.ocr.process() … model="mistral-ocr-latest" — OCR Processor ドキュメントより
入力は、公開URL(document_url)か、Base64でエンコードしたデータ、またはクラウドにアップロードしたファイルのいずれかで渡せます。返ってくるのは、Markdownのテキスト、ページごとの情報、画像、表、ブロック、信頼度スコアをまとめたデータです。
対応する入力形式は幅広く、文書はPDF・PowerPoint・Wordなど、画像はPNG・JPEG・AVIFなどに対応します。
pdf, pptx, docx and more... / png, jpeg/jpg, avif and more... — OCR Processor ドキュメント(対応形式)より
図やグラフに説明を付けたいときは、注釈の機能を併用できます。注釈には2つの方式があります。1つは抽出した画像ごとに説明を付ける方式(bbox_annotation)で、OCRのあとに各ボックスを個別に処理します。もう1つは文書全体をまとめて扱う方式(document_annotation)で、Markdownのテキストと抽出した画像をあわせて処理します。部分ごとの注釈と文書全体の要約を、用途に応じて使い分けられます。
なお、APIで処理する前に、手元のPDFをそのままMarkdownに整えておきたいときは、ブラウザだけで使える次のツールが手軽です。
無料ツールPDF→Markdown変換PDFの内容をMarkdown形式に変換。ドキュメントのテキスト再利用に。今すぐ使ってみる →
セルフホスティングと提供プラットフォーム
OCR 4は、提供形態の柔軟さも特徴です。1つのコンテナにまとめて、自社のインフラ上で動かす完全な自前運用ができるとされています。機密性の高い文書を外部に出さずに処理したい組織には、この自前運用の選択肢が向いています。
提供プラットフォームも複数あります。Mistral自身の Mistral Studio や API のほか、Amazon SageMaker、Microsoft Foundry から利用でき、Snowflake の Parse Document でも提供が予定されています。すでに使っているクラウド基盤に合わせて、導入の入口を選べる形です。生成AI全体の中でのMistralの位置づけは、Claudeとは(Anthropicの生成AI)の解説記事 とあわせて読むと整理しやすくなります。
Mistral OCR 4の活用シーンと注意点・まとめ
Mistral OCR 4 が向いている使い方
最後に、Mistral OCR 4をどんな場面で使うと効果が高いか、導入前に確認したい注意点、そして出典をまとめます。
向いている使い方(文書のデータ化・RAGの前処理)
OCR 4は、文書を「読む」だけでなく「次の処理に渡す」ことを前提にした設計です。Mistralは、AIエージェントが文書を読むだけの段階から、フォーム入力・請求書処理・コンプライアンス確認といった作業をこなす段階へ進むための部品として位置づけています。
agents move from reading documents to acting on them (form filling, invoice processing, compliance checks) — Mistral OCR 4 発表本文より
具体的には、紙やPDFの帳票をデータ化して基幹システムに取り込む、論文や報告書を検索できる形に整える、AIに社内文書を根拠付きで答えさせる、といった用途で力を発揮します。紙の書類をデータ化する流れ全体は、紙書類のデジタル化・電子化ガイド もあわせて参考になります。手元の文書をAIに読ませる流れを試すなら、まずPDFを整った形に変換するところから始めると進めやすくなります。
無料ツールPDF→Markdown変換PDFの内容をMarkdown形式に変換。ドキュメントのテキスト再利用に。今すぐ使ってみる →
使う前に確認したい注意点
便利な一方で、導入前に押さえておきたい点もあります。OCR 4の読み取りは高精度とされますが、信頼度スコアが低い箇所や重要な数値は、人が最終確認する前提で組み立てるのが安全です。Mistral自身も、人による確認を支える用途を想定しています。
また、料金・モデル名・提供プラットフォームは更新されることがあります。とくにAPIでモデル名を固定して運用する場合は、指定したモデルが現在も提供されているかを公式ドキュメントで確認し、必要に応じて見直してください。費用が気になるときは、急ぎでない処理をバッチAPIにまわすだけでも単価を抑えられます。用途と扱う文書量が固まってきた段階で、標準・バッチ・自前運用のどれが合うかを選び直すと無駄がありません。
Mistral OCR 4のまとめ
Mistral OCR 4は、文字を読み取るだけでなく、位置・種類・確からしさまで構造化して返す文書AIです。バウンディングボックスによる位置特定とブロック分類が、RAGやエージェント、社内文書の検索といった後工程の質を支えます。料金は1,000ページあたり2〜5ドルの範囲で、用途に応じてバッチ処理や自前のサーバー運用も選べます。紙やPDFのデータ化を起点に、AI活用を広げたい場面で有力な選択肢になります。
文書をAIに読ませる前段では、PDFを見出しや表の構造を保ったままMarkdownに整えておくと、後段の処理が安定しやすくなります。ブラウザだけで完結させたいときは、次のツールが役立ちます。
無料ツールPDF→Markdown変換PDFの内容をMarkdown形式に変換。ドキュメントのテキスト再利用に。今すぐ使ってみる →