PP-OCRv6の特徴と多言語OCR
PP-OCRv6 の最大の特徴は、50言語を1つのモデルで処理できる統一アーキテクチャと、用途に応じた3段階のモデルサイズです。
PP-OCRv6 の3ティア構成
Tiny
1.5M パラメータ
49言語(日本語除く)
エッジ・IoT 向け
Apple M4 で 0.96秒
Small
7.7M パラメータ
50言語対応
モバイル・デスクトップ向け
バランス型
Medium
34.5M パラメータ
50言語対応
サーバー向け・最高精度
A100 で 0.29秒
PP-OCRv6とは — PaddleOCR最新の文字認識モデル
PP-OCRv6 は、Baidu(百度)が開発するオープンソース OCR フレームワーク「PaddleOCR」の最新世代モデルです。2026年6月11日に PaddleOCR v3.7.0 として公開されました。
OCR とは Optical Character Recognition(光学文字認識)の略で、画像や PDF に含まれる文字をテキストデータとして取り出す技術を指します。紙の書類をスキャンしてテキスト検索できるようにしたり、写真に映った看板の文字を読み取ったりする場面で使われます。
PP-OCRv6 は、新しく設計された PPLCNetV4 という統一バックボーン(基盤ネットワーク)の上に構築されています。テキスト検出(文字がどこにあるかを見つける処理)とテキスト認識(見つけた文字が何であるかを判定する処理)の両方を、このバックボーンで統一的に処理する設計です。
PP-OCRv6 is the latest generation of PaddleOCR's universal OCR model family. The model family scales from 1.5M to 34.5M parameters, with three tiers: tiny, small, and medium. — PP-OCRv6 の概要説明より
パラメータ数が1.5M〜34.5Mと小さいにもかかわらず、2350億パラメータ規模のVLM(視覚言語モデル)を上回る認識精度を実現している点が、PP-OCRv6 の際立った特徴です。
50言語を1モデルで認識する多言語OCR
PP-OCRv6 の Medium・Small モデルは、50言語を1つの統一モデルで認識できます。対応言語は、簡体字中国語・繁体字中国語・英語・日本語に加え、フランス語やドイツ語、スペイン語をはじめとする46のラテン文字系言語です。
従来の OCR モデルでは、言語ごとに別のモデルをダウンロードし、処理対象に応じて切り替える必要がありました。PP-OCRv6 では、1つのモデルをロードするだけで多言語文書を処理できます。複数言語の文書が混在する環境では、言語切り替えの手間がそのまま処理時間と管理コストになります。1モデルを読み込むだけで済む設計は、この切り替えコストそのものをなくせます。
50 languages with a single unified model, including Simplified Chinese, Traditional Chinese, English, Japanese, and 46 Latin-script languages (tiny supports 49, excluding Japanese). — 対応言語に関する説明より
迷いやすいのは Tiny モデルの言語対応です。Tiny は日本語を除く49言語のみです。日本語文書を扱うなら Small 以上を選んでください。
辞書には約200文字のダイアクリティカル文字(アクセント記号付き文字)が追加されており、ラテン文字系の言語で正確に文字を判別できます。
PP-OCRv5から改善された検出・認識アーキテクチャ
PP-OCRv6 では、テキスト検出と認識の両方のモジュールが刷新されています。
テキスト検出には RepLKFPN という軽量な大カーネル特徴ピラミッドネットワークが導入されました。7×7 の広い受容野をもつ設計で、検出モジュールのパラメータ数は v5 の172Kから118Kへ約31%削減されています。パラメータが減っても精度は向上しており、検出 Hmean は v5 の81.6%から86.2%へ+4.6ポイント改善しています。
テキスト認識には EncoderWithLightSVTR が採用されました。ローカルな特徴とグローバルな注意機構を、加算的なスキップ接続で組み合わせた構造です。認識精度は v5 の78.1%から83.2%へ+5.1ポイント向上しています。
Backbone: PPLCNetV4. Detection Neck: RepLKFPN (7×7 receptive field; 118K parameters vs. PP-OCRv5's 172K). Recognition Neck: EncoderWithLightSVTR (local-global attention with additive skip connections). — モデル構成(Architecture)より
PP-OCRv6の精度・速度ベンチマーク
PP-OCRv6 の精度と速度を、公式ドキュメントのベンチマークデータで見ます。
PP-OCRv6 vs PP-OCRv5 精度比較(Medium モデル)
テキスト検出・認識の精度をPP-OCRv5と比較
公式ドキュメントでは、検出16カテゴリ・認識15カテゴリのシナリオにわたる多角的なベンチマークが公開されています。以下は、各ティアと PP-OCRv5_server の平均精度の比較です。
| モデル | パラメータ | 検出 Hmean(平均) | 認識精度(加重平均) |
|---|---|---|---|
| PP-OCRv6 Medium | 34.5M | 86.2% | 83.2% |
| PP-OCRv6 Small | 7.7M | 84.1% | 81.3% |
| PP-OCRv6 Tiny | 1.5M | 80.6% | 73.5% |
| PP-OCRv5 Server | — | 81.6% | 78.1% |
PP-OCRv6_medium: AVG 86.2, PP-OCRv6_small: AVG 84.1, PP-OCRv6_tiny: AVG 80.6, PP-OCRv5_server: AVG 81.6 — Text Detection Hmean (%) Multi-Scenario Benchmark より
注目したいのは Small モデル(7.7Mパラメータ)です。v5_server を検出・認識の両方で上回っています。パラメータ数が大幅に少ない Small でも、前世代のサーバー向けモデルを上回ります。 デスクトップ環境で Small を選ぶ根拠はここにあります。
シナリオ別に見ると、v6 が特に大きく伸びた領域があります。認識精度では、日本語が v5_server の73.7%から90.5%へ16.8ポイント、デジタル表示や画面キャプチャなどのスクリーン文字が68.1%から82.5%へ14.4ポイント、古典籍が60.4%から72.4%へ12.0ポイント、印刷英語が85.1%から94.1%へ9.0ポイント伸びています。検出側でも、回転テキストが80.0%から93.8%へ13.8ポイント、産業用テキストが64.3%から73.3%へ9.0ポイント改善しました。日本語やスクリーン文字のように実務で扱う機会が多い領域ほど伸び幅が大きく、そのまま v6 を選ぶ実利につながります。 一方で手書き中国語は62.1%(v5_server 58.0%)にとどまり、手書きは依然として苦手領域です。
PP-OCRv6_medium recognition: JP 90.5, Screen 82.5, Anc. 72.4, Print-EN 94.1. PP-OCRv5_server: JP 73.7, Screen 68.1, Anc. 60.4, Print-EN 85.1. — Text Recognition Accuracy (%) Multi-Scenario Benchmark より
大規模VLMとの精度比較
PP-OCRv6 の公式ベンチマークでは、Qwen3-VL-235B や GPT-5.5 といった大規模 VLM(視覚言語モデル)との比較も示されています。
VLM は画像理解の汎用モデルで、OCR 以外にも画像の内容説明や質疑応答に使えます。パラメータ数は数百億〜数千億と桁違いに大きく、推論にも高性能 GPU が必要です。
PP-OCRv6 の Medium モデルは、わずか34.5Mパラメータでこれらの大規模 VLM を上回る OCR 精度を達成しています。 テキスト認識に絞れば、パラメータ数が数千分の1の専用モデルが汎用の巨大モデルを上回ります。これはアーキテクチャの優劣ではなく、タスク特化の効果といえます。
PP-OCRv6_medium with 34.5M parameters...surpasses VLMs such as Qwen3-VL-235B and GPT-5.5 in accuracy. — VLM との精度比較に関する記述より
ただし、VLM にはレイアウト理解や画像内容の意味把握など OCR 以外の能力があります。純粋なテキスト抽出には PP-OCRv6、画像全体の理解や文脈を含む処理には VLM、と目的に応じて使い分けるのが実用的です。
ハードウェア別の推論速度ベンチマーク
推論速度は、処理する画像1枚あたりの所要時間で比較されています。以下の表は、公式ドキュメントに掲載されたエンドツーエンドの推論速度です。
| ハードウェア | v6 Medium | v6 Small | v6 Tiny | v5 Server | v5 Mobile |
|---|---|---|---|---|---|
| NVIDIA A100 | 0.29秒 | 0.25秒 | 0.13秒 | 0.32秒 | 0.25秒 |
| NVIDIA V100 | 0.72秒 | 0.49秒 | 0.21秒 | 0.66秒 | 0.50秒 |
| Intel Xeon 8350C | 2.05秒 | 0.79秒 | 0.32秒 | 2.04秒 | 0.80秒 |
| Apple M4 | 8.82秒 | 3.07秒 | 0.96秒 | 10秒超 | 5.82秒 |
NVIDIA A100: v6_medium 0.29s, v6_tiny 0.13s. Apple M4: v6_tiny 0.96s vs v5_mobile 5.82s (6.1× speedup). — End-to-End Inference Speed (s/image) より
Tiny モデルは Apple M4 で0.96秒と1秒を切っており、v5 Mobile(5.82秒)から6.1倍の高速化です。GPU 環境(A100)では Medium でも0.29秒で処理でき、バッチ処理のスループットに問題はありません。
CPU 環境でも Tiny なら Intel Xeon で0.32秒。GPU なしでも Tiny で十分なケースは多いです。
推論バックエンドの選択でも速度は変わります。Intel Xeon では、標準の Paddle Inference で Medium が2.05秒のところ、OpenVINO バックエンドに替えると1.40秒、Tiny は0.20秒まで短縮されます。Apple M4 でも Tiny は ONNX Runtime で0.35秒と、標準バックエンド(0.96秒)の半分以下です。公式は v5 比で最大2.37倍の GPU 推論高速化をうたっており、ハードウェアとバックエンドの組み合わせ次第で実効速度をさらに引き上げられます。
Intel Xeon 8350C OpenVINO: v6_medium 1.40s, v6_tiny 0.20s. Apple M4 ONNX Runtime: v6_tiny 0.35s. "2.37× GPU inference speedup." — End-to-End Inference Speed table / performance highlights より
PP-OCRv6の導入方法とモデルの選び方
PP-OCRv6 は Python のパッケージマネージャーからインストールでき、数行のコードで画像内のテキストを抽出できます。
PP-OCRv6 導入の流れ
1. インストール pip install paddleocr
↓
2. コード実行 PaddleOCR() → ocr.predict(画像パス)
↓
3. 結果取得 検出座標 + 認識テキスト + 信頼度スコア
pip installからOCRテキスト抽出までの手順
PP-OCRv6 は paddleocr パッケージとして PyPI に公開されており、Python 3.8〜3.13 で動作します。インストールは以下の1行です。
pip install paddleocr
インストール後、以下のコードで画像からテキストを抽出できます。
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict("sample.png")
for res in result:
res.print()
res.save_to_json("output")
from paddleocr import PaddleOCRocr = PaddleOCR( use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, ) result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png") — Quick Start のコード例より
use_doc_orientation_classify や use_doc_unwarping は文書の向き補正やゆがみ補正のオプションです。不要な場合は False にしておくと処理が軽くなります。
推論バックエンドは3種類から選べます。デフォルトの Paddle Inference のほか、engine="transformers" で Hugging Face Transformers バックエンド、engine="onnxruntime" で ONNX Runtime バックエンドが使えます。ONNX Runtime を選ぶと PaddlePaddle 本体のインストールが不要になるため、環境構築を簡素にしたい場合に便利です。
PDF や画像をテキストとして扱える状態にしておくと、OCR の結果を検索やデータ入力の自動化に活用しやすくなります。
Tiny・Small・Mediumモデルの使い分け
3つのモデルティアは、パラメータ数と精度のトレードオフで選びます。以下に用途別の選び方をまとめます。
| 用途 | 推奨ティア | 理由 |
|---|---|---|
| モバイルアプリ・エッジデバイス | Tiny(1.5M) | 最軽量で高速。日本語不要なら最適 |
| デスクトップアプリ・Web サービス | Small(7.7M) | 精度と速度のバランスが良い。50言語対応 |
| サーバーサイドのバッチ処理 | Medium(34.5M) | 最高精度。GPU 環境で大量処理向き |
| 日本語文書が含まれる案件 | Small 以上 | Tiny は日本語非対応 |
精度の差は、特に手書き文字や産業用テキスト(デジタル表示・ドットマトリクス文字など)で顕著に出ます。Medium の手書き中国語認識率が62.1%であるのに対し、Tiny は40.1%まで下がります。手書き文字を扱う場合は Medium を選ぶのが安全です。
一方、印刷された英語テキストであれば Tiny でも88.4%の認識率があり、領収書や請求書のデジタル化には十分な精度です。画像の前処理として圧縮や形式変換を行う場合は、OCR の前に画質を下げすぎないよう注意が必要です。
PP-OCRv6のメリットと注意点
PP-OCRv6 の強みと制約を整理します。
強みは3点。まず50言語を1モデルでカバーするため、言語ごとのモデル管理が不要です。多言語文書が混在しても切り替え処理を挟まずに済みます。
次にコスト。Apache License 2.0 で、商用利用を含めて完全無料。 Google Cloud Vision API や Amazon Textract は従量課金ですが、PP-OCRv6 はセルフホストで追加費用がゼロです。処理枚数が増えるほどクラウドとのコスト差は広がります。
3点目はメモリ効率。34.5M パラメータで VLM を上回る精度が出るため、GPU メモリが限られるオンプレミス環境でも動かせます。
制約は3点。手書き文字の精度が低い。 Medium モデルでも手書き中国語62.1%・手書き英語67.8%。手書きメモの読み取りを主目的にするなら、採用前に実データで検証が必要です。
レイアウト解析はスコープ外。表構造の認識や読み順の決定は、別途 PaddleOCR のレイアウト解析モジュールと組み合わせる必要があります。PDF を画像に変換してから OCR にかけるワークフローでは、この点を最初から設計に組み込んでおくと後から詰まりません。
日本語を扱うなら Tiny は選べません。Tiny は日本語非対応(49言語)のため、Small 以上を選んでください。
License: Apache-2.0. Current Version: 3.7.0. Supported Python: 3.8, 3.9, 3.10, 3.11, 3.12, 3.13. — パッケージ情報より
Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. — リポジトリ説明より