PP-OCRv6とは何ですか？

PaddlePaddle が開発した OCR（光学文字認識）の最新モデルで、2026年6月11日にリリースされました。50言語を1つのモデルで認識でき、パラメータ数の異なる3段階（Tiny・Small・Medium）が用意されています。

PP-OCRv6は無料で使えますか？

Apache License 2.0 で公開されており、商用利用を含めて無料で利用できます。pip install paddleocr でインストールするだけで使い始められます。

PP-OCRv6は何言語に対応していますか？

Medium・Small モデルは50言語に対応しています。簡体字中国語、繁体字中国語、英語、日本語、および46のラテン文字系言語を1つのモデルでカバーします。Tiny モデルは日本語を除く49言語です。

PP-OCRv6とPP-OCRv5の違いは何ですか？

テキスト検出の精度が+4.6ポイント、認識精度が+5.1ポイント向上しています。バックボーンが PPLCNetV4 に刷新され、50言語を1つのモデルでカバーする統一アーキテクチャになった点も大きな変更です。

Tiny・Small・Mediumはどう選べばよいですか？

Tiny（1.5Mパラメータ）はエッジデバイスやモバイルアプリ向けで、処理速度を最優先する場面に適しています。Small（7.7M）はデスクトップやWebアプリのバランス型です。Medium（34.5M）はサーバー環境で精度を最優先する場面に向いています。

PP-OCRv6はGPUがないと使えませんか？

CPU 環境でも動作します。Apple M4 で Tiny モデルが0.96秒、Intel Xeon で Medium モデルが2.05秒で推論できるため、GPU がなくても実用的な速度が得られます。

PP-OCRv6は手書き文字も認識できますか？

手書き文字の認識にも対応しています。ただし印刷文字と比べると認識率は低く、Medium モデルで手書き中国語62.1%、手書き英語67.8%です。手書き文字を主に扱う場合は、用途に合った精度かどうかを事前に検証することをおすすめします。

PP-OCRv6と大規模VLMの違いは何ですか？

PP-OCRv6 は OCR 専用の軽量モデル（最大34.5Mパラメータ）で、2350億パラメータの Qwen3-VL や GPT-5.5 を上回る認識精度を実現しています。VLM は画像理解全般に使えますが、テキスト認識の精度と速度では PP-OCRv6 のほうが優れています。

PP-OCRv6を商用利用できますか？

Apache License 2.0 で公開されているため、商用利用が可能です。ライセンスの範囲で自由に利用・改変・再配布できます。自社製品への組み込みにも制約はありません。

PP-OCRv6とは？50言語対応OCRの精度・速度・導入方法を解説

PP-OCRv6の特徴と多言語OCR

PP-OCRv6 の最大の特徴は、50言語を1つのモデルで処理できる統一アーキテクチャと、用途に応じた3段階のモデルサイズです。

PP-OCRv6 の3ティア構成

Tiny

1.5M パラメータ

49言語（日本語除く）

エッジ・IoT 向け

Apple M4 で 0.96秒

Small

7.7M パラメータ

50言語対応

モバイル・デスクトップ向け

バランス型

Medium

34.5M パラメータ

50言語対応

サーバー向け・最高精度

A100 で 0.29秒

PP-OCRv6とは — PaddleOCR最新の文字認識モデル

PP-OCRv6 は、Baidu（百度）が開発するオープンソース OCR フレームワーク「PaddleOCR」の最新世代モデルです。2026年6月11日に PaddleOCR v3.7.0 として公開されました。

OCR とは Optical Character Recognition（光学文字認識）の略で、画像や PDF に含まれる文字をテキストデータとして取り出す技術を指します。紙の書類をスキャンしてテキスト検索できるようにしたり、写真に映った看板の文字を読み取ったりする場面で使われます。

PP-OCRv6 は、新しく設計された PPLCNetV4 という統一バックボーン（基盤ネットワーク）の上に構築されています。テキスト検出（文字がどこにあるかを見つける処理）とテキスト認識（見つけた文字が何であるかを判定する処理）の両方を、このバックボーンで統一的に処理する設計です。

Hugging Face Blog — PP-OCRv6公式情報を見る →

PP-OCRv6 is the latest generation of PaddleOCR's universal OCR model family. The model family scales from 1.5M to 34.5M parameters, with three tiers: tiny, small, and medium. — PP-OCRv6 の概要説明より

パラメータ数が1.5M〜34.5Mと小さいにもかかわらず、2350億パラメータ規模のVLM（視覚言語モデル）を上回る認識精度を実現している点が、PP-OCRv6 の際立った特徴です。

50言語を1モデルで認識する多言語OCR

PP-OCRv6 の Medium・Small モデルは、50言語を1つの統一モデルで認識できます。対応言語は、簡体字中国語・繁体字中国語・英語・日本語に加え、フランス語やドイツ語、スペイン語をはじめとする46のラテン文字系言語です。

従来の OCR モデルでは、言語ごとに別のモデルをダウンロードし、処理対象に応じて切り替える必要がありました。PP-OCRv6 では、1つのモデルをロードするだけで多言語文書を処理できます。複数言語の文書が混在する環境では、言語切り替えの手間がそのまま処理時間と管理コストになります。1モデルを読み込むだけで済む設計は、この切り替えコストそのものをなくせます。

PaddleOCR 公式ドキュメント — PP-OCRv6公式情報を見る →

50 languages with a single unified model, including Simplified Chinese, Traditional Chinese, English, Japanese, and 46 Latin-script languages (tiny supports 49, excluding Japanese). — 対応言語に関する説明より

迷いやすいのは Tiny モデルの言語対応です。Tiny は日本語を除く49言語のみです。日本語文書を扱うなら Small 以上を選んでください。

辞書には約200文字のダイアクリティカル文字（アクセント記号付き文字）が追加されており、ラテン文字系の言語で正確に文字を判別できます。

PP-OCRv5から改善された検出・認識アーキテクチャ

PP-OCRv6 では、テキスト検出と認識の両方のモジュールが刷新されています。

テキスト検出には RepLKFPN という軽量な大カーネル特徴ピラミッドネットワークが導入されました。7×7 の広い受容野をもつ設計で、検出モジュールのパラメータ数は v5 の172Kから118Kへ約31%削減されています。パラメータが減っても精度は向上しており、検出 Hmean は v5 の81.6%から86.2%へ+4.6ポイント改善しています。

テキスト認識には EncoderWithLightSVTR が採用されました。ローカルな特徴とグローバルな注意機構を、加算的なスキップ接続で組み合わせた構造です。認識精度は v5 の78.1%から83.2%へ+5.1ポイント向上しています。

PaddleOCR 公式ドキュメント — PP-OCRv6 アーキテクチャ公式情報を見る →

Backbone: PPLCNetV4. Detection Neck: RepLKFPN (7×7 receptive field; 118K parameters vs. PP-OCRv5's 172K). Recognition Neck: EncoderWithLightSVTR (local-global attention with additive skip connections). — モデル構成（Architecture）より

PP-OCRv6の精度・速度ベンチマーク

PP-OCRv6 の精度と速度を、公式ドキュメントのベンチマークデータで見ます。

PP-OCRv6 vs PP-OCRv5 精度比較（Medium モデル）

テキスト検出

v5: 81.6%

v6: 86.2%（+4.6pt）

テキスト認識

v5: 78.1%

v6: 83.2%（+5.1pt）

テキスト検出・認識の精度をPP-OCRv5と比較

公式ドキュメントでは、検出16カテゴリ・認識15カテゴリのシナリオにわたる多角的なベンチマークが公開されています。以下は、各ティアと PP-OCRv5_server の平均精度の比較です。

モデル	パラメータ	検出 Hmean（平均）	認識精度（加重平均）
PP-OCRv6 Medium	34.5M	86.2%	83.2%
PP-OCRv6 Small	7.7M	84.1%	81.3%
PP-OCRv6 Tiny	1.5M	80.6%	73.5%
PP-OCRv5 Server	—	81.6%	78.1%

PaddleOCR 公式ドキュメント — テキスト検出ベンチマーク公式情報を見る →

PP-OCRv6_medium: AVG 86.2, PP-OCRv6_small: AVG 84.1, PP-OCRv6_tiny: AVG 80.6, PP-OCRv5_server: AVG 81.6 — Text Detection Hmean (%) Multi-Scenario Benchmark より

注目したいのは Small モデル（7.7Mパラメータ）です。v5_server を検出・認識の両方で上回っています。パラメータ数が大幅に少ない Small でも、前世代のサーバー向けモデルを上回ります。 デスクトップ環境で Small を選ぶ根拠はここにあります。

シナリオ別に見ると、v6 が特に大きく伸びた領域があります。認識精度では、日本語が v5_server の73.7%から90.5%へ16.8ポイント、デジタル表示や画面キャプチャなどのスクリーン文字が68.1%から82.5%へ14.4ポイント、古典籍が60.4%から72.4%へ12.0ポイント、印刷英語が85.1%から94.1%へ9.0ポイント伸びています。検出側でも、回転テキストが80.0%から93.8%へ13.8ポイント、産業用テキストが64.3%から73.3%へ9.0ポイント改善しました。日本語やスクリーン文字のように実務で扱う機会が多い領域ほど伸び幅が大きく、そのまま v6 を選ぶ実利につながります。 一方で手書き中国語は62.1%（v5_server 58.0%）にとどまり、手書きは依然として苦手領域です。

PaddleOCR 公式ドキュメント — テキスト認識ベンチマーク公式情報を見る →

PP-OCRv6_medium recognition: JP 90.5, Screen 82.5, Anc. 72.4, Print-EN 94.1. PP-OCRv5_server: JP 73.7, Screen 68.1, Anc. 60.4, Print-EN 85.1. — Text Recognition Accuracy (%) Multi-Scenario Benchmark より

大規模VLMとの精度比較

PP-OCRv6 の公式ベンチマークでは、Qwen3-VL-235B や GPT-5.5 といった大規模 VLM（視覚言語モデル）との比較も示されています。

VLM は画像理解の汎用モデルで、OCR 以外にも画像の内容説明や質疑応答に使えます。パラメータ数は数百億〜数千億と桁違いに大きく、推論にも高性能 GPU が必要です。

PP-OCRv6 の Medium モデルは、わずか34.5Mパラメータでこれらの大規模 VLM を上回る OCR 精度を達成しています。 テキスト認識に絞れば、パラメータ数が数千分の1の専用モデルが汎用の巨大モデルを上回ります。これはアーキテクチャの優劣ではなく、タスク特化の効果といえます。

PaddleOCR 公式ドキュメント — VLM 比較公式情報を見る →

PP-OCRv6_medium with 34.5M parameters...surpasses VLMs such as Qwen3-VL-235B and GPT-5.5 in accuracy. — VLM との精度比較に関する記述より

ただし、VLM にはレイアウト理解や画像内容の意味把握など OCR 以外の能力があります。純粋なテキスト抽出には PP-OCRv6、画像全体の理解や文脈を含む処理には VLM、と目的に応じて使い分けるのが実用的です。

ハードウェア別の推論速度ベンチマーク

推論速度は、処理する画像1枚あたりの所要時間で比較されています。以下の表は、公式ドキュメントに掲載されたエンドツーエンドの推論速度です。

ハードウェア	v6 Medium	v6 Small	v6 Tiny	v5 Server	v5 Mobile
NVIDIA A100	0.29秒	0.25秒	0.13秒	0.32秒	0.25秒
NVIDIA V100	0.72秒	0.49秒	0.21秒	0.66秒	0.50秒
Intel Xeon 8350C	2.05秒	0.79秒	0.32秒	2.04秒	0.80秒
Apple M4	8.82秒	3.07秒	0.96秒	10秒超	5.82秒

PaddleOCR 公式ドキュメント — 推論速度ベンチマーク公式情報を見る →

NVIDIA A100: v6_medium 0.29s, v6_tiny 0.13s. Apple M4: v6_tiny 0.96s vs v5_mobile 5.82s (6.1× speedup). — End-to-End Inference Speed (s/image) より

Tiny モデルは Apple M4 で0.96秒と1秒を切っており、v5 Mobile（5.82秒）から6.1倍の高速化です。GPU 環境（A100）では Medium でも0.29秒で処理でき、バッチ処理のスループットに問題はありません。

CPU 環境でも Tiny なら Intel Xeon で0.32秒。GPU なしでも Tiny で十分なケースは多いです。

推論バックエンドの選択でも速度は変わります。Intel Xeon では、標準の Paddle Inference で Medium が2.05秒のところ、OpenVINO バックエンドに替えると1.40秒、Tiny は0.20秒まで短縮されます。Apple M4 でも Tiny は ONNX Runtime で0.35秒と、標準バックエンド（0.96秒）の半分以下です。公式は v5 比で最大2.37倍の GPU 推論高速化をうたっており、ハードウェアとバックエンドの組み合わせ次第で実効速度をさらに引き上げられます。

PaddleOCR 公式ドキュメント — バックエンド別推論速度公式情報を見る →

Intel Xeon 8350C OpenVINO: v6_medium 1.40s, v6_tiny 0.20s. Apple M4 ONNX Runtime: v6_tiny 0.35s. "2.37× GPU inference speedup." — End-to-End Inference Speed table / performance highlights より

PP-OCRv6の導入方法とモデルの選び方

PP-OCRv6 は Python のパッケージマネージャーからインストールでき、数行のコードで画像内のテキストを抽出できます。

PP-OCRv6 導入の流れ

1. インストール　pip install paddleocr

↓

2. コード実行　PaddleOCR() → ocr.predict(画像パス)

↓

3. 結果取得　検出座標 + 認識テキスト + 信頼度スコア

pip installからOCRテキスト抽出までの手順

PP-OCRv6 は paddleocr パッケージとして PyPI に公開されており、Python 3.8〜3.13 で動作します。インストールは以下の1行です。

pip install paddleocr

インストール後、以下のコードで画像からテキストを抽出できます。

from paddleocr import PaddleOCR

ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("sample.png")

for res in result:
    res.print()
    res.save_to_json("output")

Hugging Face Blog — PP-OCRv6 コード例公式情報を見る →

from paddleocr import PaddleOCR
ocr = PaddleOCR( use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, ) result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png") — Quick Start のコード例より

use_doc_orientation_classify や use_doc_unwarping は文書の向き補正やゆがみ補正のオプションです。不要な場合は False にしておくと処理が軽くなります。

推論バックエンドは3種類から選べます。デフォルトの Paddle Inference のほか、engine="transformers" で Hugging Face Transformers バックエンド、engine="onnxruntime" で ONNX Runtime バックエンドが使えます。ONNX Runtime を選ぶと PaddlePaddle 本体のインストールが不要になるため、環境構築を簡素にしたい場合に便利です。

PDF や画像をテキストとして扱える状態にしておくと、OCR の結果を検索やデータ入力の自動化に活用しやすくなります。

Tiny・Small・Mediumモデルの使い分け

3つのモデルティアは、パラメータ数と精度のトレードオフで選びます。以下に用途別の選び方をまとめます。

用途	推奨ティア	理由
モバイルアプリ・エッジデバイス	Tiny（1.5M）	最軽量で高速。日本語不要なら最適
デスクトップアプリ・Web サービス	Small（7.7M）	精度と速度のバランスが良い。50言語対応
サーバーサイドのバッチ処理	Medium（34.5M）	最高精度。GPU 環境で大量処理向き
日本語文書が含まれる案件	Small 以上	Tiny は日本語非対応

精度の差は、特に手書き文字や産業用テキスト（デジタル表示・ドットマトリクス文字など）で顕著に出ます。Medium の手書き中国語認識率が62.1%であるのに対し、Tiny は40.1%まで下がります。手書き文字を扱う場合は Medium を選ぶのが安全です。

一方、印刷された英語テキストであれば Tiny でも88.4%の認識率があり、領収書や請求書のデジタル化には十分な精度です。画像の前処理として圧縮や形式変換を行う場合は、OCR の前に画質を下げすぎないよう注意が必要です。

PP-OCRv6のメリットと注意点

PP-OCRv6 の強みと制約を整理します。

強みは3点。まず50言語を1モデルでカバーするため、言語ごとのモデル管理が不要です。多言語文書が混在しても切り替え処理を挟まずに済みます。

次にコスト。Apache License 2.0 で、商用利用を含めて完全無料。 Google Cloud Vision API や Amazon Textract は従量課金ですが、PP-OCRv6 はセルフホストで追加費用がゼロです。処理枚数が増えるほどクラウドとのコスト差は広がります。

3点目はメモリ効率。34.5M パラメータで VLM を上回る精度が出るため、GPU メモリが限られるオンプレミス環境でも動かせます。

制約は3点。手書き文字の精度が低い。 Medium モデルでも手書き中国語62.1%・手書き英語67.8%。手書きメモの読み取りを主目的にするなら、採用前に実データで検証が必要です。

レイアウト解析はスコープ外。表構造の認識や読み順の決定は、別途 PaddleOCR のレイアウト解析モジュールと組み合わせる必要があります。PDF を画像に変換してから OCR にかけるワークフローでは、この点を最初から設計に組み込んでおくと後から詰まりません。

日本語を扱うなら Tiny は選べません。Tiny は日本語非対応（49言語）のため、Small 以上を選んでください。

PyPI — paddleocr パッケージ情報公式情報を見る →

License: Apache-2.0. Current Version: 3.7.0. Supported Python: 3.8, 3.9, 3.10, 3.11, 3.12, 3.13. — パッケージ情報より

GitHub — PaddlePaddle/PaddleOCR公式情報を見る →

Turn any PDF or image document into structured data for your AI. A powerful, lightweight OCR toolkit that bridges the gap between images/PDFs and LLMs. — リポジトリ説明より