2025年完全ガイド:PaddleOCR-VL-0.9B — 百度の超軽量ドキュメント解析パワーハウス
🎯 キーポイント(TL;DR)
- ブレークスルー成果:わずか0.9BパラメータのモデルがOmniBenchDoc V1.5リーダーボードで世界1位(総合スコア:90.67)
- 包括的優位性:GPT-4o、Gemini 2.5 Pro、Qwen2.5-VL-72Bなどの大型マルチモーダルモデルを上回る
- 多言語サポート:109言語をサポートし、中国語、英語、日本語、アラビア語、ロシア語などの主要言語をカバー
- 実用価値:複雑なドキュメントレイアウト、テーブル、数式、手書きメモを正確に認識し、QRコードやスタンプを個別に抽出可能
- 軽量・高効率:MinerU2.5より14.2%高速、dots.ocrより253.01%高速、ブラウザプラグインとしてデプロイ可能
目次
- PaddleOCR-VLとは?
- コア技術アーキテクチャ
- パフォーマンス:なぜ大型モデルを上回るのか?
- 実世界のユースケースとデモンストレーション
- PaddleOCR-VLの使用方法
- 他のOCRソリューションとの比較
- 厳選コミュニティフィードバック
- よくある質問
PaddleOCR-VLとは?
PaddleOCR-VL-0.9Bは、百度のPaddlePaddleチームが2025年10月にリリースした超軽量ビジョン-言語モデルで、ドキュメント解析シナリオに特化して最適化されています。ERNIE-4.5シリーズの最も強力な派生モデルの一つです。
コア機能
1. 極限パラメータ効率
- わずか0.9B(9億)パラメータ
- 通常のCPUで実行可能
- ブラウザプラグインレベルのデプロイをサポート
- 極低メモリフットプリント
2. SOTAレベルパフォーマンス
- OmniBenchDoc V1.5で世界1位
- 4つのコア能力(テキスト、テーブル、数式、読書順序)で包括的リード
- 72Bレベルの大型モデルを上回る
3. 真のドキュメント理解
- 単なるテキスト認識ではなく、ドキュメント構造理解
- マルチカラムレイアウト、複雑なテーブル、数学数式をインテリジェントに処理
- 手書きメモ認識をサポート
- 特殊要素(QRコード、スタンプ、チャート)を抽出可能
💡 なぜ小型モデルが大型モデルを上回るのか?
PaddleOCR-VLは、汎用能力を追求するのではなく、OCRタスクに特化して最適化されたアーキテクチャを採用しています。この「専門化」戦略により、ドキュメント解析領域で極限の効率と精度を実現しています。
コア技術アーキテクチャ

技術コンポーネント
PaddleOCR-VLは3つのコアコンポーネントで構成されています:
| コンポーネント | 技術ソリューション | 機能 |
|---|---|---|
| ビジョンエンコーダー | NaViT動的解像度エンコーダー | 異なるサイズのドキュメント画像を処理し、高解像度の詳細を維持 |
| 言語モデル | ERNIE-4.5-0.3B | 軽量でありながら強力な言語理解能力 |
| 融合メカニズム | ビジョン-言語クロスモーダルアライメント | 画像情報を構造化テキストに変換 |
NaViT動的ビジョンエンコーダーの利点
- 適応解像度:ドキュメントの複雑さに基づいて処理精度を動的に調整
- 詳細保持:スケーリングによる小さなテキストや複雑な記号の損失なし
- 効率的推論:固定解像度ソリューションと比較して30%の計算リソースを節約
✅ 技術ハイライト
ERNIE-4.5-0.3Bの統合が成功の鍵——インテリジェントでスケーラブル。
パフォーマンス:なぜ大型モデルを上回るのか?
ページレベルドキュメント解析パフォーマンス
OmniBenchDoc V1.5リーダーボード(世界1位)

| モデル | 総合スコア | 数式認識 | テーブル構造 | 読書順序 | パラメータ |
|---|---|---|---|---|---|
| PaddleOCR-VL-0.9B | 90.67 | ~85 | ~88 | ~90 | 0.9B |
| GPT-4o | ~85 | ~80 | ~82 | ~85 | 非公開 |
| Gemini 2.5 Pro | ~83 | ~78 | ~80 | ~83 | 非公開 |
| Qwen2.5-VL-72B | ~82 | ~77 | ~79 | ~82 | 72B |
| MinerU 2.5 | ~80 | ~75 | ~78 | ~80 | - |
| InternVL 1.5 | ~78 | ~73 | ~76 | ~78 | 26B |
⚠️ 注意:上記データはOmniBenchDoc公式評価とコミュニティテストに基づきます。
OmniBenchDoc V1.0詳細指標

PaddleOCR-VLはほぼすべてのサブ指標でSOTAレベルを達成。
要素レベル認識パフォーマンス
1. テキスト認識(OCR-block)

多言語テキスト認識(内部OCR)

| 言語タイプ | 編集距離(低いほど良い) | 精度 |
|---|---|---|
| 中国語 | 最低 | 95%+ |
| 英語 | 最低 | 97%+ |
| 日本語 | 最低 | 94%+ |
| アラビア語 | 最低 | 93%+ |
| ロシア語(キリル文字) | 最低 | 92%+ |
2. テーブル認識

サポートするテーブルタイプ:
- ✅ 完全枠線テーブル
- ✅ 部分枠線テーブル
- ✅ 枠線なしテーブル
- ✅ 結合セル
- ✅ 中日混合テーブル
- ✅ 低品質/透かし入りテーブル
3. 数式認識

| 数式タイプ | 認識精度 | 利点 |
|---|---|---|
| 簡単な印刷数式 | 98%+ | 完璧なLaTeX形式認識 |
| 複雑な印刷数式 | 95%+ | マルチレベルネスト、行列、積分をサポート |
| カメラスキャン数式 | 92%+ | 歪み・ぼかし耐性 |
| 手書き数式 | 88%+ | 他のモデルより10+パーセントポイントリード |
4. チャート認識

11種類のチャートタイプをサポート:コンボチャート、円グラフ、100%積み上げ棒グラフ、エリアチャート、棒グラフ、バブルチャート、ヒストグラム、折れ線グラフ、散布図、積み上げエリアチャート、積み上げ棒グラフ。
推論速度比較
| モデル | 相対速度 | ハードウェア要件 |
|---|---|---|
| PaddleOCR-VL-0.9B | ベースライン(1x) | CPU対応 |
| MinerU 2.5 | 0.88x(14.2%遅い) | GPU必要 |
| dots.ocr | 0.28x(253%遅い) | GPU必要 |
実世界のユースケースとデモンストレーション
包括的ドキュメント解析例
例1:学術論文解析

認識内容:
- タイトル、著者、要約
- マルチカラム本文
- 複雑な数学数式
- 参考文献リスト
- 図表注釈
例2:技術ドキュメント解析

例3:多言語混合ドキュメント

例4:複雑レイアウトドキュメント

テキスト認識例
英語-アラビア語混合テキスト

手書きテキスト認識

テーブル認識例
例1:複雑枠線テーブル

例2:結合セルテーブル

数式認識例
英語数式

中国語数式

チャート認識例
例1:棒グラフ

例2:複雑コンボチャート

特殊シナリオ:請求書認識
中国コミュニティユーザー@karminski3のテストによると:
"請求書を投げ込んでテストしました!すごい、SOTA!OCR認識が正確なだけでなく、QRコードとスタンプを個別に抽出できます!テーブル再構築も非常に正確です!"
請求書認識能力:
- ✅ 請求書番号、日付、金額を正確に認識
- ✅ テーブル行項目を抽出
- ✅ QRコード画像を個別に抽出
- ✅ スタンプ画像を個別に抽出
- ⚠️ 改行認識は最適化が必要
💡 実用ヒント
請求書認識だけでもPaddleOCR-VLの実用価値を証明するのに十分です。数百億パラメータの多くのモデルがこの精度を達成できない中、PaddleOCR-VLはわずか0.9Bです!
PaddleOCR-VLの使用方法?
方法1:オンライン体験(最速)
Hugging Faceデモ
- アクセス:https://huggingface.co/PaddlePaddle/PaddleOCR-VL
- インストール不要、直接画像をアップロードしてテスト
AI Studioデモ
- アクセス:https://paddleocr.ai/latest/en/index.html
- 複数のオンラインデモアプリケーションを提供
方法2:ローカルインストール
クイックインストール
# 1. PaddlePaddleをインストール(GPU版)
python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
# 2. PaddleOCRをインストール
python -m pip install -U "paddleocr[doc-parser]"
⚠️ Windowsユーザー注意:WSLまたはDockerコンテナを推奨。
コマンドライン使用
# 基本使用
paddleocr doc_parser -i your_document.png
# PDF処理
paddleocr doc_parser -i document.pdf
Python API使用
from paddleocr import PaddleOCRVL
# モデル初期化
pipeline = PaddleOCRVL()
# ドキュメント処理
output = pipeline.predict("your_document.png")
# 結果出力
for res in output:
res.print() # コンソールに印刷
res.save_to_json(save_path="output") # JSONとして保存
res.save_to_markdown(save_path="output") # Markdownとして保存
方法3:Dockerデプロイ(本番環境推奨)
# 推論サーバー起動
docker run \
--rm \
--gpus all \
--network host \
ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlex-genai-vllm-server
その後APIで呼び出し:
paddleocr doc_parser \
-i your_document.png \
--vl_rec_backend vllm-server \
--vl_rec_server_url http://127.0.0.1:8080/v1
他のOCRソリューションとの比較
PaddleOCR-VL vs 従来のOCR
| 機能 | PaddleOCR-VL | Tesseract | EasyOCR |
|---|---|---|---|
| ドキュメントレイアウト理解 | ✅ 優秀 | ❌ サポートなし | ⚠️ 基本 |
| テーブル認識 | ✅ 精密 | ❌ 悪い | ⚠️ 普通 |
| 数式認識 | ✅ 優秀 | ❌ サポートなし | ❌ サポートなし |
| 手書き認識 | ✅ 良好 | ⚠️ 普通 | ⚠️ 普通 |
| 多言語サポート | 109言語 | 100+言語 | 80+言語 |
| 推論速度 | 速い | 中程度 | 遅い |
| デプロイ難易度 | 中程度 | 簡単 | 簡単 |
PaddleOCR-VL vs 大型VLM
| 機能 | PaddleOCR-VL | GPT-4o | Gemini 2.5 Pro | Qwen2.5-VL-72B |
|---|---|---|---|---|
| OCR精度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 推論速度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐ |
| ローカルデプロイ | ✅ サポート | ❌ APIのみ | ❌ APIのみ | ⚠️ 大容量VRAM必要 |
| コスト | 無料オープンソース | トークンベース料金 | トークンベース料金 | 無料オープンソース |
| 汎用能力 | ⚠️ OCR特化 | ✅ オールラウンド | ✅ オールラウンド | ✅ オールラウンド |
| パラメータ | 0.9B | 非公開 | 非公開 | 72B |
厳選コミュニティフィードバック
国際開発者コミュニティ
Reddit r/LocalLLaMAホットディスカッション
u/Few_Painter_5588:「PaddleOCRはおそらく最高のOCRフレームワークです。他のOCRフレームワークが近づけないのは衝撃的です。」
画像解像度に関する重要な注意:「画像が1080p程度であれば、かなりうまく動作します。4kと1440p画像で実行していた時、テキストの大部分を見逃していました。1080pにリサイズすると、魔法のように動作しました。」
u/the__storm:「垂直テキストサポートはかなり良いはずです——論文で明示的に言及されていると信じています。(これは百度(中国)のモデルなので、垂直書きサポートは確実に考慮された要素です。)」
u/Briskfall:「待って、PaddleがGeminiとQwenを倒した?!うーん-またテストする時が来た...」
X(Twitter)コミュニティレスポンス
@karminski3(中国開発者):「百度!百度が立ち上がった!PaddleOCR-VLを見てみて!0.9Bモデルしかないのを見て期待ゼロでしたが、請求書を投げ込んでテストしました!すごい、SOTA!OCR認識が正確なだけでなく、QRコードとスタンプを個別に抽出できます!テーブル再構築も非常に正確です!最も重要なのは、これが0.9Bしかないことです!ブラウザに直接プラグインとして埋め込めます!」
@Manish Kumar Shah:「ドキュメント理解が新レベルに到達。ERNIE-4.5-0.3B統合が秘密のソースのようです——スマートでスケーラブル。」
@Parul_Gautam7:「OmniBenchDoc V1.5リーダーボードで世界1位、総合スコア90.67。実世界のために構築され、PaddleOCR-VLは実世界ドキュメントの混乱を簡単に処理します。」
中国ユーザー実世界フィードバック:「私たちの会社は数年PaddleOCRをテキスト認識に使用しており、非常に安定しています!PaddleOCR-VLとChatGPT、Gemini、豆包を比較し、携帯で超ぼやけた写真を撮って認識させましたが、PaddleOCR-VLが直接圧倒し、完全勝利!」
主要評価サマリー
利点のコンセンサス:
- ✅ OCR領域でSOTAレベルを達成
- ✅ 小型モデル大能力、デプロイフレンドリー
- ✅ 優秀な多言語サポート
- ✅ 実世界アプリケーション結果が期待を上回る
- ✅ オープンソース無料、アクティブコミュニティ
注意すべき制限:
- ⚠️ 超高解像度画像(4K+)は1080p-2Kにスケールする必要
- ⚠️ デプロイが比較的複雑、PaddlePaddleフレームワーク必要
- ⚠️ スラブ語などの少数言語サポート強化が必要
- ⚠️ 改行認識に時々問題
🤔 よくある質問
Q1:PaddleOCR-VLはどの言語をサポートしますか?
A:109言語をサポートし、中国語、英語、日本語、韓国語、フランス語、ドイツ語、スペイン語、ロシア語、アラビア語、ヒンディー語、タイ語などの主要言語、および多くの少数言語を含みます。
Q2:CPUで実行できますか?
A:はい!PaddleOCR-VL-0.9Bはパラメータ数が極めて少なく、通常のCPUで実行可能です。GPUより遅いですが、使用可能です。
Q3:超高解像度画像をどのように処理しますか?
A:コミュニティフィードバックに基づき、4K以上の解像度画像は最適な認識結果のために1080p-2K範囲にスケールすることを推奨します。
Q4:手書きコンテンツを認識できますか?
A:手書きコンテンツを認識できますが、非常に乱雑な手書きの場合、大型VLM(GPT-4oなど)の方が文脈を通じて読みにくい単語を「推測」できるため、より良いパフォーマンスを示す可能性があります。
Q5:GPT-4oと比較してどのような利点がありますか?
A:主な利点:
- ローカルデプロイ可能、API呼び出し不要
- より高速な推論速度
- 無料オープンソース
- ドキュメント解析タスクでより高い精度
- ただしGPT-4oは汎用タスクでより強力
Q6:既存プロジェクトとどのように統合しますか?
A:PaddleOCR-VLはRAGFlow、MinerU、Umi-OCR、OmniParserなど、いくつかの有名なオープンソースプロジェクトで採用されています。これらのプロジェクトの統合方法を参考にするか、Python APIを直接使用できます。
Q7:モデルは幻覚を起こしますか?
A:はい。すべての現代OCRシステムと同様に、PaddleOCR-VLも幻覚(存在しないコンテンツの認識)を起こす可能性がありますが、これは比較的まれです。
Q8:垂直テキスト認識をサポートしますか?
A:はい。これは百度(中国)で開発されたモデルであるため、垂直書き(垂直中国語や日本語など)サポートは明示的に考慮された機能です。
サマリーとアクション推奨
コア結論
PaddleOCR-VL-0.9Bはドキュメント解析分野での大きなブレークスルーを表しています:
- パフォーマンスブレークスルー:わずか0.9BパラメータでGPT-4o、Gemini 2.5 Proなどの大型モデルを上回るOCRパフォーマンスを実現
- 実用価値:請求書認識、学術論文解析、多言語ドキュメント処理などの実世界シナリオで優秀なパフォーマンス
- デプロイフレンドリー:通常のハードウェアで実行可能、ブラウザプラグインとしてデプロイ可能
- オープンソース・無料:完全オープンソース、アクティブコミュニティ、継続的更新
推奨ユースケース
PaddleOCR-VLを強く推奨するシナリオ:
- 📄 大規模ドキュメントデジタル化
- 🧾 自動請求書・領収書認識
- 📚 学術論文解析と知識抽出
- 🌍 多言語ドキュメント処理
- 🔒 ローカルデプロイが必要なプライバシー敏感シナリオ
- 💰 限られた予算だが高品質OCRが必要なプロジェクト
他のソリューションを検討すべきシナリオ:
- 強力な汎用能力が必要なシナリオ(Q&A、推論など)→ GPT-4oまたはGeminiを検討
- 非ドキュメント画像の処理 → 汎用VLMを検討
- 極めてシンプルなデプロイが必要 → Tesseractを検討
Discussion