社内のDXを進めていく中でアナログデータをOCRするという要件がそこそこあるのですが、お堅い企業だとクラウド利用禁止だったり低スペPCしかなかったりの制約があり、エッジで動作する汎用OCRで何か良いのないかなーと探していたら、素晴らしいライブラリを見つけました。
日本語で紹介している記事が全く見つからなかったので、AI驚き屋みたいに紹介していきます。
<h2 id="onnxocr%E3%81%A8%E3%81%AF" data-line="4" class="code-line">
<a class="header-anchor-link" href="#onnxocr%E3%81%A8%E3%81%AF" aria-hidden="true"></a> OnnxOCRとは</h2>
<iframe id="zenn-embedded__affb608bfbd62" src="https://embed.zenn.studio/card#zenn-embedded__affb608bfbd62" data-content="https%3A%2F%2Fgithub.com%2Fjingsongliujing%2FOnnxOCR" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/jingsongliujing/OnnxOCR" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/jingsongliujing/OnnxOCR</a>
<code>OnnxOCR</code>とは、<code>PaddleOCR</code>をベースにした軽量なOCRで<code>paddlepaddle</code>深層学習フレームワークなしでも動作し、高速な推論速度を備えています。
<code>PaddleOCR</code>と同じモデルを<code>onnx</code>モデルに変換すると、精度とパフォーマンスが向上し、推論速度は <code>paddlepaddle</code> フレームワークを使用する場合よりも 5 倍速くなります。
簡単に言うと従来のOCRエンジンと比較すると圧倒的に高速高性能なOCRエンジンです。
また、Apache ライセンスなので商用利用も可能です。
<h3 id="%E4%BD%BF%E3%81%84%E6%96%B9" data-line="16" class="code-line">
<a class="header-anchor-link" href="#%E4%BD%BF%E3%81%84%E6%96%B9" aria-hidden="true"></a> 使い方</h3>
インストールはPYPIからできます 
デフォルトでライブラリデータ内にonnxモデルをDLするので、すぐに使い始められます。
<div class="code-block-container"><pre class="language-bash"><code class="language-bash code-line" data-line="21">pip install onnxocr
</code></pre></div>使い方も非常に簡単で以下のようなプログラムでOCRが実行できます。
<div class="code-block-container"><pre class="language-py"><code class="language-py code-line" data-line="27">from onnxocr.onnx_paddleocr import ONNXPaddleOcr

def sample():
 ocr = ONNXPaddleOcr(use_gpu=False, lang="japan")
 result = ocr.ocr("sample.png")

 for data in result:
 for box, (text, score) in data:
 print(f"text: {text}, score: {score}")
</code></pre></div><h3 id="onnx%E3%81%A8%E3%81%AF" data-line="39" class="code-line">
<a class="header-anchor-link" href="#onnx%E3%81%A8%E3%81%AF" aria-hidden="true"></a> ONNXとは</h3>
OnnxOCRを紹介する上でONNXとは何ぞやということも軽く解説します。 
ONNX（Open Neural Network Exchange）とは、機械学習モデルを異なるフレームワーク間で共有・運用するためのオープンなフォーマットです。
<iframe id="zenn-embedded__108e201bbe102" src="https://embed.zenn.studio/card#zenn-embedded__108e201bbe102" data-content="https%3A%2F%2Fqiita.com%2FmotoJinC25%2Fitems%2Fd662be70b6b9b8ebbaea" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://qiita.com/motoJinC25/items/d662be70b6b9b8ebbaea" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://qiita.com/motoJinC25/items/d662be70b6b9b8ebbaea</a>
このフォーマットに従うことで、PyTorch、TensorFlow、Scikit-learnなど、異なる機械学習フレームワークで作成されたモデルを、共通の形式で保存・読み込みできるようになります。
ハードウェアベンダーはONNXに最適化を施すことで、複数のフレームワークに対応した高速な推論環境を提供できます。
そしてONNX Runtimeというエコシステムが非常に協力で、これによって高速な推論を可能にしています。
つまりOnnxOCRはPaddleOCRをONNXの強力なエコシステムを使うことで高速化したライブラリということになります。
<h2 id="%E5%AE%9F%E9%9A%9B%E3%81%AB%E9%80%9F%E5%BA%A6%E3%81%A8%E7%B2%BE%E5%BA%A6%E3%82%92%E6%AF%94%E8%BC%83%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B" data-line="54" class="code-line">
<a class="header-anchor-link" href="#%E5%AE%9F%E9%9A%9B%E3%81%AB%E9%80%9F%E5%BA%A6%E3%81%A8%E7%B2%BE%E5%BA%A6%E3%82%92%E6%AF%94%E8%BC%83%E3%81%97%E3%81%A6%E3%81%BF%E3%82%8B" aria-hidden="true"></a> 実際に速度と精度を比較してみる</h2>
言葉だけで紹介しても凄さが伝わらないので実際に検証してみます。
検証条件は以下のとおりです。
<ul data-line="60" class="code-line">
<li data-line="60" class="code-line">
<code>EasyOCR</code>、<code>PaddleOCR</code>、<code>OnnxOCR</code>の３つで比較
</li>
<li data-line="62" class="code-line">
モデルは<code>EasyOCR</code>はデフォルト設定、<code>PaddleOCR</code>と<code>OnnxOCR</code>はそれぞれ同じモバイル向けの軽量モデルを使用
</li>
<li data-line="64" class="code-line">
CPU推論のみ（Intel製12世代 Core i7を使用）
</li>
</ul>
<code>Tesseract</code>は上記３つとは少し毛色が違うので今回は比較しませんでした。
ベンチマークプログラムはGitHubで公開してます。それぞれライブラリの使い方や処理が異なるので、これらのOCRライブラリを使いたい人は参考にしてください。
<iframe id="zenn-embedded__76a1f393a9d97" src="https://embed.zenn.studio/github#zenn-embedded__76a1f393a9d97" data-content="https%3A%2F%2Fgithub.com%2FharumiWeb%2Fonnxocr_benchmark%2Fblob%2F0da7796ce066afe518c244bdbf3d08038a4b6e48%2Fmain.py" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/harumiWeb/onnxocr_benchmark/blob/0da7796ce066afe518c244bdbf3d08038a4b6e48/main.py" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/harumiWeb/onnxocr_benchmark/blob/0da7796ce066afe518c244bdbf3d08038a4b6e48/main.py</a>
<h3 id="%E6%AF%94%E8%BC%83%E2%91%A0-(%E9%A2%A8%E6%99%AF%E3%81%AB%E5%86%99%E3%82%8B%E6%A1%88%E5%86%85%E8%A1%A8%E7%A4%BA)" data-line="72" class="code-line">
<a class="header-anchor-link" href="#%E6%AF%94%E8%BC%83%E2%91%A0-(%E9%A2%A8%E6%99%AF%E3%81%AB%E5%86%99%E3%82%8B%E6%A1%88%E5%86%85%E8%A1%A8%E7%A4%BA)" aria-hidden="true"></a> 比較① (風景に写る案内表示)</h3>
以下の画像を使用しました。
<img src="https://storage.googleapis.com/zenn-user-upload/8fa543ea769d-20250928.jpg" alt="日本の風景に写る案内表示の画像" class="md-img" loading="lazy">
町中の案内表示
各OCRエンジンの認識結果は以下です。
<ul data-line="82" class="code-line">
<li data-line="82" class="code-line">EasyOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/b90820039b45-20250928.png" class="md-img" loading="lazy">
<ul data-line="87" class="code-line">
<li data-line="87" class="code-line">PaddleOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/089c7f34f0b0-20250928.png" class="md-img" loading="lazy">
<ul data-line="92" class="code-line">
<li data-line="92" class="code-line">OnnxOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/d24634fa0a09-20250928.png" class="md-img" loading="lazy">
<ul data-line="96" class="code-line">
<li data-line="96" class="code-line">速度ベンチマーク</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/f4d1c35bcd20-20250928.png" class="md-img" loading="lazy">
認識精度に関してはどのOCRエンジンも概ね正確に認識できました。 
注目すべきは推論速度です。 
速度ベンチマークグラフを見て分かる通り、OnnxOCRの推論速度が0.62秒と最も高速です。認識精度との兼ね合いを考慮するとものすごい性能です。
<h3 id="%E6%AF%94%E8%BC%83%E2%91%A1-(%E6%96%87%E5%AD%97%E3%81%AE%E5%A4%9A%E3%81%84%E6%96%87%E6%9B%B8)" data-line="105" class="code-line">
<a class="header-anchor-link" href="#%E6%AF%94%E8%BC%83%E2%91%A1-(%E6%96%87%E5%AD%97%E3%81%AE%E5%A4%9A%E3%81%84%E6%96%87%E6%9B%B8)" aria-hidden="true"></a> 比較② (文字の多い文書)</h3>
次は文書ファイルのような綺麗な文字の画像を渡してみます。文字数は多めですがどうでしょうか。
<img src="https://storage.googleapis.com/zenn-user-upload/cac837721311-20250928.png" alt="一般的な内定通知書の画像データ" class="md-img" loading="lazy">
<ul data-line="111" class="code-line">
<li data-line="111" class="code-line">EasyOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/ca2fedae5019-20250928.png" class="md-img" loading="lazy">
<ul data-line="116" class="code-line">
<li data-line="116" class="code-line">PaddleOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/e92c6432b86d-20250928.png" class="md-img" loading="lazy">
<ul data-line="121" class="code-line">
<li data-line="121" class="code-line">OnnxOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/b082a14901e0-20250928.png" class="md-img" loading="lazy">
<ul data-line="126" class="code-line">
<li data-line="126" class="code-line">速度ベンチマーク</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/6e171fcc0965-20250928.png" class="md-img" loading="lazy">
文字の多い文書のデータでは推論速度に大きな差はでませんでしたが、OnnxOCRが最速となりました。
推論に最も時間のかかるEasyOCRと認識精度が同じなのは凄いです。
<h3 id="%E6%AF%94%E8%BC%83%E2%91%A2-(%E6%96%87%E5%AD%97%E3%81%AF%E5%B0%91%E3%81%AA%E3%81%84%E3%81%8C%E5%A4%89%E5%BD%A2%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E7%94%BB%E5%83%8F)" data-line="135" class="code-line">
<a class="header-anchor-link" href="#%E6%AF%94%E8%BC%83%E2%91%A2-(%E6%96%87%E5%AD%97%E3%81%AF%E5%B0%91%E3%81%AA%E3%81%84%E3%81%8C%E5%A4%89%E5%BD%A2%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E7%94%BB%E5%83%8F)" aria-hidden="true"></a> 比較③ (文字は少ないが変形している画像)</h3>
最後に以下の画像を検証しました。
<img src="https://storage.googleapis.com/zenn-user-upload/66a28a5132ed-20250928.webp" alt="斜めに撮影された橋の看板の写真" class="md-img" loading="lazy">
<ul data-line="142" class="code-line">
<li data-line="142" class="code-line">EasyOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/672844bfbe07-20250928.png" class="md-img" loading="lazy">
<ul data-line="147" class="code-line">
<li data-line="147" class="code-line">PaddleOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/db8a6af03604-20250928.png" class="md-img" loading="lazy">
<ul data-line="152" class="code-line">
<li data-line="152" class="code-line">OnnxOCR</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/c2bb6abbb64c-20250928.png" class="md-img" loading="lazy">
<ul data-line="157" class="code-line">
<li data-line="157" class="code-line">速度ベンチマーク</li>
</ul>
<img src="https://storage.googleapis.com/zenn-user-upload/72badfca9868-20250928.png" class="md-img" loading="lazy">
比較③では<code>OnnxOCR</code>が圧倒的な成績を出しました。
何も設定していませんが<code>OnnxOCR</code>だけ傾き補正もしっかり効いて高い文字認識をしています。
また、推論速度では<code>PaddleOCR</code>の2倍、<code>EasyOCR</code>の7.5倍高速に動作しました。
ただ、EasyOCRはどの画像でも3.5秒ほどで完了しているので、対象の実際の情報量にあまり影響されないのかもしれません。
<h2 id="%E3%81%8A%E3%82%8F%E3%82%8A%E3%81%AB" data-line="170" class="code-line">
<a class="header-anchor-link" href="#%E3%81%8A%E3%82%8F%E3%82%8A%E3%81%AB" aria-hidden="true"></a> おわりに</h2>
大前提モデルの性能に依存するところはありますが、<code>OnnxOCR</code>は軽量ながら情報量の少ない画像データでは圧倒的な推論速度・文字認識を誇ることがわかりました。
このレベルのモデルをオープンソースで公開する Baidu（百度）は恐ろしいですね。
CPU推論でもこれだけの性能が出れば、かなり実用的なOCR処理がエッジ環境でも実行できそうです。
ONNXに非常に興味が湧いたのでもう少し色々調べてみたいと思います。
<h2 id="%E3%81%9D%E3%81%AE%E4%BB%96%E5%8F%82%E8%80%83%E3%83%AA%E3%83%B3%E3%82%AF" data-line="180" class="code-line">
<a class="header-anchor-link" href="#%E3%81%9D%E3%81%AE%E4%BB%96%E5%8F%82%E8%80%83%E3%83%AA%E3%83%B3%E3%82%AF" aria-hidden="true"></a> その他参考リンク</h2>
<iframe id="zenn-embedded__00169acc72f49" src="https://embed.zenn.studio/card#zenn-embedded__00169acc72f49" data-content="https%3A%2F%2Fgithub.com%2FPaddlePaddle%2FPaddleOCR" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/PaddlePaddle/PaddleOCR" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/PaddlePaddle/PaddleOCR</a> 
<iframe id="zenn-embedded__2f0416b366896" src="https://embed.zenn.studio/card#zenn-embedded__2f0416b366896" data-content="https%3A%2F%2Fgithub.com%2FJaidedAI%2FEasyOCR" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://github.com/JaidedAI/EasyOCR" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://github.com/JaidedAI/EasyOCR</a> 
<iframe id="zenn-embedded__756e58b4f9869" src="https://embed.zenn.studio/card#zenn-embedded__756e58b4f9869" data-content="https%3A%2F%2Fonnx.ai" frameborder="0" scrolling="no" loading="lazy"></iframe><a href="https://onnx.ai" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://onnx.ai</a>

フリーテーマ

GPUなしローカルでも高速・高精度なOCRができるOnnxOCRが凄い

比較③ (文字は少ないが変形している画像)

実際に速度と精度を比較してみる

python

Discussion