🌟

NDL OCRでルビのテキスト化を行えるようにしていただきました。

2022/07/06に公開

概要

NDL OCRについて、これまではルビのテキスト化を行わない設定がデフォルトでした。これに対して、NDLの方々のご協力により、テキスト化を行うか否かを設定できるようにしていただきました。

https://github.com/ndl-lab/ndlocr_cli/

config.yamlの以下をTrueにするとルビのテキスト化機能が動作します。

yield_block_rubi: False

また、以下の留意事項があるとのことです。ご利用される際はご注意ください。

  • 必ずしもルビの振られた漢字の箇所で切れるわけではなく、複数箇所のルビがマージされて出力されてしまうことも多い
  • ルビは字のサイズが小さいことから、〓になってしまうことも多い

チュートリアル用のノートブックの更新

ルビのテキスト化オプションについて、チュートリアル用のGoogle Colabにも追加しました。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_v2.ipynb

rubyというオプションにチェックを入れると、ルビのテキスト化を行います。デフォルトでは、従来通りFalse(ルビのテキスト化は行わない設定)にしています。

また今回の機能追加に合わせて、PDFを入力とした際の不具合修正や、認識結果の出力方法の変更等を行いました。認識結果を保存したGoogleドライブへのリンクを出力し、リンク先で認識結果を確認する方法に統一しました。

操作方法については、今回の修正内容は含まれていませんが、以下のデモ動画を用意しています。Google Colabの使い方など、参考になりましたら幸いです。

https://youtu.be/46p7ZZSul0o

Discussion