🌟
NDL OCRでルビのテキスト化を行えるようにしていただきました。
概要
NDL OCRについて、これまではルビのテキスト化を行わない設定がデフォルトでした。これに対して、NDLの方々のご協力により、テキスト化を行うか否かを設定できるようにしていただきました。
config.yamlの以下をTrueにするとルビのテキスト化機能が動作します。
yield_block_rubi: False
また、以下の留意事項があるとのことです。ご利用される際はご注意ください。
- 必ずしもルビの振られた漢字の箇所で切れるわけではなく、複数箇所のルビがマージされて出力されてしまうことも多い
- ルビは字のサイズが小さいことから、〓になってしまうことも多い
チュートリアル用のノートブックの更新
ルビのテキスト化オプションについて、チュートリアル用のGoogle Colabにも追加しました。
rubyというオプションにチェックを入れると、ルビのテキスト化を行います。デフォルトでは、従来通りFalse(ルビのテキスト化は行わない設定)にしています。
また今回の機能追加に合わせて、PDFを入力とした際の不具合修正や、認識結果の出力方法の変更等を行いました。認識結果を保存したGoogleドライブへのリンクを出力し、リンク先で認識結果を確認する方法に統一しました。
操作方法については、今回の修正内容は含まれていませんが、以下のデモ動画を用意しています。Google Colabの使い方など、参考になりましたら幸いです。
Discussion