🙌

Google Colabを用いたNDLOCRアプリの更新:Sigle input dir modeの追加

2022/04/29に公開

概要

先日以下の記事およびノートブックを作成しました。

https://zenn.dev/nakamura196/articles/a8227f4524570c

上記の記事執筆時点では、以下の入力形式にのみ対応していました。

Image file mode(-s fで指定) (単体の画像ファイルを入力として与える場合はこちら)

ただ、以下の記事での検証により、複数の画像に対して上記のオプションを適用することは、オーバーヘッドが大きいことがわかりました。

https://zenn.dev/nakamura196/articles/706671121a4d34

そこで、以下の入力形式にも対応できるようにノートブックを修正しました。

Sigle input dir mode(-s sで指定)※デフォルト

以下、上記入力オプションの使い方について説明します。

使い方

「2.設定」の「input_structure」において、「s」を選択してください。従来の「Image file mode」を使用する場合には、「f」を選択してください。

「input_structure」で「s」を選んだ場合、「extensions」の項目は無視されます。

また、入力フォルダの作成方法に注意点があります。以下の入力フォルダのパスを指定する場合を例とします。

/content/drive/MyDrive/ndl_ocr/input/

この時、以下のように、「input」フォルダの下に「img」フォルダを作成し、その下に画像を格納します。

上記の準備および設定を行なった上で実行を行うと、「Sigle input dir mode」によりOCR処理を実行することができます。

まとめ

今回作成したノートブックについて、「f(Image file mode)」を選択した場合、指定した入力フォルダ内の階層構造を特に意識せずに実行することができます。ただしこのモードでは画像ファイル毎にプログラムを実行するため、一部オーバーヘッドが生じます。大量の画像ファイルを対象に実行する場合には、「s(Sigle input dir mode)」を選択することをお勧めします。

誤った理解をしている点があるかもしれませんが、参考になりましたら幸いです。

Discussion