🙄

NDL古典籍OCR-Liteを用いて、IIIFマニフェストファイルからTEI/XMLファイルを作成する

に公開

概要

NDL古典籍OCR-Liteを用いて、IIIFマニフェストファイルからTEI/XMLファイルを作成するGradioアプリの紹介です。

以下のURLからアクセスできます。

https://nakamura196-ndlkotenocr-lite-iiif.hf.space/

背景

以下の記事の続きです。

https://zenn.dev/nakamura196/articles/7cbfea6c542774

https://zenn.dev/nakamura196/articles/bd58ba02f9e721

これまでは、2つのアプリを使用する必要がありましたが、今回の改修により、単独のGradioアプリで変換作業が完結するようにしました。

また画像のコマ数が多いマニフェストファイルを処理する場合、進捗がわかりにくいことや、処理結果をコピーできない、といった不具合があったので、これらを修正しています。

画面の例

以下のように、「ページ 111/129 を処理中... - 79.7%」といった進捗を表示するように修正しました。

実装にあたっては、Progressを使用しています。

https://www.gradio.app/docs/gradio/progress

またOCR完了後は、TEI/XMLファイルをダウンロードするためのリンクが表示されるようにしました。

まとめ

Hugging Faceの無料で利用可能なCPUの制約上、OCRに時間がかかることがありますが、参考になりましたら幸いです。

Discussion