😸

その2:NDL古典籍OCR-Liteを用いたアノテーション付きIIIFマニフェストファイルとTEI/XMLファイルの作成

に公開

概要

以下の記事で、NDL古典籍OCR-Liteを用いたアノテーション付きIIIFマニフェストファイルとTEI/XMLファイルの作成について紹介しました。

https://zenn.dev/nakamura196/articles/7cbfea6c542774

上記について、説明が不十分な点が多かったため、改めて使い方を紹介いたします。

補足

今回の記事執筆に合わせて、以下の改修を加えました。

  • プロセス1: IIIFマニフェストファイルの作成
    • IIIF Presentation API v3に対応しました。
  • プロセス2: TEI/XMLファイルの作成
    • プロセス1との接続を考慮して、文字列を入力とするフォームを追加

使い方

プロセス1: IIIFマニフェストファイルの作成

以下にアクセスします。

https://nakamura196-ndlkotenocr-lite-iiif.hf.space/

今回は、IIIF Presentation API v3でマニフェストファイルが公開されている「東北大学総合知デジタルアーカイブ」を対象とします。以下の「源氏物語湖月抄 本居宣長自筆付箋及書入」を対象とします。

https://touda.tohoku.ac.jp/portal/item/10010030012489

IIIFマニフェストファイルのURLは以下です。

https://touda.tohoku.ac.jp/collection/iiif/0/metadata/10010030012489/manifest.json

以下のように入力します。注意点として、「Image Width」を-1に設定してください。これにより、最大ピクセルの画像をダウンロードするようになります。(デフォルト値である1200ピクセルではエラーとなります。)

結果、OCRテキストをアノテーションとして持つIIIFマニフェストファイルのJSON文字列が画面右側に表示されます。以下の赤字で示すコピーボタンを押して、文字列をコピーしておきます。

プロセス2: TEI/XMLファイルの作成

以下にアクセスします。

https://iiif-tei-monorepo-web.vercel.app/

コピーしたJSON文字列を「Paste Manifest JSON」というフォームに貼り付け、Convert to TEI XMLボタンを押します。

結果、TEIに変換され、XMLファイルをダウンロードできます。

Oxygen XML EditorのAuthorモードで表示した例が以下です。

まとめ

使いにくい点も多いかと思いますが、OCRとIIIF・TEIの応用にあたり、参考になりましたら幸いです。

Discussion