😸
その2:NDL古典籍OCR-Liteを用いたアノテーション付きIIIFマニフェストファイルとTEI/XMLファイルの作成
概要
以下の記事で、NDL古典籍OCR-Liteを用いたアノテーション付きIIIFマニフェストファイルとTEI/XMLファイルの作成について紹介しました。
上記について、説明が不十分な点が多かったため、改めて使い方を紹介いたします。
補足
今回の記事執筆に合わせて、以下の改修を加えました。
- プロセス1: IIIFマニフェストファイルの作成
- IIIF Presentation API v3に対応しました。
- プロセス2: TEI/XMLファイルの作成
- プロセス1との接続を考慮して、文字列を入力とするフォームを追加
使い方
プロセス1: IIIFマニフェストファイルの作成
以下にアクセスします。
今回は、IIIF Presentation API v3でマニフェストファイルが公開されている「東北大学総合知デジタルアーカイブ」を対象とします。以下の「源氏物語湖月抄 本居宣長自筆付箋及書入」を対象とします。
IIIFマニフェストファイルのURLは以下です。
以下のように入力します。注意点として、「Image Width」を-1
に設定してください。これにより、最大ピクセルの画像をダウンロードするようになります。(デフォルト値である1200
ピクセルではエラーとなります。)
結果、OCRテキストをアノテーションとして持つIIIFマニフェストファイルのJSON文字列が画面右側に表示されます。以下の赤字で示すコピーボタンを押して、文字列をコピーしておきます。
プロセス2: TEI/XMLファイルの作成
以下にアクセスします。
コピーしたJSON文字列を「Paste Manifest JSON」というフォームに貼り付け、Convert to TEI XMLボタンを押します。
結果、TEIに変換され、XMLファイルをダウンロードできます。
Oxygen XML EditorのAuthorモードで表示した例が以下です。
まとめ
使いにくい点も多いかと思いますが、OCRとIIIF・TEIの応用にあたり、参考になりましたら幸いです。
Discussion