😸

ExcelからTEI/XMLを作成するフローの一例を作成しました。

2023/01/10に公開

概要

Excelで作成したデータから、TEI/XMLを作成するフローの一例を作成しました。

以下のようなTEI/XMLファイルが出力されます。pbタグを使ったページ区切り、lbタグを使った行IDの指定、choice・orig・regタグを使った複数表記、noteタグを使った注釈、およびIIIF画像との関連づけ、などに対応します。

<?xml version="1.0" encoding="utf-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
 <teiHeader>
  <fileDesc>
   <titleStmt>
    <title/>
   </titleStmt>
   <publicationStmt>
    <ab/>
   </publicationStmt>
   <sourceDesc>
    <ab/>
   </sourceDesc>
  </fileDesc>
 </teiHeader>
 <text>
  <body>
   <pb corresp="#page_22"/>
   <ab>
    <lb xml:id="page_22-b-1"/>
    <seg>
     いつれの御時にか女御更衣あまたさふらひ
     <choice>
      <orig>
       給ける
       <note corresp="#page_22-b-1-20" type="校異">
        給けるーたまふ河
       </note>
      </orig>
      <reg>
       たまふ
      </reg>
     </choice>
     なかにいとやむことなきゝは
    </seg>
   </ab>
  </body>
 </text>
 <facsimile source="https://dl.ndl.go.jp/api/iiif/3437686/manifest.json">
  <surface source="https://dl.ndl.go.jp/api/iiif/3437686/canvas/22" xml:id="page_22">
   <label>
    [22]
   </label>
   <zone lrx="1126" lry="1319" ulx="1044" uly="895" xml:id="page_22-b-1-20"/>
  </surface>
  <surface source="https://dl.ndl.go.jp/api/iiif/3437686/canvas/23" xml:id="page_23">
   <label>
    [23]
   </label>
  </surface>
 </facsimile>
</TEI>

上記のTEI/XMLデータの可視化の一例を以下に示します。画像、テキスト(original)、テキスト(Regularization)、注釈を同一画面上に表示しています。

なお注意点として、今回は校異源氏物語のテキストを用いていますが、校異情報を記述する際にはapp要素のほうが適切です。あくまでフローを説明するためのサンプルデータとしてご理解ください。

Excel

作成するExcelのサンプルデータは以下です。image, text, notesの3つのシートを持ちます。それぞれについて説明します。

https://github.com/nakamura196/tei_excel_tools/blob/main/demo/data/sample.xlsx?raw=true

「image」シート

IIIFマニフェストファイルに関する情報を記述します。page_idは一意となるIDを新規に与えてください。

manifest canvas page_id label
https://dl.ndl.go.jp/api/iiif/3437686/manifest.json https://dl.ndl.go.jp/api/iiif/3437686/canvas/22 page_22 [22]
https://dl.ndl.go.jp/api/iiif/3437686/manifest.json https://dl.ndl.go.jp/api/iiif/3437686/canvas/23 page_23 [23]

「text」シート

先に指定したpage_idに加えて、line_idを新たに追加します。またtext1にchoice > origのテキスト、text2にchoice > regのテキストを入力します。

page_id line_id text1 text2
page_22 page_22-b-1 いつれの御時にか女御更衣あまたさふらひ給けるなかにいとやむことなきゝは いつれの御時にか女御更衣あまたさふらひたまふなかにいとやむことなきゝは

上記の例では、「給ける」と「たまふ」に違いがあります。

「notes」シート

注釈の情報を記述します。

これまで作成したpage_idline_idに加えて、note_idを新たに追加します。さらにposには、当該行の何文字目に注釈を付与するかを指定します。typesubtypeは任意です。textには注釈の内容を与えます。imageは任意で、当該注釈のIIIF画像URLを与えます。このURLの作成方法については後述します。

note_id page_id line_id pos type subtype text image
page_22-b-1-20 page_22 page_22-b-1 22 校異 給けるーたまふ河 https://dl.ndl.go.jp/api/iiif/3437686/R0000022/1044,895,82,424/full/0/default.jpg

TEI/XMLへの変換

Excelをアップロードして、TEI/XMLファイルをダウンロードするノートブックは以下です。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/tei_excel_tools.ipynb

注釈のIIIF画像URLの取得

前述した注釈のIIIF画像URLの取得方法です。人文学オープンデータ共同利用センターが作成しているIIIF Curation Viewerを用います。

以下のURLのような形で、manifestposを指定して、注釈が掲載された画像を開きます。

http://codh.rois.ac.jp/software/iiif-curation-viewer/demo/?manifest=https://dl.ndl.go.jp/api/iiif/3437686/manifest.json&pos=22&lang=ja

次に、下図の赤枠で示したボタンをクリックして、注釈箇所を選択します。

その後、注釈部分をクリックすると、URLが表示されます。

このURLをExcelに貼り付けます。

まとめ

ユースケースに特化したTEI/XMLファイルの作成方法ですが、参考になりましたら幸いです。

Discussion