ExcelからTEI/XMLを作成するフローの一例を作成しました。
概要
Excelで作成したデータから、TEI/XMLを作成するフローの一例を作成しました。
以下のようなTEI/XMLファイルが出力されます。pbタグを使ったページ区切り、lbタグを使った行IDの指定、choice・orig・regタグを使った複数表記、noteタグを使った注釈、およびIIIF画像との関連づけ、などに対応します。
<?xml version="1.0" encoding="utf-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0">
<teiHeader>
<fileDesc>
<titleStmt>
<title/>
</titleStmt>
<publicationStmt>
<ab/>
</publicationStmt>
<sourceDesc>
<ab/>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>
<body>
<pb corresp="#page_22"/>
<ab>
<lb xml:id="page_22-b-1"/>
<seg>
いつれの御時にか女御更衣あまたさふらひ
<choice>
<orig>
給ける
<note corresp="#page_22-b-1-20" type="校異">
給けるーたまふ河
</note>
</orig>
<reg>
たまふ
</reg>
</choice>
なかにいとやむことなきゝは
</seg>
</ab>
</body>
</text>
<facsimile source="https://dl.ndl.go.jp/api/iiif/3437686/manifest.json">
<surface source="https://dl.ndl.go.jp/api/iiif/3437686/canvas/22" xml:id="page_22">
<label>
[22]
</label>
<zone lrx="1126" lry="1319" ulx="1044" uly="895" xml:id="page_22-b-1-20"/>
</surface>
<surface source="https://dl.ndl.go.jp/api/iiif/3437686/canvas/23" xml:id="page_23">
<label>
[23]
</label>
</surface>
</facsimile>
</TEI>
上記のTEI/XMLデータの可視化の一例を以下に示します。画像、テキスト(original)、テキスト(Regularization)、注釈を同一画面上に表示しています。
なお注意点として、今回は校異源氏物語のテキストを用いていますが、校異情報を記述する際にはapp要素のほうが適切です。あくまでフローを説明するためのサンプルデータとしてご理解ください。
Excel
作成するExcelのサンプルデータは以下です。image, text, notesの3つのシートを持ちます。それぞれについて説明します。
「image」シート
IIIFマニフェストファイルに関する情報を記述します。page_id
は一意となるIDを新規に与えてください。
manifest | canvas | page_id | label |
---|---|---|---|
https://dl.ndl.go.jp/api/iiif/3437686/manifest.json | https://dl.ndl.go.jp/api/iiif/3437686/canvas/22 | page_22 | [22] |
https://dl.ndl.go.jp/api/iiif/3437686/manifest.json | https://dl.ndl.go.jp/api/iiif/3437686/canvas/23 | page_23 | [23] |
「text」シート
先に指定したpage_id
に加えて、line_id
を新たに追加します。またtext1
にchoice > origのテキスト、text2
にchoice > regのテキストを入力します。
page_id | line_id | text1 | text2 |
---|---|---|---|
page_22 | page_22-b-1 | いつれの御時にか女御更衣あまたさふらひ給けるなかにいとやむことなきゝは | いつれの御時にか女御更衣あまたさふらひたまふなかにいとやむことなきゝは |
上記の例では、「給ける」と「たまふ」に違いがあります。
「notes」シート
注釈の情報を記述します。
これまで作成したpage_id
とline_id
に加えて、note_id
を新たに追加します。さらにpos
には、当該行の何文字目に注釈を付与するかを指定します。type
とsubtype
は任意です。text
には注釈の内容を与えます。image
は任意で、当該注釈のIIIF画像URLを与えます。このURLの作成方法については後述します。
note_id | page_id | line_id | pos | type | subtype | text | image |
---|---|---|---|---|---|---|---|
page_22-b-1-20 | page_22 | page_22-b-1 | 22 | 校異 | 給けるーたまふ河 | https://dl.ndl.go.jp/api/iiif/3437686/R0000022/1044,895,82,424/full/0/default.jpg |
TEI/XMLへの変換
Excelをアップロードして、TEI/XMLファイルをダウンロードするノートブックは以下です。
注釈のIIIF画像URLの取得
前述した注釈のIIIF画像URLの取得方法です。人文学オープンデータ共同利用センターが作成しているIIIF Curation Viewerを用います。
以下のURLのような形で、manifest
とpos
を指定して、注釈が掲載された画像を開きます。
次に、下図の赤枠で示したボタンをクリックして、注釈箇所を選択します。
その後、注釈部分をクリックすると、URLが表示されます。
このURLをExcelに貼り付けます。
まとめ
ユースケースに特化したTEI/XMLファイルの作成方法ですが、参考になりましたら幸いです。
Discussion