『茶經』翻刻・TEIの試み(01-识典古籍から)
TEIやデジタル・ヒューマニティーズの基礎技術をより深く理解するため、最近は『茶経』を練習素材として活用しております。忘却を防ぐためにも、ここにその取り組みについて記しておくことにいたしました。
試みの素材
『茶經』の最古本の調査
現存する最も古い『茶経』の版本は調べてみると、南宋咸淳九年(1273年)に刊行された宋版『百川學海』本であり、中国国家図書館に所蔵されている結果が出ています。この版本は刻本であり、現存する全ての『茶経』版本の祖本とされています。なお、それ以前にも抄本が伝えられていたとされますが、現存する更に古い抄本は確認されておりません。
翻刻した本
中国には日本のような完備された古籍目録や総合的なリソース検索プラットフォーム(japan searchみたい)がほとんど存在せず、中国国家図書館を通じても宋版『百川學海』本を検索して結果が出ませんでした。しかし、私的ルートで、明代万暦期に陳文燭が校刊した版本を入手することができました。この明版本は宋本を基礎に注釈や挿絵が加えられ、特に陸羽の生涯や茶具に焦点を当てている点が特徴的であるため、今回はこの版本を試みの素材として選びました。このような観点から見ても、中国におけるデジタル・ヒューマニティーズの基盤整備は、まだやりやすい環境であるとは言えない現状です。
翻刻ツール
紹介
「识典古籍」は、北京大学と字节跳动デジタル・ヒューマニティーズセンターが共同で開発した利用ツールであり、その機能は日本の「みんなで翻刻」に相当します。加えて、北京大学デジタル・ヒューマニティーズセンターでは他にも多様なツールが整備されており、下記のウェブサイトからアクセスすることが可能です。

基礎画面の紹介

検索ボックスに事前に翻刻済みの資料名を入力することで、その資料がすでにデータベースに収録されているかどうかを確認できます。残念ながら、今回翻刻を希望している明代万暦期の陳文燭校刊本は、現時点では収録されておりません。そこで、「整理平台」をクリックし、自身で翻刻したい資料をアップロードする流れとなります。
整理平台の画面は以下となります。

処理の流れ
1.アプロードした書籍をクリックすると、

2.PDFファイルをアップロードすると、古籍の章節情報が自動的に認識され、巻ごとに分割されます。実際、今回の資料も自動判別によって三巻に分けられました。

3.「プロジェクトはチーム」機能には、豊富なチーム協働のための仕組みが備わっておりますが、現時点では利用する機会がなく、詳細についてはあまり把握しておりません。

4.「人によるOCR結果確認の階段」に進むと、本モジュールには各文字ごとに独自の認識アルゴリズムが内蔵されているようで、各文字の認識精度を自動的に推定することが可能となっています。Enterキーを押すことで、黒字以外の文字を順に確認できる仕組みとなっており、右側の選字欄には複数の候補字体が自動的に表示されますので、利用者が辞書を引いて探す手間はほとんど必要ありません。

5.翻刻作業が完了した後、前の画面に戻ることで、成果物をさまざまな形式――例えばtxt、xml、docなど――でエクスポートすることが可能となります。(翻刻した古籍をそのままデータベースにアップロードし、貢献度を獲得することも可能なようです。)、現時点では识典古籍で翻刻済みの古籍のtextはコピーできますが、一括ダウンロード機能はないようです。意外に自分がアプロード・翻刻した古籍はエクスポートすることが可能です。

## 识典古籍のエクスポート仕様
txt
txt形式では、たとえば「[496936_00002 00000B]」のようにページを示す識別子がそのまま残されています。また、「<p>」は一つの縦列を表し、文中の括弧(例:(孕兆至瓦礫苖木上岫))もしっかり扱われています。
[496936_00002 00000B]
<p>茶經傳
[496936_00002 00001A]
<p>茶經卷上
<p>唐竟陵陸羽鴻漸撰
<p>一之源
<p>茶者南方之嘉木也一尺二尺廼至數十尺其
<p>巴山峽川有兩人合抱者伐而掇之其樹如瓜
<p>蘆葉如梔子花如白蔷薇實如枿櫚葉如丁香
<p>根如胡桃(瓜蘆木出廣州似茶至古澁𣒁櫚蒲葵之屬其子似茶胡桃與茶根皆下)
<p>(孕兆至瓦礫苖木上岫)其字或從草或從荒或從木并(從草)
<p>(當作茶其字出開元文字者義從木當作其名搽其字出本草草木幷作茶其字出爾雅江)
[496936_00002 00001B]
<p>一日茶二曰檟三曰設四日茗五日舛(周公云檟苦茶)
<p>(揚執戟云蜀西南人謂茶日設郭弘農云早取爲茶晩取為茗或一日荈耳)其地上
<p>者生爛石中者生櫟壤(櫟字當從石爲礫)下者生黃土
<p>凡藝而不實植而罕茂法如種瓜三嵗可採野
<p>者上園者次陽崖隂林紫者上綠者次筍者上
<p>彥者次葉卷上葉舒次隂山坡谷者不堪採掇
<p>性疑滯結瘕疾茶之爲用味至寒爲飲最宜精
<p>行儉德之人若𤍠渴凝悶腦疼目澁四肢煩百
<p>節不舒聊四五啜與醍醐甘露抗𢖍也採不時
[496936_00002 00002A]
<p>造不精雜以草莽飮之成疾茶爲累也亦猶人
<p>參上者生上黨中者生百濟新羅下者生高麗
<p>有生澤州易州幽州檀州者爲藥無効况非此
<p>者設服薺苨使六疾不瘳知人參爲累則茶累
tei xml
XMLは以下のような印象で、TEIの書き方は少し間違っているようですが、大体わかります。TEIは巻、章、ページ、縦書き、注釈のタグを明確にしています
<TEI xmlns="https://www.tei-c.org/ns/1.0" xml:id="7507532016460496936_2">
<text>
<body>
<div type="卷标题" decls="">
<pb id="7507526686696833035" n="1" facs="7507532016460496936/496936_00002_00000B.png" source=""/>
<lg>
<l xml:id="0" n="0">茶經傳</l>
</lg>
<pb id="7507526686696849419" n="2" facs="7507532016460496936/496936_00002_00001A.png" source=""/>
<lg>
<l xml:id="0" n="0">茶經卷上</l>
</lg>
<lg>
<l xml:id="0" n="0">唐竟陵陸羽鴻漸撰</l>
</lg>
<lg>
<l xml:id="0" n="0">一之源</l>
</lg>
<lg>
<l xml:id="0" n="0">茶者南方之嘉木也一尺二尺廼至數十尺其</l>
</lg>
<lg>
<l xml:id="0" n="0">巴山峽川有兩人合抱者伐而掇之其樹如瓜</l>
</lg>
<lg>
<l xml:id="0" n="0">蘆葉如梔子花如白蔷薇實如枿櫚葉如丁香</l>
</lg>
<lg>
<l xml:id="0" n="0">根如胡桃
<note type="注文_注">瓜蘆木出廣州似茶至古澁𣒁櫚蒲葵之屬其子似茶胡桃與茶根皆下</note>
</l>
</lg>
<lg>
<l xml:id="0" n="0">
<note type="注文_注">孕兆至瓦礫苖木上岫</note>其字或從草或從荒或從木并
<note type="注文_注">從草</note>
</l>
</lg>
<lg>
<l xml:id="0" n="0">
<note type="注文_注">當作茶其字出開元文字者義從木當作其名搽其字出本草草木幷作茶其字出爾雅江</note>
</l>
</lg>
<pb id="7507526686696865803" n="3" facs="7507532016460496936/496936_00002_00001B.png" source=""/>
<lg>
<l xml:id="0" n="0">一日茶二曰檟三曰設四日茗五日舛
<note type="注文_注">周公云檟苦茶</note>
</l>
</lg>
<lg>
<l xml:id="0" n="0">
<note type="注文_注">揚執戟云蜀西南人謂茶日設郭弘農云早取爲茶晩取為茗或一日荈耳</note>其地上
</l>
</lg>
<lg>
<l xml:id="0" n="0">者生爛石中者生櫟壤
<note type="注文_注">櫟字當從石爲礫</note>下者生黃土
</l>
</lg>
最後に
博士論文を完成させる合間を縫って今回の翻刻を試みました。次回はtxtファイルからxmlへの変換を試す予定です。
Discussion