😊

app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。

2023/01/26に公開

概要

app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。

以下のGoogle Colabからご利用いただけます。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/編集距離を算出するプログラム.ipynb

XMLファイルをアップロードすると、witness間の類似度を算出します。

以下のXMLファイルをアップロードしてみます。

https://tei-eaj.github.io/koui/data/nakamura.xml

結果、以下のようなExcelファイルが得られます。witness間の類似度を一覧できます。

index name1 name2 distance ratio
0 中村式五十音 中村式五十音又様 10 0.85
1 中村式五十音 中村式五十音欠損本 7 0.8947368421052632
2 中村式五十音又様 中村式五十音欠損本 8 0.868421052631579

類似度の算出には、以下を使用しています。

https://pypi.org/project/python-Levenshtein/

まとめ

テキストの比較方法については色々と検討の余地がありますが、witness間の定量的な比較の一例として参考になりましたら幸いです。

参考

以下で紹介している「二つのテキスト間の差分を抽出するプログラム」にも本機能を追加しました。

https://zenn.dev/nakamura196/articles/442da1c74afae1

Discussion