😊
app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。
概要
app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。
以下のGoogle Colabからご利用いただけます。
XMLファイルをアップロードすると、witness間の類似度を算出します。
例
以下のXMLファイルをアップロードしてみます。
結果、以下のようなExcelファイルが得られます。witness間の類似度を一覧できます。
index | name1 | name2 | distance | ratio |
---|---|---|---|---|
0 | 中村式五十音 | 中村式五十音又様 | 10 | 0.85 |
1 | 中村式五十音 | 中村式五十音欠損本 | 7 | 0.8947368421052632 |
2 | 中村式五十音又様 | 中村式五十音欠損本 | 8 | 0.868421052631579 |
類似度の算出には、以下を使用しています。
まとめ
テキストの比較方法については色々と検討の余地がありますが、witness間の定量的な比較の一例として参考になりましたら幸いです。
参考
以下で紹介している「二つのテキスト間の差分を抽出するプログラム」にも本機能を追加しました。
Discussion