Open10
古語を形態素解析したい
古語を形態素解析したい。一般的には古文用UniDicSを用いるものと考えられるが、これはCCライセンスNCなので将来的に商用のプロダクトとなる可能性がある場合使えない。
これ以外に古語向けの形態素解析用辞書はなさそうなので、辞書を自作する以外に道はないように思われる。
ipadicの品詞体系を調べた際に気づいたこととして、以下がある。
- 当該言語へのかなり深い洞察が必要
- 例えば「ゆく(行く)」には
連用タ接続
が存在していないことは品詞体系を調べるまで気づかなかった。 - ipadicの古語向け品詞分類は不足がある
- 上二段活用はダ行・バ行のみであるが、これでは「老ゆ」などの多くの語が分類不可能になる。
したがって辞書を自作するならば、少なくとも品詞体系から作り直すことになる。ipadicをベースにするにしてもかなり厄介な作業。
動詞から。平安期の日本語(中古日本語)においては次の9種の活用パターンが存在する。
- 四段活用:カ、ガ、サ、タ、ハ、バ、マ、ラ行のみ、ザ、ダ、ナ、ヤ、ワ行は存在しない。
- 上一段活用:数は少ない。カ、ナ、ハ、マ、ヤ、ワ行のみ。
- 上二段活用:カ、ガ、タ、ダ、ハ、マ、ヤ、ラ行のみ。
- 下一段活用:「蹴る」のみ。
- 下二段活用:ア、カ、ガ、サ、ザ、タ、ダ、ナ、ハ、バ、マ、ヤ、ラ、ワ行。
- カ行変格活用:来
- サ行変格活用:す
- ナ行変格活用:死ぬ
- ラ行変格活用:「あり」「をり」「はべり」「いまそかり」
院政期には現代日本語の音便はほぼ出揃っていたとのことなので、ipadicにおける分類同様音便を気にした活用が必要になる。
これは参考になる。
学習用に古語文の電子データ(できれば形態素解析済み)が欲しいが、そもそもそれ自体少ない。
近現代の文語文であれば青空文庫が使えそうだが、イメージでは古語といえば平安・鎌倉期のものを狙いたいところ。
辞書の生成は現代語の動詞を機械的に古語に戻せばいいと思っていたが、そう簡単じゃなさそう。
例えば
現代語→古語(易しい)
走る(はしる, ラ行五段)→走る(はしる, ラ行四段)
言う(いう, ワ行五段)→言ふ(いふ, ハ行四段)
流れる(ながれる, 下一段)→流る(ながる, ラ行下二段)
あたりは多分機械的にいけるが、次のような例が鬼。
現代語→古語(難しい)
言える(いえる, 下一段, 「言う」の可能動詞)→nil(古語では「言ふ」+可能の助動詞「る」で「言はる」)
聞こえる(きこえる, 下一段)→聞こゆ(きこゆ, ヤ行下二段)
答える(こたえる, 下一段)→答ふ(こたふ, ハ行下二段)
形態上区別ができない以上、もうそういうものとして受け入れ、人力でどうにかする以上やりようがない。
形態素解析ではない方法を使う可能性はあると思う。