🕌

unidic から語彙を取り出すメモ

2024/03/14に公開

自前形態素解析辞書作りたい. 最近(2024)だと unidic が定期的にアップデートされていてよさそう.

https://clrd.ninjal.ac.jp/unidic/

で形態素解析用辞書ありますが, 通常のだと mecab 形式にコンパイルされた辞書なので, 語彙(surface + feature のリスト)を取り出すことができません.

https://clrd.ninjal.ac.jp/unidic/back_number.html

から full 版を取得すればいけました.
(もしくは https://clrd.ninjal.ac.jp/unidic_archive/ から取得)

lex.csv に語彙集があります.

...
侘い,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘い,ワビシー,侘い,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビ>シイ,ワビシイ,ワビシイ,3,C1,*,11356039660315307,41313
侘しい,17330,19234,12094,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘しい,ワビシー,侘しい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039626760875,41313
侘びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘びしい,ワビシー,侘びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039828087467,41313
寂びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,寂びしい,ワビシー,寂びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039794533035,41313
詫びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,詫びしい,ワビシー,詫びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039693869739,41313
わびし,17385,19323,13607,形容詞,一般,*,*,形容詞,語幹-一般,ワビシイ,侘しい,わびし,ワビシ,わびしい,ワビシー,和,*,*,*,*,*,*,相,ワビシ,ワ>ビシイ,ワビシ,ワビシイ,3,C1,*,11356039593206305,41313

Voila~

さらなる高みへ

mecab 形式辞書から語彙を取り出す.

元データがなくて, mecab 辞書から語彙集を取得しなければならないときもあるでしょう...

mecab 形式の辞書には, 直接には語彙リストは入っていません.

となっているので,

  • Trie 木をトラバースして key(surface)を取得
  • そこから Token id を取得
  • そこから feature 文字列を取得

して, surface と feature のペアを出力する必要があります. TODO...

Discussion