🕌
unidic から語彙を取り出すメモ
自前形態素解析辞書作りたい. 最近(2024)だと unidic が定期的にアップデートされていてよさそう.
で形態素解析用辞書ありますが, 通常のだと mecab 形式にコンパイルされた辞書なので, 語彙(surface + feature のリスト)を取り出すことができません.
から full 版を取得すればいけました.
(もしくは https://clrd.ninjal.ac.jp/unidic_archive/ から取得)
lex.csv
に語彙集があります.
...
侘い,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘い,ワビシー,侘い,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビ>シイ,ワビシイ,ワビシイ,3,C1,*,11356039660315307,41313
侘しい,17330,19234,12094,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘しい,ワビシー,侘しい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039626760875,41313
侘びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,侘びしい,ワビシー,侘びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039828087467,41313
寂びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,寂びしい,ワビシー,寂びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039794533035,41313
詫びしい,17330,19234,12093,形容詞,一般,*,*,形容詞,終止形-一般,ワビシイ,侘しい,詫びしい,ワビシー,詫びしい,ワビシー,和,*,*,*,*,*,*,相,ワビシイ,ワビシイ,ワビシイ,ワビシイ,3,C1,*,11356039693869739,41313
わびし,17385,19323,13607,形容詞,一般,*,*,形容詞,語幹-一般,ワビシイ,侘しい,わびし,ワビシ,わびしい,ワビシー,和,*,*,*,*,*,*,相,ワビシ,ワ>ビシイ,ワビシ,ワビシイ,3,C1,*,11356039593206305,41313
Voila~
さらなる高みへ
mecab 形式辞書から語彙を取り出す.
元データがなくて, mecab 辞書から語彙集を取得しなければならないときもあるでしょう...
mecab 形式の辞書には, 直接には語彙リストは入っていません.
- Trie 木データ(darts データ http://chasen.org/~taku/software/darts/ )
- Token 配列データ(pos id や, feature 文字列へのバイトオフセットとか)
- feature 文字列データ
となっているので,
- Trie 木をトラバースして key(surface)を取得
- そこから Token id を取得
- そこから feature 文字列を取得
して, surface と feature のペアを出力する必要があります. TODO...
Discussion