🤔

MeCabのユーザ辞書に「違い」を形容詞として登録する

2021/01/13に公開

「それ違くない?」と言ったことはあるでしょうか。私はあります。でもよく考えるとこれは不思議な表現です。日本語として「正しい」のは「違わない?」の方です。

しかし実際のテキストと向き合うときにはそんなことは言っていられないので、「違くない?」もしっかり形態素解析出来る必要があります。そこでオススメなのが「違い」を形容詞として登録する方法です。

https://www.chunichi.co.jp/article/120175
https://kotobaken.jp/qa/yokuaru/qa-33/

「違く」は「違う」の連用名詞形「違い」をあたかも形容詞かのように活用した形です。そこで「違い」を除いてユーザ辞書に登録してしまいましょう。

まずは以下の内容を「user_dict.csv」などに登録します。

違,11,11,10000,形容詞,自立,*,*,形容詞・アウオ段,ガル接続,違い,チガ,チガ
違う,31,31,10000,形容詞,自立,*,*,形容詞・アウオ段,連用ゴザイ接続,違い,チガウ,チガウ
違かっ,33,33,10000,形容詞,自立,*,*,形容詞・アウオ段,連用タ接続,違い,チガカッ,チガカッ
違から,27,27,10000,形容詞,自立,*,*,形容詞・アウオ段,未然ヌ接続,違い,チガカラ,チガカラ
違かれ,29,29,10000,形容詞,自立,*,*,形容詞・アウオ段,命令e,違い,チガカレ,チガカレ
違かろ,25,25,10000,形容詞,自立,*,*,形容詞・アウオ段,未然ウ接続,違い,チガカロ,チガカロ
違き,21,21,10000,形容詞,自立,*,*,形容詞・アウオ段,体言接続,違い,チガキ,チガキ
違きゃ,17,17,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定縮約2,違い,チガキャ,チガキャ
違く,35,35,10000,形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,違い,チガク,チガク
違けりゃ,15,15,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定縮約1,違い,チガケリャ,チガケリャ
違けれ,13,13,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定形,違い,チガケレ,チガケレ
違し,23,23,10000,形容詞,自立,*,*,形容詞・アウオ段,文語基本形,違い,チガシ,チガシ

次にコマンドラインで以下を実行します。

/usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/mecab-ipadic \-u user_dict.dic -f utf8 -t utf8 user_dict.csv

こうすると同階層に「user_dict.dic」というファイルが生成されます。ただし「mecab-ipadic」の位置は環境によって違う可能性があるので適宜置き換えてください。

最後に/usr/local/lib/mecab/dic/mecab-ipadic/dicrcの末尾に

userdic = user_dict.dic

を書いてあげれば完了です。

違く 35 35 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,違い,チガク,チガク
ない 473 473 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ

無事に形態素解析できるようになりました。

品詞などの詳しいことについては解説記事を書いてあるのでぜひご覧ください。
https://qiita.com/En3_HCl/items/885588c7d2d99de85b44

参照

https://taku910.github.io/mecab/dic.html

Discussion