形態素解析で使用する辞書の使い分けについて
MeCabのインストールについては前回の記事参照
MeCab用の辞書について
MeCabは形態素解析エンジンですが、形態素解析エンジンは辞書を利用して日本語を解析します。
そのため形態素解析の精度は 形態素解析エンジンのアルゴリズムの精度
と 形態素解析辞書の精度
の2つに左右されます。
仮に形態素解析エンジンにMeCabを使用する場合、形態素解析の目的にあった辞書を指定する必要があります。
MeCabのドキュメントに記載されている辞書は以下の3つです。
- IPA辞書(推奨)
- Juman辞書
- Unidic辞書
MeCabのドキュメントが古くリンク切れなどがあるので1つずつ調べてみます。
※ドキュメントには記載されていませんが、mecab-ipadic-NEologd
についても記述。
※CRFについては省略
IPA辞書
IPA 辞書, IPAコーパス に基づき CRF でパラメータ推定した辞書です。
MeCabのサイトで推奨されている辞書で、厳密には mecab-ipadic
という名称です。
もともとChaSenという形態素解析エンジンに内包されていた ipadic
という辞書をMeCab用に改良したものが、mecab-ipadic
になります。
ipadic
や mecab-ipadic
が参考にした、IPAコーパスを元にして作成されたようです。
IPAコーパスとは
奈良先端科学技術大学院大学の自然言語処理学研究室のページにIPAコーパスの記載がありました。
- 情報処理振興事業協会が公開している研究用コーパス(現在はダウンロードページ非公開)
- 以下を対象テキストにしている
- (1)公開済みのIPAL辞書に収められている文例集約15000文
- IPAL辞書とは
日本語の基本語(動詞861語,形容詞136語,名詞1081語) の詳細な文法情報を掲載した電子化辞書.
以前は無償版がIPALホームページからダウンロードできたようだが現在は非公開
- IPAL辞書とは
- (2)『日本語表現文型中級』(筑波大学日本語教育研究会,凡人社,1983)の中に収められている、「文型・文法」欄の例文約1600文.日本の大学に留学する一般外国人留学生を対象とした中級程度の日本語教材
- (3)岩波新書13冊および岩波ジュニア新書7冊の約41000文(ただし,著作権の問題が解決していないので公開は1冊分(長尾真著「人工知能と人間」)の約2500文のみ).
- (1)公開済みのIPAL辞書に収められている文例集約15000文
- (2)と(3)の各文は,単語分割し,出現形,読み,終止形,品詞の情報を付与してある.一部には係り受け関係も付与されている.
IPA辞書まとめ
- IPAコーパスは基本的な日本語の文法、常用される文系、専門用語などの固有名詞に重点を置いた辞書
- ipadicがベースになっているので学校文法(橋本文法)を用いている
-
mecab-ipadic
においてもIPAコーパスを元にしている - 基本的な日本語の文法や、岩間信書に記載されているような専門用語や固有名詞に強い
- 新しい言葉や固有名詞に弱い(IPAコーパスの内容が元になっており辞書が更新されることがないため)
-
mecab-ipadic-2.7.0-20070801
の名前から察するに最終更新は2007年?
Juman辞書
Juamn 辞書, 京都コーパスに基づき CRF でパラメータ推定した辞書です。
Juman辞書は形態素解析エンジンのJUMANやJUMAN++で使用されてる辞書であり、京都コーパスを基にした辞書のようです。
京都コーパスとは
さまざまな言語情報で手動で注釈が付けられたテキストコーパスです。1995 年に毎日新聞に掲載された約 40,000 の文章に、形態素および構文の注釈が付けられています。これらの文のうち、約 20,000 文には、照応や相互参照がゼロの述語引数構造が注釈として付けられています。
Juman辞書まとめ
- 益岡・田窪文法を用いている
- 品詞体系
- 「特殊」(句読点・記号・括弧など) を加えた
- 接辞を「接頭辞」「接尾辞」に分けた
- 計14種類の形態品詞を定義
- 文法
- 文語的表現・口語的表現・敬語表現に対応するために拡張
- 21個の一般的な活用型
- 7個の特殊な活用型
- 参考: 基礎日本語文法・改訂版
- 品詞体系
- 以下を辞書の方針としており、基本語彙はIPA辞書より豊富であり精度が良い
- 基本語彙(約3万語)のみを人手で整備し、残りは自動獲得
- 基本語彙には人手で様々な意味情報を付与
- Wikipediaから抽出した辞書を追加しているので、ある程度は固有名詞に強い
- 最終更新日が2016年9月23日なので他の辞書に比べて新しい
Unidic辞書
Unidic 辞書, BCCWJコーパスに基づき CRF でパラーメータ推定した辞書です。
国立国語研究所の現代日本語書き言葉均衡コーパス(BCCWJ)を元にした辞書のようです。
BCCWJコーパスとは
『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。
参考: https://clrd.ninjal.ac.jp/bccwj/
- 現代日本語書き言葉均衡コーパスは、次の2種類の言語単位に分割され、品詞などの情報が付与されている
- 用例収集を目的とした短単位
- 言語的特徴の解明を目的とした長単位
Unidic辞書まとめ
- 1億430万語と元のデータが豊富
- 短単位は用例検索を重視した設計(単位の長さ、可能性に基づく品詞体系語源主義に基づく脱文脈化)となっているため、自然言語処理分野の統語解析や意味解析に向いていない(統語解析を行う場合は長単位の仕様を推奨)
- 統語解析には、構文機能に着目し、文節からトップダウンに認定する長単位の使用を推奨
- 短単位は用例検索に向けた斉一な単位なので検索エンジンのような情報検索システムには有効
mecab-ipadic-NEologd
ドキュメントには記載されていませんが、mecab-ipadic
に関係する辞書なので記載していきます。
mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。
Web上の文書の解析をする際には、この辞書と標準のシステム辞書(ipadic)を併用することをオススメします。
IPA辞書は「IPAコーパスの内容が元になっており辞書が更新されることがないため新しい言葉や固有名詞に弱い」という弱点がありましたが、mecab-ipadic-NEologd
はそれを補ってくれます。
mecab-ipadic-NEologdの特徴
- 利点
- 辞書の更新が週に2回行われるので新しい固有表現に強い
- IPA辞書では正しく分割できない固有表現などの語の表層(表記)とフリガナの組を約319万組(重複エントリを含む)採録している
- Web上の言語資源を活用しているので、更新時に新しい固有表現を採録できる
- 欠点
- 固有表現の分類が不十分
- 固有表現では無い語も固有表現として登録される
- 固有表現の表記とフリガナの対応づけを間違っている場合がある
- 欠点はあるものの、新しい固有名詞などに対するIPA辞書の弱点が克服されている
まとめ
辞書の使い分けとしては以下のような使い分けになりそうです。
- 新しい固有名詞などを用いた形態素解析の場合は、IPA辞書とNEologdの併用。
- 精度が求められる形態素解析の場合はJuman辞書。
- 検索クエリの解析などではUnidic辞書。
初めにも書きましたが、どのような目的で解析するか、形態素解析エンジンに何を用いるかによっても選択するべき辞書は変わってきます。
形態素解析エンジンにMeCabを使用するのであればIPA辞書とNEologdの併用一択な気がしますが、様々な解析をしたい場合は形態素解析エンジンにJUMAN、Juman辞書一択な気がします。
参考文献
Discussion