😓

IPA品詞体系で分類できない日本語5選

9 min read

形態素解析機を使っていると色んな場面で「あれ、解析うまくいってないな……?😓」という場面に出会います。

単に「解析できない日本語」つまり辞書に無いだけの単語というのはいくらでもありますが、中にはさらに根本的な理由で解析ができない単語というのも存在しています。

MeCabなどで多く用いられているIPADICにはIPA品詞体系という体系が用いられています。この品詞体系は非常に包括的で面白いのですが、よく見ると所々欠けている品詞があったりします。そうした欠落のために、一部の言葉が品詞体系上原理的に「解析・分類できない日本語」となっているのです。

この記事では「そこそこ一般的に用いられるにもかかわらず」「品詞体系上分類することが困難である」ような日本語[1]の例を挙げ、なぜ解析できないのかを解説してみます。

品詞体系全体の解説もあります。ぜひご覧ください。

https://qiita.com/ensan_hcl/items/885588c7d2d99de85b44

本記事ではIPADICのバージョンは2.7とします。

http://manual.freeshell.org/chasen/ipadic-ja.pdf

1.「いらっしゃり」

「昨日〇〇先生がいらっしゃり、貴重なお話を伺うことができました」という文章、どうでしょうか。とりあえず意味はバッチリ伝わる文章です。

しかしIPADICで実際に解析してみるとおかしなことになります。

解析結果(抜粋)
先生 1285 1285 名詞,一般,*,*,*,*,先生,センセイ,センセイ
が 148 148 助詞,格助詞,一般,*,*,*,が,ガ,ガ
いらっ 829 829 動詞,自立,*,*,五段・ワ行促音便,連用タ接続,いらう,イラッ,イラッ
し 517 517 助動詞,*,*,*,文語・キ,体言接続,き,シ,シ
ゃり 1285 1285 名詞,一般,*,*,*,*,*
、 10 10 記号,読点,*,*,*,*,、,、,、

ずいぶんバラバラ殺人されていますね。どうしたのでしょう。

試しに別の文章を入力してみましょう、

解析結果(抜粋)
>昨日〇〇先生がいらっしゃいました

先生 1285 1285 名詞,一般,*,*,*,*,先生,センセイ,センセイ
が 148 148 助詞,格助詞,一般,*,*,*,が,ガ,ガ
いらっしゃい 799 799 動詞,自立,*,*,五段・ラ行特殊,連用形,いらっしゃる,イラッシャイ,イラッシャイ
まし 501 501 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

今回はうまく解析できています。

実は「いらっしゃる」という言葉は「五段ラ行特殊」と分類されています。この分類には他に「ござる」「おっしゃる」などが含まれています。

五段ラ行(通常)と五段ラ行特殊の違いは「ます」への接続と命令形にあります。

走る: 五段ラ行(通常) 仰る: 五段ラ行特殊
ます 走ります 仰います
命令形 走れ 仰れ・仰い

この五段ラ行特殊ですが、「連用マス接続」としてイ音便形があるわけではなく、「連用形」としてイ音便形が登録されています。この結果無音便の連用形(?)である「いらっしゃり」はどこにも登録できなくなっているのです

分類
790 動詞,自立,*,*,五段・ラ行特殊,仮定形,*
791 動詞,自立,*,*,五段・ラ行特殊,仮定縮約1,*
792 動詞,自立,*,*,五段・ラ行特殊,基本形,*
793 動詞,自立,*,*,五段・ラ行特殊,未然ウ接続,*
794 動詞,自立,*,*,五段・ラ行特殊,未然形,*
795 動詞,自立,*,*,五段・ラ行特殊,未然特殊,*
796 動詞,自立,*,*,五段・ラ行特殊,命令e,*
797 動詞,自立,*,*,五段・ラ行特殊,命令i,*
798 動詞,自立,*,*,五段・ラ行特殊,連用タ接続,*
799 動詞,自立,*,*,五段・ラ行特殊,連用形,*

IPADIC自体は更新されていませんし、どこにも登録できない以上NEologdなどでサポートされることも考えにくいです。ユーザレベルでの対処法としては「いらっしゃり」という語形を「五段ラ行」の方に追加すればとりあえず解析はできるようになります。

解析結果
いらっしゃり,788,788,6000,動詞,自立,*,*,五段・ラ行,連用形,いらっしゃる,いらっしゃり,いらっしゃり

実際、「おっしゃる」については五段ラ行特殊と五段ラ行の両方にエントリがあるようですし、これで良いのかもしれません。ただ、なんというか「無駄」な感が否めないと思います。

>おっしゃる
おっしゃる 772 772 動詞,自立,*,*,五段・ラ行,基本形,おっしゃる,オッシャル,オッシャル

>おっしゃった
おっしゃっ 798 798 動詞,自立,*,*,五段・ラ行特殊,連用タ接続,おっしゃる,オッシャッ,オッシャッ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

>おっしゃりました
おっしゃり 788 788 動詞,自立,*,*,五段・ラ行,連用形,おっしゃる,オッシャリ,オッシャリ
まし 501 501 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

>おっしゃいました
おっしゃい 799 799 動詞,自立,*,*,五段・ラ行特殊,連用形,おっしゃる,オッシャイ,オッシャイ
まし 501 501 助動詞,*,*,*,特殊・マス,連用形,ます,マシ,マシ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

元は「いらっしゃり」が非規範的表現なのが原因と思われますが、何故イ音便形を連用形にしたのかかなり不可解です。

2.「ヤベえ」

言わずと知れた美しい日本語の一つです。解析します。

解析結果
ヤベ 1285 1285 名詞,一般,*,*,*,*,*
え 2 2 フィラー,*,*,*,*,*,え,エ,エ

微妙ですね。しかしよく考えると「ヤバい」がちょっと俗語じみている気がします。辞書の問題かもしれませんね。「高え(タケエ)」はどうでしょうか。

解析結果
>高え
高 11 11 形容詞,自立,*,*,形容詞・アウオ段,ガル接続,高い,タカ,タカ
え 930 930 動詞,非自立,*,*,一段,連用形,える,エ,エ

>たけえ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
け 267 267 助詞,終助詞,*,*,*,*,け,ケ,ケ
え 2 2 フィラー,*,*,*,*,*,え,エ,エ

IPA品詞体系が口語形を考慮していないということは決してありません。例えば「走んないで」の「走ん」を「未然特殊」と分類したり、「食べりゃいい」の「食べりゃ」を「仮定縮約1」と分類したりと、口語形は十分考慮されています。

しかし形容詞の口語形はちょっと対象外です。形容詞には「口語形」のような分類がないため、「高え」も「ヤベえ」も登録する場所がありません

ユーザレベルでの対処法としては当該語形を「終止形」として登録することができそうです。まだ試していませんが、形容詞について自動的に口語形を生成すれば問題ないでしょう。

この際、以下のルールに従う必要があります。

  • シク活用(IPA品詞体系では「イ段」)の形容詞には口語形を設けない
  • ク活用(IPA品詞体系では「アウオ段」)の形容詞は次のように口語形を設ける。
  • 末尾について[ai|oi]->[ee]
  • 末尾について[ui]→[ii]

ただ、人力でチェックしない限り「それは口語形にしないだろ」という語が混じるのは避けられません。「だるい」→「だりい」などは自然ですが、「きつい」→「きちい」はちょっと怪しいです。「濃い」→「濃え(けえ)」「遠い」→「遠え(とええ)」も微妙ですし、「奥深い」→「奥深え(おくぶけえ)」になるとどんな文脈だろうと不思議に思えてきます。

また、形容詞の口語形については「たっかい」「やっばい」などの語形もありますが、こちらも解析できません。強調表現についてはなかなか対応が難しそうですね[2]

3.「違くない」

「違い」を形容詞で活用するなんて誰が思い付いたのか不思議ですが、こういう楽しい日本語があります。そこでこれを解析してみましょう。

解析結果
違 1285 1285 名詞,一般,*,*,*,*,*
く 11 11 形容詞,自立,*,*,形容詞・アウオ段,ガル接続,くい,ク,ク
ない 473 473 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ

残念ながら「違くない」は解析できません。「違い」というのは「違う」の連用名詞形であり、「違く」と活用する形容詞ではないのが原因です。

同様の活用形には「違かった」「違くて」「違かろう」などさまざまあります。これには「動詞,自立,ワ行五段,形容詞可能」などの分類をあてるのが適切に思えますが、残念ながらそうした分類はありません。

回避策としては「違い」という形容詞を仮想的に作り、基本形を除いて登録してしまう、というものが考えられると思います。

違,11,11,10000,形容詞,自立,*,*,形容詞・アウオ段,ガル接続,違い,チガ,チガ
違う,31,31,10000,形容詞,自立,*,*,形容詞・アウオ段,連用ゴザイ接続,違い,チガウ,チガウ
違かっ,33,33,10000,形容詞,自立,*,*,形容詞・アウオ段,連用タ接続,違い,チガカッ,チガカッ
違から,27,27,10000,形容詞,自立,*,*,形容詞・アウオ段,未然ヌ接続,違い,チガカラ,チガカラ
違かれ,29,29,10000,形容詞,自立,*,*,形容詞・アウオ段,命令e,違い,チガカレ,チガカレ
違かろ,25,25,10000,形容詞,自立,*,*,形容詞・アウオ段,未然ウ接続,違い,チガカロ,チガカロ
違き,21,21,10000,形容詞,自立,*,*,形容詞・アウオ段,体言接続,違い,チガキ,チガキ
違きゃ,17,17,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定縮約2,違い,チガキャ,チガキャ
違く,35,35,10000,形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,違い,チガク,チガク
違けりゃ,15,15,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定縮約1,違い,チガケリャ,チガケリャ
違けれ,13,13,10000,形容詞,自立,*,*,形容詞・アウオ段,仮定形,違い,チガケレ,チガケレ
違し,23,23,10000,形容詞,自立,*,*,形容詞・アウオ段,文語基本形,違い,チガシ,チガシ

これを導入すればめでたく解析が通ります。

解析結果
違く 35 35 形容詞,自立,*,*,形容詞・アウオ段,連用テ接続,違い,チガク,チガク
ない 473 473 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ

4.「くれんの」

「それ俺にくれんの?」みたいな言い回しは口語ではそこそこあります。これを解析してみましょう。

解析結果
くれ 630 630 動詞,自立,*,*,一段・クレル,未然形,くれる,クレ,クレ
ん 515 515 助動詞,*,*,*,不変化型,基本形,ん,ン,ン
の 282 282 助詞,終助詞,*,*,*,*,の,ノ,ノ
? 5 5 記号,一般,*,*,*,*,?,?,?

どこが間違っているかわかるでしょうか。

体言接続特殊と未然特殊

そもそも「くれんの」とはなんでしょうか。類似する表現には「いつ食べんの?」「なんで走んの?」「触んないで」などがあげられそうです。これを丁寧な言い回しに戻すとそれぞれ「くれるの」「いつ食べるの?」「なんで走るの?」「触らないで」などになります。

これらは口語における音便形です。詳しく述べると

  • 終止形[3]が「る」で終わる動詞である場合、連体形[4]「〜る」+準体言「の」が接続する際に「〜んの」形が可能。この語形の「〜ん」までの部分をIPA品詞体系では体言接続特殊と呼ぶ。「勝手に食べんな」などの表現における「〜んな」の「〜ん」までの部分も同様の分類。
  • 終止形が「る」で終わる動詞であり、かつ五段活用の場合[5]、未然形「〜ら」+助動詞「ない」が接続する際に「〜んない」形が可能。この語形をIPA品詞体系では未然特殊と呼ぶ。
    となります。
解析結果
食べん 620 620 動詞,自立,*,*,一段,体言接続特殊,食べる,タベン,タベン
の 282 282 助詞,終助詞,*,*,*,*,の,ノ,ノ

走ん 774 774 動詞,自立,*,*,五段・ラ行,体言接続特殊,走る,ハシン,ハシン
の 282 282 助詞,終助詞,*,*,*,*,の,ノ,ノ

触ん 782 782 動詞,自立,*,*,五段・ラ行,未然特殊,触る,サワン,サワン
ない 482 482 助動詞,*,*,*,特殊・ナイ,連用デ接続,ない,ナイ,ナイ

くれる

ところが「くれる」はさらに特殊です。「やめてくんない?」という語形を考えると「くん」が「くれ」の撥音便であることが推測されます。しかしこうした語形は他の下一段動詞には出てきません。「惚れない?」を「惚んない?」とはちょっと言えませんね。

このためにIPA品詞体系では「くれる」に対して特別に未然特殊形を設定しています。

解析結果
やめ 625 625 動詞,自立,*,*,一段,連用形,やめる,ヤメ,ヤメ
て 307 307 助詞,接続助詞,*,*,*,*,て,テ,テ
くん 936 936 動詞,非自立,*,*,一段・クレル,未然特殊,くれる,クン,クン
ない 473 473 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ

ここで不思議なのが、「くれる」に対して特別に未然特殊形を設定した一方で、体言接続特殊形を設定しなかったことです。

分類
//通常の一段動詞
617 動詞,自立,*,*,一段,仮定形,*
618 動詞,自立,*,*,一段,仮定縮約1,*
619 動詞,自立,*,*,一段,基本形,*
620 動詞,自立,*,*,一段,体言接続特殊,*
621 動詞,自立,*,*,一段,未然ウ接続,*
622 動詞,自立,*,*,一段,未然形,*
623 動詞,自立,*,*,一段,命令ro,*
624 動詞,自立,*,*,一段,命令yo,*
625 動詞,自立,*,*,一段,連用形,*

//クレル
626 動詞,自立,*,*,一段・クレル,仮定形,*
627 動詞,自立,*,*,一段・クレル,仮定縮約1,*
628 動詞,自立,*,*,一段・クレル,基本形,*
629 動詞,自立,*,*,一段・クレル,未然ウ接続,*
630 動詞,自立,*,*,一段・クレル,未然形,*
631 動詞,自立,*,*,一段・クレル,未然特殊,*
632 動詞,自立,*,*,一段・クレル,命令e,*
633 動詞,自立,*,*,一段・クレル,命令ro,*
634 動詞,自立,*,*,一段・クレル,命令yo,*
635 動詞,自立,*,*,一段・クレル,連用形,*

ラ行五段動詞では両方存在しています。

774 動詞,自立,*,*,五段・ラ行,体言接続特殊,*
782 動詞,自立,*,*,五段・ラ行,未然特殊,*

しかし体言接続特殊形が存在しないかというと、そんなこともありません。「俺にくれんの」「どうしてくれんの」は尋常の表現で、「くれん/の」で分割されるべきなのです。そういうわけで、「くれん」は品詞体系上、分類先を失っていることになります。

対処としては「くれん」のみを通常の一段動詞の体言接続特殊形として登録するのが良さそうです。もちろんこれも少しおかしな話で、わざわざ「くれる」を他の一段動詞と別の品詞に割り当てた意味がなくなってしまうような気がしますが。

くれん,620,620,10000,動詞,自立,*,*,一段,体言接続特殊,*,くれる,クレン,クレン

5.「何だい?」

「これはどうだい?」「何だい?」「どうしたんだい?」の「だい」とはなんでしょうか。解析してみましょう。

解析結果
どう 1282 1282 副詞,助詞類接続,*,*,*,*,どう,ドウ,ドー
だい 1285 1285 名詞,一般,*,*,*,*,だい,ダイ,ダイ
? 5 5 記号,一般,*,*,*,*,?,?,?

何 1306 1306 名詞,代名詞,一般,*,*,*,何,ナニ,ナニ
だい 1285 1285 名詞,一般,*,*,*,*,だい,ダイ,ダイ
? 5 5 記号,一般,*,*,*,*,?,?,?

どう 1282 1282 副詞,助詞類接続,*,*,*,*,どう,ドウ,ドー
し 610 610 動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
た 435 435 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
ん 1310 1310 名詞,非自立,一般,*,*,*,ん,ン,ン
だい 1285 1285 名詞,一般,*,*,*,*,だい,ダイ,ダイ
? 5 5 記号,一般,*,*,*,*,?,?,?

なんと「だい」が名詞として解析されてしまいました。

名詞ではない

「精選版 日本国語大辞典」では以下のように解釈されています。

https://kotobank.jp/word/だい-316070

〘連語〙 (断定の助動詞「だ」に終助詞「い」の付いたもの)

ところでこれをみたとき連想するのは「何のことかい?」の「かい」です。

https://kotobank.jp/word/かい-456637

〘終助〙 (疑問の助詞「か」に感動の終助詞「い」の付いた語)

実際「かい」については終助詞として分類がなされています。

分類
265 助詞,終助詞,*,*,*,*,かい

「わしゃ元気だわい」ですら登録されているのに無視された「だい」の立場、ちょっとかわいそうですね。

分類
292 助詞,終助詞,*,*,*,*,わい

しかしIPA品詞体系は「い」を独立した終助詞としていません。これを考えると「だい」も終助詞として判定するのが適切なような気がします[6]

新しい助詞

ところが「だい」という助詞はIPA品詞体系にはありません。

しかも品詞として「助詞,終助詞,一般」のようなものはなく、全ての助詞がそれぞれ1つの品詞に分類される形になっています。このため、IPADICに新しい助詞を追加することは不可能です。

というわけで妥当な分類先を失っている「だい」(あるいは「い」)ですが、やはり類似した接続を持つ助詞の品詞を適当に設定してあげればひとまずは凌げるのではないかと思います。例えば「かい」はまあまあいい選択肢になりそうです。

同様の問題は終助詞的に用いられる「語尾」である「〜ナリ」「〜にゃあ」のような言葉の解析においても起こりますが、ほとんどの場合は類似の接続を持つ助詞の品詞を便宜的に設定することで解決可能です。ただ、結局のところIPA品詞体系が助詞を柔軟に追加できるような体系ではないのが問題なので、本質的な解決にはなりません。

最後に

IPA品詞体系を決定する際にどのような議論があったのか非常に気になります。特に口語形のサポートについてはどの地域の言葉を中心にしたのか不思議です。

日々言葉は変化するので、文法や分類はそれに常に後手で対処することになります。自然言語と向き合うというのはそういう型にはめきれない面白さがあるような気がします。

脚注
  1. 共通語としての現代日本語を対象にしますが、筆者の認識に基づいているため、実は居住地域特有の語形などが混ざっているかもしれません。 ↩︎

  2. 書きながら思いましたが、動詞の強調表現で促音を入れるパターンってあんまりない気がします。なんででしょう。 ↩︎

  3. IPADICの品詞体系では基本形と呼びます。 ↩︎

  4. IPADICの品詞体系ではこちらも基本形と呼びます。 ↩︎

  5. ラ行五段活用の動詞、あるいは未然形が「ら」で終わる動詞と言っても同じことです。 ↩︎

  6. あるいは「い」を終助詞として導入し、「精選版 日本国語大辞典」の解釈通り助動詞「だ」と終助詞「い」と解析するのでも良いと思います。とりあえず名詞でないのは確かでしょう。 ↩︎