短歌におけるテキストマイニングとその展望

commits3 min read読了の目安(約3400字

短歌のテキストマイニング

ずばり「短歌のテキストマイニング」と題した記事を書いた。記事といっても、短歌を分析したRのコードにコメントを添えたみたいなものだけど。

https://github.com/paithiov909/wabbitspunch/blob/master/content/posts/shinabitanori-tanka.Rmd

この記事ではatilika/kuromojiをrJava経由で呼んで自作短歌の形態素解析(IPA辞書)をおこない、出現する語彙の簡単な要約を試みている。具体的には、Webでよく見られる「テキストマイニングをやってみた」系の記事でよくあるような図を描いてみたりしている。

全作品を通じて頻出する語彙(ストップワードを使用して語彙を削っている。動詞は原型をカウント)

画像1

ワードクラウド

画像2

ただ、こういう語彙の頻度に注目した要約は短歌の場合とくに必ずしも重要ではないような気もする。今回はとりあえず動くコードを書きあげることを目標にしていたので自作短歌は436首だけを投入したこともあり、そのなかで相対的に多く出現するものをピックアップしたといっても頻度はたかが知れている。もちろんこういうことができるというおもしろさはあって見た目にもわかりやすいのだが、だからなんだという感は否めない。

やや珍しいだろう分析としては、名詞で助詞の「の」が挟まれている「AのB」のようなかたちの表現を探索して、こういった表現が短歌のどの部分に出現するかを概観しようとした。短歌は57577の定型詩であるため、音数(モーラ数)に注目して要約すると便利だと考え、名詞はモーラ数に置き換えながらこのかたちの表現をマイニングした。

同じモーラ数の表現ごとに頻度をカウントしたもの

画像4

このカウントが多かったものから順に、3の2から4の4まで、短歌のなかでの実際の位置を図示した。

画像3

画像5

画像6

画像7

画像8

画像9

画像10

画像11

必ずしも分かりやすい傾向は確認できないかもしれないが、少なくとも4の3や4の2のような4モーラの語が先行する表現は初句のあたりに出現がかたよっているほか、3の3という表現は結句に出現がかたよっているらしいことが確認できるだろう。

短歌の計量的分析の先例

笠井康平が𐮷田恭大『光と私語』のテキストマイニングをおこなった結果を公開している。

https://note.com/inunosenakaza/m/m1301c2435627

また、私も「うたの日」という短歌投稿サイトの作品を独自に収集して形態素解析した結果を要約した記事をいくつか書いている。

https://note.com/shinabitanori/n/nb8d2758a5ef7

「批評ニューウェーブ」を巡る議論

西巻真が流れをブログ記事にまとめている。

http://cocoatalk.blog94.fc2.com/blog-entry-725.html

私からとくに目新しいコメントはないが、テキストマイニングによる短歌の特徴量化とその要約はあくまでもデータであって、「批評」以前の「情報」でしかないという点には注意したい。先ほど自作短歌のワードクラウドを掲載したが、あれを描いてみたところでだからなんだというのはつまりそういうことだし、私の「データでわかるうたの日」なども情報の要約を試みたものであって、それ自体はとくに批評的な活動を意図したものではない。

短歌の構文マイニングの展望

展望として、短歌の構文の特徴量化をやってみたいと考えている。短歌における「構文」の癖はときどきその人の文体的特徴(作家性)のひとつと見なされて話題にのぼることがあるが、そうした短歌における「構文」について定量的に分析した例はおそらくこれまでに存在しない。今回の「AのB」のようなかたちの表現の探索も、頻度をカウントしたいというよりも、むしろ自作の「構文」の癖を確認することができるかを探るための手がかりとしてやってみたものだった。

一般に係り受け解析の結果は構文木として解釈でき、ある文の「構文」は、ある語句から特定の語句を根とするパス(部分木)が存在するかのブール値として特徴量化できると考えられる。また、動詞に係る名詞を含む文節に注目し、動詞の格情報にもとづいて特徴量をつくるのもおもしろそうだと思う。