🦩

社説のタイトルの言葉が強いのをMeCabで調べてみる

2023/01/01に公開

やりたいこと

新聞の社説では、タイトルに強い言葉が使われがちな気がします。例えば、下のように「急げ」「認められぬ」とか、「徹底せよ」「生かせ」「許すな」「万全尽くせ」「忘れるな」という感じです。

https://www.yomiuri.co.jp/editorial/20221230-OYT1T50165/
https://www.asahi.com/articles/DA3S15509791.html

これをカウントできないかと、MeCab(形態素解析)を使って調べてみようと思いました。

MeCabとは

文章の品詞とか活用とか調べてくれるソフトです。ここでは解説しませんので公式をご覧ください

調べ方

  • 対象はいわゆる五大新聞紙(読売、朝日、毎日、日経、産経)
  • Webサイトからタイトルを手動で取ってくる
  • 対象は2022年11,12月
  • Mecabは標準のインストール法で

コード

環境の問題なのか、mecab-pythonがうまく動かなかったので、pythonからコマンドライン上でmecabを動かしています。無理矢理感ありますが、動くからいいかと・・・。

全体のコードは割愛しますが、コアな部分だけ。

import subprocess

subprocess.check_output(r"mecab tmp_input.txt -o tmp_output.txt", shell=True)

with open("tmp_output.txt", "r") as f:
    for line in f.readlines():
        print(line)

これでtmp_input.txt

鉄鋼業の脱炭素 水素の活用へ技術革新を急げ

を保存して実行すると、tmp_output.txtには以下のような出力が得られます。最終行で、動詞「急ぐ」の命令形の「急げ」であると判定されていますね。

鉄鋼    名詞,一般,*,*,*,*,鉄鋼,テッコウ,テッコー
業      名詞,接尾,一般,*,*,*,業,ギョウ,ギョー
の      助詞,連体化,*,*,*,*,の,ノ,ノ
脱      接頭詞,名詞接続,*,*,*,*,脱,ダツ,ダツ
炭素    名詞,一般,*,*,*,*,炭素,タンソ,タンソ
       記号,空白,*,*,*,*, , , 
水素    名詞,一般,*,*,*,*,水素,スイソ,スイソ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
活用    名詞,サ変接続,*,*,*,*,活用,カツヨウ,カツヨー
へ      助詞,格助詞,一般,*,*,*,へ,ヘ,エ
技術    名詞,一般,*,*,*,*,技術,ギジュツ,ギジュツ
革新    名詞,サ変接続,*,*,*,*,革新,カクシン,カクシン
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
急げ    動詞,自立,*,*,五段・ガ行,命令e,急ぐ,イソゲ,イソゲ

(※以降はMecabの出力は文末だけ取り出します)

株式市場の魅力高め投資呼び込めだと、

呼び込め        動詞,自立,*,*,一段,連用形,呼び込める,ヨビコメ,ヨビコメ

となっていて、連用形ですが、命令的な調子になっています。他にも「議論を尽くせ」などのパターンがあります。

スポーツ不祥事 本来の姿を忘れるなでは、

忘れる  動詞,自立,*,*,一段,基本形,忘れる,ワスレル,ワスレル
な      助詞,終助詞,*,*,*,*,な,ナ,ナ

終助詞「な」を使うことで強い言葉になっているようです。

ここでの「強い言葉」

上記と合わせて、タイトルの末尾が「命令形」「連用形」「終助詞な」「終助詞よ」「助動詞ぬ」と判定されるものを、「強い言葉」として抽出することにしました。

結果

  • 対象は2022年11、12月の社説のタイトルのみです
  • 割合の順としては、産経、日経、朝日、読売、毎日でした
  • 毎日新聞が顕著に少ないです。毎日でカウントされた強い言葉5つは全て「助動詞ぬ」でした。そういうルール運用になっているものと思われます
新聞名 読売 朝日 毎日 日経 産経
合計 117 102 114 108 115
強い言葉 33 29 5 35 43
強い言葉率(%) 28.2 28.4 4.4 32.4 37.4

まとめ

  • 新聞の社説の末尾が強い口調のものを調べました
  • 手動でもできそうなことを敢えてPythonでやってみました(オチ)

Discussion