🦩
社説のタイトルの言葉が強いのをMeCabで調べてみる
やりたいこと
新聞の社説では、タイトルに強い言葉が使われがちな気がします。例えば、下のように「急げ」「認められぬ」とか、「徹底せよ」「生かせ」「許すな」「万全尽くせ」「忘れるな」という感じです。
これをカウントできないかと、MeCab(形態素解析)を使って調べてみようと思いました。
MeCabとは
文章の品詞とか活用とか調べてくれるソフトです。ここでは解説しませんので公式をご覧ください。
調べ方
- 対象はいわゆる五大新聞紙(読売、朝日、毎日、日経、産経)
- Webサイトからタイトルを手動で取ってくる
- 対象は2022年11,12月
- Mecabは標準のインストール法で
コード
環境の問題なのか、mecab-pythonがうまく動かなかったので、pythonからコマンドライン上でmecabを動かしています。無理矢理感ありますが、動くからいいかと・・・。
全体のコードは割愛しますが、コアな部分だけ。
import subprocess
subprocess.check_output(r"mecab tmp_input.txt -o tmp_output.txt", shell=True)
with open("tmp_output.txt", "r") as f:
for line in f.readlines():
print(line)
これでtmp_input.txt
に
鉄鋼業の脱炭素 水素の活用へ技術革新を急げ
を保存して実行すると、tmp_output.txtには以下のような出力が得られます。最終行で、動詞「急ぐ」の命令形の「急げ」であると判定されていますね。
鉄鋼 名詞,一般,*,*,*,*,鉄鋼,テッコウ,テッコー
業 名詞,接尾,一般,*,*,*,業,ギョウ,ギョー
の 助詞,連体化,*,*,*,*,の,ノ,ノ
脱 接頭詞,名詞接続,*,*,*,*,脱,ダツ,ダツ
炭素 名詞,一般,*,*,*,*,炭素,タンソ,タンソ
記号,空白,*,*,*,*, , ,
水素 名詞,一般,*,*,*,*,水素,スイソ,スイソ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
活用 名詞,サ変接続,*,*,*,*,活用,カツヨウ,カツヨー
へ 助詞,格助詞,一般,*,*,*,へ,ヘ,エ
技術 名詞,一般,*,*,*,*,技術,ギジュツ,ギジュツ
革新 名詞,サ変接続,*,*,*,*,革新,カクシン,カクシン
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
急げ 動詞,自立,*,*,五段・ガ行,命令e,急ぐ,イソゲ,イソゲ
(※以降はMecabの出力は文末だけ取り出します)
呼び込め 動詞,自立,*,*,一段,連用形,呼び込める,ヨビコメ,ヨビコメ
となっていて、連用形ですが、命令的な調子になっています。他にも「議論を尽くせ」などのパターンがあります。
忘れる 動詞,自立,*,*,一段,基本形,忘れる,ワスレル,ワスレル
な 助詞,終助詞,*,*,*,*,な,ナ,ナ
終助詞「な」を使うことで強い言葉になっているようです。
ここでの「強い言葉」
上記と合わせて、タイトルの末尾が「命令形」「連用形」「終助詞な」「終助詞よ」「助動詞ぬ」と判定されるものを、「強い言葉」として抽出することにしました。
結果
- 対象は2022年11、12月の社説のタイトルのみです
- 割合の順としては、産経、日経、朝日、読売、毎日でした
- 毎日新聞が顕著に少ないです。毎日でカウントされた強い言葉5つは全て「助動詞ぬ」でした。そういうルール運用になっているものと思われます
新聞名 | 読売 | 朝日 | 毎日 | 日経 | 産経 |
---|---|---|---|---|---|
合計 | 117 | 102 | 114 | 108 | 115 |
強い言葉 | 33 | 29 | 5 | 35 | 43 |
強い言葉率(%) | 28.2 | 28.4 | 4.4 | 32.4 | 37.4 |
まとめ
- 新聞の社説の末尾が強い口調のものを調べました
- 手動でもできそうなことを敢えてPythonでやってみました(オチ)
Discussion