👌

ツイッターで話題の抹茶スイーツを探す

2023/03/26に公開

はじめに

ふと抹茶を使ったスイーツが食べたいと思ったのですが、いろいろ種類があるので、何がいいのか迷います。そこで、Twitterで話題になっている抹茶スイーツを探してみました。ツイートの収集にはTwitter APIを使いました。Twitter APIは今後どうなるのか不透明な状況ですが、今のところ以前と変わらず使えています。

対象のデータ

Twitter APIで、2023年3月12日から3月21日にかけての「スイーツ」かつ「抹茶」を含むツイートを収集しました。なお、リツイート、クオート、リプライは対象外としています。さらに、重複するテキストのツイートと、20以上ツイートしているアカウントのツイートを除外しています。宣伝やプロモーションと思われるツイートを対象外としたかったからです。下図の通りほとんどのアカウントが1回のみのツイートですが、最大で35回ツイートしているアカウントがありました。また、ハッシュタグ「ad」「paidpartnership」「sponsored」を含むツイートも除外しています(Twitter、案件ツイートには#ad などの明示を義務付け)。最終的に、1205件のツイートを対象としました。


アカウント別ツイートのヒストグラム(グラフだと見えづらいが最大数は35)

さらに、テキストの正規化とURLの削除をしています。正規化にはPythonモジュールのneologdnを使用しました。

方法

対象のツイートから、KH Coderを使って抹茶スイーツを探しました。KH Coderは、計量テキスト分析またはテキストマイニングのためのフリーソフトウェアです。KH Coderで抽出された語を確認し、共起ネットワークを作成して、話題となっている抹茶スイーツを探してみました。

KH Coderでは日本語形態素解析器としてMeCabとChaSenが選択できますが、今回はMeCabを使い、辞書はデフォルトのIPAdicではなくmecab-ipadic-NEologdを使用しています。

KH Coderで語を抽出する際には、「スイーツ」「抹茶」という語を対象から除外しました。この2つの語は対象のすべてのツイートに含まれるので、特徴的な語にならないためです。

結果

抽出語リスト

ツイートを形態素解析して抽出された語の頻度上位語です。「桜」「いちご」など春らしい語があります。

共起ネットワーク

共起ネットワークを作成し、文単位で同時に出現している語の関係を可視化してみました。KH Coderでは、共起ネットワークを作成すると、語どうしの関連度をもとにグループ化して色分けしてくれます。今回は紫と黄色のグループに注目してみます。紫のグループでは、「チョコレート」「トリュフ」「苺」が布置されています。これらの語が含まれる元のテキストを確認してみると、伊藤久右衛門という抹茶専門店の「宇治抹茶 苺とりゅふ お茶苺(ちゃめ)さん」という商品のことでした。黄色のグループは「カステラ」「ホイップ」からなるグループです。セブンイレブンの「宇治抹茶カステラ&さくらホイップ」という商品に言及しているツイートです。

まとめ

共起ネットワークから、ツイッターで話題の抹茶スイーツとして伊藤久右衛門の「宇治抹茶 苺とりゅふ お茶苺(ちゃめ)さん」と、セブンイレブンの「宇治抹茶カステラ&さくらホイップ」を見つけることができました。「宇治抹茶 苺とりゅふ お茶苺(ちゃめ)さん」は、イチゴを抹茶ホワイトチョコレートでコーディングしたスイーツです。六花亭のストロベリーチョコが好きな身としては、気にならざるを得ません。もうひとつの「宇治抹茶カステラ&さくらホイップ」は、抹茶カステラの中にさくら風味のホイップが入ったスイーツです。近所のセブンイレブンへ行ったときにチェックしてみたいと思います。

Discussion