新米エンジニアが [Zennの記事タイトルがいいね数にどのくらい影響するのか] テキストマイニングで分析してみた
こんにちは。nitaです🌸
本日はタイトルにもあるように、Zennブログのタイトルがいいね数にどのように影響を与えているのかを簡単に分析してみました。
1.背景
現在、ソーシャルデータバンクではチームごとでテックブログを書いているのですが、チームでのテックブログ会議の際に、
- そもそも書くテーマが思いつかない
- いいね数がつく記事ってどんなものがあるのだろう
のような意見が出ました。
せっかくならたくさんの人に見てもらって いいね🩷 がほしい!!
そこで、私は今回自分のチームにおいて、”いい”テックブログを書くために、Zennの調査の担当となり記事を書くことになりました。
今回は、Zennの記事に皆さんがつけたタイトルを使ってテキストマイニング(すごく簡単)なものをしてみようと思った次第です。
学生時代に統計学を学んでいたので、RやPythonとかを使っていいね数の重み付けも考慮などして、自分なりに分析できたら良かったのですが、それは別の機会にします。(涙
テキストマイニングや共分散構造分析とかもやったらおもしそう!!
2.目的
タイトルといいね数にはどのような関係があるのか調べる
3.今回お世話になったツール
今回は ユーザーローカルAIテキストマイニングさんを使用させていただきました。
もっと早く出会いたかった!!
今回はワードクラウドを中心に分析しました。
ワードクラウドとは
スコアが高い単語を複数選び出し、その値に応じた大きさで図示します。 単語の色は品詞の種類で異なっています。
スコアとは
スコアは、その単語の「重要度」を表す値です。以下で、スコアがなぜ必要なのかと、その算出方法についてご紹介します。
一般的な文書では、単語の出現回数だけでいえば「今日」や「思う」「ある」などといった、”ごく一般的な単語”が何度も出現してしまいます。ただ、このような単語は、どういった文書にも出現する単語であるため、たとえ出現回数が多いとしても、意味が薄い、あまり重要ではない単語といえます。単純に回数だけをランキング化しても、一般的な語が混じってしまいその文章の特徴をつかむことができません。
この問題を解決するため、テキストマイニングでは、「一般的な文書でよく出る単語は、重要ではないため、重み付けを軽くする」、いっぽう「一般的な文書ではあまり出現しないけれど、調査対象の文書だけによく出現する単語は重視する」仕組みを取り入れています。
こういった特徴語を抽出するためのロジックとして、一般的にTF-IDF法という統計処理をします。
4.分析条件
- サンプルタイトル数:219(tech:182 idea:37)
- いいね数が50以上のものを抽出
※この時点で『idea』でいいね数が多いサンプルがかなり少ない。。 - 調査期間:2024/2/21~2024/2/27
※この期間以外ではいいね数に変動の可能性あり - 投稿期間:2023/10/28~2024/2/21
5.結果 -tech記事-
まず、スコア順に表示したものです。
青色:名詞 赤色:動詞 緑色:形容詞 灰色:感動詞を表す。
次に単語の頻出度で作成したものです。
スコア順で考慮されている一般的な文章で使われる「使う」という動詞が大きく表示されているようですね。
以下は、単語出現頻度を表にしたものです。
共起キーワード
文章中に出現する単語の出現パターンが似たものを線で結んだ図です。出現数が多い語ほど大きく、また共起の程度が強いほど太い線で描画されます。
『tech』記事からわかったこと
- 単語頻出度及び共起キーワードより、next.jsがタイトルにあるものが多そう
- js単独でも多そう
- 「使う」「作る」など実際に手を使う動詞が目立つ
- reactやtypescriptについては「始める」や「学ぶ」を含んだタイトルが多そう
6.結果 -idea記事-
そもそもサンプル数が少ないですが。。。
まずはスコア順
次に頻出度順
以下に、単語出現頻度を表にしたものを載せます。
『idea』記事からわかったこと
- 頻出度順でも名詞の方が多そう?→『idea』記事は意外と固有名詞がタイトルに入ることが多い
- エンジニアやフロントエンドなど立場を明確に表記している
- idea記事ということもあり、「書く」「読む」「考える」などの脳を使う動詞が目立つ
7.2つの結果より
- そもそも『idea』でいいね数を獲得するのは難しそう
- 具体的な固有名詞を出す方がいいね数が多い
- 具体的な動詞を出す方ががいいね数が多い
- 書き手の立場を明確に示すといいね数が多い
- next.js/react/typescriptをタイトルに入れるといいね数が多い(トレンド?)
- この調査によってわかったことではないかもしれないが、キャッチーなタイトル・少し尖っているタイトルはいいね数が多いような気がする
8.まとめ
いい結論が出たかどうかはわかりません。もっといいこと言いたかったです😭
でも私が調べた限り、Zenn公式サイトにてトレンドや最新の記事を見ることができますが、基本的なユーザの情報や閲覧数、平均いいね数などの数がわかる方法はありませんでした。
また並べ替えや、キーワード・tech/ideaなどの種類を絞って検索することもまだできなさそうです。
こんな原始的かつ簡単な方法になってしまったのですが、少しは皆さんのテックブログのテーマ・タイトル決めのお役に立てられたらと思います🍚
今度はいいね数の重み付けもしたいです...!
また、かなり結果が変わると思います。
このブログは結論を元にタイトルをつけました!!
出典
ユーザーローカルAIテキストマイニングによる分析
https://textmining.userlocal.jp/
Discussion