Open4
An analysis of the user occupational class through Twitter content
Twitter上の公開情報(プロフィール、ツイート内容)を利用して、
職業予測を行うための論文調査
元の論文
Abstract
- Twitter上に公開されたユーザのプロフィール情報から、職業クラス(?)を予測することを目的とする
- 投稿されたテキストコンテンツと関連する属性(おそらくフォロワー数だったりするもの)を分析
- 単語のクラスタリングと埋め込み(?)などの潜在的な特徴表現を持ちいた分類を行う
Introduction
-
仮説としては、ソーシャルメディアで使用する言葉(言語、単語、用語)は、ユーザの職業を示唆することができる
- 執行役員・取締役といった役職がついている場合は、ビジネスや金融についての情報を書くことか多いかもしれない
- 経営者はビジネスや財務に関する情報を頻繁に書くかもしれない
- 一方で、製造業に従事する人々は、個人的にな関心事について言及することが多く、仕事に関連する情報を書くことが少ない
- 職業階級の予測について書かれてる論文かも
-
公開されているユーザのプロフィール情報や過去のツイートから職業のラベルをつけたデータを作成し分類を行う
-
プロフィール情報・ツイートの単語クラスターが予測性能が高いことが判明した
Standard Occupational Classfication
-
標準職業分類(SOC)を利用
- 英国家統計局が開発した職業を分類するためのシステム
- 必要なスキルや業務内容に応じて階層的に分類される
-
メジャーグループ>サブメジャーグループ>マイナーグループ>ユニットグループで構成
- 369のユニットグループ
Data
-
無作為に選択した500人のユーザの情報を用いて、職業について明確に言及しているTwitterアカウントの割合を評価する
- 全体の1%は、過去に200回以上英語のツイートをしている
-
Twitterの検索APIを利用して、職業ごとにキーワードに最も合致する最大200アカウントを取得した
-
企業アカウント(?)、説明がないアカウントを手動で除去
- 50%のアカウントが手動で除去された
- ツイート履歴が50回以下のユーザも除去
-
SOCで分類した際に、分類されたユーザ数が45未満のカテゴリーを全て削除
- 特徴的な分類結果
- マネージャー/ディレクター: 184人
- 治療(医療?): 159人
- 品質・規制: 158人
- 繊維・衣料: 46人
- 特徴的な分類結果