Open4

An analysis of the user occupational class through Twitter content

ところがどっこいところがどっこい

Twitter上の公開情報(プロフィール、ツイート内容)を利用して、
職業予測を行うための論文調査

元の論文

http://wwbp.org/papers/jobs15acl.pdf

Abstract

  • Twitter上に公開されたユーザのプロフィール情報から、職業クラス(?)を予測することを目的とする
  • 投稿されたテキストコンテンツと関連する属性(おそらくフォロワー数だったりするもの)を分析
  • 単語のクラスタリングと埋め込み(?)などの潜在的な特徴表現を持ちいた分類を行う
ところがどっこいところがどっこい

Introduction

  • 仮説としては、ソーシャルメディアで使用する言葉(言語、単語、用語)は、ユーザの職業を示唆することができる

    • 執行役員・取締役といった役職がついている場合は、ビジネスや金融についての情報を書くことか多いかもしれない
    • 経営者はビジネスや財務に関する情報を頻繁に書くかもしれない
    • 一方で、製造業に従事する人々は、個人的にな関心事について言及することが多く、仕事に関連する情報を書くことが少ない
      • 職業階級の予測について書かれてる論文かも
  • 公開されているユーザのプロフィール情報や過去のツイートから職業のラベルをつけたデータを作成し分類を行う

  • プロフィール情報・ツイートの単語クラスターが予測性能が高いことが判明した

ところがどっこいところがどっこい

Standard Occupational Classfication

  • 標準職業分類(SOC)を利用

    • 英国家統計局が開発した職業を分類するためのシステム
    • 必要なスキルや業務内容に応じて階層的に分類される
  • メジャーグループ>サブメジャーグループ>マイナーグループ>ユニットグループで構成

    • 369のユニットグループ
ところがどっこいところがどっこい

Data

  • 無作為に選択した500人のユーザの情報を用いて、職業について明確に言及しているTwitterアカウントの割合を評価する

    • 全体の1%は、過去に200回以上英語のツイートをしている
  • Twitterの検索APIを利用して、職業ごとにキーワードに最も合致する最大200アカウントを取得した

  • 企業アカウント(?)、説明がないアカウントを手動で除去

    • 50%のアカウントが手動で除去された
    • ツイート履歴が50回以下のユーザも除去
  • SOCで分類した際に、分類されたユーザ数が45未満のカテゴリーを全て削除

    • 特徴的な分類結果
      • マネージャー/ディレクター: 184人
      • 治療(医療?): 159人
      • 品質・規制: 158人
      • 繊維・衣料: 46人