Amazon Mechanical Turk (mTurk) の始め方と3つの大きな落とし穴
Amazon Mechanical Turk (mTurk) はAmazonが提供するクラウドソーシングサービスで,クラウドソーシングを用いたデータアノテーションの領域で主流となっているプラットフォームである.
mTurkでは,Workerといわれるインターネット上のユーザに報酬を支払うことで,HITs (Human Intelligence Tasks) といわれる問題を解いてもらうことができるサービスである.ここで,問題の出題者をRequesterと呼ぶ.
本記事では,(備忘録もかねて,)RequesterとしてmTurkを新たに利用する場合のアカウント作成方法や注意すべき落とし穴について解説する.
本記事は2024年7月時点の情報であることに留意されたい.
アカウント作成
mTurkのサービスはAWSに統合されており,AWSのアカウントがあれば利用可能である.請求についてもs3やEC2のようなAWSサービスと同じように請求される.
そのため,すでにAWSを利用していればすぐにmTurkを始めることができる.しかし,利用にあたっては3つの大きな落とし穴があるので注意したい.
3つの大きな落とし穴
- Web UIはルートユーザでなければ利用できない
- 実際にHITsを発注するにはアカウント審査が必要
- ボットや低品質なワーカが多く,最低限の品質管理テクニックを知る必要がある
①Web UIはルートユーザでなければ利用できない
mTurkの魅力の一つは,画像のような「Web UI」が充実していることだ,これを利用すると,実際のWorkerが取り組むHITs画面を再現しながらHITsを設計できる.
しかし「Web UI」はAWSのルートユーザしか利用できない.ルートユーザならば,以下のURLより「Sign in as requester」を押すとWeb UIを利用できる.
組織等においてはルートユーザは基本的に利用すべきではない.AWSではIAMを利用して最小権限のアカウントを利用するのが鉄則である.mTurkでもIAMユーザは利用できるが,IAMユーザは mTurk API しか利用できず,Web UIを利用できないので注意しよう.また,ルートユーザは2024年以降,二要素認証が必須化される予定で,これによりWeb UIの組織での使用がさらに難しくなりそうだ.
過去にはAWSアカウントのルートユーザではなく,AWSアカウントに紐づいたAmazon.comアカウントでもログインできた.これにより,ルートユーザのID/PWを使わずにWeb UIを利用することもできたのだが,新規作成されるmTurkアカウントには既にAmazon.comアカウントを紐付けられなくなっているのでこの手はもう使えない.
本当に不便なので一刻も早くIAMでWeb UI使わせてください,マジで.
本件に関する情報は以下のフォーラム投稿にも詳しい:
②実際にHITsを発注するにはアカウント審査が必要
mTurkではアカウントごとに「月にいくらまでHITsを発注できるか」というmonthly credit limitが設定されている(ユーザはこの金額を知ることができない).ただおそらくは,新規アカウントのCredit Limitは $0/monthに設定されている=Limitを上げてもらわないとHITsを発注できない.
はじめてmTurkを使う場合は,このように表示されHITsを発注できない.以下のフォームからLimitを上げてもらうように申告する必要がある.
自分の経験だと,$500/monthに上限を上げてもらえるように申告したところ,ある事例だと3日,別の事例では2週間で認可された. 申告の際には利用目的や組織の情報について明確に記述したほうが良いだろう.
本件に関する情報は以下のフォーラム投稿にも詳しい:
フォーラムを読む限り,昔は$1,000/monthがデフォルトだったようだが,いろいろ調べてみると最近は$0/monthがデフォルトになってしまったようだ.
③ボットや低品質なワーカが多く,最低限の品質管理テクニックを知る必要がある
この点に関しての解決策は,基本的には各種書籍や論文,ブログ等を読んでいただきたい.想像以上に信用ならないので注意しよう.
特に注意すべきはバウンディングボックスタスクなどmultiple classificationではないHITsを行う場合だ.このようなタスクはバウンディングボックスを書かなくてもHITを「完了」できる.そのため,何もボックスを書かずにHITに回答してくるワーカが多い.mTurkではワーカの回答をApprove/Rejectでき,Approveしない限りは費用は掛からない.そのため,低品質な回答はApproveすべきではないが,事前にHITsのインストラクションに「どのような条件でApproveするのか」を書いていない場合にRejectを行うと,倫理的に問題が生じるので気を付けよう.
終わりに
まとめると,mTurkを利用してデータアノテーションを行うには入念な準備が不可欠である.一方で,大量のデータを高速にアノテーションすることはクラウドソーシングにしかできないことである.特に我が国は労働者保護の性格が強い労働基準法を有しており,アノテーションのための人材を臨機応変に採用することが難しい.そのような面でクラウドソーシングの優位性は他国よりも高い・・・気がする.本記事がそのような際に役に立てば幸いである.
Discussion