📗

感想: Human-in-the-Loop 機械学習 -人間参加型AIのための能動学習とアノテーション-

2024/01/05に公開

共立出版様よりご恵贈いただきました。高品質なデータセットがあれば比較的単純なアルゴリズムでも十分な結果が出せるのは産業界でよく知られているにもかかわらず、既存の書籍や授業はデータセット作成ではなくアルゴリズムに焦点を当てています。本書は機械学習研究と災害対応をバックグラウンドに持つ著者がデータセット作成プロセスに焦点を当てており、Human-in-the-Loop機械学習、能動学習、アノテーションについて様々なドメインの機械学習応用事例を交えて解説しています。

https://www.kyoritsu-pub.co.jp/book/b10039888.html

目次

  • 【第I部 概要】
    • 第1章 Human-in-the-Loop機械学習の概要
    • 第2章 Human-in-the-Loop機械学習を始める
  • 【第II部 能動学習】
    • 第3章 不確実性サンプリング
    • 第4章 多様性サンプリング
    • 第5章 高度な能動学習
    • 第6章 能動学習をさまざまな機械学習タスクに適用する
  • 【第III部 アノテーション】
    • 第7章 アノテーターとの協働
    • 第8章 アノテーションの品質管理
    • 第9章 高度なアノテーションとデータ拡張
    • 第10章 さまざまな機械学習タスクにおけるアノテーション品質
  • 【第IV部 機械学習のためのヒューマン-コンピュータインタラクション】
    • 第11章 データアノテーションのためのインターフェース
    • 第12章 Human-in-the-Loop機械学習を組み込んだアプリケーション
  • 付録A 機械学習のおさらい

能動学習について

私は能動学習に元々興味があり、その簡単なアルゴリズムには馴染みがありました。地中水道管のリプレースが必要かどうかを予測するタスクで採掘コスト削減のため能動学習を使ったという学会発表 [1] が記憶に残っていて、アノテーションコスト削減に留まらない経済的なインパクトを産み出せる技術だと感じていたので本書で高度なアルゴリズムと実践アプローチの進歩がキャッチアップできてわくわくしました。

4章の多様性サンプリングで面白かったのはモデルが知らない領域のサンプルを特定する方法でニューラルネットの出力層の手前の隠れ層の出力を利用する方式です。モデルが知らないことを予測させる手続きは能動学習以外にも応用が効きそうです(NNに依存しない方法も紹介されている)。5章では実際にどう使えば良いのかの答えとして不確実性サンプリングと多様性サンプリングの組みあわせパターンの実装を含めた詳解があります。

アノテーターとの協働

本書の大きな特徴はアノテーターとの協働に多くのページを割いている所でしょう。私はアノテーション要員を確保したものの彼らのモチベーション維持が難しく期待通りのアウトプットが得られなかったプロジェクトやアノテーション用の画面をどこまで作り込めば良いか悩んだ経験があったので、本書があれば助けになっただろうなというのが最初の感想です。

7章はアノテーションチームのチームビルディングに関するトピックが主です。アノテーターを社内ワーカー・アウトソーシングワーカー・クラウドワーカーに分類しそれぞれに適したコミュニケーションの方法や報酬設計といったピープルマネジメントについて解説があります。これらの業務は普段から組織開発をメインに行なっている人よりも機械学習エンジニアが成り行きで担当する事も多いです。これからアノテーションチームを組織したり既にアノテーターが稼動している場合に参考になるでしょう。必要なアノテーション量の見積りにも触れていたのが良かったです。

8章はアノテーションの品質管理。アノテーター間の回答一致度の計算結果の利用例として以下のタスクが列挙されており、そんな事ができるのかと関心しました。

  • データセットの信頼性計算
  • 最も信頼できないアノテーターの特定
  • 最も信頼できるアノテーターの特定
  • アノテーター間の共同作業の特定
  • アノテーター間の一貫性の評価
  • ガイドラインの改善
  • 機械学習の問題の本質的な難しさの評価
  • データセットの精度の測定
  • 発生しうる多様性の測定
  • 困難なタスクへの専門家の割り当て

ボトルネックになりがちな専門家チェックの要不要判断をシステム化したいニーズはどの現場にもあるでしょう。データセット単位の一致度を定量的に示す指標があるとは知らなかったので クリッペンドルフのα は勉強になりました。9章の機械学習を利用してアノテーションの誤りを予測したりアノテーターの入力補助を行なうのは機械学習による業務効率化という視点でも参考になりました。

11章はプライミング効果をはじめとする様々なバイアスへの対処方法が印象に残りました。

雑記

著者のバックグラウンドが災害対応とありましたが、私がアノテーターとの協働をはじめて経験したのも災害情報プラットフォームの開発でした。2011年の東日本大震災の4時間後に開設されたsinsai.infoという震災に関連する情報を集約するサイトです(現在は閉鎖済み)。当時の私はWebフロントエンドの開発者だったので、投稿された情報をモデレーターがチェックして公開可否の決定や位置情報などの属性を付与する画面の操作性改善にコミットしていた記憶があります。それも改めて今ならどうやるかと考える良い機会にもなりました。

欲を言えば医学的診断タスクのアノテーションについても扱いがあれば私は嬉しかったですが、ありませんでした。

脚注
  1. Abernethy, Jacob, et al. "Activeremediation: The search for lead pipes in flint, michigan." Proceedings of the 24th ACM SIGKDD international conference on Knowledge Discovery & Data Mining. 2018. ↩︎

Discussion