Open1

Amazon SageMaker Ground Truth

marchanmarchan

SageMaker Ground Truth:高品質なラベルを維持する仕組み

要件

  • 分析会社は Amazon SageMaker Ground Truth を使用し、画像や動画に人間がラベルを付与。
  • しかし、一部の作業者が誤って不正確なラベルを付けてしまうことがある。
  • 会社としては、自動化された方法で高品質なラベルを継続的に取得したい。

正解(推奨機能)

  • 注釈インターフェイスのベストプラクティス(Annotation Interface Best Practices)

解説

  • SageMaker Ground Truth では、作業者が付けたラベルを自動的に検証・統合するための機能がある。
  • 特に「注釈インターフェイスのベストプラクティス」では、
    • 重複ラベリング(複数の作業者に同一タスクを割り当て)
    • 自動コンセンサス(多数決などで最も信頼性の高いラベルを採用)
    • 品質フィルタリング(低精度な作業者の除外)
      が自動的に行われる。
  • これにより、人為的な誤りを補正しつつ、高精度な教師データを継続的に生成できる。

他の選択肢が不適な理由

  • ラベルの検証と調整:人工的な再確認プロセスを指すが、自動化機構としては不十分。
  • ラベル付けタスクのバッチ:単にタスクの一括処理であり、品質維持には寄与しない。
  • ラベル付けジョブの連鎖(チェーン化):複数工程を順に行う仕組みで、品質担保とは別の目的。

試験ポイント(覚える語句)

用語 意味
Ground Truth SageMakerのデータラベリングサービス。人間+機械学習で効率化。
Annotation Consolidation 複数作業者のラベルを統合し、最も信頼度の高い結果を生成。
Active Learning 既存モデルが不確実なデータのみ人間が再ラベル化する仕組み。
注釈インターフェイスのベストプラクティス 自動検証とコンセンサス統合によるラベル品質向上。

まとめ

Ground Truth の 注釈インターフェイスのベストプラクティス を活用することで、
誤った人手ラベルを自動修正し、高品質な教師データを継続的に生成できる。