Data-Centric AI勉強会(第1~11回)振り返り
はじめに
こんにちは、@kzykmyzwです。私は、2023年6月に@x_ttyszkと共にData-Centric AI(DCAI)に関する情報を共有するためのコミュニティを立ち上げ、これまで1年半にわたって11回の定期的な勉強会を開催してきました。延べ発表者数は31人、延べ参加者数は2,121人を数え、コミュニティのメンバー数も1,200人を超えています。ご発表、ご参加いただいている皆様本当にありがとうございます。
この記事では、第1回から第11回までを振り返り、各回から1件の発表をピックアップして概要とDCAI観点でのポイントをまとめていきます。私の怠慢紙面の都合(?)により全件紹介できず誠に申し訳ありません。ピックアップした発表のまとめもごく簡単なものとなっておりますので、ご興味持たれた方はぜひ発表資料やアーカイブ動画を参照いただければと思います。なお、以下で概要紹介に使っている画像は、発表資料またはアーカイブ動画をキャプチャしたものです。また、発表者の方々の所属は発表当時のものであり現在とは異なる可能性があります。
第1回勉強会
発表者 | タイトル | 動画 |
---|---|---|
Citadel AI 杉山 阿聖 |
AIの標準化や法規制に関する動向 | ▶️ |
GO 鈴木 達哉 |
Data-Centric AIのためのベンチマーク | ▶️ |
LayerX 松村 優也 |
バクラクのAI-OCR機能の体験を支えるデータセット作成の仕組み | ▶️ |
GO 森本 淳司 |
LT: AIドラレコを支える一貫性のあるデータの作り方 | ▶️ |
ふうたシステムサービス 岡田 年旦 |
LT: 機械学習モデル性能向上への学習データからのアプローチ | ▶️ |
FastLabel 鈴木 健史 |
LT: Data-Centric AI開発におけるデータ生成の取り組み | ▶️ |
ピックアップ「バクラクのAI-OCR機能の体験を支えるデータセット作成の仕組み」
発表概要
- 請求書を自動でデータ化する「バクラク請求書」のためにOCRを開発
- 認識した文字列が請求書のどの項目に相当するのかを推定する項目推定処理をルールベースから機械学習ベースに置き換え
- 機械学習モデルの開発にあたり、良質な学習データセットをいかにして構築しているか
DCAI観点でのポイント
-
アノテーション対象の選定
- 現在のOCRが読み取れていない書類を優先してアノテーション対象とする
- 顧客やセールスからのフィードバック、チームの朝会での目視確認などにより優先度を決定
-
アノテーションツールの内製
- 複数のモデルの予測結果や顧客が採用した値を使った入力補完などにより手入力を徹底的に削減
- 殴り書きの手書き文字や印刷がかすれていて文字認識がうまくいかない場合に修正する程度
-
アノテーションルールの整備
- 書類種別や読み取り項目ごとに、様々なケースにおけるルールを明文化してNotionに集約
- Slackや定例会議を通してアノテーションチームと開発チームが密に連携
- 必要に応じて、経理業務などに精通した社内のドメインエキスパートに相談可能
-
アノテーションチームの組成
- 正社員ではないとしても一緒にプロダクトを良くする仲間
- アノテーションの必要性や成果を伝え、打ち上げや懇親会なども開発チームと一緒に行う
第2回勉強会
発表者 | タイトル | 動画 |
---|---|---|
Woven by Toyota 谷内出 悠介 |
データライフサイクルの仕組みとデータ品質向上の取り組みの紹介 | 非公開 |
CADDi 今井 武晃 |
[CADDi DRAWER] 仕組みで品質を作る図面解析 | ▶️ |
Sansan 猿田 貴之 |
SansanにおけるData-Centricな取り組み | ▶️ |
ピックアップ「[CADDi DRAWER] 仕組みで品質を作る図面解析」
発表概要
- 製造業における「図面」を管理・活用するサービスであるCADDi DRAWERで使われる図面解析モデルのために高品質なデータを作成
- データのQCD確保や、運用時モニタリングによる適切なフィードバックのための仕組みをモデル開発のライフサイクルの中に構築
DCAI観点でのポイント
-
データの品質
- アノテーションルールを詳細に文書化すると共に、品質評価用のタスクを用意して、そのタスクにおける品質基準に合格するようにアノテータのオンボーディングを行う
- アノテーション結果はリーダーがダブルチェックし、さらにマネージャーが最終抜き取りチェックを行なって最終的な品質責任を負う(最終チェックの合格率99.5%をSLOとして設定)
-
データのコスト
- オペレーション部隊が繁閑差を利用して通常オペレーションとアノテーションの両方を担う
- アノテーションに関する質問はSlackで解決した上で文書化し、同じ質問の繰り返しを回避
-
データの納期
- オペレーションとの兼務のほか、アノテーション専属の工数も一定量確保
- アノテーション量の計画と実績の差を常にモニタリングし、遅延があればリソースを調整
-
データのモニタリング
- 運用段階で収集されたデータをアノテーションに回し、モデルの精度を測定
- CSがモデルの誤りを報告するとそのまま要アノテーション案件として登録されるツールを内製
第3回勉強会
発表者 | タイトル | 動画 |
---|---|---|
Turing 岩政 公平 |
大規模走行データを効率的に活用する検索システムの開発 | ▶️ |
NABLAS 冨山 吉孝 |
強い生成 AI 検知システムを実現する、Data-Centric なデータセット管理 | ▶️ |
サントリー 高木 基成 |
画像管理システムにおけるConfident LearningおよびCitadel Lensの活用事例 | ▶️ |
ピックアップ「画像管理システムにおけるConfident LearningおよびCitadel Lensの活用事例」
発表概要
- サントリーの製品画像検索システムにおいて、マルチラベル分類モデルを使うことで画像登録時の自動タグ付けを実現
- Citadel LensやCleanlabを使ったConfident Learning[1]により学習データセットにおけるラベル誤りを発見して修正することでモデル性能を改善
DCAI観点でのポイント
-
データセットにおける課題の発見
- ツールを使った再現性のあるアプローチにより、データを可視化し課題を発見
- 分類タスクにおけるラベルの誤りであればConfident Learningが効果的
-
データセットにおける課題の解消
- 発見した課題(ラベルの誤り)を解消することでモデルの性能を改善
- Confident Learningを使えば、どのデータにおけるどのラベルが誤っているかまで特定できる
製品画像のマルチラベル分類データセットにおいて、ラベルの誤りを修正することでf1-scoreが0.72から0.76に改善 - そのほか、タスクによってはf1-scoreが0.6から0.8まで改善
- ハイパーパラメータ探索や様々なモデルを試すよりも有意義
第4回勉強会 ~コンペLT大会~
発表者 | タイトル | 動画 |
---|---|---|
Wantedly 合田 周平 |
Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み | ▶️ |
someya | LLM Science Examにおけるデータ戦略まとめ | ▶️ |
Turing 井ノ上 雄一 |
Data-centric視点で過去コンペを振り返る | ▶️ |
ゆめねこ | Benetechコンペ エラー分析によるデータ追加とアノテーションの工夫について | ▶️ |
ピックアップ「Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み」
発表概要
- 英語で書かれた小論文の品質を予測するKaggleのコンペFeedback Prize – English Language Learning(FB3)におけるData-centricなアプローチ
- 類似のタスクで過去に2回開催されているシリーズものであり、過去コンペ(FB1、FB2)のデータも利用可能
DCAI観点でのポイント
-
データ量の増加
- 過去コンペ(FB1)のデータを追加することで学習データセットの量を増加
- FB1のデータにはFB3とは異なるラベルが付与されているため、FB3のみで学習したモデルで推論することで擬似ラベルを付与
-
データ品質の改善
- FB1の中にはFB3とは異なる傾向を持つデータが存在する可能性があるため、与えられたデータがFB3に属するかどうかを分類するモデルを作り、FB1のデータの中でFB3に属する可能性が高いと判断されたデータだけを追加(Adversarial Validation)
- モデルの学習と擬似ラベルの付与を反復することで擬似ラベルの品質を改善
- 1st model ← FB3データだけで学習
- 2nd model ← FB3データ + FB1データ(1st モデルによる擬似ラベル)
- 3rd model ← FB3データ + FB1データ(2nd モデルによる擬似ラベル)
- 擬似ラベルを繰り返し更新することは他コンペでも効果あり(繰り返しは2回程度)
第5回勉強会
発表者 | タイトル | 動画 |
---|---|---|
Wantedly 合田 周平 |
会社訪問アプリ「Wantedly Visit」でのシゴトに関する興味収集と推薦活用 | ▶️ |
Cyber Agent 兵頭 亮哉 |
公開データセットの再アノテーションで精度向上 | ▶️ |
ピックアップ「公開データセットの再アノテーションで精度向上」
発表概要
- 画像からの人・頭・手同時検出において、公開データセットで学習したモデルの精度が不十分なため、公開データセット(約4,000枚)に再アノテーションを実施
- 厳格な基準のもとに独力でアノテーションを行うことで極めて一貫性の高いデータセットを構築し、実際にモデルの精度を大きく改善
DCAI観点でのポイント
-
モデルの学び方に対する仮説
- モデルは人間と違って忖度を一切せず愚直に学ぶ
- 間違った答えをそのまま正解として学び、嘘を教えると混乱する
-
アノテーション方針
- エッジケースの判断基準を統一
- マージンの取り方の基準を統一
- 国籍や文化のようなコンテクストを理解していないと判断できないオブジェクトは除外
- モデルの性能を思い込みで過小評価しない(距離、明暗、ノイズ)
- 1ミリも妥協しない
-
データセットの品質改善の効果
- mAPが22.4%から41.7%に大幅に向上(検証データも改善されているためその効果も含む)
- データセットの品質を限界まで高めればモデルの真のポテンシャルを引き出せる
- レガシーなモデルでも十分な精度が出るため、複雑なSoTAモデルを無理に使う必要がなくなる
第6回勉強会
発表者 | タイトル | 動画 |
---|---|---|
LINEヤフー 横尾 修平 |
大規模画像テキストペアデータのフィルタリング手法の紹介 | ▶️ |
東工大 服部 翔 |
東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築 | ▶️ |
ピックアップ「大規模画像テキストペアデータのフィルタリング手法の紹介」
発表概要
- 大規模画像テキストデータ(画像とテキストのペア)はCLIPの成功を契機としてWebから大量に収集することが主流となったが、Web上のデータには品質上の課題が多い
- 大規模なデータセットの中から高品質なデータだけをフィルタリングする手法の開発のため、データセットの質を評価するベンチマークとしてDataCompが提案されている
DCAI観点でのポイント
-
DataComp
- LAION-5Bで有名なLAIONが提供するData-Centric AIに特化したベンチマーク
- WebアーカイブのCommon Crawlから作られたCommonPoolと呼ばれる超大規模な画像-テキストペアデータセットからCLIPの学習に有用なサンプルを選ぶフィルタリング手法を競う
- 選ばれたサンプルで学習したCLIPで38個のダウンストリームタスクを解き、平均精度で評価
-
CLIPスコアによるフィルタリング
- CLIPで画像とテキスト双方のembeddingを抽出し、それらのコサイン類似度をスコアとする
- CLIPスコアが大きい画像-テキストペアほど画像とテキストがよく合致しており高品質と言える
- シンプルながら強力なフィルタリング手法であり、CLIPスコア(と他手法の組み合わせ)を使って作られた14億ペアのDataComp-1Bは、23億ペアのLAION-2BよりもCLIPの学習における効果が高い(量よりも質の重要性を示唆)
-
DataCompの課題
- 評価に使われるダウンストリームタスクが分類タスクに偏っている
- 評価用タスクの難易度によらず、各タスクの結果の単純平均を最終的な評価結果としている
第7回勉強会
発表者 | タイトル | 動画 |
---|---|---|
Woven by Toyota 孔 全 |
Pedestrian-Centric大規模交通安全映像解析向けWoven Traffic Safety (WTS) データセットの紹介 | ▶️ |
LINEヤフー 古川 新 |
データ品質をコード化!LINEヤフーのMLOpsを最適化する "ACP Data Quality" の紹介 | ▶️ |
ピックアップ「データ品質をコード化!LINEヤフーのMLOpsを最適化する "ACP Data Quality" の紹介」
発表概要
- AIに特化した独自のK8s環境であるACP(AI Cloud Platform)において、ACP Data Qualityと呼ばれるデータ品質管理システムを提供
- 中核機能であるデータ品質モデル言語DQML(Data Quality Model Language)は、データ品質に対する要件をコードで記述することを可能にし、データ品質の管理プロセスの体系化を実現
DCAI観点でのポイント
-
Data Quality as Code
- データの品質要件をコードで記述することで、従来の文書による記述などに比べて認識齟齬が起きにくくなり、また、GitHubでのバージョン管理やレビューなども可能になる
- コード化された品質要件はCI/CDでACPにデプロイされ、それ以降、定期的にデータの品質が評価され異常があればアラートが通知される
- 品質要件の見直しはコードの修正だけで済むため、運用時のフィードバックを受けながら品質要件を磨き込んでいくことができる
-
データサイエンティストの負荷低減
- データの品質要件はデータを使う側であるデータサイエンティストが定義すべきだが、要件の文書化や実際に品質を測定するためのコードを書くことは大きな負荷となる
- DQMLの利用により、データサイエンティストはコードを記述するだけでデータの品質要件を定義することができ、実際にそのコードがどのように実行されるかを気にする必要もない
-
データの品質管理に関するコストの低減
- データの品質管理プロセスが統一的なプラットフォームの上で提供されるため、品質管理のための新たなシステムの構築や、他プロジェクトとの整合性確保のための開発が不要
第8回勉強会 ~Human-in-the-Loop機械学習特別回~
発表者 | タイトル | 動画 |
---|---|---|
メルカリ 上田 隼也 |
20 分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄 | ▶️ |
筑波大学 伊藤 寛祥 |
能動学習のいろは:書籍「Human-in-the-Loop機械学習」3〜5章 | ▶️ |
Axcreator 角野 為耶 |
シンプルなHITL機械学習と、様々なタスクにおけるHITL機械学習 | ▶️ |
ピックアップ「20 分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄」
発表概要
- 洋書“Human-in-the-Loop Machine Learning: Active learning and annotation for human-centered AI”の邦訳である"Human-in-the-Loop機械学習"を執筆
- Human-in-the-Loop機械学習とは、機械学習モデルと人間が相互補完しながら動作するシステムであり、書籍では能動学習、アノテーション、HCIなどをテーマに解説
- アノテーション組織をいかに作り上げるかについても多くの頁を割いている
DCAI観点でのポイント
-
アノテーション組織のマネジメント
- 3種類のワーカー(クラウドワーカー、アウトソーシングワーカー、社内ワーカー)の特性を理解し、マネジメントする
- 高品質なアノテーションを実現するための三原則は 報酬 雇用保障 自己効力感
- アノテーションアワー(アノテーションに困ったエッジケースなどを皆で共有し議論する時間)などをつくり文化を醸造
-
アノテーションの品質管理
- アノテーション結果を評価するための真値を作成し、両者を比較する
- アノテータ間の一致度を計算することで、データセットの信頼性やアノテータごとの信頼性、アノテーションガイドラインの改善点などを知ることができる
-
アノテーションのためのHCIの基本原理
- アフォーダンス:アノテータの直観どおりに動作する
- フィードバック:アノテータからのアクションに対し、それを受け付けたことを知らせる
- 自己効力感:アノテータが自分の力を発揮し、モデルの開発に貢献できていると感じられる
第9回勉強会
発表者 | タイトル | 動画 |
---|---|---|
CADDi 上辻 慶典 |
アノテーションにおける UI の工夫 | ▶️ |
LINEヤフー 小川 健太郎 |
CLIPスコアを用いたワーカー評価 | 非公開 |
ピックアップ「アノテーションにおける UI の工夫」
発表概要
- 図面解析を行う機械学習モデルのためのアノテーションツールのUIを改善
- 図面中のテキスト領域を囲むバウンディングボックス(BBox)の作成と、その中に書かれたテキストの入力についてUI改善のための機能を実装し、それらがアノテータの作業時間に与える効果を検証
DCAI観点でのポイント
-
BBox作成の効率化
- BBoxを自動的にテキスト領域にフィットさせる自動スナップ機能を追加
- テキスト付近を適当に囲むだけで正確なBBoxが得られる(スナップ失敗時には無効化も可能)
-
OCRによるテキストの入力補助
- BBox内のテキストをOCRで読み取り、自動的に入力する機能を追加
- アノテータはOCRが間違えたテキストだけを修正する
- OCRが間違えるテキストは人間も間違いやすいため、フォントや色を工夫し視認性を改善
-
効果の検証
- UIを改善したグループとそうでないグループでそれぞれ前後半に分けて複数枚の図面をアノテーションし、作業にかかった時間と正確性を計測
- それぞれのグループで前半と後半の差分を取り、さらにその差分をグループ間で差分することでアノテーション作業への慣れによる変化をキャンセルして比較(差分の差分法)
- BBoxの自動スナップは作業時間には影響しないもののBBox精度は向上し、OCRによるテキスト入力補助は作業時間を53%削減
第10回勉強会 ~Stability AI特別回~
発表者 | タイトル | 動画 |
---|---|---|
Stability AI ヴァグレ セドリック |
大規模データ管理の課題と解決策 | 非公開 |
Stability AI 澁井 雄介 |
生成AIのためのデータ収集とエンジニアリング | 非公開 |
ピックアップ「生成AIのためのデータ収集とエンジニアリング」
発表概要
- 画像生成AI開発では、画像やテキストといった非構造化データで構成されるペタバイト級のデータセットを管理する必要がある
- モデルの学習と評価を行いながら、データの要件定義、収集、整理における課題の抽出と解決を繰り返していく
DCAI観点でのポイント
-
データの要件定義
- モデルの学習と評価の結果から不足データを定義・収集し、またモデルの学習を行うといったサイクルを回すことは確実ではあるが時間がかかる
- モデルの学習を行わずに既存データの分析だけで不足データを定義することも考えられるが、汎用的な生成AIの開発においてはunknown unknownsに陥りやすい
- DevOpsと同様にPlanとDoを繰り返しつつ、プロセスをブラッシュアップしていくしかない
-
データの収集
- ソースごとにフォーマットが異なる、使ってみるまで有用性がわからないなどの課題がある
- データソースのデータソースまで調べるとライセンス的にNG、同じデータセットを異なるチームが異なるフォーマットで収集している、などがよくある失敗例
-
データの検索
- 検索目的に応じて複数の方法を用意し、それらを組み合わせる
- メタデータをDWHに入れてクエリで検索:管理が容易で確実性が高い
- 全文検索にキャプションを入れて検索:自然言語で検索できる
- ベクトル検索:データそのもので検索できる
- 検索目的に応じて複数の方法を用意し、それらを組み合わせる
第11回勉強会 ~MLOps勉強会コラボ回~
発表者 | タイトル | 動画 |
---|---|---|
Turing 安本 雅啓 |
E2E自動運転の実現に向けたMLOpsの取り組み | ▶️ |
Citadel AI 杉山 阿聖 |
The Rise of LLMOps | ▶️ |
ピックアップ「E2E自動運転の実現に向けたMLOpsの取り組み」
発表概要
- 自動運転の実現に向け、車載カメラ映像からマップ認識や3次元物体認識などのサブタスクを実施した上で車両の未来の経路を出力するE2Eモデルを開発中
- 「良い」データを量、質、多様性の3軸で捉え、それぞれにおいて自動運転のためのE2Eモデルが要求する高い水準の達成に向けてデータパイプラインを構築
DCAI観点でのポイント
-
大容量のデータ
- 車両から収集されるデータは動画とLiDAR点群が9割を占め、1時間で200GB超
- アノテーションに要する時間の削減には自動ラベリングとAWS Batchによる分散処理を活用
- 多様なニーズがあるデータ加工については、PJ初期は分散処理を活用してオンデマンドで対応し、PJが進み加工方法がFIXしたあとは加工済みデータを保持することで迅速な提供を実現
-
高品質なデータ
- 最初はデータの故障モード(センサの同期ズレや動画のコマ落ちなど)に対する知識がなかったため、みんなでランダムにデータを見ながらどのような故障が発生しているかを把握し、把握した故障モードについてはチェックを自動化
- コード化しづらい品質判定(画質など)には視覚言語モデル(GPT-4o mini)も活用
- 結局は人手での確認作業が重要であり、そのためにStreamlitやRerunを使って可視化を効率化
-
多様性のあるデータ
- 様々なキーでクエリする可能性がある、基本的にはデータは追記だけで更新はほぼない、という要件からDWHを採用し、ここにシーンのメタデータを格納して検索できるようにする
- Open Vocabulary物体検出により、利用可能性が高いラベル(人、車など)を事前に付与
おわりに
約1年半にわたって開催してきたData-Centric AI勉強会の第1回から第11回までを振り返りました。モデルに比べデータは対象ドメインとの結びつきが強いため、AIシステムにおけるデータに対する課題感は三者三様でしたが、アノテーションの品質確保や大規模データの効率的な運用などは共通的なテーマだったかと思います。また、課題に対するアプローチも組織ごとに独力で試行錯誤しているケースが多く、汎用的に使われているツールなどはまだない印象です。ツールの整備などによる体系化は今後のData-Centric AIにおける重要なトピックの1つとなるでしょう、一方で、アノテーションチームとの関係構築やとにかく生データを見るなど、ウェットだったり泥臭かったりする部分が結局は大事であるという意見も多く、体系化と並行してこうした努力もおろそかにしてはいけないと改めて感じました。
Data-Centric AI勉強会はまだまだこれからも続けていきますので、ご発表、ご参加のほどよろしくお願いいたします。発表できそうなテーマをお持ちの方がいらっしゃいましたら、下記のGoogleフォームよりお気軽にご連絡ください。
最後に宣伝ですが、産総研の@HirokatuKataoka監修のもと、錚々たるメンバーと共に執筆したData-Centric AIの入門書が2025年1月8日に発売されます!Data-Centric AIの概要から、画像認識、自然言語処理、ロボットといった様々な分野におけるデータ改善のための具体的なアプローチ、そして企業における実践的な取り組みまで幅広い内容となっています。私は最初の概要と、最後の実践例を担当しました。ご興味ありましたらぜひお手に取っていただけると幸いです。
-
Curtis Northcutt, Lu Jiang, and Isaac Chuang, “Confident learning: Estimating uncertainty in dataset labels”, Journal of Artificial Intelligence Research, 2021. ↩︎
Discussion