🤖

[参加レポ]MLflow Meetup! 日本人メンテナーが語るMLflowの現在と未来

に公開

https://jedai.connpass.com/event/344240/

本日の内容

  • MLflowとは
  • MLOps
  • 2024年の振り返り
  • 2025年のロードマップ
  • QA

MLflowとは

  • データブリックスCTOとUC バークレイの連携
  • Linux Foundation
  • データブリックスが主導

MLflowとは

実験管理を中心に広範囲なMLOpsをサポート

  • 使用率Top5
  • 実験管理
  • モデルレジストリ
  • モデル評価
  • デプロイメント

MLflowって古典的MLでは聞いたことがあるけれど...

今のデータをご覧ください
80%がDeep learning、LLMの管理目的に使用されている

従来のMLOps

  • MLモデルはブラックボックス
  • 周りを堅牢に

モデルからAIシステムへ

*従来のML 単体のモデルが単体の推論でタスクを解く
*AIシステムでは複数のモデルやコンポーネントが連携しタスクを解く

  • 昨今のAIが複数のAIが検討し結果を出している

LLM時代のMLOps

MLとソフトウェア・エンジニアリングの境界があいまいに

MLとSWEの境界はより曖昧に

  • 従来は責務の分離を目標としていた

データサイエンティストとSWEのツールが異なっていた
データサイエンティスト
* ノートブック
* mlops

SWE
* git
* teraform

データサイエンティストの課題
* ノートブックでは完結しない
* 複数ファイルの効率的なバージョン管理、許由方法がほしい

sweの課題
* gitでは柔軟性を保つのが難しい
* 否engにはgitは難しい
* ナレッジやプロンプトの変更をgitベースのci cd に組み込むのは大変

現在、コンポーネントごとにツールが別れている
結果、リネージツールが求められる

モデルの評価は高コストかつ不果実に

  • データセットの作成
  • 評価指標
  • 評価候補の多さ
  • 毎週のように新しいLLMや手法が出る

結果
データセット作成のコストが高い
プロダクションデータを収集する方針の企業も多い

評価指標
LLMににジャッジさせる。しかし信頼性やバイアスの問題もあり完全に任せる事は難しい

評価候補
コンポーネントごとに評価して小さいPDCAを回す

データ分布からソフトウェアとしての監視

*従来、入出力データの監視が主な対象だった

  • MLモデルはブラックボックス

AIシステム

  • 入出力データのみの監視では学習モデルの性能が高まったのか性能が下がったのか特定出来ない

  • 入出力だけでは判断出来ない

MLFlowトレーシング

*デバッグ、監視、評価するための機能

  • 既存のコードに一行追加するだけで自動でトレーシング

トレース結果は実験結果に保存
実行に紐付けされるので評価結果から巡って原因追求

データブリックス、ノートブック内に直接表示出来る

無料で使えます
データブリックスではマネージドサーバも無料

DSPy

  • プロンプトからプログラミングへ
  • 評価指標をもとに自動でLLMシステムを最適化

PEFT(LORa)のサポート

マネージドサービスがぞくぞくと

  • SageMaker
  • Nebius
  • データブリックス

Unity Catalog AIがOSSni

プロンプトレジストリ

プロンプトのバージョン管理

2025年のロードマップ

  • モデルの質を高めるフィールドバックループ
  • より強力なリネージ
  • デプロイ管理
  • CICDとの連携

続きはData & AI Summiで

Discussion