🐥

LLMOps に入門してみた

2024/11/20に公開

LLMOps はなぜ必要か

というより、最新のモデルや手法を追い続けることに少々疲れたので、アプリケーション開発の観点からもう少し長期的な目線で LLM アプリケーション開発を整理したいと思って LLMOps に入門してみました。

LLM アプリケーション特有の問題

LLM は非常に強力なツールなため、プロトタイプをパパッと作ってみてもそれっぽいシステムを作ることができます。プロトタイプとしては十分かもしれませんが、継続的改善を前提とした本番環境のシステムでは不十分です。

主な理由として、LLM の出力要因の複雑さです。LLM の出力を調整する要因として、外部データの整備、データ検索、プロンプトチューニング、モデルのファインチューニングなど多くの要因が相互に作用しているため、ソフトウェアエンジニアだけでなく、データサイエンティストやインフラエンジニアなど多くの人との協働が不可欠で、これをサポートするフレームワークやツールの整備が重要です。

LLMOps のメリット

  • 効率性: モデルや生成ロジックの検証、デプロイ、フィードバックのサイクルをより早く回すことができます。
  • スケーラビリティ: 複数のモデルを管理・モニターすることができ、容易に拡張することができます。
  • リスク削減: プロンプトや LLM の生成物のモニターすることで、生成物が企業や業界のコンプライアンスや法律に抵触するリスクを軽減できます。

LLMOps の構成要素

LLM アプリケーション開発パイプライン

LLM アプリケーションが従来のアプリケーションと大きく異なる点として「出力が不確実である」ことがあげられます。そこで、以下のようにロジックの構築段階で段階的にイテレーションを繰り返すことで精度を高めていきます。

また、もう一点異なる点として「評価が難しい」という点があります。LLM アプリケーションの多くはチャットボットのように無数のユーザーの入力が考えられることや、生成物の評価の何をもって OK とするか、ということが非常に難しいです。そこで、評価自体に LLM を用いる手法 (LLM-as-a-Judge) が有用であり、開発フローに組み込むことが重要です。もちろん LLM-as-a-Judge もそれ自体の有用性を評価する必要がありますが、開発パイプラインの組み込む参考指標としては非常に役立ちます。

RAG で独自データを扱う場合は検索精度も評価する必要があります。


LLM アプリケーション開発の一般的な流れ (Code-First LLMOps from prototype to production with GenAI tools | BRK110)

MLOps との比較

LLM 台頭以前は学習モデルをアプリケーションに組み込む際の開発パイプラインである MLOps がありました。それとの差分を確認し、 LLMOps に新たに必要とされている要素を見ていきます。

  • ファインチューニング: 従来の MLOps ではスクラッチからモデルを作成することが多いが、LLM アプリケーションでは既存のベースモデルをファインチューニングする手法が一般的です。このファインチューニングのためのデータ整備やリソースの確保を開発パイプラインに取り込む必要があります。
  • 人間からのフィードバック: LLM を評価に利用する手法もありますが、システムである以上それ自体の有用性も評価しなければならず、品質保証には十分ではありません。そこで人間からのフィードバックを取り込み、それを grand truth とすることでより高い品質のパイプライン構築や自動評価を行うことができます。
  • プロンプトエンジニアリング: 従来の MLOps ではモデル自体のトレーニングのみを行う一方、 LLM は LLM へのパラメータ以外にも、ユーザーがどのようなプロンプトを入れるか、また、LLM にあらかじめ入れるシステムプロンプトをどのように設計するかで大きく出力結果が変わります。
  • パフォーマンスの評価: 従来の ML ではモデルは純粋関数のように振る舞うため、入力 A に対して出力 A が出れば OK というような評価ができました。一方 LLM は出力結果が確率的であるため、純粋関数のように評価することができません。人間からのフィードバックや新たなメトリクスやベンチマーク (MMLU, BLEU, ROUGE, RAGAS など) に対して評価する必要があります。また、独自データを扱う場合は検索精度の評価や独自データに対する生成物の評価も必要です。
  • LLM パイプラインの構築: LLM 単体だけではなく、外部データの検索やウェブ検索のようなツールとの組み合わせでシステムを構築します。その検証からデプロイまでの処理をパイプライン化することでリリースサイクルを早めることができます。

LLMOps の主要ポイント

従来の DevOps や MLOps との共通点や相違点を踏まえた上で、LLMOps の主要なポイントと手順は以下の通りまとめられます。

  1. データとモデルの開発
    • データ管理と前処理: 高品質で多様なデータセットを収集・整理することは、LLM の性能を最大限に引き出すために不可欠です。データのクリーニングや正規化を行い、ノイズや不正確な情報を除去します。また、データのバージョン管理を徹底し、変更履歴を追跡することで再現性を確保します。セキュリティとプライバシーにも配慮し、個人情報の保護や法規制(例:GDPR、CCPA)の遵守を徹底します。さらに、データに含まれるバイアスを検出・緩和することで、公平性と倫理性を担保します。
    • モデルのトレーニングと最適化: 収集したデータを用いて、モデルの初期トレーニングを行います。その後、特定のタスクやドメインに合わせてファインチューニングを実施します。ハイパーパラメータの最適化やモデルアーキテクチャの調整を通じて、モデルの性能を最大化します。また、モデル圧縮や知識蒸留などの手法を活用し、モデルのサイズを削減して推論速度を向上させます。これにより、計算コストの削減とリアルタイム応答性の向上が図れます。
  2. デプロイとインフラ管理
    • インフラストラクチャの選定と設計: モデルを効果的に運用するために、適切なインフラ環境を選定・設計します。クラウドサービス、オンプレミス環境、エッジデバイスなど、ビジネス要件やセキュリティ要件に合わせて最適なプラットフォームを選びます。コンテナ化技術(例:Docker)やオーケストレーションツール(例:Kubernetes)を活用して、スケーラブルで柔軟なデプロイメントを実現します。また、Infrastructure as Code(IaC)の手法を用いて、インフラ設定をコードで管理し、自動化と再現性を高めます。
    • 継続的インテグレーションとデリバリー(CI/CD): 開発からデプロイまでのプロセスを自動化するために、CI/CD パイプラインを構築します。コードやモデルの変更が自動的にテスト・検証され、本番環境に安全かつ迅速に反映されます。自動テストを導入し、品質保証を強化することで、リリースの信頼性と効率を向上させます。これにより、開発サイクルの短縮と市場投入までの時間を削減できます。
  3. モニタリングとライフサイクル管理
    • パフォーマンス監視とドリフト検知: デプロイされたモデルのパフォーマンスを継続的に監視します。レスポンスタイム、スループット、エラーレートなどの重要な指標を追跡し、リアルタイムでの異常検知を行います。また、データやモデルのドリフト(経時的な変化)を検知し、モデルの性能劣化を早期に発見します。これにより、ユーザー体験の低下を防ぎ、必要な調整や再トレーニングを適時に実施できます。
    • モデルの更新と廃棄: モデルのライフサイクル全体を管理し、最新の状態を維持します。新しいデータやアルゴリズムの進化に合わせてモデルを更新し、性能向上を図ります。古くなったモデルや性能が劣化したモデルは適切にリタイアさせ、システムから安全に除去します。モデルのバージョン管理を徹底することで、再現性を確保し、問題発生時のトラブルシューティングを容易にします。
  4. セキュリティ、コンプライアンス、倫理的 AI
    • セキュリティとプライバシー: モデルとデータを保護するために、強固なセキュリティ対策を実施します。データの暗号化、アクセス制御、認証・認可の仕組みを導入し、不正アクセスやデータ漏洩を防ぎます。ユーザーのプライバシーを尊重し、個人情報の取り扱いに関する法規制を遵守します。セキュリティリスクの定期的な評価とペネトレーションテストを行い、脆弱性を早期に発見・修正します。
    • コンプライアンスとガバナンス: 業界標準や法的規制、社内ポリシーに準拠したモデルの開発・運用を行います。内部監査や外部監査に対応するための記録とドキュメンテーションを整備します。ガバナンス体制を確立し、責任者や関係者の役割を明確にします。これにより、法的リスクを最小化し、信頼性の高いサービス提供が可能になります。
    • 倫理的 AI と説明可能性: モデルが公正で透明性のある動作をするよう、倫理的な観点から評価と改善を行います。バイアス検出ツールやフェアネス評価指標を用いて、モデルが特定のグループに不公平な影響を与えていないか確認します。Explainable AI(XAI)の手法を取り入れ、モデルの判断根拠を明確にします。これにより、ユーザーやステークホルダーからの信頼を獲得し、社会的責任を果たすことができます。
  5. チームコラボレーションと知識共有
    • クロスファンクショナルチームの連携: データサイエンティスト、ソフトウェアエンジニア、ビジネスアナリスト、プロダクトマネージャーなど、さまざまな専門分野のメンバーが協力してプロジェクトを進めます。定期的なミーティングやコミュニケーションツールを活用し、情報共有と意思決定を迅速化します。これにより、チーム全体の生産性とプロジェクトの成功率が向上します。
    • ドキュメンテーションとプロセス共有: プロジェクトの進捗や技術的な詳細を詳細に記録し、ドキュメントとして共有します。コードやモデル、データの取り扱い方法などを明確にすることで、新しいメンバーのスムーズなオンボーディングが可能になります。また、過去の学習やベストプラクティスを共有し、チーム全体の知識レベルを高めます。
    • ユーザーフィードバックの統合: ユーザーからのフィードバックや利用データを収集し、モデルやサービスの改善に活用します。A/B テストやユーザーインタビューを通じて、ユーザーのニーズや課題を深く理解します。この情報をもとに、機能追加や性能向上を図り、ユーザー満足度を高めます。

参考資料

https://www.databricks.com/glossary/llmops

https://www.youtube.com/watch?v=gvqsPhd27LE

https://www.redhat.com/en/topics/ai/llmops

https://techcommunity.microsoft.com/t5/ai-machine-learning-blog/an-introduction-to-llmops-operationalizing-and-managing-large/ba-p/3910996

Discussion