🧠

【Next Tokyo 25 レポート】最新の生成 AI モデルへのアップデートに必要な LLMOps

に公開

こんにちは、クラウドエース株式会社 第一開発部の阿部です。
この記事では、Google Cloud Next Tokyo 25 のブレイクアウトセッション「最新の生成 AI モデルへのアップデートに必要な LLMOps」について、セッション内容を紹介します。

前置き: 生成 AI モデルの寿命

Gemini API や Vertex AI で提供されている生成 AI モデルは廃止日が設定されており、廃止日を過ぎるとモデルは利用できなくなります。
例えば、Gemini 2.0 Flash は 2026 年 2 月 5 日、Gemini 2.5 Flash は 2026 年 6 月 17 日まで利用可能です。
生成 AI モデルの提供期間は限られており、定期的なアップデートが必要です。

参考: Model versions and lifecycle

参考までに、Vertex AI における生成 AI モデルのライフサイクルについては、以下のドキュメントを参照してください。

https://cloud.google.com/vertex-ai/generative-ai/docs/learn/model-versions

日々進化する生成 AI を使いこなすために

LLM (大規模言語モデル)の進化と普及により、AI を使ったシステム運用も複雑化しています。
常に最新のモデルを利用し、高い精度によってビジネスの価値を生むためには、モデルの管理や更新を効率的に行う運用の設計が必要です。

モデルの精度劣化のリスク

セッションでは、カスタマーサポートの半自動化システムを仮想的な例として、モデルの精度劣化のリスクについて説明がありました。

セッションスライド

ステージ 内容
1. PoC データを収集し、実際に精度や価値が出るかを検証。オフラインの検証で精度 95%を実現。
2. リリース カスタマーサポートの一次受付を AI で対応し、より緊急度の高い問い合わせを人間が対応。サービス離脱率が 5%軽減。
3. 運用 特に問題なさそうなので、ログの記録とマシンの監視のみ継続。
4. サービス劣化 待ち時間が長くなったと SNS で話題になっていることに気付き、システムを確認。新商品・新サービスに関する問い合わせが増えたことで一次受付の AI が正しく優先順位を付けられず、ユーザーが離脱。

モニタリング手法の例

このような生成 AI モデルの精度劣化を防ぐためには、以下の視点でのモニタリングが考えられます。

入力データの変化

PoC で用意したデータセットと、実際にリリースした後のデータは必ずしも一致しません。
新しい商品名や想定していなかった言語など、様々な要因で入力データが変化します。

モデルの精度

入力データが変化するとモデルの精度も変化する可能性が高いです。
評価用のデータセットの準備や、更新、再評価は重要です。

サービス自体の品質

モデルの精度だけでは説明できない要因として、離脱率、CTR[1]、顧客満足度などのビジネスの KPI で評価することも重要です。
言語モデルの精度が変わっていなくても、ビジネスの KPI が低下している場合はシステムの更新が必要になります。

LLMOps 概要

セッションでは、 LLMOps のドキュメントから引用して LLMOps の概要が説明されました。

LLMOps(大規模言語モデル運用)とは、大規模言語モデル(LLM)の管理と運用に関連する手法とプロセスを指します。
LLM は、テキストやコードの膨大なデータセットでトレーニングされた AI モデルで、テキストの生成、翻訳、質問への回答など、言語関連のさまざまなタスクを実行できます。

なお、LLMOps は、LLM を利用するシステムの運用に必要なプロセスや考え方であって、具体的な設計の正解があるわけではないことに注意が必要です。

LLMOps は以下の 4 つベストプラクティスに基づいています。
(詳細は引用元ドキュメントに記載されているため、セッションでの説明はあっさりでした)

データマネジメント

  • 高品質なデータを使用する
  • データを効率的に管理する
  • データガバナンスを確立する

モデルのトレーニング

  • 適切なトレーニングアルゴリズムを選択する
  • トレーニングパラメータを最適化する
  • トレーニングの進行状況をモニタリングする

デプロイ

  • 適切なデプロイ戦略を選択する
  • デプロイのパフォーマンスを最適化する
  • セキュリティを確保する

モニタリング

  • モニタリング指標を確立する
  • リアルタイムモニタリングの実装
  • モニタリングデータの分析

引用元

https://cloud.google.com/discover/what-is-llmops?hl=ja

Vertex AI の機能

こうした LLMOps を実現するために、Vertex AI にある機能が紹介されました。

LLMOps の一例

運用 内容 製品
プロンプト管理 目的のタスクを解くためにプロンプトをデザインする。プロンプトの試行錯誤を管理し、実験を適切に記録する。 Vertex AI Studio
プロンプト最適化 新しいモデルに乗り換えることで精度向上を図る。モデルの変化に適応するため、プロンプトを最適化する。 Vertex AI Prompt Optimizer
モデル評価 モデルの精度を定量的に評価することで、データに基づく意志決定が可能になる。 Vertex AI Gen AI Evaluation Service
自動化 定型化できる操作は、自動化することで運用コストとヒューマンエラーを削減する。 Vertex AI Pipelines

Vertex AI Studio の紹介

Vertex AI Studio は生成 AI モデルのプロトタイプ開発の環境を提供するマネージドサービスです。
プロンプト管理に使える機能として、特に以下の機能について紹介がありました。
特に、メモ機能を活用することで履歴に意味を持たせることができ、プロンプトの変更内容を記録しやすくなります。

プロンプトのメモ機能

プロンプト変更にメモを残すことで、変更内容を記録し、後から振り返ることができます。

セッションスライド

プロンプトの履歴機能

プロンプト変更の履歴を確認することで、過去のプロンプトを参照できます。

セッションスライド

プロンプトの比較機能

過去のプロンプトと現在のプロンプトを比較することで、変更の影響を確認できます。

セッションスライド

Vertex AI Studio の詳細は下記のドキュメントを参照してください。

https://cloud.google.com/generative-ai-studio?hl=ja

Vertex AI Prompt Optimizer の紹介

日々新しいモデルがリリースされるため、精度の向上にはアプリケーション側のアップデートが必要です。
特に、生成 AI モデルのバージョンが変わる場合、プロンプトを新しいモデルに合わせて最適化することが重要です。

Prompt Optimizer は、プロンプトの最適化を支援するツールで、以下の 3 つの入力からプロンプトテンプレートの最適化を行います。

  • サンプルのプロンプトのセット (参照データ)
  • オリジナルのプロンプトテンプレート
  • モデル評価指標

セッションスライド

オリジナルのプロンプトテンプレートを Prompt Optimizer で出力されたものに置き換えて再度モデルを評価することで、より高い精度を得ることができます。

セッションスライド

Vertex AI Prompt Optimizer の詳細は下記のドキュメントを参照してください。

https://cloud.google.com/vertex-ai/generative-ai/docs/learn/prompts/prompt-optimizer?hl=ja

Vertex AI Gen AI Evaluation Service の紹介

Gen AI Evaluation Service は独自の評価基準を定義した上で、モデルの性能を評価するサービスです。
Gen AI Evaluation Service では 2 つの指標による評価アプローチが提供されています。

指標 評価のアプローチ データ 費用と処理速度
モデルベースの指標 判定モデルを使用し、記述的な評価基準に基づいてパフォーマンスを評価 グラウンドトゥルースはなくてもかまわない 費用がやや高く低速
計算ベースの指標 数式を使用してパフォーマンスを評価 通常、グラウンドトゥルースが必要 費用が低く高速

モデルベースの指標

モデルベースの指標では、ペアワイズ指標、または、ポイントワイズ指標による評価が可能です。

  • ポイントワイズ指標: 判定モデルを使用し、評価基準に基づいて候補モデルの出力を評価します。
  • ペアワイズ指標: 判定モデルを使用し、2 つのモデルの回答を比較して、どちらが優れているかを評価します。

セッションスライド

計算ベースの指標

計算ベースの指標では、LLM で生成された結果が入力と出力のペアのグラウンドトゥルースデータセットと一致しているかどうかを比較します。
モデルベースより高速に計算でき、学術論文などでも使用される指標です。

セッションスライド

Vertex AI Gen AI Evaluation Service の詳細は下記のドキュメントを参照してください。

https://cloud.google.com/vertex-ai/generative-ai/docs/models/evaluation-overview?hl=ja

Vertex AI Pipelines の紹介

セッション時間がなかったため、Vertex AI Pipelines の紹介は簡単な説明のみでした。
Vertex AI Pipelines は、主に機械学習システム開発の作業を自動化するためのマネージドサービスです。

セッションスライド

Vertex AI Pipelines の詳細は下記のドキュメントを参照してください。

https://cloud.google.com/vertex-ai/docs/pipelines/introduction?hl=ja

まとめ

生成 AI モデルを利用したアプリケーション開発では、生成 AI モデルの更新にともなうプロンプトの最適化やモデルの評価が重要です。
LLMOps という考え方を取り入れることで、生成 AI モデルの運用を効率化し、ビジネスの価値を最大化することができます。
しかし、LLMOps には正解がなく、各組織のニーズに合わせた運用設計が必要です。

当社でも生成 AI モデルを利用したシステム開発を行うなかで、今回のセッションで紹介された LLMOps や Vertex AI の機能を活用し、運用の効率化を図っていきたいと考えています。
このブログ記事が、生成 AI モデルの運用に関心のある方々にとって、少しでも参考になれば幸いです。

脚注
  1. Click Through Rate ↩︎

Discussion