Closed2025/03/10にクローズ10

2025/3/4 OpsJAWS Meetup33 AIOps

Contents

 AI自体のOps 〜LLMアプリの運用、AWSサービスとOSSの使い分け〜
AIのOpsしていますか？
LLMOps：Large Language Model Operations
生成AIアプリケーションの開発＆運用サイクルを回す取り組み

なぜLLMOpsが必要か？
開発中のデバッグが辛い
リリース後の使われ方が把握しにくい
出力品質のユーザー満足度が不明

LLMアプリの実装要素
推論
RAG
AIエージェント
処理フローが複雑になりやすくバグも発生しやすい


LLMアプリの開発フレームワークによってLLMOpsツールも変わる
ローコード：Dify、Bedrockフロー
マネージドサービス：Bedrockナレッジベース
ライブラリ／フレームワーク
AWS SDK
LangChain
LlamaIndex


LLMOps:①監視
メトリクス、ログ、トレース
ツール：AWS CloudWatch、LangSmith、Langfuse

LLMOps:②評価
ツール：Ragas、OpenEvals/Evals、LangSmith、Langfuse、Bedrock Evaluations

LLMOps:③プロンプト管理
プロンプト管理は重要
長い自然言語のプロンプトがアプリと一緒になっていると管理しにくい
ツール：Bedrockプロンプト管理、LangSmith、Langfuse、テキストファイルでGit

LLMOps何から始める？
SaaSのLangfuse
セルフホストの場合、以下のコードを参考に
https://github.com/aws-samples/deploy-langfuse-on-ecs-with-fargate
https://github.com/tubone24/langfuse-v3-terraform


https://qiita.com/minorun365/items/70ad2f5a0afaac6e5cb9

 Amazon CodeGuruをGitHubと統合してアプリケーションの品質管理を楽にする
CodeGuruとは？
CodeGuru Security：アプリケーションコードのセキュリティ脆弱性を発見
現在のReviewがSecrityに統合されつつある
開発時の利用を想定
Java,Python,JavaScript,TypeScript,C#,CloudFormation,Terraform,Go,Ruby

CodeGuru Profiler：アプリケーションパフォーマンスの最適化
運用時の利用を想定




CodeGuru Securityはどのようにトレーニングされている？
ロジスティック回帰、NNを組み合わせたルールマイニングと教師ありML

連携可能：GitHub、GitLab、CodePipeline、AWS CLIなど
GitHubとの連携も簡単に実施でき、レビューも詳細に実施してくれる
スキャンには時間がかかる。レビュー内容は英語。

 AIを先生に～Slack × Bedrock で育成担当の人材不足解消を考える～
AWSテクニカルサポートの育成を実施
人数が増えるとトレーナー不足！レビュー待ちが増えてくる。
AIにトレーナー手伝ってもらいたい。
SlackでAIトレーナーをやってもらう。

システム構成

LambdaからBedrockを呼び出す処理でタイムアウトするので、SQSで非同期処理を入れているのがポイント

実演
文章レビューも◎

まとめ
ハルシネーションには注意
人間によるAI出力のレビューと修正プロセスの確立

 もしもマラソンランナーが operational investigations を有効化したら
マラソン

operational investigations
AWS環境の情報を集めて運用のトラブルシューティングを手助けしてくれる機能
re:invent 2024で発表
生産性があがり、人はより付加価値の高い作業に集中できる

もしもマラソンランナーが～の構成図

バグを仕込んだらどうなるかを試す

的確な回答が得られる

権限をはく奪して情報が参照できないようにしたら・・？
さすがに情報がなくて回答を出せない。人と同じように情報を正しくインプットしないといけない。

 Bedrockによるエラー通知のフィルタリング
エラーログ通知での困りごと
「?ERROR?Error?error」で通知すると、エラーではないのにerrorが含まれていても通知される
改善するには？
アプリケーションログ自体を改修
サブスクリプションフィルターを改修


Bedrockを使ってエラー通知のフィルタリングをする構成


判定のルール
ステップ倍ステップで考える
十分な推測ができる場合のみ判定、判定できない場合はtrue
（人間の）フィードバックと判定するログメッセージの80％以上が一致しているもの
（人間の）フィードバックに理由がある場合はその内容を考慮
類似した（人間の）フィードバックが矛盾する場合は最新のフィードバックを優先

検証
以下のモデルでいろいろなパターンで検証
Nova Lite、Nova Pro、Claude 3.5 Haiku、Claude 3.7 Sonnet
モデルや検証条件によってフィルタリングできたものできないものが出た
Claudeはほぼフィルタリングできたが、Nova Lite、Nova Proのほうはパターンによってはフィルタリングできないものもあった

https://github.com/takenoko-gohan/llm-alert-filter-sample

 元祖 AIOps！メトリクス異状検知からはじめよう〜さようなら Lookout for Metrics〜
AIOps on AWS
https://dev.classmethod.jp/articles/opsjaws27-aiops-aws/

AIOps


Lookout3兄弟


サービス終了になりつつある
代わりに・・
CloudWatch Anomaly Detectionなどの異常検出（検知）機能



まとめ
AIOps といっても異常検知から運用AIエージェントまでさまざま
Lookout for Metrics の廃止から学んだこと
異常検知のカスタマイズよりシステム改善に時間を

CloudWatch Anomaly Detectionは簡単

 Amazon Bedrockガードレールで守る安全なAI運用
AI Ops観点での安全なAI運用の重要性
LLM活用が企業で急増
不適切コンテンツ、情報漏洩リスク
運用担当として監視、アラート、ポリシー管理必須
インシデント発生すると即信用問題、法的リスクにも

Bedrockのガードレール
不適切な入力・出力を制御、企業ポリシーに合わせてフィルタリング
モデルにかかわらず一貫した安全対策
Denied topics
Content filters
Sensitive information filters / PIIフィルター
Word filters

AI運用での課題
回答できないトピックをどう管理する？→「Denied topics」
不適切コンテンツをどう遮断する？→「Content filters」
個人情報と機密をどう守る？→「Sensitive information filters / PIIフィルター」

Bedrockガードレールの強みは「事前防御」

ガードレールを生かすには設計から運用まで多層的に考えること

 Amazon Q Developerを用いたAWS運用改善～自動化スクリプト生成～
Amazon Q Developer Pro:有料版
Amazon Q Developer:無料版
特徴
コード生成・変換
開発プロセス効率化
AWS統合環境での開発支援

事例①：バッチ遅延の定期監視
正常稼働の実行時間が長くなったので監視したい
指示を出すだけで、手を動かさずに実装できた

事例②：SSM Parameterのバックアップ処理の高速化
Shellでfor文を実行しておりパフォーマンスに課題
1時間のスクリプトを15秒にできた

まとめ
Amazon Q Developer は有用である。簡単な依頼ほどスムーズに生成する
一定の誤りやハルシネーションはあるので注意、間違いを指摘すれば修正できる
生成AIによってシステム保守のやり方は大きく変わっている
運用プロセスを手動で行わないようにどう改善できるか
メンバーの余裕がなかった検討や実装に生成AIを使うと対応速度が加速する

このスクラップは2025/03/10にクローズされました