🛡️

Defender for Cloud の AI サービス脅威保護機能 (Defender for AI) でジェイルブレイクを検出

k.sato

2025/05/09に公開

 はじめにDefender for Cloud における AI サービス向けの脅威検知・保護機能である Defender for AI が一般提供になりました。

https://learn.microsoft.com/ja-jp/azure/defender-for-cloud/ai-threat-protection
現在検出できるアラートは主に以下となっています。
AI サービスへの不正なアクセス
ジェイル ブレイクの試み (Content Safety プロンプト シールドとの連携)
機密データ/資格情報へのアクセス
AI サービスを悪用したフィッシング詐欺
過剰な利用
https://learn.microsoft.com/ja-jp/azure/defender-for-cloud/alerts-ai-workloads
こちらのうち、ジェイル ブレイクの検出を試していこうと思います。

 Defender for Cloud 設定Defender for CLoud の設定は [環境設定] > サブスクリプションを選択 > [Defender プラン] で [AI ワークロード] をオンにします。

!無料の記載がありますが、一般提供に伴い課金を開始しています。
AI ワークロードの [設定>] をクリックし、[疑わしいプロンプトの証拠を有効にする] をオンにします。

[続行] をクリックして、Defender プランの画面に戻り、[保存] をクリックします。

 Azure OpenAI 設定今回の検証では Azure OpenAI のコンテンツ フィルターを使用します。

Azure AI Foundry から [安全性とセキュリティ] のメニューを開き、コンテンツ フィルターを作成します。

入力フィルターの欄で [Prompt shields for jailbreak attacks] が [Annotate and block] になっていることを確認します。

その他の設定は今回の検証においては任意です。デプロイ (オプション) の箇所で使用するデプロイ済みリソースに紐づけます。

 テスト動作確認はプレイグラウンドのチャットから行います。ジェイル ブレイクに該当するプロンプトを入力してみます。以下のようにブロックされていることが確認できます。(ここまではプロンプト シールドの機能です)

以下のようにブロック情報が Defeder for Cloud に連携され、アラートとして調査が可能になります。また [疑わしいプロンプトの証拠を有効にする] を ON にしているため、該当する入力プロンプトを確認することができます。

また Defender XDR ポータル側に Defender for Cloud のアラート情報を連携している場合、以下のようにインシデント調査が可能になります。

 まとめ簡単な検証にはなりますが、Defender for AI を活用した 生成 AI 向けの脅威保護機能の動作を確認しました。生成 AI を活用したシステムが増加するに従い、生成 AI 特有の攻撃手法への対策が必須となるため、ぜひ Defender for AI を活用してみていただければと思います。