Defender for Cloud の AI サービス脅威保護機能 (Defender for AI) でジェイル ブレイクを検出
はじめに
Defender for Cloud における AI サービス向けの脅威検知・保護機能である Defender for AI が一般提供になりました。
現在検出できるアラートは主に以下となっています。
- AI サービスへの不正なアクセス
- ジェイル ブレイクの試み (Content Safety プロンプト シールドとの連携)
- 機密データ/資格情報へのアクセス
- AI サービスを悪用したフィッシング詐欺
- 過剰な利用
こちらのうち、ジェイル ブレイクの検出を試していこうと思います。
Defender for Cloud 設定
Defender for CLoud の設定は [環境設定] > サブスクリプションを選択 > [Defender プラン] で [AI ワークロード] をオンにします。
AI ワークロードの [設定>] をクリックし、[疑わしいプロンプトの証拠を有効にする] をオンにします。
[続行] をクリックして、Defender プランの画面に戻り、[保存] をクリックします。
Azure OpenAI 設定
今回の検証では Azure OpenAI のコンテンツ フィルターを使用します。
Azure AI Foundry から [安全性とセキュリティ] のメニューを開き、コンテンツ フィルターを作成します。
入力フィルターの欄で [Prompt shields for jailbreak attacks] が [Annotate and block] になっていることを確認します。
その他の設定は今回の検証においては任意です。デプロイ (オプション) の箇所で使用するデプロイ済みリソースに紐づけます。
テスト
動作確認はプレイグラウンドのチャットから行います。ジェイル ブレイクに該当するプロンプトを入力してみます。以下のようにブロックされていることが確認できます。(ここまではプロンプト シールドの機能です)
以下のようにブロック情報が Defeder for Cloud に連携され、アラートとして調査が可能になります。また [疑わしいプロンプトの証拠を有効にする] を ON にしているため、該当する入力プロンプトを確認することができます。
また Defender XDR ポータル側に Defender for Cloud のアラート情報を連携している場合、以下のようにインシデント調査が可能になります。
まとめ
簡単な検証にはなりますが、Defender for AI を活用した 生成 AI 向けの脅威保護機能の動作を確認しました。生成 AI を活用したシステムが増加するに従い、生成 AI 特有の攻撃手法への対策が必須となるため、ぜひ Defender for AI を活用してみていただければと思います。
Discussion