🛡️

Defender for Cloud の AI サービス脅威保護機能 (Defender for AI) でジェイル ブレイクを検出

に公開

はじめに

Defender for Cloud における AI サービス向けの脅威検知・保護機能である Defender for AI が一般提供になりました。
https://learn.microsoft.com/ja-jp/azure/defender-for-cloud/ai-threat-protection

現在検出できるアラートは主に以下となっています。

  • AI サービスへの不正なアクセス
  • ジェイル ブレイクの試み (Content Safety プロンプト シールドとの連携)
  • 機密データ/資格情報へのアクセス
  • AI サービスを悪用したフィッシング詐欺
  • 過剰な利用

https://learn.microsoft.com/ja-jp/azure/defender-for-cloud/alerts-ai-workloads

こちらのうち、ジェイル ブレイクの検出を試していこうと思います。

Defender for Cloud 設定

Defender for CLoud の設定は [環境設定] > サブスクリプションを選択 > [Defender プラン] で [AI ワークロード] をオンにします。

AI ワークロードの [設定>] をクリックし、[疑わしいプロンプトの証拠を有効にする] をオンにします。

[続行] をクリックして、Defender プランの画面に戻り、[保存] をクリックします。

Azure OpenAI 設定

今回の検証では Azure OpenAI のコンテンツ フィルターを使用します。
Azure AI Foundry から [安全性とセキュリティ] のメニューを開き、コンテンツ フィルターを作成します。

入力フィルターの欄で [Prompt shields for jailbreak attacks] が [Annotate and block] になっていることを確認します。

その他の設定は今回の検証においては任意です。デプロイ (オプション) の箇所で使用するデプロイ済みリソースに紐づけます。

テスト

動作確認はプレイグラウンドのチャットから行います。ジェイル ブレイクに該当するプロンプトを入力してみます。以下のようにブロックされていることが確認できます。(ここまではプロンプト シールドの機能です)

以下のようにブロック情報が Defeder for Cloud に連携され、アラートとして調査が可能になります。また [疑わしいプロンプトの証拠を有効にする] を ON にしているため、該当する入力プロンプトを確認することができます。

また Defender XDR ポータル側に Defender for Cloud のアラート情報を連携している場合、以下のようにインシデント調査が可能になります。

まとめ

簡単な検証にはなりますが、Defender for AI を活用した 生成 AI 向けの脅威保護機能の動作を確認しました。生成 AI を活用したシステムが増加するに従い、生成 AI 特有の攻撃手法への対策が必須となるため、ぜひ Defender for AI を活用してみていただければと思います。

Microsoft (有志)

Discussion