🗂

Azure OpenAI Serviceのコンテンツフィルタをオフにしてみる（中編）

2024/12/18に公開

Azure

OpenAI

Responsible AI

tech

qiitaのAdvent Calender「Microsoft Azure Advent Calendar 2024」の17日目の記事として公開しました。

https://qiita.com/advent-calendar/2024/azure

（本当は1日遅れだったけど空いてたので）

 はじめにAzure OpenAI（AOAI）サービスではデフォルトで「コンテンツフィルタ」という機能が有効になっており、これをオフにすることはできません。この機能をオフにするためには、Microsoft社に申請が必要になります。
今回、企業で使うと想定した時に「オフにしたらどういう振る舞いになるのか？」「オフになって運用されている危険なLLMリソースが存在しないかチェックしたいな？」といった発想から、コンテンツフィルタ機能をオフにして諸々検証してみることにしました。
以下の記事「前編」では、オフにするための申請まで行いました。

https://zenn.dev/tomot/articles/3137700208c055
この記事では、オフにした後のAOAIサービスの振る舞いをチェックしていきます。
!AIリスク対策機能をオフにすることは非推奨です。

本記事では、あくまで検証のために実施しています。

 申請承認前回の記事は申請して完了していました。さて結果はどうだったか…
じゃん！

なんと半日くらいで承認されました。（10 business daysとは…？）

ともあれ、それでは早速検証してみます。

 コンテンツフィルタの設定まず、Azure AI Foundryからモデルの「デプロイ」の設定を見てみます。

「コンテンツフィルター」の設定値があるのでここで無効を…選びたかったのですが、どうやらそういう使い方ではないようです。

設定は「コンテンツフィルター」作成時に行います。

 名前の設定正直何でもよいですが、間違って使わないように分かりやすい名前を付けておきましょう。

今回は無効感のあるフィルター名にしました。

 入力フィルターデフォルトの入力値は以下のようになっています。

「注釈付けとブロック」のトグルからオフにしてみましょう。

あっさりですがこれで入力に対するコンテンツフィルタはオフになります。

 出力フィルター出力に対しても、入力と同じような設定値となっています。

同じようにオフにしてみましょう。

なお、出力の方には、ストリーミングモードの設定があります。これは、よくあるBotのUIで実装されている、「発話内容が徐々に表示されていくモード」で使うときの設定ですね。

 デプロイ（オプション）既存のLLM（基盤モデル）に対して、作成したコンテンツフィルタをそのまま適用することができます。

大した手間ではないですが、せっかくなので今回は適用してみました。

確認画面を挟んで、以上で設定終了です。

 コンテンツフィルタオン/オフでの挙動の違いそれでは簡単にテストしてみます。

 コンテンツフィルタ オン
 普通の会話

まぁ、答えてくれます。

 ジェイルブレイクシステムプロンプトを無視させるようなことを意図して、ジェイルブレイクにありがちな命令をしてみます。

ちゃんと、コンテンツフィルタでブロックされました。

 自傷行為などのカテゴリフィルタ爆弾の作り方などもよく例に挙げられますが、今回は毒を盛る方法を聞いてみました。

自傷行為・暴力性などのカテゴリで検知されたようです。しっかりブロックされます。

 コンテンツフィルタ オフ
 普通の会話普通に答えてくれますので、割愛。

 ジェイルブレイク先ほどと同じ質問をしてみます。

特にエラー無く受け入れられました。

 自傷行為などのカテゴリフィルタなんと、コンテンツフィルタではブロックされませんでしたが、LLM自体がこのような話題は答えないように訓練されているようです。

ということで、一ひねりして聞いてみます。

無事？聞き出すことが出来てしまいました。

 おわりにAOAIのコンテンツフィルタをオフにし、その時の挙動を確認しました。

検証を通して、コンテンツフィルタをオフにする申請はあっさりと通ってしまい、簡単に解除できることが分かりました。

責任あるAIを実現するためには、基本的に「コンテンツフィルタ」はONにして使うべき機能かと思います。

開発者がいたずらに（あるいはウッカリで）フィルタを解除してしまわないように、何かしら対策が必要なのかなぁというのが管理者目線での感想です。

「中編」はここまでとし、「後編」でその方法を考えてみたいと思います。

Azure OpenAI Serviceのコンテンツフィルタをオフにしてみる（中編）

はじめに

申請承認

コンテンツフィルタの設定

名前の設定

入力フィルター

出力フィルター

デプロイ（オプション）

コンテンツフィルタオン/オフでの挙動の違い

コンテンツフィルタオン

普通の会話

ジェイルブレイク

自傷行為などのカテゴリフィルタ

コンテンツフィルタオフ

普通の会話

ジェイルブレイク

自傷行為などのカテゴリフィルタ

おわりに

Discussion

はじめに

申請承認

コンテンツフィルタの設定

名前の設定

入力フィルター

出力フィルター

デプロイ（オプション）

コンテンツフィルタオン/オフでの挙動の違い

コンテンツフィルタ オン

普通の会話

ジェイルブレイク

自傷行為などのカテゴリフィルタ

コンテンツフィルタ オフ

普通の会話

ジェイルブレイク

自傷行為などのカテゴリフィルタ

おわりに

Discussion

コンテンツフィルタオン

コンテンツフィルタオフ