Azure OpenAI Service の設定可能なコンテンツフィルター
はじめに
Azure OpenAI Service の設定可能なコンテンツフィルターのプレビューが開始しましたので情報をまとめました。Microsoft Build 2023 のタイミングで "Configurable Content Filters" として発表された機能です。
Configurable Content Filters
Configurable content filters allow customers to specify a list of banned or allowed words, phrases, and entities. These filters are applied to all text prompts and completions and help ensure that the output is appropriate for their intended audience. The feature is fully customizable, with customers able to specify their own filters or use the default filters provided by OpenAI.
既定のコンテンツフィルター
既定のコンテンツフィルターの挙動に関しては Microsoft Build 2023 の以下のセッションの中で説明されています。
このセッションによると、以下のステップでモデルへの入力 (Prompt) と出力 (Completion) の両方に対してフィルタリングが行われているそうです。
- 有害コンテンツを 4 つのカテゴリー (ヘイト、性的、暴力、自傷) に分類
- 各カテゴリーの重大度スコアを 0 ~ 6 で評価
- 重大度スコアに基づいて 3 段階に分類してフィルタリング
- 高リスク: ブロック
- 中リスク: ブロック
- 低リスク: 許可
模式図
設定可能なコンテンツフィルター
何が変わる?
設定可能なコンテンツフィルターを使うと、前述の 4 つのカテゴリー (ヘイト、性的、暴力、自傷)、3 段階の分類 (高・中・低リスク) ごとに許可・ブロックをするかどうかユーザーが設定できるようになります。
模式図
設定方法
1. カスタムコンテンツフィルターの作成
Azure OpenAI Studio の Content filters (Preview)
タブから、カスタムコンテンツフィルターを作成します。
以下の例では、入力 (Prompt) に対して暴力および自傷カテゴリーの低リスクに分類されるコンテンツをブロックするように設定しています。つまり、既定よりフィルタリングを厳しくしています。
※ クリックすると許可・ブロックが切り替わります。
なお、フィルタリングを既定より緩くする (各カテゴリーの高・中リスクを許可する) ためには追加で申請が必要になります。
参考
2. カスタムコンテンツフィルターの適用
作成したコンテンツフィルターはモデルのデプロイ単位で適用することができます。
新規デプロイに適用
既存デプロイに適用
参考
おわりに
これまではモデルへの入出力が既定のコンテンツフィルターにかかってしまう場合に為す術がありませんでしたが、設定可能なコンテンツフィルターの登場により対処方法の選択肢を得ることができました。
既定よりフィルタリングを緩くする場合は不適切な入出力を許可してしまうリスクとトレードオフになりますが、良く考えて活用していきたいです。
以上です。🍵
Discussion