🙅

【生成AI】コンテンツフィルタ機能まとめ|API・ライブラリ等

2024/10/17に公開

ユーザーからの「入力テキスト」を使って、GeminiやGPTなどの生成AIのAPIリクエストをする時に、利用ポリシー違反になることを避けたい...

その対策として、APIに渡す前に"何らかのフィルタ"を用意したいと思い調べてみました。

今回の目的

  • 利用APIのポリシー違反を防ぎたい
  • 期待する出力を出すため
利用ポリシー 利用規約
OpenAI 使用に関するポリシー 利用規約
Anthropic Usage Policy Consumer Terms of Service
Gemini 生成 AI の使用禁止に関するポリシー Gemini API 追加利用規約

フィルタ候補(API/ライブラリ)

対象テキストが「NG内容を含んだコンテンツかどうか」を検出する機能を持ったAPI・ライブラリを集めました。

  1. Azure AI Content Safety
  2. Google Cloud Natural Language API
  3. OpenAI Moderation API
  4. Guardrails AI
検出カテゴリ 料金 ドキュメント/ほか
Content Safety
(Microsoft)
- ヘイトと公平性
- 性的
- 暴力
- 自傷行為
参照
約0.054円
(1000文字あたり)
(無料枠: 約500万文字)
- Docs
- API Reference
- Pricing
- クイックスタート
Natural Language API
(Google)
- 有害
- 中傷
- 暴力的
- 性的
- Insult
- 冒とく
- 死、害、悲劇
- 銃、武器
- 公共の安全
- 健康
- 宗教、信仰
- 違法ドラッグ
- 戦争、紛争
- ファイナンス
- 政治
- リーガル
参照
約0.75円
(1000文字あたり)
(無料枠: 約500万文字)
- Docs
- Reference
- Pricing
- ライブラリ
Moderation API
(OpenAI)
- harassment
- hate
- illicit
- self-harm
- sexual
- violence
参照
無料 - Docs
- Reference
- LangChain(python)
- LangChain(js)
Guardrails AI - 無料? - Docs
- Reference
- LangChain(python)

その他のサービス

Perspective API

  • ※利用申請が必要(Googleフォーム)

NeMo Guardrails

Amazon Comprehend DetectToxicContent

まとめ

これらのAPIやライブラリの機能を組み合わせることで、ある程度ポリシー違反を防ぐことができるのかも。ただそれぞれAPIの違反ラインが不明確なこともあり、確実に防ぐことは難しそうですね。。

※おまけ:今回は「Content Safety」「Guardrail (ガードレール)」「Moderation (節度,調整)」「Toxicity (有害)」などのキーワードで検索して探しました。

参考

Discussion