🙅
【生成AI】コンテンツフィルタ機能まとめ|API・ライブラリ等
ユーザーからの「入力テキスト」を使って、GeminiやGPTなどの生成AIのAPIリクエストをする時に、利用ポリシー違反になることを避けたい...
その対策として、APIに渡す前に"何らかのフィルタ"を用意したいと思い調べてみました。
今回の目的
- 利用APIのポリシー違反を防ぎたい
期待する出力を出すため
利用ポリシー | 利用規約 | |
---|---|---|
OpenAI | 使用に関するポリシー | 利用規約 |
Anthropic | Usage Policy | Consumer Terms of Service |
Gemini | 生成 AI の使用禁止に関するポリシー | Gemini API 追加利用規約 |
フィルタ候補(API/ライブラリ)
対象テキストが「NG内容を含んだコンテンツかどうか」を検出する機能を持ったAPI・ライブラリを集めました。
検出カテゴリ | 料金 | ドキュメント/ほか | |
---|---|---|---|
Content Safety (Microsoft) |
- ヘイトと公平性 - 性的 - 暴力 - 自傷行為 → 参照 |
約0.054円 (1000文字あたり) (無料枠: 約500万文字) |
- Docs - API Reference - Pricing - クイックスタート |
Natural Language API (Google) |
- 有害 - 中傷 - 暴力的 - 性的 - Insult - 冒とく - 死、害、悲劇 - 銃、武器 - 公共の安全 - 健康 - 宗教、信仰 - 違法ドラッグ - 戦争、紛争 - ファイナンス - 政治 - リーガル → 参照 |
約0.75円 (1000文字あたり) (無料枠: 約500万文字) |
- Docs - Reference - Pricing - ライブラリ |
Moderation API (OpenAI) |
- harassment - hate - illicit - self-harm - sexual - violence → 参照 |
無料 | - Docs - Reference - LangChain(python) - LangChain(js) |
Guardrails AI | - | 無料? | - Docs - Reference - LangChain(python) |
その他のサービス
Perspective API
- ※利用申請が必要(Googleフォーム)
NeMo Guardrails
Amazon Comprehend DetectToxicContent
まとめ
これらのAPIやライブラリの機能を組み合わせることで、ある程度ポリシー違反を防ぐことができるのかも。ただそれぞれAPIの違反ラインが不明確なこともあり、確実に防ぐことは難しそうですね。。
※おまけ:今回は「Content Safety」「Guardrail (ガードレール)」「Moderation (節度,調整)」「Toxicity (有害)」などのキーワードで検索して探しました。
Discussion