🙅

【生成AI】コンテンツフィルタ機能まとめ｜API・ライブラリ等

2024/10/17に公開

ユーザーからの「入力テキスト」を使って、GeminiやGPTなどの生成AIのAPIリクエストをする時に、利用ポリシー違反になることを避けたい...
その対策として、APIに渡す前に"何らかのフィルタ"を用意したいと思い調べてみました。
!まだ実際に試せていないAPI・ライブラリも含んでいるので、誤った内容の部分があるかもしれません。

 今回の目的
利用APIのポリシー違反を防ぎたい
期待する出力を出すため



利用ポリシー
利用規約


OpenAI
使用に関するポリシー
利用規約

Anthropic
Usage Policy
Consumer Terms of Service

Gemini
生成 AI の使用禁止に関するポリシー
Gemini API 追加利用規約


 フィルタ候補（API/ライブラリ）対象テキストが「NG内容を含んだコンテンツかどうか」を検出する機能を持ったAPI・ライブラリを集めました。
Azure AI Content Safety
Google Cloud Natural Language API
OpenAI Moderation API
Guardrails AI



検出カテゴリ
料金
ドキュメント/ほか



Content Safety
（Microsoft）
- ヘイトと公平性
- 性的
- 暴力
- 自傷行為
→ 参照

約0.054円
（1000文字あたり）
（無料枠: 約500万文字）
- Docs
- API Reference
- Pricing
 - クイックスタート



Natural Language API
（Google）
- 有害
- 中傷
- 暴力的
- 性的
- Insult
- 冒とく
- 死、害、悲劇
- 銃、武器
- 公共の安全
- 健康
- 宗教、信仰
- 違法ドラッグ
- 戦争、紛争
- ファイナンス
- 政治
- リーガル
→ 参照

約0.75円
（1000文字あたり）
（無料枠: 約500万文字）
- Docs
- Reference
- Pricing
 - ライブラリ



Moderation API
（OpenAI）
- harassment
- hate
- illicit
- self-harm
- sexual
- violence
→ 参照

無料
- Docs
- Reference
- LangChain(python)
- LangChain(js)

Guardrails AI
-
無料?
- Docs
- Reference
- LangChain(python)


 その他のサービス
 Perspective API
※利用申請が必要（Googleフォーム）

 NeMo Guardrails
NVIDIA
https://github.com/NVIDIA/NeMo-Guardrails

 Amazon Comprehend DetectToxicContent
※英語のみサポート（日本語非対応）（docs）
APIリファレンス

 まとめこれらのAPIやライブラリの機能を組み合わせることで、ある程度ポリシー違反を防ぐことができるのかも。ただそれぞれAPIの違反ラインが不明確なこともあり、確実に防ぐことは難しそうですね。。
※おまけ：今回は「Content Safety」「Guardrail (ガードレール)」「Moderation (節度,調整)」「Toxicity (有害)」などのキーワードで検索して探しました。

 参考生成AIも安全運転！　注目を集める「LLM用のガードレール」とは何か　AIの事故を防ぐために企業がすべきこと：小林啓倫のエマージング・テクノロジー論考（1/3 ページ） - ITmedia AI＋
LLMにおけるガードレールについて
Azure OpenAI コンテンツフィルターのススメ - Speaker Deck
LLMのアウトプットをバリデーションする関数が集まるGuardrails Hubを試す

	利用ポリシー	利用規約
OpenAI	使用に関するポリシー	利用規約
Anthropic	Usage Policy	Consumer Terms of Service
Gemini	生成 AI の使用禁止に関するポリシー	Gemini API 追加利用規約

	検出カテゴリ	料金	ドキュメント/ほか
Content Safety （Microsoft）	- ヘイトと公平性 - 性的 - 暴力 - 自傷行為 → 参照	約0.054円（1000文字あたり）（無料枠: 約500万文字）	- Docs - API Reference - Pricing - クイックスタート
Natural Language API （Google）	- 有害 - 中傷 - 暴力的 - 性的 - Insult - 冒とく - 死、害、悲劇 - 銃、武器 - 公共の安全 - 健康 - 宗教、信仰 - 違法ドラッグ - 戦争、紛争 - ファイナンス - 政治 - リーガル → 参照	約0.75円（1000文字あたり）（無料枠: 約500万文字）	- Docs - Reference - Pricing - ライブラリ
Moderation API （OpenAI）	- harassment - hate - illicit - self-harm - sexual - violence → 参照	無料	- Docs - Reference - LangChain(python) - LangChain(js)
Guardrails AI	-	無料?	- Docs - Reference - LangChain(python)

今回の目的

フィルタ候補（API/ライブラリ）

その他のサービス

Perspective API

NeMo Guardrails

Amazon Comprehend DetectToxicContent

まとめ

参考

Discussion