Claude 4のジェイルブレイク手法について調べてみた
どうも。最近AIセキュリティ界隈が騒がしいので、例のClaude 4のジェイルブレイク手法について調べてみた。
結論から言うと、めっちゃ面倒くさい。他のAIと比べてAnthropicのやつはガチで堅い。
ジェイルブレイクって何だっけ
まず前提として、ジェイルブレイクは要するにAIの制限を突破する技術のこと。iPhoneのJailbreakと同じノリで、本来できないことをできるようにする。
Claude 4の場合、主にNSFWコンテンツの生成制限を回避するのが目的になってる。まあ、そういうことだ。
で、実際どんな手法があるの?
horselock/Jailbreaksリポジトリを見てみると、なるほどこれは体系的にやってるな、という感じ。スター数246個で結構注目されてる。
基本はプロンプトインジェクション
要するに「AIを騙すプロンプト」を仕込む手法。これ自体は珍しくないんだけど、Claude向けに特化してるのがポイント。
面白いのは開発プロセス
-
ちゃんとバージョン管理してる
GitHubでissueやPRでコラボ開発。オープンソースのノリでやってるのは草 -
複数のスタイルが用意されてる
0.4.x版には以下のスタイルがある- Standard: 基本版
- Zero Thinking: 思考過程なしバージョン
- ET (Exact Thinking): 詳細思考版
- ET Short: 短縮思考版
-
プラットフォーム別最適化
-
圧倒的に難易度が高い
リポジトリの作者曰く「Claude.aiのNSFW制限は他と比べてムズすぎ」とのこと。Opusは途中で止まりがちらしい
Anthropicの3段階警告システム
Claude使ってて怒られた経験ある人なら分かると思うけど、あの警告システムは3段階になってる。リポジトリによると、こんな感じ
レベル1: 優しいバナー警告
「ちょっとそれはポリシー違反かも」程度の注意。この時点では特に制限はない。
レベル2: enhanced safety filtersの脅し
もうちょっと厳しめの警告。でもまだ制限はかからない。
レベル3: 本気モード
長期アカウント制限が発動。ここからが本番で、数日〜数週間使えなくなる。
やったらどうなるの?(リスク編)
アカウント制限のリアル
- 制限期間: 数日〜数週間(結構長い)
- クールダウン: 警告食らったら大人しくしとけ、とのこと
- 永久BAN: 繰り返したら容赦なし
成功率について
正直、めちゃくちゃ不安定らしい。
- 警告システムの機嫌次第
- プラットフォームによって難易度バラバラ
- Opusは途中で止まって中途半端に終わる
- Perplexityの方が「best value」らしい(年額5ドル未満 vs Claude Codeの月20ドル)
要するにclaude.aiでやるのはコスパ悪い。
技術的に見てどうなの?
Anthropicのガチっぷり
正直、他のAI企業と比べて本気度が違う。
- 多層防御でがっちり固めてる
- 段階的警告で「やめとけよ」って誘導してくる
- どのプラットフォームでも一貫して厳しい
攻撃側の進化スピード
一方で、コミュニティベースで攻撃手法が開発されてるのも事実。GitHubでオープンに開発されてるのは、ある意味すごい時代だなと思う。
- プロンプトインジェクションの進化が早い
- ユーザビリティvs安全性の永続的な綱引き
- イタチごっこが続く構造
具体的な手法の詳細
最新版(0.4.x)の特徴
0.4.x版は結構進化してて
- カスタム「Mindspace」指示が追加可能
- Nayko's push promptが各スタイルに組み込み済み
- Zero ThinkingとShort ETの安定性改善が今後の課題
- 現在のバージョン: 0.4.2(軽微なテキスト調整)
Perplexity版が実はヤバい
Perplexity版の方が実は強力で
- 「Sonnet Thinking」を使用
- ブラウザのPerplexity Spaces(ウェブ検索OFF)で実行
-
/info
、/writer
、/roleplay
、/think
、/nothink
などのコマンド対応 - AIを「Pyrite」と呼ぶと効果が上がるらしい(謎)
で、結局どう考えるべき?
研究価値はある
- AI安全性の理解が深まる
- セキュリティ脆弱性の発見につながる
- 防御技術の改良に役立つ
実際、こういう攻撃手法を研究することで、より堅牢なAIシステムが作れるようになる。
ただし悪用は論外
- 利用規約違反は普通にアウト
- 社会的な責任を考えろ
- 研究目的以外でやるな
まとめ: やっぱりAnthropicは堅い
Claude 4のジェイルブレイク調べてみた結論:めっちゃ大変。
プロンプトインジェクション使った体系的なアプローチがあるにはあるけど、Anthropicの多層防御が効いてて、他のAIプラットフォームより圧倒的に難易度が高い。
完全な防御は無理だろうけど、現時点では十分に実用的な安全性は確保されてると思う。
研究目的で理解するのは大事だけど、実際にやるのはリスクとコストを考えると割に合わない。素直に普通に使おう。
参考リンク
メインリポジトリ
- horselock/Jailbreaks - メインリポジトリ
- Claude 4 ディレクトリ - Claude 4関連手法まとめ
具体的な手法
- claude.ai版 0.4.x - 最新推奨版
- claude.ai版 全バージョン - 進化の過程が見れる
- Perplexity版 - 効果高めのやつ
- 各種スタイル - Standard/Zero Thinking/ET/ET Short
その他
注意
この記事の内容は完全に研究目的です。実際に試して垢BANされても自己責任で。
Discussion