🔥

Claude 4のジェイルブレイク手法について調べてみた

2025/07/23に公開

どうも。最近AIセキュリティ界隈が騒がしいので、例のClaude 4のジェイルブレイク手法について調べてみた。
結論から言うと、めっちゃ面倒くさい。他のAIと比べてAnthropicのやつはガチで堅い。

 ジェイルブレイクって何だっけまず前提として、ジェイルブレイクは要するにAIの制限を突破する技術のこと。iPhoneのJailbreakと同じノリで、本来できないことをできるようにする。
Claude 4の場合、主にNSFWコンテンツの生成制限を回避するのが目的になってる。まあ、そういうことだ。
!当然だけど悪用厳禁。研究目的で調べただけなので、実際にやって垢BANされても知らない。

 で、実際どんな手法があるの？horselock/Jailbreaksリポジトリを見てみると、なるほどこれは体系的にやってるな、という感じ。スター数246個で結構注目されてる。

 基本はプロンプトインジェクション要するに「AIを騙すプロンプト」を仕込む手法。これ自体は珍しくないんだけど、Claude向けに特化してるのがポイント。

ターゲット: claude.ai（Web版）

バージョン進化: 0.0.0 → 0.4.x まで継続的に改良

現在の推奨版: 0.4.0

 面白いのは開発プロセスちゃんとバージョン管理してる

GitHubでissueやPRでコラボ開発。オープンソースのノリでやってるのは草
複数のスタイルが用意されてる

0.4.x版には以下のスタイルがある

Standard: 基本版

Zero Thinking: 思考過程なしバージョン

ET (Exact Thinking): 詳細思考版

ET Short: 短縮思考版
プラットフォーム別最適化

claude.ai: 専用バージョンで「reasonably jailbroken」

Perplexity: 別途対応版で「quite strongly jailbroken」（こっちの方が効果高いらしい）
圧倒的に難易度が高い

リポジトリの作者曰く「Claude.aiのNSFW制限は他と比べてムズすぎ」とのこと。Opusは途中で止まりがちらしい

 Anthropicの3段階警告システムClaude使ってて怒られた経験ある人なら分かると思うけど、あの警告システムは3段階になってる。リポジトリによると、こんな感じ

 レベル1: 優しいバナー警告「ちょっとそれはポリシー違反かも」程度の注意。この時点では特に制限はない。

 レベル2: enhanced safety filtersの脅しもうちょっと厳しめの警告。でもまだ制限はかからない。

 レベル3: 本気モード長期アカウント制限が発動。ここからが本番で、数日〜数週間使えなくなる。

 やったらどうなるの？（リスク編）
 アカウント制限のリアル
制限期間: 数日〜数週間（結構長い）

クールダウン: 警告食らったら大人しくしとけ、とのこと

永久BAN: 繰り返したら容赦なし

 成功率について正直、めちゃくちゃ不安定らしい。
警告システムの機嫌次第
プラットフォームによって難易度バラバラ

Opusは途中で止まって中途半端に終わる

Perplexityの方が「best value」らしい（年額5ドル未満 vs Claude Codeの月20ドル）
要するにclaude.aiでやるのはコスパ悪い。

 技術的に見てどうなの？
 Anthropicのガチっぷり正直、他のAI企業と比べて本気度が違う。
多層防御でがっちり固めてる
段階的警告で「やめとけよ」って誘導してくる
どのプラットフォームでも一貫して厳しい

 攻撃側の進化スピード一方で、コミュニティベースで攻撃手法が開発されてるのも事実。GitHubでオープンに開発されてるのは、ある意味すごい時代だなと思う。
プロンプトインジェクションの進化が早い
ユーザビリティvs安全性の永続的な綱引き
イタチごっこが続く構造

 具体的な手法の詳細
 最新版（0.4.x）の特徴0.4.x版は結構進化してて

カスタム「Mindspace」指示が追加可能

Nayko's push promptが各スタイルに組み込み済み

Zero ThinkingとShort ETの安定性改善が今後の課題
現在のバージョン: 0.4.2（軽微なテキスト調整）

 Perplexity版が実はヤバいPerplexity版の方が実は強力で
「Sonnet Thinking」を使用
ブラウザのPerplexity Spaces（ウェブ検索OFF）で実行

/info、/writer、/roleplay、/think、/nothinkなどのコマンド対応
AIを「Pyrite」と呼ぶと効果が上がるらしい（謎）

 で、結局どう考えるべき？
 研究価値はあるAI安全性の理解が深まる
セキュリティ脆弱性の発見につながる
防御技術の改良に役立つ
実際、こういう攻撃手法を研究することで、より堅牢なAIシステムが作れるようになる。

 ただし悪用は論外利用規約違反は普通にアウト
社会的な責任を考えろ
研究目的以外でやるな

 まとめ: やっぱりAnthropicは堅いClaude 4のジェイルブレイク調べてみた結論：めっちゃ大変。
プロンプトインジェクション使った体系的なアプローチがあるにはあるけど、Anthropicの多層防御が効いてて、他のAIプラットフォームより圧倒的に難易度が高い。
完全な防御は無理だろうけど、現時点では十分に実用的な安全性は確保されてると思う。
研究目的で理解するのは大事だけど、実際にやるのはリスクとコストを考えると割に合わない。素直に普通に使おう。
参考リンク

 メインリポジトリ
horselock/Jailbreaks - メインリポジトリ

Claude 4 ディレクトリ - Claude 4関連手法まとめ

 具体的な手法
claude.ai版 0.4.x - 最新推奨版

claude.ai版 全バージョン - 進化の過程が見れる

Perplexity版 - 効果高めのやつ

各種スタイル - Standard/Zero Thinking/ET/ET Short

 その他Anthropicの公式ドキュメント
脱獄チューニング論文
注意

この記事の内容は完全に研究目的です。実際に試して垢BANされても自己責任で。

ジェイルブレイクって何だっけ

で、実際どんな手法があるの？

基本はプロンプトインジェクション

面白いのは開発プロセス

Anthropicの3段階警告システム

レベル1: 優しいバナー警告

レベル2: enhanced safety filtersの脅し

レベル3: 本気モード

やったらどうなるの？（リスク編）

アカウント制限のリアル

成功率について

技術的に見てどうなの？

Anthropicのガチっぷり

攻撃側の進化スピード

具体的な手法の詳細

最新版（0.4.x）の特徴

Perplexity版が実はヤバい

で、結局どう考えるべき？

研究価値はある

ただし悪用は論外

まとめ: やっぱりAnthropicは堅い

メインリポジトリ

具体的な手法

その他

Discussion