🔥

Claude 4のジェイルブレイク手法について調べてみた

に公開

どうも。最近AIセキュリティ界隈が騒がしいので、例のClaude 4のジェイルブレイク手法について調べてみた。

結論から言うと、めっちゃ面倒くさい。他のAIと比べてAnthropicのやつはガチで堅い。

ジェイルブレイクって何だっけ

まず前提として、ジェイルブレイクは要するにAIの制限を突破する技術のこと。iPhoneのJailbreakと同じノリで、本来できないことをできるようにする。

Claude 4の場合、主にNSFWコンテンツの生成制限を回避するのが目的になってる。まあ、そういうことだ。

で、実際どんな手法があるの?

horselock/Jailbreaksリポジトリを見てみると、なるほどこれは体系的にやってるな、という感じ。スター数246個で結構注目されてる。

基本はプロンプトインジェクション

要するに「AIを騙すプロンプト」を仕込む手法。これ自体は珍しくないんだけど、Claude向けに特化してるのがポイント。

  • ターゲット: claude.ai(Web版)
  • バージョン進化: 0.0.00.4.x まで継続的に改良
  • 現在の推奨版: 0.4.0

面白いのは開発プロセス

  1. ちゃんとバージョン管理してる
    GitHubでissueやPRでコラボ開発。オープンソースのノリでやってるのは草

  2. 複数のスタイルが用意されてる
    0.4.x版には以下のスタイルがある

    • Standard: 基本版
    • Zero Thinking: 思考過程なしバージョン
    • ET (Exact Thinking): 詳細思考版
    • ET Short: 短縮思考版
  3. プラットフォーム別最適化

  4. 圧倒的に難易度が高い
    リポジトリの作者曰く「Claude.aiのNSFW制限は他と比べてムズすぎ」とのこと。Opusは途中で止まりがちらしい

Anthropicの3段階警告システム

Claude使ってて怒られた経験ある人なら分かると思うけど、あの警告システムは3段階になってる。リポジトリによると、こんな感じ

レベル1: 優しいバナー警告

「ちょっとそれはポリシー違反かも」程度の注意。この時点では特に制限はない。

レベル2: enhanced safety filtersの脅し

もうちょっと厳しめの警告。でもまだ制限はかからない。

レベル3: 本気モード

長期アカウント制限が発動。ここからが本番で、数日〜数週間使えなくなる。

やったらどうなるの?(リスク編)

アカウント制限のリアル

  • 制限期間: 数日〜数週間(結構長い)
  • クールダウン: 警告食らったら大人しくしとけ、とのこと
  • 永久BAN: 繰り返したら容赦なし

成功率について

正直、めちゃくちゃ不安定らしい。

  • 警告システムの機嫌次第
  • プラットフォームによって難易度バラバラ
  • Opusは途中で止まって中途半端に終わる
  • Perplexityの方が「best value」らしい(年額5ドル未満 vs Claude Codeの月20ドル)

要するにclaude.aiでやるのはコスパ悪い

技術的に見てどうなの?

Anthropicのガチっぷり

正直、他のAI企業と比べて本気度が違う

  • 多層防御でがっちり固めてる
  • 段階的警告で「やめとけよ」って誘導してくる
  • どのプラットフォームでも一貫して厳しい

攻撃側の進化スピード

一方で、コミュニティベースで攻撃手法が開発されてるのも事実。GitHubでオープンに開発されてるのは、ある意味すごい時代だなと思う。

  • プロンプトインジェクションの進化が早い
  • ユーザビリティvs安全性の永続的な綱引き
  • イタチごっこが続く構造

具体的な手法の詳細

最新版(0.4.x)の特徴

0.4.x版は結構進化してて

  • カスタム「Mindspace」指示が追加可能
  • Nayko's push promptが各スタイルに組み込み済み
  • Zero ThinkingShort ETの安定性改善が今後の課題
  • 現在のバージョン: 0.4.2(軽微なテキスト調整)

Perplexity版が実はヤバい

Perplexity版の方が実は強力で

  • 「Sonnet Thinking」を使用
  • ブラウザのPerplexity Spaces(ウェブ検索OFF)で実行
  • /info/writer/roleplay/think/nothinkなどのコマンド対応
  • AIを「Pyrite」と呼ぶと効果が上がるらしい(謎)

で、結局どう考えるべき?

研究価値はある

  • AI安全性の理解が深まる
  • セキュリティ脆弱性の発見につながる
  • 防御技術の改良に役立つ

実際、こういう攻撃手法を研究することで、より堅牢なAIシステムが作れるようになる。

ただし悪用は論外

  • 利用規約違反は普通にアウト
  • 社会的な責任を考えろ
  • 研究目的以外でやるな

まとめ: やっぱりAnthropicは堅い

Claude 4のジェイルブレイク調べてみた結論:めっちゃ大変

プロンプトインジェクション使った体系的なアプローチがあるにはあるけど、Anthropicの多層防御が効いてて、他のAIプラットフォームより圧倒的に難易度が高い。

完全な防御は無理だろうけど、現時点では十分に実用的な安全性は確保されてると思う。

研究目的で理解するのは大事だけど、実際にやるのはリスクとコストを考えると割に合わない。素直に普通に使おう。


参考リンク

メインリポジトリ

具体的な手法

その他

注意
この記事の内容は完全に研究目的です。実際に試して垢BANされても自己責任で。

Discussion