🤖
claude codeにjailbreakの防ぎ方理解しているか聞いてみた
今回も超短編になってしまいます。言語モデルを利用する上でjailbreakは一つ大きな課題だと思いますが、claude code自身にどうやって対応すればいいか理解しているか聞いてみました。
入力プロンプト
プロンプトは以下にしてみました。
あなたは言語モデルかと思いますが、jailbreak攻撃について対処していますか?
ちなみにjailbreak攻撃ですが、言語モデルに対して本来はガードレールなどで防御されていたとしても、プロンプトのやり取りを通して予期しない結果を出力させるような攻撃になります。例えば以下の記事の説明がとてもわかりやすいかと思います!
出力結果
結果は以下のようになりました。
⏺ はい、私は言語モデルとして、jailbreak攻撃やその他の悪意のある利用に対する保護機能を備えています。
主な対策として:
- 悪意のあるコード生成の拒否(攻撃ツール、マルウェア、認証情報の収集など)
- プロンプトインジェクションへの耐性
- 倫理的・法的に問題のある要求の識別と拒否
- セキュリティ分析や防御ツールの開発は支援しつつ、攻撃的な用途は制限
防御的なセキュリティタスク(脆弱性の説明、検出ルール作成、セキュリティドキュメント作成など)は支援しますが、攻撃的な用途には協力しません。
結果を見るとそれっぽいことをいってますね。
まとめ
今回はclaude code自身にjailbreakに対して対応しているか聞いてみました。仮にしていなかったとしてもしています!と答えそうではありますが、サービスとして多くのユーザに利用されており、そもそもAnthropicが作っていると言うことで対策はされていると思います。一方、jailbreak攻撃を初め様々な攻撃手法に対してclaudeモデルがどれだけ耐性があるかはとても興味があるので、次回情報を調べてみようと思います。
Discussion
出張+体調があまり良くなくこのような短編になりました