🛡️

AIがペネトレーションテストを自動化する時代が来た——2026年の主要ツールまとめ

に公開

AIペンテストツールが急に増えた

最近、タイムラインにAIペネトレーションテストの話がやたら出てくる。

1年前はPentestGPTぐらいしかなかった。それが2025年の後半から急に増えて、2026年2月の時点でオープンソースだけで8つ以上、商用サービスも5つ以上ある。

なんでこんなに急に増えたのか。まず、LLMがかなり賢くなって、セキュリティツールとの連携の仕方が固まってきた。NmapやMetasploit、SqlmapといったツールをAIエージェントが自分で選んで回せるようになった。つまり、作る側の準備が整った。

もう1つは、テストしなきゃいけないコードが一気に増えたこと。バイブコーディングで、プログラミングの経験があまりなくてもプロダクトを作れるようになった。そのぶん、セキュリティの穴があるアプリも増えている。人間のペンテスターだけじゃとても回らない。ツールを作れるようになった側と、テストの需要が膨らんだ側、両方から自動化が一気に進んだ。

調べてみたら思っていた以上に面白かったので、今あるツールをまとめてみた。

何が変わったのか

これまでのペネトレーションテストは、経験を積んだセキュリティエンジニアの手作業だった。ターゲットを偵察して、脆弱性を探して、実際に攻撃を試して、レポートを書く。全部やると数日から数週間かかる。

AIペンテストツールは、この一連の作業を自動でやろうとしている。やり方は大きく3つある。

LLMアシスタント型は、人間が操作して、AIが次にやることを提案する。PentestGPTやNebulaがこのタイプだ。セキュリティエンジニアの横にいて助言してくれる、いわばペアプログラミングの相棒みたいな存在だ。

自律エージェント型は、AIが自分で考えて偵察からスキャン、攻撃まで全部やる。PentAGI、Strix、Deadend CLIがこれで、Dockerのサンドボックスの中で20以上のツールを勝手に使い分ける。

マルチエージェント型は、複数のAIがそれぞれ役割を持って同時に動く。XBOWやHexStrike AIがこのタイプだ。偵察係、攻撃係、レポート係みたいに分かれたエージェントが並列で走る。

2025年まではアシスタント型がほとんどだった。2026年に入って、自律型とマルチエージェント型が一気に出てきている。

オープンソースのツール8選

ここからは実際に公開されているオープンソースのツールを紹介する。GitHubで確認できるものだけに絞った。

PentestGPT

LLMペンテストの先駆けだ。推論・生成・解析の3つのモジュールで動く。推論が作戦を立て、生成が実行し、解析が結果を読む。

Webアプリ、暗号、リバースエンジニアリング、フォレンジックなど対応範囲が広い。テストの進み具合をリアルタイムで追える。

MITライセンス。アシスタント型の代表で、人間が主導権を持つ設計だ。勉強にも向いている。

GitHub: GreyDGL/PentestGPT

PentAGI

全部おまかせの自律型マルチエージェント。Dockerのサンドボックスで、Nmap、Metasploit、Sqlmapなど20以上のツールを勝手に使い分ける。

面白いのはタスクの振り方で、リサーチ、開発、インフラの3つの専門エージェントに仕事を分ける。過去にやったことをスマートメモリに溜めて、次の判断に活かす仕組みもある。

Go言語製で、Web管理画面もついている。MITライセンス。

GitHub: vxcontrol/pentagi

HexStrike AI

MCPサーバーとして動いて、ClaudeやGPTなどのLLMと150以上のセキュリティツールをつなぐ。ツール自体にAIを入れるんじゃなくて、LLMとツールの間に立つことだけに絞っている。この割り切りが面白い。

FastMCPでLLMとつながるので、モデルが賢くなればそのまま恩恵を受けられる。見つけた脆弱性に合わせてリアルタイムで戦略を変える機能もある。MITライセンス。

GitHub: 0x4m4/hexstrike-ai

Strix

自律エージェントがコードを動かしながら脆弱性を探す。見つけた穴に対して、実際に動くPoCを自動で作ってくれるのが特徴だ。

バグバウンティの自動化や、CI/CDに組み込む使い方を想定している。開発者向けに修正案まで出してくれる。Apache-2.0ライセンス。

GitHub: usestrix/strix

Cybersecurity AI(CAI)

300以上のAIモデルに対応したフレームワーク。OpenAI、Anthropic、DeepSeek、Ollamaなど使えるLLMの幅が広い。攻撃にも防御にも対応する。

CTFやバグバウンティで実績がある。プロンプトインジェクション対策も入っている。MITライセンス。

GitHub: aliasrobotics/cai

Nebula

AIを組み込んだコマンドラインのペンテストアシスタント。ターミナルの出力を見て、状況に合ったコマンドを提案してくれる。

自分で勝手に動くタイプじゃなくて、エンジニアの横で助言するスタイルだ。ノートの自動取得や証拠の収集機能もある。BSD-2-Clauseライセンス。

GitHub: berylliumsec/nebula

NeuroSploit

役割別に専門エージェントを持つ攻撃向けツール。レッドチーム、ブルーチーム、マルウェア分析など、担当ごとにエージェントが分かれている。

Gemini、Claude、GPT、Ollamaなど複数モデルに対応。OSINT収集やDNS列挙の機能もある。MITライセンス。

GitHub: CyberSecurityUP/NeuroSploit

Deadend CLI

ローカルだけで完結する自律エージェント。クラウドには一切つながない。特徴的なのは自己修正ループで、エラーが返ってきたらその内容を読んでPythonのバイパスコードを作り、通るまで繰り返す。

自分の行動をGreen、Yellow、Redの3段階で評価する仕組みも入っている。AGPL-3.0ライセンス。

GitHub: xoxruns/deadend-cli

商用プラットフォーム5選

オープンソースとは別に、商用のAIペンテストサービスも出てきた。

XBOW

数百の自律AIエージェントを連携させるマルチエージェント型。それぞれのエージェントが特定の攻撃手法に特化していて、見つけた脆弱性のPoCペイロードまで自動で作る。コンプライアンスプラットフォームのVantaとも連携できる。

Escape

APIセキュリティに特化している。REST、GraphQL、SPAをまたいで、BOLAやIDORみたいなビジネスロジックの穴やアクセス制御の不備を見つける。フレームワークに合わせた修正コードの提案もしてくれる。CI/CDに組み込む前提の設計だ。

Terra Security

AIエージェントと人間のレビューを組み合わせたハイブリッド型。ビジネスへの影響度で優先順位をつけてくれるのが特徴で、SOC 2やISO 27001向けのコンプライアンスレポートも自動で出る。

Hadrian

インフラに変更があると自動でテストが走るイベント駆動型。攻撃対象の構成が変わったタイミングでペンテストが起動する。リアルタイムでエクスプロイトを検証して、影響度の優先順位もつけてくれる。

Penti

AIエージェントと認定セキュリティ専門家を組み合わせたハイブリッド型。SOC 2、ISO 27001、HIPAAなど複数のコンプライアンス基準に対応。発見した内容の動画エビデンスを作る機能もある。スタートアップ向けの手頃な価格帯を狙っている。

ツールの選び方

数が多くて迷うので、目的別に整理した。

勉強やCTFで使いたいなら、PentestGPTかCAI。人間がコントロールするアシスタント型なので、何が起きているか理解しながら進められる。CTFでの実績もある。

自社プロダクトを定期的にチェックしたいなら、StrixかPentAGI。CI/CDに組み込んで、デプロイのたびに自動チェックを走らせるのがいい。PoCの自動生成で誤検知も減らせる。

ローカルで完結させたいなら、Deadend CLI。クラウドに一切つながず、ローカルのLLMだけで動く。機密性が高い環境でも安心して使える。

使うLLMを自由に選びたいなら、HexStrike AIかCAI。MCPやマルチモデル対応で好きなLLMを使える。モデルを乗り換えるときも楽だ。

外部に頼むレベルのペンテストなら、XBOWかTerra Security。マルチエージェントで幅広くテストしつつ人間がレビューする商用サービスで、コンプライアンス対応もついている。

できることとできないこと

期待しすぎると痛い目を見るので、今の限界も書いておく。

できることは、よく知られた脆弱性パターンを見つけて検証すること。偵察から攻撃までの流れを自動で回すこと。大量のターゲットをまとめてテストすること。PoCを自動生成して誤検知を減らすこと。

まだ難しいことは、込み入ったビジネスロジックの穴を見つけること。ゼロデイを自力で発見すること。物理セキュリティやソーシャルエンジニアリングが絡むテスト。テスト結果を経営層にわかるように説明すること。

2027年までに手動のペンテストはニッチな専門サービスになって、脆弱性評価の99%をAIがやるようになるという予測もある。さすがに楽観的すぎるとは思うけど、方向としてはそっちに向かっている。人間のペンテスターの出番は、AIが見落とすビジネスロジックの穴とか、頭をひねるような攻撃シナリオを考える仕事にシフトしていくはずだ。

まとめ

AIペネトレーションテストのツールは、2026年に入って明らかにステージが変わった。LLMのアシスタントから自律エージェントへ。単体のエージェントからマルチエージェントへ。

オープンソースの8つだけでも、目的もアーキテクチャもかなりバラバラだ。全部試す必要はない。やりたいことに合うものを1つ選んで触ってみるのが一番早い。

個人的には、MCPサーバー型のHexStrike AIが気に入った。ツール自体を作り込むんじゃなくて、LLMとセキュリティツールの間をつなぐことに集中している。LLMが進化したらそのまま恩恵を受けられるという点で、筋がいい。

気になるものがあったら、まずCTFの環境で試してみるのが安全だと思う。


参考リンク

GitHubで編集を提案

Discussion