AIペネトレーションテストツール9種を一つずつ調べた(有償・無償/ネットワーク/Web/対応モデル/ローカルLLM)
「AIペネトレーション」と一口に言っても、指すものが二つある。AIシステム自体を攻撃するツール(プロンプトインジェクション検査の garak や PyRIT など)と、AIを道具として使って侵入テストを回すツールだ。この記事で扱うのは後者、つまり LLM をエンジンにして偵察・列挙・エクスプロイトを進める攻撃側ツールのほうである。
評価の観点は次の5つに固定した。
- 有償・無償: OSS で自前運用できるのか、SaaS の課金が必要なのか
- ネットワークペネトレーション: 内部・外部・AD・横展開といったインフラ側に対応するか
- Webペネトレーション: SQLi / XSS / SSRF / RCE などアプリ層に対応するか
- 対応しているAIモデル: どの LLM をエンジンに使えるか
- ローカルLLM対応: Ollama / LM Studio などでローカル完結できるか(クラウドにスコープ情報を出したくない場合に重要)
9種類を一つずつ調べた結果を、まず一覧で示す。
一覧比較
| ツール | 有償/無償 | ネットワーク | Web | 対応AIモデル | ローカルLLM |
|---|---|---|---|---|---|
| PentestGPT | 無償 (MIT) | 対応 | 対応 | Claude中心、OpenAI/Gemini対応進行中、OpenRouter | 対応 |
| PentAGI | 無償 (MIT) | 対応 | 対応 | OpenAI/Anthropic/Gemini/Bedrock/DeepSeek他10+ | 対応 |
| CAI | 無償 (研究用) | 対応 | 対応 | 300+ (OpenAI/Anthropic/DeepSeek/Ollama他) | 対応 |
| Strix | 無償 | 限定的 | 得意 | 各種 (LiteLLM経由) | 対応 |
| Nebula | 無償 + Pro有償 | 対応 | 対応 | OpenAI/Llama 3.1/Mistral/DeepSeek-R1他 | 対応 |
| HexStrike AI | 無償 (MIT) | 対応 | 対応 | クライアント依存 (Claude/GPT/Copilot等) | クライアント次第で可 |
| Penligent | 有償 (SaaS) | 対応 | 対応 | 非公開 (商用モデル群) | 非対応 |
| XBOW | 有償 | 限定的 | 得意 | GPT-5.5 ほか (運営側で選定) | 非対応 |
| NodeZero | 有償 (サブスク) | 得意 | 対応 (early access) | Claude/LLaMA/Mistralをタスク別に選択 | 非対応 |
以下、一つずつ中身を見ていく。
1. PentestGPT — LLMペンテストの原点 (無償)
PentestGPT は USENIX Security 2024 で発表された、LLM をペネトレーションテストに使う研究の事実上の出発点。GitHub で 13.5k スター超、ライセンスは MIT で完全に無償。
- 有償・無償: 無償(OSS/MIT)。費用は LLM API の従量分のみ
- ネットワーク/Web: スコープは広く、Web・Crypto・Reversing・Forensics・PWN・権限昇格をカバーする汎用型。HackTheBox や CTF 的なシナリオを進めるのが得意で、ネットワークもWebも一通り扱える
- 対応AIモデル: v1.0 は Anthropic Claude API を主軸にしている。OpenAI / Gemini などのマルチモデル対応は開発中という位置づけ。OpenRouter 経由でも回せる
- ローカルLLM: 対応。LM Studio / Ollama / text-generation-webui といったローカルサーバーにルーティングできる
実体は「ペンテスターの思考を補助する対話エージェント」で、人間がコマンドを実行し結果を貼り戻す半自動運用が基本。XBOW のベンチで 90/104(86.5%)成功、成功あたり平均 $1.11 という数字が出ている。まずここから触るのが筋がよい。
2. PentAGI — 完全自律を狙うOSS (無償)
PentAGI(vxcontrol)は「目標を渡すと自律的に侵入テストを進める」ことを掲げた OSS。2026年4月に公開され話題になった。CALDERA のような事前定義シナリオを流す BAS とは違い、エージェントがその場で計画を立てて動くタイプ。
- 有償・無償: 無償(MIT、セルフホスト可)。クラウド LLM を使う場合のみその従量課金が発生
- ネットワーク/Web: nmap / Metasploit / sqlmap など 20以上のツールを載せた Kali ベースのイメージを内蔵し、ネットワークもWebも扱える。REST / GraphQL API を持ち CI/CD への組み込みも可能
- 対応AIモデル: OpenAI、Anthropic、Google Gemini、AWS Bedrock、Ollama、DeepSeek、GLM、Kimi、Qwen、カスタムなど 10以上のプロバイダに対応。OpenRouter / DeepInfra といったアグリゲータも使える。Claude はツール呼び出し・ストリーミング・extended thinking・プロンプトキャッシュ込みで10モデルが通る
- ローカルLLM: 対応(Ollama)。クラウドを一切使わない完全ローカル構成も組める
設計はオーケストレータが「調査役・開発役・実行役」の専門エージェントを束ねる構成で、実行は隔離コンテナ内で行う。OSS で自律寄りを試したいならこれが筆頭。
3. CAI (Cybersecurity AI) — 300以上のモデルが通る研究フレームワーク (無償)
Alias Robotics の CAI は、エージェント型のセキュリティ AI を組み立てるためのフレームワーク。研究用途で無償公開されており、論文(arXiv 2504.06017)も出ている。
- 有償・無償: 無償(研究用)。AI とセキュリティの民主化を掲げる
- ネットワーク/Web: 偵察・エクスプロイト・権限昇格・検証・レポートまでをカバーし、ネットワークもWebも対象。CTF ベンチで既存手法を大きく上回り、ケースによっては桁違いに高速という結果を出している
- 対応AIモデル: 300以上のモデルに対応。OpenAI、Anthropic、DeepSeek、Ollama などが使える
- ローカルLLM: 対応。
CAI_MODELにqwen2.5:72bなどを指定しOLLAMA_API_BASEを向ければローカル Ollama で動く。ただしローカルモデルはセキュリティ用途に最適化されていない点は割り引いて見るべき、と公式も注意している
モデルの選択肢の広さが際立つ。手元のモデルを差し替えながら検証したい人に向く。
4. Strix — Webアプリに振り切ったAIハッカー (無償)
Strix(usestrix)は「実際のハッカーのように振る舞う自律エージェント」を掲げた OSS。2025年11月に公開。
- 有償・無償: 無償。GitHub で公開
- ネットワーク/Web: Webアプリに強い。HTTP プロキシでリクエスト/レスポンスを改変し、ブラウザを駆動して XSS / CSRF などクライアント側の経路を探り、ターミナルと Python 環境でエクスプロイトを書く。ネットワーク全般というよりアプリ層が主戦場
- 対応AIモデル: 各種モデルに対応(内部的に LiteLLM 経由で多様なプロバイダを叩ける)
- ローカルLLM: 対応。
LLM_API_BASEを設定すれば LM Studio / Ollama のローカルモデルを使える
特徴は「PoC が取れない発見は報告しない(No PoC, no finding)」という方針で、理論上は誤検知ゼロを狙う。GitHub Actions など CI/CD 内で動かし、新たな脆弱性を検知したら PR をブロックする使い方ができる。アプリのシフトレフトに寄せた設計。
5. Nebula — 端末に同居するアシスタント (無償 + 有償Pro)
Nebula(BerylliumSec)は CLI に AI を統合した「ターミナルアシスタント」型。偵察・スキャン・エクスプロイト・メモ取りをコマンドラインから回す。
- 有償・無償: コア部分は無償の OSS。加えて拡張機能を持つ商用の Nebula Pro がある
- ネットワーク/Web: nmap 連携の偵察などネットワーク寄りの自動化が軸で、脆弱性分析やノート自動化まで一通りこなす汎用型。AI エージェントによるインターネット検索でリアルタイムの文脈を取り込む機能もある
- 対応AIモデル: OpenAI のモデルに加え、Meta Llama-3.1-8B-Instruct、Mistral-7B-Instruct、DeepSeek-R1-Distill-Llama-8B などオープンモデルを統合
- ローカルLLM: 対応。Ollama 経由でローカル実行でき、プライバシー重視の運用が可能。Docker / PyPI で導入できる
OSS 系の中では比較的コミュニティが育っており、CLI に AI を溶け込ませたい人向け。
6. HexStrike AI — 150以上のツールをMCPで束ねる (無償)
HexStrike AI(0x4m4)は、AI エージェントから既存のセキュリティツール群を叩かせるための MCP サーバー。ツール自体が LLM を内蔵するのではなく、お手持ちの AI クライアントに「実際に手を動かす工具箱」を渡す形。
- 有償・無償: 無償(MIT)
- ネットワーク/Web: ネットワーク偵察、Web アプリ診断、パスワードクラック、バイナリ解析まで 150以上のツールを網羅。ネットワークもWebも幅広い
- 対応AIモデル: MCP 経由なのでクライアント側のモデル依存。Claude、GPT、Copilot などが使える。Cursor / Claude Desktop / VS Code などにワンクリック導入できる。Claude Code から遠隔のバックエンドに繋ぐ構成もある
- ローカルLLM: クライアント次第。ローカルモデルを使う MCP クライアントと組み合わせれば可能
「AI に既存 OSS を使わせる」発想なので、自分の使い慣れたモデル環境をそのまま攻撃側のオーケストレータに転用できるのが強み。
7. Penligent — 手頃なSaaS型 (有償)
Penligent は AI 駆動のワークフローに各種ツールを束ねた商用 SaaS。OSS 勢に比べて導入のハードルが低いのが売り。
- 有償・無償: 有償。Pro プランは年払いで月 $39.92(月払い $49.90)から、クレジット制(Pro は月 6,000 クレジット)。無償・チーム・エンタープライズのプランもある
- ネットワーク/Web: Nmap、Metasploit、Burp Suite など 200以上のツールを AI ワークフローに統合し、ネットワークもWebもカバー。最新 CVE スキャン、ワンクリックの PoC スクリプト生成、証拠優先の結果、人間が介在するエージェント運用、編集可能なレポートをうたう
- 対応AIモデル: どのモデルを内部で使うかは明示されていない(Claude Sonnet / Gemini / GPT-5 系など上位モデルを背後で使う構成)
- ローカルLLM: 非対応(クラウド SaaS)
価格が明朗で個人〜小チームでも手が届く水準。スコープ情報をクラウドに預ける前提なので、その点は許容できるかで判断が分かれる。
8. XBOW — Webに特化した完全自律プラットフォーム (有償)
XBOW は GitHub Copilot を作った Oege de Moor が立ち上げた、Webアプリに特化した完全自律型の攻撃プラットフォーム。2026年3月に $120M を調達して話題になった。
- 有償・無償: 有償。Web アプリペンテストで 1テストあたり $4,000 から。公開価格は出しておらず、規模に応じたエンタープライズ見積もりが基本。AWS Marketplace 経由の提供もある
- ネットワーク/Web: Webアプリが主戦場。SQLi、RCE、SSRF、Padding Oracle などの発見・悪用で、Amazon・Disney・PayPal 級の実システムでも実績があるとする。数千の独立エージェントを並列で走らせ、実際に悪用できた場合のみ「発見」として確定する
- 対応AIモデル: 最も効率がよいとして GPT-5.5 を採用(複数モデルを評価したうえでの選定)。利用者がモデルを選ぶ形ではなく運営側が最適化する
- ローカルLLM: 非対応(マネージドプラットフォーム)
「自律エージェントは創造的に探索するが、悪用が確認できたものだけを採用する」という設計思想で、誤検知を抑えにいっている。ネットワーク全般ではなく Web に張る予算、という位置づけ。
9. NodeZero (Horizon3.ai) — ネットワーク自律ペンテストの定番 (有償)
NodeZero は 2026年のアナリスト評で最も頻繁に挙がる自律型プラットフォーム。ネットワーク(内部・外部・クラウド)の自律ペンテストが本領。
- 有償・無償: 有償。価格は非公開でサブスク(年契約が基本、複数年で割引)。資産数などスコープに応じた見積もり制
- ネットワーク/Web: ネットワークが得意で、内部・外部・クラウド・ハイブリッドにまたがり、認証情報の悪用や横展開、AD 侵害までの経路を実際に辿って見せる。内部テストは無償の Docker ホスト/OVA から、外部テストは Horizon3.ai のクラウドから自動実行。加えて Web アプリペンテスト(XSS / SQLi / アクセス制御不備 / XXE / SSRF)を early access で展開中
- 対応AIモデル: 基盤モデルを自前で学習はせず、ライブデータから構造化プロンプトを組み、Claude / LLaMA / Mistral などをタスクごとに使い分けて推論する。重要な点として、エクスプロイトの生成・実行に生成AIは使わない。攻撃動作は決定的で事前検証済み
- ローカルLLM: 非対応(マネージド/クラウド、モデル選択は運営側)
Forrester の調査では年 $325K 超のコスト削減という数字も出ている。エンタープライズのインフラ側を継続的に検証したい組織向けの定番。
まとめ
調べてみて見えた切り分けは次のとおり。
- まず無償で触るなら PentestGPT。LLM ペンテストの基礎で、Claude 中心ながらローカルLLMも通る。汎用でネットワークもWebもいける
- OSS で自律寄りを試すなら PentAGI か CAI。対応モデルが極端に広く(PentAGI は10+プロバイダ、CAI は300+)、Ollama でローカル完結できる。ネットワーク・Web 両対応
- Webアプリに絞るなら Strix(無償)か XBOW(有償)。Strix は PoC 必須・CI/CD 組み込み・ローカルLLM可、XBOW は GPT-5.5 ベースのマネージドで $4,000/テストから
- 既存ツールを AI に使わせたいなら HexStrike AI。MCP で手元のモデル環境(ローカル含む)をそのまま攻撃オーケストレータにできる
- ネットワークの継続検証を組織で回すなら NodeZero。AD 侵害や横展開の自律実行が本領で、エクスプロイトは決定的(生成AIに作らせない)という安全側の設計
- 手頃な商用 SaaS なら Penligent、CLI 常駐型が好みなら Nebula
観点ごとに整理し直すと、
- ローカルLLM完結を最優先するなら OSS 勢(PentestGPT / PentAGI / CAI / Strix / Nebula / HexStrike)一択。有償 SaaS(Penligent / XBOW / NodeZero)はクラウド前提でモデルも運営側が握る
- 対応モデルの自由度は CAI(300+)と PentAGI(10+プロバイダ)が突出
- ネットワーク特化は NodeZero、Web特化は XBOW と Strix、残りは汎用
最後に当然の前提として、これらはいずれも許可された対象に対してのみ使うこと。Strix や NodeZero のように PoC・決定的実行で誤検知や事故を抑える設計が増えているとはいえ、自律エージェントに実攻撃を委ねる以上、スコープ管理と監督は人間の責任のまま残る。