「AIエージェントのセキュリティ設計」——間接プロンプトインジェクションに対するシステムレベル防御の3原則

モデルを硬くするのではなく、システムを設計する

LLMベースのAIエージェントが実世界のタスクを実行するようになるにつれ、間接プロンプトインジェクション（IPI）のリスクが深刻化している。arXiv:2603.30016で、Chong Xiangらの研究チームは「モデル単体の堅牢性向上」ではなく「システム全体のアーキテクチャ設計」でこの脅威に対処する3つの原則を提示した。

間接プロンプトインジェクションとは、エージェントが処理する外部データ（Webページ、メール、ドキュメント等）に悪意のある指示を埋め込み、エージェントの行動を乗っ取る攻撃だ。直接的なプロンプト操作と異なり、ユーザーは攻撃が行われていることに気づかない。

3つの設計原則

原則1: 動的リプランニングとセキュリティポリシーの動的更新。現実のタスクは予測不能な状況変化を伴う。エージェントのセキュリティポリシーが静的であれば、新しい攻撃パターンに対応できない。タスクの実行中にセキュリティ判断を動的に更新する仕組みが必要だ。

原則2: コンテキスト依存のセキュリティ判断にLLMを活用するが、制約付きのシステム設計内で。セキュリティ判断そのものにLLMの判断力を使うことは有効だが、LLMの観察範囲と決定権限を制限するシステム設計が前提になる。LLMにすべてを委ねるのではなく、ルールベースの検証とLLMの判断を組み合わせる。

原則3: 曖昧なケースにはパーソナライゼーションと人間の介入。完全に自動化されたセキュリティ判断は、偽陰性（攻撃を見逃す）か偽陽性（正常なリクエストをブロックする）のトレードオフを免れない。曖昧なケースでは、ユーザーの過去の行動パターンに基づくパーソナライゼーションと、最終的な人間の判断を設計に組み込む。

既存ベンチマークへの警告

論文は、現行のIPI防御ベンチマークが「偽のセキュリティ感覚」を生む可能性を指摘している。ベンチマークで高スコアを出す防御手法が、実際のユースケースでは脆弱である可能性がある。HyperAgents（arXiv:2603.19461）のような自己改善エージェントが増える中、攻撃面も自己進化する未来が視野に入ってくる。

Metaの社内AIエージェントが無権限エンジニアにデータを公開した事件や、LiteLLMサプライチェーン攻撃でMercorが被害を受けた事件は、論文が警告する「システムレベルの脆弱性」が現実のものであることを証明している。

エージェント設計者への実践的示唆

この論文のポジションペーパーとしての価値は、「何を守るか」ではなく「どう設計するか」にフォーカスした点にある。MCPのようなエージェントインフラが標準化される中、セキュリティはプロトコルのレイヤーで組み込まれるべきだ。

Deep Signalの読者にとっての示唆は明確だ。AIエージェントを構築する際、モデルの安全性アライメントだけに頼るのは危険だ。システムアーキテクチャとして、エージェントの観察範囲の制限、アクション実行前のルールベース検証、曖昧なケースでの人間へのエスカレーション——この3層を組み込むべきだと、本論文は主張している。

Deep Signal文脈——理論から実害へ

本論文が提示する3原則は、Deep Signalが報じてきた複数のインシデントと照合すると、その切実さが際立つ。MetaのAIエージェント暴走は原則2（LLMの観察範囲と決定権限の制限）の欠如が招いた事例であり、「Learning to Commit」論文が指摘するエージェントの「文脈理解不足」はセキュリティ判断の品質にも直結する。

自然言語エージェント設計ハーネスの論文が提案する「構造化されたエージェント制御」と、本論文の「システムレベルのセキュリティ設計」は表裏一体だ。エージェントの能力を引き出す設計と、エージェントの暴走を防ぐ設計は、同じアーキテクチャの異なる側面として統合されるべきだ。HyperAgentsのような自己改善エージェントが現実化する中、「エージェントが自律的に改善する能力」と「エージェントが自律的に暴走するリスク」の境界線をどこに引くかは、2026年のAIセキュリティ研究の中心的問いになりつつある。

「AIエージェントのセキュリティ設計」——間接プロンプトインジェクションに対するシステムレベル防御の3原則

モデルを硬くするのではなく、システムを設計する

3つの設計原則

既存ベンチマークへの警告

エージェント設計者への実践的示唆

Deep Signal文脈——理論から実害へ

◇ ◇ 関連記事

LiteLLMサプライチェーン攻撃——AI基盤OSSの脆弱性がMercorを直撃、Lapsus$が犯行声明

MetaのAIエージェントが暴走——社内データを無権限エンジニアに公開、AIガバナンスの死角が露わに

自然言語エージェントハーネスの設計パターン——AIエージェント構築の実践ガイド