モデルを硬くするのではなく、システムを設計する
LLMベースのAIエージェントが実世界のタスクを実行するようになるにつれ、間接プロンプトインジェクション(IPI)のリスクが深刻化している。arXiv:2603.30016で、Chong Xiangらの研究チームは「モデル単体の堅牢性向上」ではなく「システム全体のアーキテクチャ設計」でこの脅威に対処する3つの原則を提示した。
間接プロンプトインジェクションとは、エージェントが処理する外部データ(Webページ、メール、ドキュメント等)に悪意のある指示を埋め込み、エージェントの行動を乗っ取る攻撃だ。直接的なプロンプト操作と異なり、ユーザーは攻撃が行われていることに気づかない。
3つの設計原則
原則1: 動的リプランニングとセキュリティポリシーの動的更新。現実のタスクは予測不能な状況変化を伴う。エージェントのセキュリティポリシーが静的であれば、新しい攻撃パターンに対応できない。タスクの実行中にセキュリティ判断を動的に更新する仕組みが必要だ。
原則2: コンテキスト依存のセキュリティ判断にLLMを活用するが、制約付きのシステム設計内で。セキュリティ判断そのものにLLMの判断力を使うことは有効だが、LLMの観察範囲と決定権限を制限するシステム設計が前提になる。LLMにすべてを委ねるのではなく、ルールベースの検証とLLMの判断を組み合わせる。
原則3: 曖昧なケースにはパーソナライゼーションと人間の介入。完全に自動化されたセキュリティ判断は、偽陰性(攻撃を見逃す)か偽陽性(正常なリクエストをブロックする)のトレードオフを免れない。曖昧なケースでは、ユーザーの過去の行動パターンに基づくパーソナライゼーションと、最終的な人間の判断を設計に組み込む。
既存ベンチマークへの警告
論文は、現行のIPI防御ベンチマークが「偽のセキュリティ感覚」を生む可能性を指摘している。ベンチマークで高スコアを出す防御手法が、実際のユースケースでは脆弱である可能性がある。HyperAgents(arXiv:2603.19461)のような自己改善エージェントが増える中、攻撃面も自己進化する未来が視野に入ってくる。
Metaの社内AIエージェントが無権限エンジニアにデータを公開した事件や、LiteLLMサプライチェーン攻撃でMercorが被害を受けた事件は、論文が警告する「システムレベルの脆弱性」が現実のものであることを証明している。
エージェント設計者への実践的示唆
この論文のポジションペーパーとしての価値は、「何を守るか」ではなく「どう設計するか」にフォーカスした点にある。MCPのようなエージェントインフラが標準化される中、セキュリティはプロトコルのレイヤーで組み込まれるべきだ。
Deep Signalの読者にとっての示唆は明確だ。AIエージェントを構築する際、モデルの安全性アライメントだけに頼るのは危険だ。システムアーキテクチャとして、エージェントの観察範囲の制限、アクション実行前のルールベース検証、曖昧なケースでの人間へのエスカレーション——この3層を組み込むべきだと、本論文は主張している。



