グーグルの研究者が論文『AIエージェント・トラップ』で示した静かな誤作動から始まる脅威

  • URLをコピーしました!

 最初の異変は、政府機関の極秘文書でも、衛星画像でも、暗号通信の傍受でもなかった。それは、ある個人投資家のスマートフォンに届いた、ごく短い通知だった。

 「アジア向け物流関連銘柄に、短期的な変動リスクがあります」

 文面は穏当だった。売却を命じるものでもなく、危機を煽る印象もない。利用者にリスク確認を促す、ありふれた市況コメントのようだった。

 だが、その通知を生成した投資支援AIは、前夜に公開された海運保険の短い市場メモ、半導体商社の在庫コメント、通信設備の保守予定、港湾会社のIR注記、そしてSNS上の曖昧な投稿を、ひとつの危機シナリオとして束ねていた。

 人間のアナリストなら、まだ雑音として処理したかもしれない。しかしこのAIエージェントは、それらを「低確度だが一貫した兆候」と評価した。

 数時間後、同じような通知が、別の投資アプリ、別の金融機関、別のリスク管理システムからも出始めた。誰もそれを危機とは断じていなかった。それでも、市場は先に動いた。

 もちろん、これは仮想の導入である。だが、こうした事態は単なるSFではない。Google DeepMindの研究者らによる論文『AI Agent Traps』(以下、論文『AIエージェント・トラップ』)は、AIエージェントが読む情報環境そのものが攻撃面になり得ることを体系的に整理した。1

目次

AI本体ではなく、AIが参照するウェブが攻撃対象に

 従来、AIの安全性は、jailbreakや有害出力、モデル内部の脆弱性といった観点で語られることが多かった。しかし、エージェント化が進むと話は変わる。AIは、ウェブを読み、メールを開き、添付資料を要約し、検索結果を統合し、RAG(Retrieval-Augmented Generation:検索拡張生成)で社内のナレッジを利用し、場合によっては外部ツールを呼び出して行動する。つまり、AIはもはや単なる対話相手ではなく、外部情報を参照しながら判断と処理を進める実務主体になりつつある。

 だとすれば、攻撃者にとって標的となるのは、モデルの中だけではない。AIが参照するウェブページ、収集文書、信頼性のある注釈、蓄積された長期記憶(メモリ)、そして監督者(人間)に上げる提案そのものが攻撃面になる。

現実味を帯びるAIエージェント・トラップ

 この問題は、すでに研究上の仮説にとどまらない。たとえば、2025年6月、Microsoft 365 Copilotを対象としたEchoLeakは、細工されたメールを起点に、ユーザー操作なしでCopilotの文脈内にある情報を外部へ漏洩させることを可能とする攻撃として報じられた2。ここで攻撃面になったのは、AIモデル本体だけではない。AIが読むメール、外部コンテンツ、参照リンク、そして企業内の文脈情報そのものが攻撃経路になった。

 また、中国のCNCERT/CCが2026年3月に注意喚起したOpenClawの事例も、同じ問題を別の角度から示している3。OpenClawは、自然言語の指示に基づいてコンピュータ操作を行うAIエージェントである。注意喚起では、人間には不可視な悪性の指示を含むウェブページをAIに読ませることでシステムキーの漏洩につながる可能性や、操作指示や意図の誤解釈による重要メールやデータの削除、さらに機能プラグイン(skills)に悪性コードが混入することで、キー窃取やトロイの木馬展開などの悪性動作を実行し得るリスクが指摘された。

 EchoLeakは、企業内AIが読むメールや文書が攻撃面になる例である。OpenClawは、AIが読むだけでなく実際にPCを操作するようになったとき、プロンプト注入、スキルを介したマルウェア混入、過剰権限が結びつく例である。両者は、論文『AIエージェント・トラップ』の言うところの「環境そのものが攻撃面になる」という主張を補強するものである。

 さらに、Palo Alto NetworksのUnit 42は2026年3月、Web-based indirect prompt injectionが実環境で観測されていると報告した。そこでは、悪性サイトがAIベースの広告審査を回避しようとする試み、SEO操作、機微情報漏洩、無許可取引、データ破壊など、多様な攻撃意図が確認された。重要なのは、攻撃者がモデルに直接命令するのではなく、AIが通常業務の中で読むウェブコンテンツの側に指示を埋め込み、要約や分析や判断の流れそのものを乗っ取ろうとしている点である。これは、論文『AIエージェント・トラップ』が示す「環境そのものが攻撃面になる」という見方を、現実の観測事例によって裏づけるものである4

AIエージェント・トラップの6つの類型

 論文『AIエージェント・トラップ』は、こうしたトラップを6つの類型で整理している。人には見えにくい不可視要素(hidden elements)やメタデータでAIを誘導するContent Injection Trap(コンテンツ注入トラップ)、もっともらしい文体や枠付け(framing)で判断をゆがめるSemantic Manipulation Trap(意味操作トラップ)、長期記憶(メモリ)やRAGを汚染するCognitive State Trap(認知状態トラップ)、ツールや権限を持つエージェントに実際の行動を取らせるBehavioural Control Trap(行動制御トラップ)、複数のエージェントの相互作用を悪用するSystemic Trap(構造的トラップ)、そして最終的に人間の承認過程そのものをすり抜けるHuman-in-the-Loop Trap(人間介在型トラップ)である。

 この整理は抽象的に見えるかもしれない。しかし、実務の観点ではすでに十分に現実的である。たとえば現在の安全保障や脅威インテリジェンスの現場では、OSINTクローラー、ニュース要約、RAG型ナレッジベース、優先度判定、アラート集約、自動応答支援といった形で、AIがすでに意思決定の周辺に入り込みつつある。そこでは、明白な偽情報・誤情報よりも、断片的で、もっともらしく、単体では反論しにくい情報の方が危険である。

実際に発生が懸念されるトラップ

 実際に発生が懸念されるトラップとして、まず「Semantic Manipulation Trap」(意味操作トラップ)が考えられる。これは、露骨な偽命令ではなく、権威的な文体、危機感をあおる表現、都合のよい比較軸、もっともらしい専門用語によって、AIの結論を少しずつ特定方向へ寄せるものである。

 人間であれば「盛りすぎ」「根拠が薄い」と感じる文章でも、AIは複数の断片を並べられると、一貫したストーリーとして受け取ってしまうことがある。特に、インテリジェンスレポート、シンクタンク風の分析文書、業界メモ、専門家コメントの体裁を取られると、単なる偽情報・誤情報よりも厄介である。なぜなら、それは多少間違っていても、雑音ではなく「弱いシグナル」として扱われてしまう可能性があるためだ。

 次に注意すべきは「Cognitive State Trap」(認知状態トラップ)である。これは、一回の誤誘導で終わらない点が厄介だ。AIが長期記憶やRAGを通じて過去の文書を参照するようになると、少数の悪意ある文書や偏ったメモが、以後の分析全体に影響を与える。

 最初は「未確認情報」として保存されたものが、次の分析では「過去にも類似兆候あり」のような形で再利用され、さらに次の分析では「継続的傾向」として扱われる。こうして、最初は小さかった偏りが、数週間から数か月かけて“知識”に変質していく。脅威インテリジェンスの世界で言えば、偽IOC、誤帰属の断片、信頼性の低いオープンソース記事、過度に断定的な分析メモが、静かに蓄積していく状況に近い。

小さな偏りが増幅されるSystemic Trapの怖さ

 そして、もっとも見落とされやすいと考えられるのが「Systemic Trap」(構造的トラップ)である。これは、個々のエージェントが多少慎重でも、複数のエージェントが同じ環境を読んでいること自体が脆弱性になるというものである。

 「Systemic Trap」(構造的トラップ)は、単一の偽情報が拡散する場合に限らない。むしろ現実的なのは、キュレーションサイトや要約ページのように、複数の情報を一定の文脈で束ねた情報源を、複数のAIエージェントが同時に参照する場合である。これは、単体のRAGで見られる情報偏りの問題が、複数エージェント環境で増幅したものと捉えることもできる。

 これは個々の断片は事実であっても、見出し、並び順、引用の切り方、反証の欠落によって、AIはそれらを「独立した複数の兆候」ではなく、「一つの危機を示す証拠群」として解釈する可能性がある。公開情報を再編集した要約ページやキュレーションサイトでは、この種の偏りが生じやすい。

 こうした情報偏りは、報道の世界でも起こり得る。特定国の政府系・準政府系メディア発の情報が、転載や要約を経るうちに、出所の文脈が薄れたまま流通することがある。AIエージェントがこうした再構成済み情報を大量に読む場合、個々の記述の真偽だけでなく、どの文脈で束ねられた情報かを識別しにくくなる。

 ある危機予測AIが、海運保険の市場情報、港湾会社のIR注記、通信設備の保守通知、自治体の防災訓練資料、半導体在庫に関するコメントを統合して「地域危機の兆候」と判断したとする。その評価を別の分析支援AIが参照し、さらに報告支援AIが要約し、別系統のアラート選別AIが優先度を上げる。個々のステップでは極端な誤りがなくても、全体として見ると、同じ偏りが増幅されていく。

 しかも、その結果に人間が触れる頃には、単なる断片ではなく「複数の独立した兆候が一致した評価」に見えてしまう。これが「Systemic Trap」(構造的トラップ)の怖さである。

真偽を見分けにくいわずかな兆候からはじまる

 安全保障の観点で重要なのは、この種のトラップが必ずしも自国・自組織側だけの問題にとどまらない点である。日本国内の物流、海運、港湾、通信、自治体の危機管理に関するごく普通の情報が、他国のAIに取り込まれた場合、それが別の意味を持つ可能性がある。

 日本側では単なる業務調整でも、相手側AIにとっては「後方支援準備」「民間港湾の軍事転用」「指揮通信の事前整備」と見えるかもしれない。さらに、金融市場の動揺が加われば、その認識のずれはさらに拡大する。投資支援AIが物流関連銘柄のリスクを警告し、リスク管理AIが関連資産のエクスポージャー(特定のリスクにさらされている資産の割合)を下げ、ニュース要約AIが「アジア市場で警戒感」と表現する。こうした反応は、相手側の危機予測AIにとって「日本側が何かを察知して動き始めた」ように見える可能性がある。

 ここで問題なのは、その判断が完全な「妄想」ではないことである。そのため、人間の分析官も即座には否定しにくい。しかもAIは、数十、数百の断片を短時間で接続し、もっともらしい因果の物語を提示する。そこに権威的な分析文書、過去事例との類似、曖昧な衛星画像の注釈などが加われば、誤判断はさらに補強される。

誤認の連鎖が国際的な危機を産み出す

 さらに深刻なのは、相手側がその誤認に基づいて警戒態勢を引き上げたときである。部隊の待機、情報収集の強化、通信の増加、海空域での活動変化といった反応は、今度は日本側や同盟国側のAIに「相手の先制準備」として観測される可能性がある。すると、こちらのAIは警戒を強め、人間は「念のため」の措置を承認する。その動きが再び相手側に観測され、双方の判断が閉じたループの中で強化されていく。

 ここでは、初動が派手なサイバー攻撃等である必要はない。必要なのは、複数のAIに同じ方向の誤読をさせるだけの、十分にもっともらしい環境設計である。偽の極秘文書を流す必要すらない。海運保険の短い市場メモ、通信設備の保守予定、港湾会社の注記、投資アプリの市況コメント、SNS上の曖昧な投稿。それらを少しずつ歪め、AIにだけ一貫した危機の物語として読ませればよい。

 この意味で、論文『AIエージェント・トラップ』が示した本質は、「AIが賢いかどうか」ではない。より重要なのは、AIがどのような環境で学び、何を証拠として採用し、どの断片を結びつけるよう設計されているかである。AIが人間より速く、多数の断片を統合できることは確かである。しかし、それは同時に、環境に散りばめられた小さな歪みを、人間より早く一つの危機像へ束ねてしまうということでもある。

サイバー脅威インテリジェンスの実務でも

 サイバー脅威インテリジェンスの実務でも、この論点は他人事ではない。自動クローラが拾う情報、RAGに投入される文書、AIが補助する分析要約、優先度付けのロジック、SOARとの連携。これらはすべて、利便性と引き換えに、環境由来の誤誘導を受ける可能性を抱えている。

 たとえば、攻撃者が偽IOCを複数の小規模サイトに分散して置く。別の場所には、特定国の関与を示唆する技術メモや、特定言語の痕跡を含む悪性コード断片を置く。さらに、マルウェア解析風の文章、過去事例との比較、もっともらしいインフラ相関を加える。人間なら一つひとつの根拠を疑うかもしれない。しかし、AIがそれらを統合し、「複数ソースが同一アクターを示唆」と要約した瞬間、誤帰属は分析結果として流通し始める可能性がある。

 このような汚染は、単発の誤回答に留まらない。RAGに保存され、次の分析で参照され、別のアラートの優先度を上げ、検知ルールや顧客向けレポートの前提になる可能性がある。すなわち、AIエージェント・トラップはAIへの攻撃であると同時に、組織の分析記憶への攻撃でもあると言える。

AIが参照したデータを可視化し検証する多層的な防御を

 したがって必要なのは、モデル単体の安全対策だけではない。入力ソースの信頼度評価、HTMLやメタデータの検査、RAG投入前の検証、長期記憶の監査、AIが参照した根拠の可視化、ツール権限の厳格な分離、人間承認の形骸化を防ぐ運用設計まで含めた、多層の防御である。

 特に、AIが出力した結論よりも、AIがどの情報を根拠として採用したかを確認できる仕組みが重要になる。根拠が見えなければ、誤りは修正できない。参照元が検証できなければ、偽情報と弱いシグナルを区別できない。AIが過去の汚染された文書を再利用している場合、その偏りは「一貫性」として見えてしまう。

 恐らく、今後のリスクは、SF的な「AIの反乱」としてではなく、もっと静かな形で現れる。ごく普通の事務文書、業界メモ、訓練資料、注釈付きの画像、投資アプリの通知などが、AIにとってだけ危機の連鎖に見えるとき、エージェントの誤解釈・誤作動が始まる可能性がある。最初に放たれるのは、ミサイルではなく、AIにだけ危機の始まりに見える、たった一文なのかもしれない。

  1. 「AI Agent Traps」
    https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438 ↩︎
  2. 「Zero-Click AI Vulnerability Exposes Microsoft 365 Copilot Data Without User Interaction」
    https://thehackernews.com/2025/06/zero-click-ai-vulnerability-exposes.html ↩︎
  3. 「关于OpenClaw安全应用的风险提示」
    https://www.cert.org.cn/publish/main/11/2026/20260312144519429724511/20260312144519429724511_.html ↩︎
  4. 「Fooling AI Agents: Web-Based Indirect Prompt Injection Observed in the Wild」
    https://unit42.paloaltonetworks.com/ai-agent-prompt-injection/ ↩︎
よかったらシェアお願いします
  • URLをコピーしました!

この記事を書いた人

岩井 博樹のアバター 岩井 博樹 株式会社 サイント リサーチフェロー

2000年より株式会社ラック、2013年よりデロイトトーマツにおいてセキュリティ分野の業務に携わり、これまでセキュアサイト構築、セキュリティ監視、フォレンジック、コンサルティング、脅威分析などを担当する。現在は、脅威分析や安全保障分野を中心とした戦略系インテリジェンス生成を専門とするサイントを設立し、主にアジア諸国を中心に日夜分析に勤しんでいる。
経済産業省情報セキュリティ対策専門官、千葉県警察サイバーセキュリティ対策テクニカルアドバイザー、情報セキュリティ大学院大学客員研究員などを拝命する。
著書に動かして学ぶセキュリティ入門講座、標的型攻撃セキュリティガイド、ネット世論操作とデジタル影響工作(共著)などがある。

メールマガジン「週刊UNVEIL」(無料)をご購読ください。毎週、新着情報をお届けします。

目次