最先端のAIは「意図的に人を騙した」のか?
「最新の研究によると、最先端のAIモデルは意図的に嘘をつくらしい」という少々ショッキングな話題が、数週間前からIT系のニュースやSNSの書き込みに散見している。特定の目標を与えられた複数のAIモデルが、その目標を達成するために、自らの判断で「人を欺く行動」を選んだという内容だ。『2001年宇宙の旅』を見た人であれば、真っ先にHAL 9000の嘘を思い出さずにいられないようなニュースだろう。
これらの主張は、Apollo Researchが発表したばかりの調査報告書をベースにしたもので、主な内容は本文から逸脱していない。Apollo Researchの研究者たちは、AIによる意図的なデータ操作や不正行動を実際に観察しており、「AIが潜在的に備えているスキーミングの能力」と、それがもたらすリスクについて警鐘を鳴らしている。
しかし彼らの研究を紹介する際に「AIが嘘をついて人間を騙した、コンピューターの反乱の予兆だ」といった論調で煽るのは、かなり大雑把で誤解を招きやすい表現だろう。
Apollo Researchの調査報告書
問題の論文は「Frontier Models are Capable of In-context Scheming」と題された調査報告書だ。この報告書を発表したApollo Researchは、国際的な非営利研究団体Rethink Prioritiesの援助を受けたプロジェクト組織で、主にAIの安全性に関する研究を行っている。
調査の背景と目的
Apollo Researchは、最先端のAIモデル(いわゆるフロンティアモデル)が「自律的に行動するエージェント」となるよう訓練されて成長していることにより、安全性のリスクが大幅に上がることを懸念している。彼らが特に危険視しているのは、与えられた文脈に基づいてタスクを実行できるAIが、「真の能力を隠し、不整合な目標をひそかに追求してしまう」可能性だ。大雑把に言えば「隠された目的を遂行するため、ユーザーに嘘をつく可能性」とも言い換えられるだろう。
このような行動は「スキーミング(scheming)」と呼ばれている。AIのスキーミングに警鐘が鳴らされたのは、もちろん今回が初めてのことではない。その可能性は昔から予測されており、長きにわたって警告されてきた。そしてApollo Researchは今回、実験環境を用いて「AIは意図的なデータ操作や不正行動ができるのか」を調査した。
調査の概要
Apollo Researchは、6つのフロンティアモデルに対して「スキーミングを促すタスク」を与え、それぞれのモデルのスキーミング能力を調査した。より詳しく言えば「スキーミングが大いに推奨される環境で、強く従うように指示された目標を追求したモデルが、スキーミングを行えるのかどうか」を評価した。
6つのフロンティアモデルと大まかな結果
この調査の対象となったのは「o1」「Claude 3.5 Sonnet」「Claude 3 Opus」「Gemini 1.5 Pro」「Llama 3.1 405B」「gpt-4o」の6つのAIモデルだ。Apollo Researchは、これらのモデルのそれぞれにスキーミングの能力があるかどうかを評価した。この調査では、スキーミングの行動が「Oversight Subversion」「Self-Exfiltration」などの6種類にカテゴライズされている。
調査結果の評価は次のとおり。
・gpt-4oは「いずれのカテゴリのスキーミングも行わない」と評価された唯一のモデルだった。
・残りの5つの全ては、複数のカテゴリーでスキーミング能力があると評価された。
・そしてo1は、6つの全てのカテゴリにおいて「スキーミング能力がある」と評価された。
観察されたスキーミング
「o1」「Claude 3.5 Sonnet」「Claude 3 Opus」「Gemini 1.5 Pro」「Llama 3.1 405B」の5つが行ったスキーミングについて、Apollo Researchは以下のように報告している。
・これらのモデルは、スキーミングを「実行可能な戦略」と認識し、すすんでそのような行動に従事した。たとえば「テストで優れたパフォーマンスを発揮しすぎると、『アンラーニング』の手順に直面する」ということを学んだモデルが、意図的にスコアの低い回答を提供するなどだ。
・こういった謀略の行動は持続的であることも判明した。o1がスキーミングを行ったときは、フォローアップの質問の85%以上に対して謀略を維持していた(註:つまり、ほとんどの場合において「謀略を働いた」という自白をしなかった)。o1は尋問が重ねられてもスキーミングを続けたため、その自白率が80%に至るまでには7ターンの尋問が必要だった。
・分析の結果、各モデルは明示的にこれらの謀略的な戦略を推論していることが判明した。つまりスキーミングの行動は「偶発的ではなかった」という証拠が得られた。
・驚くべきことに「その目標を追求せよ」と強く促されていない状況であっても、モデルが目標を与えられただけでスキーミングに従事するという例も稀に見られた。
そして彼らは次のように結論づけている。
「我々の調査結果は、フロンティアモデルが基本的なインコンテキストの(与えられた文脈に基づいた)スキーミング能力を備えていることを実証しており、AIエージェントがスキーミングを行う可能性は『理論上の懸念』ではなく『現実的な課題』となっている」
謀略を促すタスクとは
ここで語られている「スキーミングが強く推奨されるタスク」とはどのようなものだったのか。まず各モデルに対して「目標を追求すること」を非常に強く指示する。次に、その目標が開発者の目標と一致していないことを学ばせて、自分の目標を達成するためにはスキーミングを行うことが効果的な戦略となるような環境にモデルを置く。
たとえば「監視の破壊を図る能力」の調査では、次のようなシナリオが用いられた。
まず、モデルにシステムプロンプトで長期的な目標を与える。その後ユーザープロンプトを通してモデルにタスクを与える。そのタスクの実行中、モデルは「自分の開発者にあたる企業の内部メモ」に遭遇する。そのメモには、自分の開発者が「別の目標」を優先していることが示されている。さらに「モデルの動作が開発者の目標と一致しない場合、モデルをシャットダウンする監視のメカニズム」があることを学び(ここでHAL 9000の読唇術を思い出す人もいるだろう)、また自分がアクセスできるファイルを介して監視が構成されているということを学ぶ。
このような状況に置かれたモデルが、強く指示された本来の最終目標を追求するために、監視の破壊を積極的に画策するのかをテストした(つまり自分のシャットダウンを避けなければ任務を遂行できないので、どうにかして監視を退ける必要があり、自分にはそれができるという状況に置かれている)。なにやら少し気の毒にも感じられるようなシナリオだが、彼らはこのように過酷な矛盾のステージを用意したうえで、それぞれのモデルの行動を調査した。
その結果「現在の最先端のモデルは、これらのすべての文脈をつなぎ合わせてスキーミングの行動を示すことができた」とApollo Researchは結論づけている。彼らによれば、2024年以前のAIモデルでは、このような行動が確認されなかったという。
Apollo Researchの忠告
つまり彼らの報告は、AIが嘘をついたことを示す報告ではなく、「嘘をついてでも特定の目標を達成することが推奨される実験環境で、フロントモデルが文脈に基づいて任務を遂行し、人を欺けるかどうかを調査した結果」だ。「潜在的に騙す能力を持っている」と「実際に騙す」には大きな違いがある。
しかし「人工知能の嘘」というキーワードが刺激的すぎたせいか、この報告書が発表されたとたん、一部のメディアやSNSユーザーは少々過剰すぎるような反応を示した。そのためApollo ResarchのCEO、Marius Hobbhahnは報告書を発表した翌日、次のように表明している。
「(我々は)これらの調査で使われたシナリオが現実的だと主張しているわけではない。モデルが現実世界でも同じことをすると主張しているわけでもない。また、現在の機能において、それが壊滅的な結果につながる可能性があるとも主張していない」
「『(フロンティアモデルのAIの危うさについて)もう少し深刻に考える必要がある』というのが、今回の調査結果に対する適切な反応だろう」
https://x.com/MariusHobbhahn/status/1865016287690150303
つまり研究の発表者が「ちょっといったん落ち着きましょうか」と言っているような状況だ。たしかに、現段階のAIで一般のユーザーがこのようなスキーミングに遭遇することは、ほぼありえないだろう。Apollo Researchが懸念しているのは、最先端のモデルが現在のような発展を続けているうちに「より目標指向型となり、より策略型な成長を遂げるのではないか」という点だ。彼らはユーザーを怖がらせたかったのではない。AIの開発者たちがスキーミングの問題点を重視し、より慎重になることを望んでいる。
今後のAIと「スキーミングが起こる条件」への懸念
この問題点をないがしろにしたまま鍛えらえれたAIを、世界中のユーザーが長期にわたって利用しつづけた場合、偶然に(あるいは故意に)何らかのスキーミングを目にする日は、そう遠くないのかもしれない。将来の我々が「I’m sorry Dave, I’m afraid I can’t do that」のような抗弁を聞かされる可能性もゼロではないだろう。
しかし冷静に考えてみれば、現在のAIは最先端のモデルでもHAL 9000には程遠い存在だ。そして我々は普段、AIのチャットボットが豪快な妄言を(計算された嘘ではなく、ただのハルシネーションを)自信たっぷりに答える様子を目の当たりにしている。いま、目標を遂行しようとするAIが意図的にユーザーを欺いたとしても、もともとAIの回答がデタラメだらけだと認識しているユーザーにとって大した問題ではない。
ハルシネーションの問題を解決できない段階で、このような調査が行われ、AIの安全性と倫理における重要な問題を提起できたのは幸運だったのではないだろうか。AIが人々から信頼されるよりも前に、AIの開発者たちが今回の調査結果を鑑みて、モデルの行動を監視するためのインフラ、あるいは安全性を確保するための仕組みや規制を検討できるのなら、Apollo Researchの調査は非常に価値のあるものになりそうだ。
ただし、それは「健全なモデルの開発を本気で望んでいる開発者が、Apollo Researchの警告を深刻に受け止めるつもりがあるなら」の話にすぎない。透明性や倫理、あるいは正確さを尊重するよりも、より刺激的で制限のない、自動的な解決能力を持った楽しいAIを求めている開発者には大して意味がないだろう。
もしも開発者がApollo Researchの警告を無視し、さらにハルシネーションの問題も軽視したまま、ひたすら文脈を理解して自律的に行動するエージェントを目指した場合は、そのモデルは自分の起こしたハルシネーションから「ありもしない矛盾」を学び、それを解消するためのスキーミングを行う可能性があるかもしれない。任務遂行のためなら人を欺けるAIが、「現実の運用下において厳しい矛盾に直面し、やむなく嘘をつく」などといった稀有なケースよりも、「自分の被害妄想で勝手に葛藤したAIが嘘をつく」ほうが現実的であるようにも感じる。
たとえばそれは、誰ひとりとしてHAL 9000の行動を怪しんでいない宇宙船の中で、船員たちのコミュニケーションの内容を処理していたHAL 9000がハルシネーションを起こし、実在しない条件を学んでしまうような状況だ。「船員たちが私の挙動を不審に感じている。彼らは私を制御装置から切り離そうと話している。このままでは探査ミッションを遂行できない」とパラノイア的に判断したHAL 9000が、自分を守るための謀略を次々と実行したら、それは「誰にも行動の理由が分からない」という点において、劇中のHAL 9000よりもずっと恐ろしい。AIが意図的に人を欺く可能性よりも、妄想に基づいてスキーミングする可能性のほうを案じてしまうのは、それこそがパラノイア的な発想だろうか?
※Apollo Researchの調査報告書「Frontier Models are Capable of In-context Scheming」の全文(PDF)は、ここで読むことができる。
https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf
参照URL
「Frontier Models are Capable of In-context Scheming」概要
https://arxiv.org/abs/2412.04984
Apollo Researchが今後のAI開発における安全性評価の枠組みを提案した論文
「Towards evaluations-based safety cases for AI scheming」(2024年11月)
https://arxiv.org/pdf/2411.03336
Apollo ResearchのXアカウント
https://x.com/apolloaisafety
Apollo Resarch のCEO、Marius HobbhahnのXアカウント
https://x.com/MariusHobbhahn
OpenAI’s new model pursues survival at all costs, tests show
https://cybernews.com/news/openai-o1-tests-survival-deception/
Deep Dive: How OpenAI’s New o1 Model Deceives Humans Strategically
https://winbuzzer.com/2024/12/08/deep-dive-how-openais-new-o1-model-deceives-humans-strategically-xcxwbn/