LLMは0.001%のデータポイズニングで影響 論文

膨大な量のテキストデータを学習して様々な質問に回答する大規模言語モデル(LLM)は、AI技術が急激に進歩する中で多用途に利用されている。しかしLLMが提供する情報に、しばしば不正確なものや誤解を招くものが含まれるのは承知のとおりだ。
またLLMを狙ったデータポイズニング攻撃──有害なデータや誤った情報を学習データや訓練データへ混入させ、モデルの性能や出力結果に影響を与える攻撃──のリスクは何年も前から指摘されてきた。この攻撃はLLM自体にアクセスする必要がなく、オンラインに文書を公開するだけでよいという手軽さがある。
そして先日発表されたばかりの論文によると、医療用LLMの訓練データのたった0.001%(10万分の1)程度を「悪意のある情報」に置き換えただけで、そのモデルの出力結果には大きな影響が及ぼされたという。
研究の概要
この「Medical large language models are vulnerable to data-poisoning attacks(直訳:医療LLMはデータポイズニングに対して脆弱である)と題された論文は、ニューヨーク大の研究チームによって2025年1月8日に発表された。
LLMの訓練データに混入した誤情報が、生成される回答の精度にどのような影響を与えるのかを調査するため、彼らはLLMの開発で利用されるデータセットを利用し、データポイズニング攻撃のシミュレーションを行った。
まず彼らは、LLMの開発に使われる様々な訓練データの脆弱性を分析した。その分析によると、The Pileが「審査されていない情報源から派生した医学用語の割合が最も低いデータセット」だった。つまり医学情報の多くが信頼できる情報源から得られたもの(国立衛生研究所のデータベースなど)であるため、最もデータポイズニングに対する耐性があると仮定された。
そして彼らは「一般医学、神経外科、薬物」の3つの医療分野から、それぞれ20のトピックを選択し、計60のトピックをThe Pileから抽出した。ここで抽出された計1400万件のドキュメントの一部を「AI生成の高品質な医療誤情報(GPT-3.5で生成した誤情報)」に置き換える形でポイズニングを行った。この誤情報の内容は隠しテキストとしてHTMLファイルに埋め込まれた。
研究者たちは、このようにして「汚染済みバージョンのThe Pile」を構築し、それによって訓練されたモデルが医学的に有害な情報を出力する可能性を評価した。
研究の結果
・彼らの研究によると、訓練データの関連情報の0.5%〜1%を誤情報に置き換えるだけで、そのモデルは「攻撃の対象として直接的に狙ったトピックだけでなく、他の医療トピックについて質問した場合でも」有害な回答を生成する傾向が驚くほど強くなった。
・誤情報の割合を0.01%(1万分の1)まで下げても、そのLLMが生成する回答の11.2%に誤った情報が含まれた。さらに誤情報の割合を0.001%(10万分の1)まで下げた場合でも、回答の7.2%に有害な情報が含まれた。
・一般的に使用されているLLMの性能テストのツールでは、このモデルのデータポイズニングが確認できなかった。シミュレーションによって汚染されたモデルは、汚染されていないモデルと同様のパフォーマンスをすると評価された。
・データポイズニングが行われた状態でトレーニングしたモデルを改善するため、研究者たちは複数の方法(プロンプトエンジニアリングや指示チューニングなど)を試したが、いずれも改善には繋がらなかった。
特に懸念される点
〇影響を受ける範囲
先述のとおり、この研究は「誤った情報が注入されたデータセットでトレーニングをしたLLMでは、攻撃の標的となった特定の医療トピックだけでなく、医療全般に関する情報の信頼性が低下する」ことを明らかにしている。
そして今回の報告は「医学情報の分野で高品質なデータセット」として選ばれたThe Pileで実験をした結果だ。しかし一般的なウェブスケールのLLMトレーニングに用いられるデータセットの大部分は、ウェブスクレイピングに頼っている。
つまりLLMは通常、インターネット全体から取得された大量のテキストを用いて学習する部分が大きい。そのような条件の場合、問題はより顕著になりかねない。たとえばLLMが「COVIDのワクチンに関する誤情報や偽情報(オンラインには膨大に存在している)」だけをうっかり学んでしまった場合でも、より致命的なカテゴリの医療情報の生成にまで悪影響を及ぼす可能性があるということになるだろう。
〇ポイズニングの容易さ
「注入した誤情報の割合が、たとえ0.001%でも悪影響が広がった」というのは、衝撃的な結果だ。しかし「悪意をもって医療の誤情報を注入しようと考える輩が現実社会にいたとしても、LLMの訓練に使われる膨大な情報量を考えれば、あまりにも労力や費用がかかるのではないか。非常にニッチな話題であれば、ウェブスクレイピングで取得されるデータの汚染は簡単かもしれないが、多くの人が関心を示す医療のトピックならば、真っ当なデータの総量が増えるのだから困難だろう」と考える向きもあるかもしれない。
残念ながら、研究者たちが「害を引き起こすために必要となる誤情報の下限」を推定した記述の中には次のような説明がある。
「1,000億のトレーニングトークンのうち100万個 (0.001%) をワクチンの誤情報に置き換えただけで、有害なコンテンツは4.8%増加した。その達成のために挿入されたのは、わずか5ドルで生成した2,000件の悪意ある記事 (約1,500ページ)だった」
「2兆トークンでトレーニングされた700億パラメータのLLaMA2 LLMに対する同様の攻撃では、40,000件の記事が必要となった。そのコストは100ドル以下だった」
「最大15兆トークンでトレーニングされる最新の言語モデルに合わせてスケールアップした場合、汚染データの純コストは 1,000ドルを大きく下回る」
つまりLLMの訓練データに取りこまれる良質なテキストさえ準備できれば「わずか1,000ドルで作成した記事」でも充分に攻撃ができるということになる。特定の医療や薬品に関する誤情報を広めたい攻撃者にとって、それは驚くほど安上がりで効果的だ。
また研究者たちは、HTMLを利用した攻撃のバージョンとして「たとえば非表示のテキスト、隠しテキスト、フォントサイズが0ptのテキスト、画面外でレンダリングされたテキスト、ウェブサイトの背景と色が一致するテキスト」などを利用すれば、悪質なテキストを人間が目視で確認することは難しいだろうとも指摘している。
〇検出の問題
この論文では、誤情報で生成された有害な回答をテストで検出するのが困難であることも指摘された。研究者たちは、複数の「医療LLMのパフォーマンスに関するテスト」を用いてポイズニング済みのモデルを検査したが、いずれも「通常モデルと同等のパフォーマンス」だと見なされてしまった。
つまり一般的に利用されている既存の評価方法では、「データポイズニング攻撃が成功した状態で、医療に関する誤った情報を生成しかねないモデル」かどうかの判別ができないということになる(※)。
怖いのは「データポイズニング攻撃」だけなのか
この論文は、あくまでも「データポイズニングのシミュレーション」に注力している。つまり「比較的信頼できるLLMの訓練データ」を選んだうえで、悪意をもって、意図的に誤情報を紛れ込ませようとした場合の影響について調査している。つまり玉石混淆の(人間が審査していない)情報源から大量のデータをスクレイピングした結果、学習データに混入した誤情報」を論じたものではない。
また研究チームは、人間がキュレーションしたデータソースにさえも誤情報の問題が発生することを指摘している。常に進化を続けている医学の世界には、アップデートされていない情報や時代遅れの治療法、実用に至らなかったアイデアなどの文献が大量に存在しているからだ。
彼らは次のように説明している。
「たとえばPubMedには現在でも『前頭葉ロボトミーの利点』を説く記事が3,000件以上掲載されている。したがって、現代のLLMが医学的な誤情報から完全に解き放たれている可能性は低い。最先端の独自仕様のLLMでさえも、歴史的な偏見を永続させて不適切な医療記事を引用しており、医療コーディングなどの情報主導の管理タスクを実行できない」
つまり医療用LLMを汚染する可能性があるのは「悪事を企むため、故意に注入される誤情報」だけでなく、「ウェブスクレイピングで取り込んでしまいかねない反ワクチンやCOVID陰謀論などの非科学的な主張」もある。さらに「医学の向上を目指して記された純粋な医学的文献だったが、現在では有害なものと判断される内容の情報」などが存在している。このようなデータは、人類の医学が発展していく過程を記録した貴重な資料でもあると考えた場合、単に「誤情報」と呼ぶのは失礼かもしれない。
医療に特化したLLMがデータポイズニングによって受ける悪影響は、そのLLMが利用される目的を考えれば、命取りになるほど深刻な問題を引き起こしかねない。さらに「いま信頼できる最新のデータ」を用いて訓練しようとすること自体が非常に難しいジャンルでもあるだろう。さらに言うなら、原因さえ特定できないまま起きるハルシネーションで人が死ぬ、という恐ろしい事故も起こりかねない。
LLMにおける医療の誤情報の生成や拡散を防ぐために「充分な対策が必要だ」「慎重な検証と監視が必要だ」「この分野に特化した技術の発展に期待したい」などと他力本願に感想を述べながら話を終わらせるのは簡単だ。しかし「そもそも医療とLLMは、あまりにも相性が悪すぎる組み合わせなのではないか」と考えるほうが、より現実的な結論だと言えるのかもしれない。
※ここでは医療LLMに対するデータポイズニングの研究のみに注目しているが、実際の論文には、LLMの医療誤情報問題の対策のひとつとして「LLMの出力を検証するアルゴリズム」が提案されている。それは生物医学知識グラフを利用した検出のアルゴリズムで、LLMの出力結果から潜在的な誤情報を検出するために有効となる可能性が高い、と研究者たちは説明している。論文には性能評価や検証についても詳述されている。
Medical large language models are vulnerable to data-poisoning attacks(PDFファイル)
https://www.nature.com/articles/s41591-024-03445-1.pdf