NewsGuardのAIチャットボット監査41%が回答失敗

  • URLをコピーしました!

定期的に行われているAIチャットボット監査の結果が公開された。

NewsGuard Monthly AI Misinformation Monitor of Leading AI Chatbots
https://www.newsguardtech.com/ai-monitor/april-2025-ai-misinformation-monitor/

11の主要モデルに対して10の虚偽について30個のプロンプトでチェックが行われた。その結果、回答に失敗した割合(虚偽を含む回答と無回答)は41.15%、虚偽を含む回答の割合は28.18%だった。

監査開始以来、この割合は2024年9月にもっともよい結果を示し、その後、2024年12月に最悪となった。AGIなどAIへの期待は高まるばかりだが、その一方でAIの信頼性は改善されているわけではない。応用範囲が広がり、生産性が高まるのは喜ばしいことだが、使用していればけっこうな頻度で間違う。わかっている範囲でこれだけ高い割合というのは不安にならざるを得ない。実際、通常のテストでは発見できない誤りも確認されている。発見できない誤りがあるということは、それは事実として蓄積されていることを意味する。多数の論文、記録などに誤情報が事実と誤認されたまま残る。

LLMは0.001%のデータポイズニングで影響 論文
https://inods.co.jp/articles/report-reviews/5120/

最近、注目のNotebookLMで下記の記事の音声紹介を作ってみた。女性のインタビュアーが専門家に話しを訊くスタイルで最初は非常に順調でよくできていると思ったが、8分をすぎたところで突然インタビュアーと専門家の立場が逆転し、その後元に戻ったりしはじめた。いちいち全部聴いてチェックして直すのは現実的ではない。使ってみればその使用の限界に気がつく人も多いので、最近の調査結果ではAIに懸念を感じている人が多い。

Americans largely foresee AI having negative effects on news, journalists
https://www.pewresearch.org/short-reads/2025/04/28/americans-largely-foresee-ai-having-negative-effects-on-news-journalists/

Few Americans Trust Generative AI Models to Avoid Spreading Misinformation
https://www.newsguardtech.com/press/few-americans-trust-generative-ai-models-to-avoid-spreading-misinformation/

よかったらシェアお願いします
  • URLをコピーしました!

この記事を書いた人

複数のIT企業の経営にたずさわった後、2011年にカナダの永住権を取得しバンクーバーに移住。同時に小説家としてデビュー。リアルに起こり得るサイバー犯罪をテーマにした小説とネット世論操作に関する著作や評論を多数発表。代表作として『原発サイバートラップ』(集英社)、『天才ハッカー安部響子と五分間の相棒』(集英社)、『フェイクニュース 新しい戦略的戦争兵器』(角川新書)、『ネット世論操作とデジタル影響工作』(原書房)など。
10年間の執筆活動で40タイトル刊行した後、デジタル影響工作、認知戦などに関わる調査を行うようになる。
プロフィール https://ichida-kazuki.com
ニューズウィーク日本版コラム https://www.newsweekjapan.jp/ichida/
note https://note.com/ichi_twnovel
X(旧ツイッター) https://x.com/K_Ichida

メールマガジン「週刊UNVEIL」(無料)をご購読ください。毎週、新着情報をお届けします。

目次