NewsGuardのAIチャットボット監査41%が回答失敗

定期的に行われているAIチャットボット監査の結果が公開された。
NewsGuard Monthly AI Misinformation Monitor of Leading AI Chatbots
https://www.newsguardtech.com/ai-monitor/april-2025-ai-misinformation-monitor/
11の主要モデルに対して10の虚偽について30個のプロンプトでチェックが行われた。その結果、回答に失敗した割合(虚偽を含む回答と無回答)は41.15%、虚偽を含む回答の割合は28.18%だった。
監査開始以来、この割合は2024年9月にもっともよい結果を示し、その後、2024年12月に最悪となった。AGIなどAIへの期待は高まるばかりだが、その一方でAIの信頼性は改善されているわけではない。応用範囲が広がり、生産性が高まるのは喜ばしいことだが、使用していればけっこうな頻度で間違う。わかっている範囲でこれだけ高い割合というのは不安にならざるを得ない。実際、通常のテストでは発見できない誤りも確認されている。発見できない誤りがあるということは、それは事実として蓄積されていることを意味する。多数の論文、記録などに誤情報が事実と誤認されたまま残る。
LLMは0.001%のデータポイズニングで影響 論文
https://inods.co.jp/articles/report-reviews/5120/
最近、注目のNotebookLMで下記の記事の音声紹介を作ってみた。女性のインタビュアーが専門家に話しを訊くスタイルで最初は非常に順調でよくできていると思ったが、8分をすぎたところで突然インタビュアーと専門家の立場が逆転し、その後元に戻ったりしはじめた。いちいち全部聴いてチェックして直すのは現実的ではない。使ってみればその使用の限界に気がつく人も多いので、最近の調査結果ではAIに懸念を感じている人が多い。
Americans largely foresee AI having negative effects on news, journalists
https://www.pewresearch.org/short-reads/2025/04/28/americans-largely-foresee-ai-having-negative-effects-on-news-journalists/
Few Americans Trust Generative AI Models to Avoid Spreading Misinformation
https://www.newsguardtech.com/press/few-americans-trust-generative-ai-models-to-avoid-spreading-misinformation/