検索エンジンが信頼性の低いサイトへのアクセスにおいて果たす役割についての論文

  • URLをコピーしました!
目次

はじめに

 今回はKevin T.Greene氏らによる『Current engagement with unreliable sites from web search driven by navigational search』を紹介する。この記事は従来の研究で示唆されていた『検索エンジンのアルゴリズムが、利用者を信頼性の低いサイトへ誘導し、それらがもたらす情報に曝露させている』という学説を批判的に検証したものである。

 Googleやこの論文で取り上げられているBingのような検索エンジンは日々の生活に必要不可欠なものとなっており、情報へのアクセス方法において重要な位置を占めている。アメリカ大統領選挙や新型コロナウイルス禍などに関して偽・誤情報がネット上に氾濫し、その結果として公衆衛生に対する脅威やアメリカ連邦議会議事堂襲撃事件をはじめとする暴力的暴動が起きていることは周知の通りだが、検索エンジンはそのアルゴリズムを通じて利用者に対して信頼度の低い情報を提供することで貢献してしまっていると先行研究では示されていた。

 一方でこれらの先行研究には例えば検索エンジンから返される情報のサンプルを十分に収集せず、陰謀論や偽・誤情報に関する検索結果のみを対象としているなどの研究手法やデータの分析などにおいていくつかの問題を有しており、この論文においてはそれらの問題を解決するためにBing検索エンジンから匿名化された状態で収集された大規模なサンプルを用いて分析を行っている。

検索エンジンを経由した低信頼性サイトへのアクセス数

研究で用いられた2つのサンプルで検索エンジンが『信頼できない』サイトを返した割合。
『信頼できる』サイトと比して著しく割合が低い。
図:『Current engagement with unreliable sites from web search driven by navigational search』より

  結論としては、Bingから低信頼性サイトにアクセスする頻度は2つのサンプルのいずれにおいても高信頼性サイトにアクセスする頻度と比べて著しく低いことが確認された。高信頼性サイトと低信頼性サイトへのアクセス割合の差はサンプル1(2022年6月から8月に収集された約5000の高信頼性サイトと約3000の低信頼性サイトの計8000のドメインに一度でもユーザーを曝露した検索結果の集合体、約126億件)では約19倍もの乖離があり、サンプル2(2023年4月から6月に収集されたサンプル1と同様のドメインに一度でもユーザーを暴露した検索結果の集合体、約11億件)に至っては約45倍にまで達していた。

『信頼できる』サイトと『信頼できない』サイトが上位の検索結果に表示された割合。
図:『Current engagement with unreliable sites from web search driven by navigational search』より

 また、高信頼性サイトと低信頼性サイトが、上位の検索結果とリンクしている割合についても結果が示されている。ここでも、高信頼性サイトはサンプル1と2の双方で高い確率で上位の検索結果においてリンクされており、低信頼性サイトはほとんどの場合においてリンクされていないことが示されている。

低信頼性サイトと接触する原因

A・B:低信頼性サイトに接触する割合
C・D:低信頼性サイトのエンゲージメントに占める割合
E・F:検索結果のランクによる低信頼性サイトへの接触度合いの差
図:『Current engagement with unreliable sites from web search driven by navigational search』より

 しかし、低い確率ながら低信頼性サイトに接触する機会というものはあらゆる人に存在する。その原因がBingの検索アルゴリズムによる提供によるものか、第三者によって低信頼性サイトと判断されたドメインをユーザーが検索しているためなのかということを論文では調査している。ここではUSNQ(ユーザーが低信頼性サイトのドメインを検索していることを指している)検索の割合が指標として用いられている。

 検索においてUSNQ検索が占める割合は相当程度低く、サンプル1では0.88%であり、サンプル2ではやや多いが1.621%に留まっている。しかし、低信頼性サイトへの接触にUSNQ検索が占める割合はサンプル1で46.98%、サンプル2で15.37%とかなりの割合を占めている。さらに特定の要件下では低信頼性サイトのエンゲージメントの82%をUSNQ検索が占めている。つまり、ユーザーが検索アルゴリズムによって意図せず低信頼性サイトへ接触することは殆どなく、ユーザー自身がそのドメインを検索するなどの条件下で接触が発生するということである。

検索エンジンはどのような役割を果たしているのか

 ここまで記してきた結果が示すように、検索アルゴリズムは低信頼性サイトへユーザーを曝露することは殆どないと論文では結論づけている。ユーザーはアルゴリズムの結果として低信頼性サイトへアクセスしてしまうわけではなく、自ら望んでそのようなサイトを検索しアクセスしている。

 過去研究ではUSNQ検索のみを対象として低信頼性サイトへのアクセスを測定していたがゆえに、アルゴリズムの結果として低信頼性サイトへ誘導されているという「結果」が導き出されていたが、非USNQ検索をも包摂したデータセットを用いたことで論文ではこの仮説を覆すことに成功している。さらに、昨今大きく発展しているLLM(Large Language Model:大規模言語モデル)がBingの検索アルゴリズムに導入されて以降も、USNQ検索が低信頼性サイトへの誘導に大きな役割を果たしているとも論文は示唆している。

 検索エンジンがよりよい精度の情報を提供するために必要な提言も論文では行っている。USNQ検索は個人の嗜好によるものが大きいことからも、こういった低信頼性サイトへ多くアクセスする個人をターゲットにした介入が必要になり、ランキングを用いて低信頼性サイトの表示順位を下げるといった対策は効果が薄くなる。ファクトチェックや高信頼性サイトの表示頻度を上げることで、このような個人に対して幅広い情報源への接触を可能にできる可能性を論文では指摘している。

よかったらシェアお願いします
  • URLをコピーしました!

この記事を書いた人

2003年生まれ。神戸生まれ神戸育ちの神戸っ子。非軍事的な分野における安全保障に対して広く興味を有しており、現在は偽情報及び誤情報が民主主義に齎す影響を一橋大学グローバル・ガバナンス研究センター(GGR)において研究中。専攻以外では、ヴァイマル共和政期のドイツや国際政治・国際法について独自に勉強している。
X(旧Twitter)アカウントは @pax_silverna、主に自分が書いた胡乱な文章のことをつらつら呟いているが、稀に自身の専攻やその外で興味を持っていることについて四方山話を話しているので、気軽にフォローしていただきたい。

目次