人種差別経験の開示は、機械と人間の双方から不当に有害だと判別されやすいという論文

  • URLをコピーしました!
目次

コンテンツモデレーションが人種差別体験の投稿を不当に排除している

 今回は『People who share encounters with racism are silenced online by humans and machines, but a guideline-reframing intervention holds promise』を紹介する。これは、ソーシャルメディアにおけるコンテンツモデレーション、すなわちコンテンツの内容が適正か否かを判断する仕組みが、人種差別の被害者などのグループの経験を不当に除外する可能性があることについて検証した論文である。

 コンテンツモデレーションは、アルゴリズムを活用した自動システムと、人間によって行われる手動システムに大別されるが、その双方ともがそれぞれ全く違う理由によって人種差別経験の開示を『有害性がある』と判定してしまうという事象について論じ、これらの不当な除外の危険性を孕んだコンテンツモデレーションをどう変えていくべきかについて提言している。

コンテンツモデレーション
コンテンツモデレーション(Contents Moderation)とは、インターネット上の不適切なコンテンツを監視し、必要であれば削除を含めた措置を取ることである。Moderation(緩和)と言う言葉を使用していることからもわかるように、削除といった厳格な処置だけではなく様々な対策を包含した概念ではあるが、この研究では専ら監視や削除といった比較的厳格な措置を指して使用している。

 コンテンツモデレーションは、欧州で現在施行されているデジタルサービス法(Digital Service Act、DSA)においても言及されており、「情報媒介者」(メディア、プロバイダなどのプラットフォーム事業者)が不適切な投稿等に対して取るべき対応を具体的に示している。一方でアメリカにおいてDSAに相当する通信品位法ではこのような義務を課しておらず、日本におけるプロバイダ責任制限法は個別事例ごとに関連法に基づき判断すると定めている。

 現状コンテンツモデレーションは「情報媒介者」にその実行方法や形態も含めてかなりの裁量が認められており、この裁量の中で人間もしくはアルゴリズムによって人種差別経験の開示のような投稿が不当に除外されていると言うのがこの論文の主要な論旨である。

アルゴリズムによる人種差別の開示への反応

論文で用いられている調査結果。
赤が人種差別経験の開示に対する有害性のフラグ立ての割合
青がその他の対人経験の開示に対する有害性のフラグ立ての割合

 アルゴリズムを用いたコンテンツモデレーションは、そのスピード、スケーラビリティ(Scalability、システムやソフトウェアの拡張性および柔軟な対応力などを指す)、および事前に定められたルールの一貫した適用を提供し、ソーシャルメディアプラットフォーム全体でユビキタスになっている。しかし、こと人種差別や不平等に関する対話への影響については、完全に解決したとは言い難い。これらのアルゴリズムは、そのような言説を助長するのか、妨害するのか? 論文ではコンテンツ有害性検出に使用される、一般的に著名な分類システムの評価を行っている。OpenAI moderation Application Programming Interface (API) (OpenAI)やPerspective API (Google)、Roberta (Facebook)、Detoxify (Unitary, an online content moderation company)などがその対象となっており、最近注目が集まっているOpenAI製のChatGPTも含まれている。論文の焦点は、アルゴリズムが人種差別経験の開示の有害性をどのように評価するかにあった。オンライン上での議論において、Perspective API、Roberta、およびDetoxifyは、有害性を「誰かがディスカッションから離脱する可能性が高い、失礼、無礼、または理不尽な(コンテンツ)」と定義している。

 論文においては、これら5つの最新システムが、1000件程度の人種差別経験以外の負の対人経験を開示する投稿と、同じく1000件程度の人種差別経験を開示する投稿の有害性をどのように評価したかを比較している。テストに使用された全てのアルゴリズムにおいて、人種差別の開示はその他の負の対人体験の開示よりも有意に毒性があると判定され、その割合は4.59%(Perspective API)から59.61%(ChatGPT)であったのに対し、負の対人体験の開示では1.39%(Perspective API)から41.82%(ChatGPT)であった。

 アルゴリズムによってフラグ付け率にばらつきがあるものの、2つのデータセットが否定的な感情や冒涜的な表現などの属性で同等であるにもかかわらず、5つのモデルすべてが、否定的な対人体験の開示よりも人種差別の開示を有害とフラグ付けする可能性が高かったと論文は指摘している。また、この研究に先立つ先行研究では、従来のコンテンツモデレーションアルゴリズムが、社会的マイノリティのアイデンティティに関する言及を有害と判定することや、ソーシャルメディアプラットフォームが人種差別に関する議論を(発言者の立場などを考慮せずに)ヘイトスピーチと分類する傾向があることが報告されている。言語処理技術の著しい改善の恩恵に浴しているはずの最新のコンテンツモデレーションシステムでさえ、人種差別の被害者による体験談を有害なものとして誤って分類することが示されている。

アルゴリズムはなぜ人種差別の開示を有害と見做すのか

 それでは、なぜアルゴリズムが人種差別経験の開示に有害のフラグを立てるのだろうか? 論文の中で言及されている研究においては、コンテンツを審査するアルゴリズムは、弁証法的なレトリックやアイデンティティに関する言及など、特定の言語的手がかりに過敏に反応することが示唆されている。論文では、この研究結果を応用しアルゴリズムによるフラグ立ての判断は、一つ一つの文章に存在する語彙的マーカー(肯定的/否定的な感情を呼び覚ます表現や侮蔑的な表現など)に頼りすぎて、これらの感情マーカーが埋め込まれているより広い文脈を見落とす可能性があるため、文章に込められたニュアンスを理解するのが難しいのではないかという仮説を立てている。

 論文では、立てられた仮説に沿う結果、つまり感情マーカーはすべてのモデルでアルゴリズムによるフラグ立てに有意な影響を与えるという結果が提示されている。肯定的な感情を表す単語が存在すると、アルゴリズムによってフラグを立てる可能性が低くなる傾向があり、反対に否定的な感情を表す単語や侮蔑的な言葉を表す単語が存在すると、フラグを立てる可能性が高くなる傾向があった。このことは、アルゴリズムが感情的な語彙に影響されやすい一方で、その解釈に影響するはずの文脈的なニュアンスを見落とす可能性があることを示唆している。アルゴリズムは、侮蔑的な言葉がユーザーの言葉の一部として使われているのか、それとも単にユーザーが直面した差別的発言の説明の中で引用されているだけなのかを区別することが苦手なのである。

 人種差別の開示とその他の負の対人経験の開示のデータセットの間には、否定的な感情や侮蔑的な言葉のレベルと頻度に大きな差は存在せず、これらの感情マーカーも負の対人経験の開示のアルゴリズムによるフラグ立てに影響を与えるが、効果の大きさは人種差別経験の開示におけるそれと比べてはるかに小さいと論文では述べられている。つまり、殊更人種差別の話題において感情マーカーはアルゴリズムの判定に非常に重要な役割を果たしているのである。

人間はアルゴリズムよりもコンテンツモデレーションにおいて優れているのか?

 先述したように、アルゴリズムによるコンテンツモデレーションでは、前後の文脈を読み取る能力が乏しいなどの問題によって、『人種差別を受けた経験を持っている人の話』を『人種差別に関する話題』と判断し、有害なコンテンツへと分類してしまうというメカニズムが意図せずに働いてしまっている。それでは、アルゴリズムよりも文脈の読み取り能力が高いとされる人間によるコンテンツモデレーションならば、このような誤解を防ぎ、適切にコンテンツを分類できるのだろうか?

 多くのソーシャルメディアプラットフォームにおいては、ガイドラインに違反するコンテンツに対して『有害である』というフラグを立てることにユーザーを関与させ、場合によってはプラットフォームから当該コンテンツを削除するために役立てている。X(旧Twitter)の『コミュニティノート』機能が分かりやすい例であろうか。多民族国家であるアメリカなどでは人種差別的な言説は論争や分裂を生み出すものであるという認識が強く、人間による削除が多く行われている。

 結論から言えば、アルゴリズムよりも人間の方が優れているという仮説は必ずしも正しくなかった。この研究のために用意されたデータセットに含まれるプラットフォームにおいては、人間によるフラグ立ては僅か2%ほどであるが、人種差別経験の開示に対して『有害である』とフラグが立てられる割合は36%にも達している。人種差別経験以外の負の対人経験の開示に対してフラグが立てられる割合はおよそ13%であり、およそ3倍近く高い確率で人種差別経験の開示はフラグが立てられている。

人間はなぜ人種差別の開示を有害と見做すのか

 前項で述べた通り、人間は機械とは異なり、汚い言葉や特定の差別的表現のような感情的もしくは語彙的な手がかりだけでなく、文脈的なニュアンスを見分けることができると考えられている。しかし、アルゴリズムがコンテンツを投稿した人間の社会的属性を含めた背景を考慮せずにフラグを立てるのに対して、人間はしばしば投稿者の背景に着目してしまう。つまり、人種差別に関する議論に直面すると、それは支配的な人種背景を持つ個人の間でしばしば不快感をもたらす話題であるため、社会的多数派による恣意的なフラグ立てが行われてしまう可能性があるのである。

 社会的アイデンティティと集団間関係に関する研究によると、人々の他者に対する判断は、その他者が自分の社会集団(例えば、人種集団や政治集団)の一員とみなされるかどうかに大きく依存し、人々は自分が所属する集団のメンバーを守ろうとする動機付けがあることが示唆されている。人種差別経験の開示の場合、コンテンツの読者が自分の人種グループのメンバーが差別で非難されていると認識すれば、差別的行動と関連づけられることへの懸念(「これは自分のグループや自分自身を否定しているのか」といったもの)が生じるかもしれない。こういった『アイデンティティの脅威』が、自己イメージや人種集団のイメージを守るために、こうした議論を抑制する、すなわち『有害である』とフラグを立てる動機となる可能性がある。これとは対照的に、コンテンツの読者が投稿者を自分の人種グループの一員と認識した場合、投稿者の視点をより受容的に受け止める可能性がある。その他にも、例えば特定の地域に根ざしたオンライン・コミュニティの場合、投稿者と読者は本来、同じ地域に住んでいるという社会的アイデンティティを共有している。住んでいる地域を同じくしているという情報が強調されると、読者は投稿者への親近感が増し、その結果、情報開示のフラグを立てる動機が低下する可能性がある。

 そして最後に、多数派集団の人々は、不公正なフラグ立てという手段に訴えるのではなく、不公正が呼びかけられる方法を批評するというトーン・ポリシングに関与することで、アイデンティティの脅威に反応する可能性があることが研究で示されている。人種に関する議論が不快感を引き起こすことが多いことから、人間の読者は、人種差別経験の開示に往々にして含まれている否定的な感情的トーンを注意深く監視することによって、不快感の非人種的な根拠を求め、削除のためにコンテンツにフラグを立てる正当な理由(例えば、ポスターが怒りすぎているように見えるなど)として利用する可能性があると予測した。

現行のガイドラインや慣行の見直しが急務

 ここまで述べてきたように、現在のコンテンツモデレーションは、それがアルゴリズムによるものであれ、人間によるものであれ、どちらも別々の理由によって本来有害性を持たない人種差別経験の開示を有害なものであると見做してしまう蓋然性を有している。主にプラットフォームにおけるガイドラインは、どのようなコンテンツにフラグを立てるべきかを指示しており、ガイドラインの読者によるコンテンツに対する懲罰性を助長する可能性があると論文では指摘している。

 論文においては、人種差別の開示が本質的にガイドライン違反ではないことを明確にし、注意を促すと共に、人間によるコンテンツモデレーションが持つトーン・ポリシング(tone policing、発言の内容ではなく論調や発言に付随する感情を批判することで発言の正当性を失わせる行為)の危険性に注意を喚起し、人種などの社会的アイデンティティの脅威を緩和するために集団的アイデンティティを強調することなどを盛り込んだリフレーミング・ガイドラインが提示されている。これは、共有されたアイデンティティに言及することで、人種差別経験の開示にフラグを立てる可能性が低下することを踏まえ、リフレーミングされたガイドラインでは「あなたの隣人」「私たちのコミュニティ」といったフレーズを使用し、差別の対象と読者に言及する際に、(自分と違う人種、社会的背景を持つ人間という社会的アイデンティティではなく)同じコミュニティに属する「隣人」という共有された包括的アイデンティティを強調することで理解と共感を深めることを狙いとしている。

 現行の(有害であると見做すべきコンテンツを指示している)プラットフォームにおけるコンテンツのモデレーション・ガイドライン、それを実施するアルゴリズム、そして人間のモデレーション慣行を再考し、包摂性や公平性といった社会的価値をより広範に反映させることが急務であることを強調している。

よかったらシェアお願いします
  • URLをコピーしました!

この記事を書いた人

2003年生まれ。神戸生まれ神戸育ちの神戸っ子。非軍事的な分野における安全保障に対して広く興味を有しており、現在は偽情報及び誤情報が民主主義に齎す影響を一橋大学グローバル・ガバナンス研究センター(GGR)において研究中。専攻以外では、ヴァイマル共和政期のドイツや国際政治・国際法について独自に勉強している。
X(旧Twitter)アカウントは @pax_silverna、主に自分が書いた胡乱な文章のことをつらつら呟いているが、稀に自身の専攻やその外で興味を持っていることについて四方山話を話しているので、気軽にフォローしていただきたい。

目次