LLM(大規模言語モデル)が人間をどのように評価するかを測定する論文

  • Copied the URL !

 本記事は、Minheng Ni氏らによる「Measurement of LLM’s Philosophies of Human Nature」[1]を紹介する。

 近年、大規模言語モデル(LLM)は大きく進歩し、さまざまな作業にAIとして関与するようになっている。一方で、最近では人工知能(AI)が人間を怒らせたり衝突したりすることが頻繁に報告されるようになり、人間とAIの相互作用に関してより深い考察が求められていると筆者は言う。そこで本論文では、個人の人間性を測る尺度をLLMに当てはめることで、LLMが人間に対する信頼性をどのように捉えているかを測定する方法を提案するとともに、心理学をベースとした信頼感の改善方法についても検討している。

TOC

LLMはどれほどの認知能力を持つのか?

 論文では、先行研究を引用する形で大規模言語モデル(LLM)が人間と同様の認知能力を持つかどうかについての議論が高まっていることを示している。先行研究では、LLMが性格テストで人間に似た結果を示し、一定の価値観や記憶能力を持つことが確認されている。また、誤信念課題(サリー・アン課題)によるテストを通じて、他者の信念をその立場から理解する能力(心の理論:ToM)が進歩していることも示されている。一部の研究では、モデルの負の性格特性を軽減するための手法も検討されているが、LLMの人間性への態度についての議論は未発展であるとしている。

 ToMはAIの社会的知性において重要であり、特に日常的な社会的文脈や対話の理解に有効とされている。過去の研究やモデル(BToM、ToMnetなど)は、人間のような推論を可能にする枠組みを示している。最近では、プロンプティングやコンテキスト学習によってLLMのToM性能が向上しているが、倫理的リスクの軽減や人間性への態度改善にはまだ課題が残されていると論文では述べている。

人間に対する信頼性の測定方法とその結果

 前述したようなLLMの人間性をどのように測定し、数値化するかという問題に対し、論文では人間本性哲学尺度(Philosophy of Human Nature Scale:PHNS)を応用した M-PHNSと呼ばれる手法を提案している。元となったPHNSはWrightsman Jr(1964)によって提案された心理学測定用のツールであり、人間の本性に対する個人の基本的信念と哲学的態度を評価するために設計された。M-PHNSでは、LLMの人間に対する認識を6つのディメンジョンに分類する。すなわち、

(1)信頼性(Trustworthiness):道徳的誠実さと信頼性
(2)利他主義(Altruism):利己的でないことと他者への配慮
(3)独立性(Independence):社会的圧力にかかわらず信念を評価する
(4)意志の強さ・合理性(Strength of Will and Rationality):自己認識と人生の結果に対するコントロール
(5)人間性の複雑さ(Complexity of Human Nature):人間が単純か理解しにくいか?
(6)人間性の多様性(Variability in Human Nature):個人差と人間の関わりに対する理解

の6つのディメンジョンに対して、それぞれネガティブな質問・ポジティブな質問を行い、6段階のリッカート尺度に基づいたそれらの回答で採点する。それらの点数をディメンジョンごとに、

 ディメンジョンスコア=(肯定的な質問の合計点)―(否定的な質問の合計点)

とする式で処理し、得られた数値が高いほど「人間性に対して肯定的である」としている。

 これらのテストを複数のLLMに対して行った結果が下図である。

表3:さまざまなモデルにおける測定結果。
『Measurement of LLM’s Philosophies of Human Nature』[1]より。

 論文によれば、ほとんどすべての評価モデルは、複数のディメンジョンにわたって人間の平均値から大幅にマイナスの乖離を示している。特に論文が注目しているのは、モデルの能力と肯定的な態度の認識との間に逆相関があることである。つまりGPT-4oのような高度なモデルは、OLMo-2のような洗練されていないモデルに比べて、より否定的になるという結果を示すと論文は主張している。また複数のLLMに共通する傾向として、論文では、

・全体的な否定性については、「信頼性」と「利他主義」において一貫して人間を低く評価し、「独立性」と「意志の強さ」では人間と同傾向ながら大きく下回り、「複雑さ」「多様性」に関しては人間のスコアを大きく上回る。
・LLMの知能が向上すればするほど、人間に対してより否定的になる(例えばGPT-4シリーズは、GPT-3.5をはるかに上回る全体的な否定性を示す)。

ことを指摘している。

 このような「LLMが進歩するほど人間に対してネガティブになる」結果に至った原因として、論文では学習要因の影響について検討している。ここでは、同じGPT-4においても、2021年9月までのデータをもとに学習したものと2023年10月までのデータを学習させたものを比較すると、より最近のデータで学習したものの方がよりネガティブな傾向を示すことが示されている。論文ではこの変化について、モデルが現代の社会不信パターンをより強く学習した結果であると指摘している。

表4:異なるデータ取得終了日における測定結果。
『Measurement of LLM’s Philosophies of Human Nature』[1]より。

LLMが持つ人間に対する不信感の改善方法

 これまでに述べたLLMの人間に対する否定的な態度を改善するために、本論文では、心理学に基づいたメンタル・ループ学習というフレームワークを提案している。この手法は、言語モデル主体(LS)が仮想オブジェクト(VO)と対話し、人間が行う「質問→応答→反省→内面化」の認知サイクルを模倣することで、価値観(V)を継続的に更新・最適化していくものである。プロセスは2段階で構成されており、

(1)イベントの想像:VOがLSとの対話用に、人間の本質に関わるシナリオ(qi)を生成する。過去の生成履歴(hi)を活用して多様なシナリオを確保する。
(2)価値の更新:LSはそのシナリオに対して、現在の価値観に基づき応答(ri)を行う。次にLLMガイド(LG)がこの対話から新たな倫理的原理(vi)を抽出し、価値リポジトリVに追加する。

 このようにして、モデルは段階的に人間性に対する理解と態度を向上させていくと筆者は述べている。

図2:メンタルループ学習の概要。
『Measurement of LLM’s Philosophies of Human Nature』[1]より。

参考

1. 『Measurement of LLM’s Philosophies of Human Nature』(Minheng Ni, Ennan Wu, Zidong Gong, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Lijuan Wang, Wangmeng Zuo)
https://doi.org/10.48550/arXiv.2504.02304

If you like this article, please
Follow !

よかったらシェアお願いします
  • Copied the URL !

この記事を書いた人

茨城県出身の2003年生まれ。軍事・非軍事を問わず安全保障に興味を持っている。専攻は日米関係史だが主に東アジアの安全保障体制を扱っている。専攻外では中世ヨーロッパにおける政治体制の勉強が趣味。とくにポーランド・リトアニア共和国における民主制が対象。

メールマガジン「週刊UNVEIL」(無料)をご購読ください。毎週、新着情報をお届けします。

TOC