Mondo

はじめに:人工知能の社会的知性という難問

私たちが日常生活で当たり前に行っている「他人の気持ちを推測する」という能力は、実は非常に高度な認知機能です。友人が「ここ、ちょっと暑いね」と窓の近くで言ったとき、それが単なる気温の観察ではなく「窓を開けてほしい」という間接的な要請であることを理解できるのは、相手の心の状態を推測できるからです。この能力を心理学では「心の理論(Theory of Mind)」と呼びます。

近年、ChatGPTをはじめとする大規模言語モデル(LLM)が人間らしい対話能力を示すようになり、これらのシステムが真に他者の心の状態を理解しているのかという疑問が浮上しています。本研究”Testing theory of mind in large language models and humans”は、ドイツ・ハンブルク大学医療センターのJames W. A. Strachan博士らが率いる国際研究チームが、この根本的な問いに科学的に答えようとした野心的な取り組みです。

研究の設計:人間対AI、公平な比較のための工夫

研究チームは、心の理論の様々な側面を測定する包括的なテストバッテリーを構築しました。具体的には、偽信念課題、皮肉の理解、失言(faux pas)の認識、ほのめかし(hinting)の理解、そして複雑な社会的状況を描いた「奇妙な物語」の解釈という5つの異なる認知能力を評価しました。

特に注目すべきは、研究の厳密性への配慮です。AIが単に訓練データの記憶に基づいて答えているのではないことを確認するため、既存の問題に加えて全く新しい問題を作成しました。また、各AIシステムに対して15回の独立したセッションを実施し、人間の参加者(1,907名)との比較可能性を確保しました。

対象となったAIシステムは、OpenAIのGPT-4とGPT-3.5、そしてMetaのLLaMA2-70Bです。これらのモデルは、現在最も能力が高いとされる言語モデルの代表格であり、商用モデル(GPT)とオープンソースモデル(LLaMA2)の両方を含むことで、結果の一般化可能性を高めています。

驚くべき結果:AIの得意分野と限界の明確化

研究結果は、予想以上に複雑で興味深いものでした。多くのタスクにおいて、特にGPT-4は人間と同等かそれ以上の性能を示しました。皮肉の理解、間接的な要求の解釈、複雑な社会的物語の分析において、GPT-4は人間を上回る正確さを見せたのです。

しかし、「失言」の認識という特定の課題において、興味深い現象が観察されました。この課題では、ある人物が相手の気分を害するようなことを、そうとは知らずに言ってしまう状況を理解する必要があります。例えば、友人が新しく買ったカーテンを褒めてもらおうと見せたところ、別の友人が「そのカーテン、ひどいね。新しいのを買う予定?」と言ってしまう場面で、発言者がカーテンが新品だと知らなかったことを理解できるかを問います。

ここで驚くべき結果が現れました。通常最も性能が低いLLaMA2が人間を上回る性能を示し、一方で最も優秀とされるGPT-4が人間以下の成績しか上げられなかったのです。

失敗の背景に隠された真実:過剰な慎重さという落とし穴

この矛盾した結果を解明するため、研究チームは巧妙な追加実験を設計しました。失言課題での質問を「その人は知っていたか、知らなかったか?」から「その人が知っていた可能性と知らなかった可能性、どちらがより高いか?」に変更したのです。

この変更により、驚くべき事実が明らかになりました。GPT-4は実際には正しい推論を行えており、発言者が相手を傷つける意図はなく、単に状況を知らなかっただけだと理解していたのです。しかし、元の質問に対しては「情報が不十分で判断できない」という過度に慎重な回答をしていました。

一方、LLaMA2の優秀な成績は見かけ上のものでした。さらなる検証により、このモデルは文脈を適切に分析するのではなく、単純に「相手は知らなかった」という方向にバイアスを持って回答していることが判明しました。これは真の理解に基づく能力ではなく、たまたま正解に結びついた偏見だったのです。

技術的制約が生み出す人工的な慎重さ

GPTモデルの過度な慎重さは、技術的な設計思想に起因していると研究チームは分析しています。これらのモデルは、不正確な情報の生成(ハルシネーション)を避けるため、確実でない事柄について断定的な発言を控えるよう設計されています。この安全機能が、社会的推論において必要な「不完全な情報に基づく合理的推測」を妨げている可能性があります。

人間は日常的に、限られた情報から他者の意図や知識状態を推測し、行動を決定しています。これは生存に必要な能力であり、完璧な確証がなくても行動せざるを得ない生物学的制約の産物です。一方、AIシステムは物理的な身体を持たず、即座の行動を迫られることがないため、この種の積極的な推測を行う必要性を感じないのかもしれません。

研究手法の意義と課題

この研究の最も重要な貢献の一つは、AIの能力評価における方法論の改善です。従来の研究では、単一の課題での一度の測定に依存することが多く、結果の信頼性に疑問がありました。本研究では、複数の課題、複数回の測定、新規問題の作成など、より厳密な評価手法を採用しています。

特に、AIの「見かけ上の能力」と「真の理解」を区別する工夫は秀逸です。LLaMA2の失言課題での成功が、実は文脈理解に基づかない偏見によるものだったという発見は、AIの評価がいかに難しいかを示しています。

ただし、この研究にも限界があります。使用された課題は主に言語ベースであり、実際の社会的相互作用とは異なります。また、AIモデルは急速に進歩しており、この研究の結果が将来のモデルにどの程度適用できるかは不明です。

実用的含意:AIとの協働における注意点

この研究結果は、AIシステムとの協働において重要な示唆を与えています。GPTモデルが示した過度な慎重さは、一方では信頼性の向上につながりますが、他方では社会的な文脈での柔軟性を欠く可能性があります。人間のユーザーは、AIが不確実な状況での推測を避ける傾向があることを理解し、より具体的で明確な指示を与える必要があるかもしれません。

また、異なるAIモデルが異なる特性を持つことも明らかになりました。用途に応じてモデルを選択する際、単純な性能指標だけでなく、その根底にある処理方式の違いも考慮すべきでしょう。

科学的意義:認知科学への貢献

この研究は、AIの評価という実用的な目的を超えて、人間の社会的認知に関する理解も深めています。人間とAIが異なる方法で同じ課題を解決する様子を観察することで、人間の心の理論がいかに特殊で複雑な能力であるかが浮き彫りになります。

人間の社会的推論は、不完全な情報、時間的制約、行動の必要性という条件下で進化してきました。AIシステムがこれらの制約を持たないことは、両者の認知的アプローチが根本的に異なることを意味します。この違いを理解することは、より効果的な人間・AI協働システムの設計に役立つでしょう。

今後の展望と課題

この研究は、AI評価における新たな標準を設定しましたが、同時に多くの疑問も提起しています。AIの社会的理解能力をより正確に評価するためには、さらに多様な課題設計が必要でしょう。また、実際の対話場面でのAIの行動と、実験室的な課題での性能との関係も明らかにする必要があります。

研究チームが指摘するように、AIモデルの急速な進歩により、オープンソースモデルへのアクセスの重要性も高まっています。商用モデルのブラックボックス的性質は、その能力の本質的理解を困難にしています。科学的な検証のためには、モデルの内部動作により深くアクセスできる環境が必要です。

結論:人工知能の社会的理解に関する現在地

この包括的な研究により、現代のAIシステムの社会的理解能力について、より正確で複雑な理解が得られました。AIは確かに多くの心の理論課題で人間レベルの性能を示しますが、その根底にある認知プロセスは人間とは大きく異なります。

特に重要なのは、AIの「失敗」が必ずしも能力の欠如を意味するのではなく、設計上の制約や偏見の結果である場合があることです。逆に、AIの「成功」も真の理解に基づかない場合があります。この複雑さを理解することは、AIシステムをより効果的に活用し、その限界を適切に認識するために不可欠です。

人間とAIの協働がますます重要になる現代において、この研究が提示した厳密な評価手法と微妙な洞察は、両者の特性を最大限に活用するシステム設計の基礎となるでしょう。真の人工知能の社会的理解能力の実現には、まだ多くの研究と技術開発が必要ですが、この研究は確実にその道程における重要な一歩となっています。


Strachan, J. W. A., Albergo, D., Borghini, G., Pansardi, O., Scaliti, E., Gupta, S., Saxena, K., Rufo, A., Panzeri, S., Manzi, G., Graziano, M. S. A., & Becchio, C. (2024). Testing theory of mind in large language models and humans. Nature Human Behaviour, 8, 1285–1295. https://doi.org/10.1038/s41562-024-01882-z

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

Amazon プライム対象