はじめに:研究の背景と意義

近年、ChatGPTやGPT-3といった大規模言語モデル(LLM)は、人間のような文章生成や数学的問題解決、プログラミング、推論などで驚くべき成果を上げています。しかし、その仕組みは開発者にさえも謎に包まれたままです。本論文は、インディアナ大学ブルーミントン校のRichard Shiffrin教授とサンタフェ研究所のMelanie Mitchell研究員による、Binz and Schulzの研究”Using cognitive psychology to understand GPT-3″についての評論です。

従来の評価方法の限界

これまでのAIシステムの評価は、主に人間が作成したベンチマークテストでの正確性を測定することで行われてきました。GPT-3などのLLMは、多くのタスクで人間と同等かそれ以上の性能を示しています。しかし、著者らは、このような性能評価だけでは不十分だと指摘します。なぜなら、

  1. 多くのベンチマークには微妙な「見かけの相関」が含まれており、AIが「間違った理由で正解」にたどり着ける可能性がある
  2. 単純な精度指標は、システムの真の一般化能力を予測できない、からです。

新しいアプローチ:認知心理学的実験

論文では、Binz and Schulzが提案する新しいアプローチを検討しています。それは「GPT-3を心理学実験の被験者として扱う」という方法です。この手法により、

  • 意思決定のメカニズム
  • 推論能力
  • 認知バイアス
  • その他の重要な心理的特性

を明らかにすることを目指しています。

実験の内容と結果

第1セット:既存の心理学的課題

研究者たちは、心理学文献から取った「ビネット」(短い場面描写)をGPT-3に提示しました。例えば、Wasonカード選択課題では、GPT-3は12問中6問で正解し、不正解の6問では人間が陥りやすい誤りと同様のミスを示しました。

しかし、著者らは以下の重要な問題点を指摘しています。

  1. 文脈依存性:カードの提示順序を変えただけで異なる回答が得られた
  2. トレーニングデータの影響:使用された課題は有名な心理学研究からのものであり、GPT-3のトレーニングデータに含まれていた可能性が高い
  3. プロンプトの敏感性:質問の些細な変更でGPT-3の回答が大きく変わる

第2セット:新規課題での実験

トレーニングデータに含まれていない新しい課題での実験では、

  • マルチアームバンディット決定課題では人間より優れた性能
  • 因果推論課題では人間より大幅に劣る性能

を示しました。

研究の課題と限界

著者らは、この研究アプローチに関して以下の重要な問題を提起しています。

  1. GPT-3を「単一の被験者」として扱うべきか、それとも「多数の被験者の平均」として扱うべきか不明確
  2. 何を測定し、人間と比較すべきかが不明確(言語的応答?確率的予測?内部表現?)
  3. LLMと人間の根本的な違い:
    • GPT-3は次のトークン(単語や単語の一部)を予測するよう明示的に訓練されている
    • 人間の認知過程(直感や熟考の混合など)がLLMにも当てはまるとは限らない

用語使用の問題

著者らは、AI研究における人間的な用語の使用にも警鐘を鳴らしています。

  • 「後悔」「選好」「リスク回避」などの人間的な概念をAIに適用することの妥当性
  • AIの「決定」「情報探索」「選好」を人間のそれと同じように扱えるのか
  • トレーニングデータ以外の実世界との接点を持たないAIに、これらの概念を適用することの問題

結論と示唆

著者らは、認知科学者がAIシステムの理解に重要な役割を果たすべきだと強調しています。同時に、以下の重要な問いも提起しています。

  • システムの複雑化に伴い、その理解はより困難になる可能性
  • 理解できないシステムを社会に導入することの是非
  • 同様の問いは人間にも当てはまるという皮肉な事実

評価と意義

本論文は、AIシステムの評価における新しいアプローチの可能性と限界を的確に指摘しています。特に重要な点は、

  1. 従来の性能評価だけでなく、認知心理学的アプローチの必要性を提起
  2. 実験結果の解釈における慎重さの重要性を強調
  3. AI研究における人間的概念の使用に関する本質的な問題提起

これらの指摘は、AI研究の方法論に関する重要な示唆を含んでおり、今後のAI研究の発展に貢献する可能性を持っています。


Shiffrin, R., & Mitchell, M. (2023). Probing the psychology of AI models. Proceedings of the National Academy of Sciences, 120(10), e2300963120. https://doi.org/10.1073/pnas.2300963120

By 吉成 雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。