はじめに:研究の背景と意義
近年、ChatGPTやGPT-3といった大規模言語モデル(LLM)は、人間のような文章生成や数学的問題解決、プログラミング、推論などで驚くべき成果を上げています。しかし、その仕組みは開発者にさえも謎に包まれたままです。本論文は、インディアナ大学ブルーミントン校のRichard Shiffrin教授とサンタフェ研究所のMelanie Mitchell研究員による、Binz and Schulzの研究”Using cognitive psychology to understand GPT-3″についての評論です。
従来の評価方法の限界
これまでのAIシステムの評価は、主に人間が作成したベンチマークテストでの正確性を測定することで行われてきました。GPT-3などのLLMは、多くのタスクで人間と同等かそれ以上の性能を示しています。しかし、著者らは、このような性能評価だけでは不十分だと指摘します。なぜなら、
- 多くのベンチマークには微妙な「見かけの相関」が含まれており、AIが「間違った理由で正解」にたどり着ける可能性がある
- 単純な精度指標は、システムの真の一般化能力を予測できない、からです。
新しいアプローチ:認知心理学的実験
論文では、Binz and Schulzが提案する新しいアプローチを検討しています。それは「GPT-3を心理学実験の被験者として扱う」という方法です。この手法により、
- 意思決定のメカニズム
- 推論能力
- 認知バイアス
- その他の重要な心理的特性
を明らかにすることを目指しています。
実験の内容と結果
第1セット:既存の心理学的課題
研究者たちは、心理学文献から取った「ビネット」(短い場面描写)をGPT-3に提示しました。例えば、Wasonカード選択課題では、GPT-3は12問中6問で正解し、不正解の6問では人間が陥りやすい誤りと同様のミスを示しました。
しかし、著者らは以下の重要な問題点を指摘しています。
- 文脈依存性:カードの提示順序を変えただけで異なる回答が得られた
- トレーニングデータの影響:使用された課題は有名な心理学研究からのものであり、GPT-3のトレーニングデータに含まれていた可能性が高い
- プロンプトの敏感性:質問の些細な変更でGPT-3の回答が大きく変わる
第2セット:新規課題での実験
トレーニングデータに含まれていない新しい課題での実験では、
- マルチアームバンディット決定課題では人間より優れた性能
- 因果推論課題では人間より大幅に劣る性能
を示しました。
研究の課題と限界
著者らは、この研究アプローチに関して以下の重要な問題を提起しています。
- GPT-3を「単一の被験者」として扱うべきか、それとも「多数の被験者の平均」として扱うべきか不明確
- 何を測定し、人間と比較すべきかが不明確(言語的応答?確率的予測?内部表現?)
- LLMと人間の根本的な違い:
- GPT-3は次のトークン(単語や単語の一部)を予測するよう明示的に訓練されている
- 人間の認知過程(直感や熟考の混合など)がLLMにも当てはまるとは限らない
用語使用の問題
著者らは、AI研究における人間的な用語の使用にも警鐘を鳴らしています。
- 「後悔」「選好」「リスク回避」などの人間的な概念をAIに適用することの妥当性
- AIの「決定」「情報探索」「選好」を人間のそれと同じように扱えるのか
- トレーニングデータ以外の実世界との接点を持たないAIに、これらの概念を適用することの問題
結論と示唆
著者らは、認知科学者がAIシステムの理解に重要な役割を果たすべきだと強調しています。同時に、以下の重要な問いも提起しています。
- システムの複雑化に伴い、その理解はより困難になる可能性
- 理解できないシステムを社会に導入することの是非
- 同様の問いは人間にも当てはまるという皮肉な事実
評価と意義
本論文は、AIシステムの評価における新しいアプローチの可能性と限界を的確に指摘しています。特に重要な点は、
- 従来の性能評価だけでなく、認知心理学的アプローチの必要性を提起
- 実験結果の解釈における慎重さの重要性を強調
- AI研究における人間的概念の使用に関する本質的な問題提起
これらの指摘は、AI研究の方法論に関する重要な示唆を含んでおり、今後のAI研究の発展に貢献する可能性を持っています。
Shiffrin, R., & Mitchell, M. (2023). Probing the psychology of AI models. Proceedings of the National Academy of Sciences, 120(10), e2300963120. https://doi.org/10.1073/pnas.2300963120