AI 認知心理学

大規模言語モデルの「心理」を探る試み – GPT-3の認知実験からAIの理解へ

By吉成雄一郎

11月 22, 2024

Table of Contents

はじめに：研究の背景と意義

近年、ChatGPTやGPT-3といった大規模言語モデル（LLM）は、人間のような文章生成や数学的問題解決、プログラミング、推論などで驚くべき成果を上げています。しかし、その仕組みは開発者にさえも謎に包まれたままです。本論文は、インディアナ大学ブルーミントン校のRichard Shiffrin教授とサンタフェ研究所のMelanie Mitchell研究員による、Binz and Schulzの研究”Using cognitive psychology to understand GPT-3″についての評論です。

従来の評価方法の限界

これまでのAIシステムの評価は、主に人間が作成したベンチマークテストでの正確性を測定することで行われてきました。GPT-3などのLLMは、多くのタスクで人間と同等かそれ以上の性能を示しています。しかし、著者らは、このような性能評価だけでは不十分だと指摘します。なぜなら、

多くのベンチマークには微妙な「見かけの相関」が含まれており、AIが「間違った理由で正解」にたどり着ける可能性がある
単純な精度指標は、システムの真の一般化能力を予測できない、からです。

新しいアプローチ：認知心理学的実験

論文では、Binz and Schulzが提案する新しいアプローチを検討しています。それは「GPT-3を心理学実験の被験者として扱う」という方法です。この手法により、

意思決定のメカニズム
推論能力
認知バイアス
その他の重要な心理的特性

を明らかにすることを目指しています。

実験の内容と結果

第1セット：既存の心理学的課題

研究者たちは、心理学文献から取った「ビネット」（短い場面描写）をGPT-3に提示しました。例えば、Wasonカード選択課題では、GPT-3は12問中6問で正解し、不正解の6問では人間が陥りやすい誤りと同様のミスを示しました。

しかし、著者らは以下の重要な問題点を指摘しています。

文脈依存性：カードの提示順序を変えただけで異なる回答が得られた
トレーニングデータの影響：使用された課題は有名な心理学研究からのものであり、GPT-3のトレーニングデータに含まれていた可能性が高い
プロンプトの敏感性：質問の些細な変更でGPT-3の回答が大きく変わる

第2セット：新規課題での実験

トレーニングデータに含まれていない新しい課題での実験では、

マルチアームバンディット決定課題では人間より優れた性能
因果推論課題では人間より大幅に劣る性能

を示しました。

研究の課題と限界

著者らは、この研究アプローチに関して以下の重要な問題を提起しています。

GPT-3を「単一の被験者」として扱うべきか、それとも「多数の被験者の平均」として扱うべきか不明確
何を測定し、人間と比較すべきかが不明確（言語的応答？確率的予測？内部表現？）
LLMと人間の根本的な違い：
- GPT-3は次のトークン（単語や単語の一部）を予測するよう明示的に訓練されている
- 人間の認知過程（直感や熟考の混合など）がLLMにも当てはまるとは限らない

用語使用の問題

著者らは、AI研究における人間的な用語の使用にも警鐘を鳴らしています。

「後悔」「選好」「リスク回避」などの人間的な概念をAIに適用することの妥当性
AIの「決定」「情報探索」「選好」を人間のそれと同じように扱えるのか
トレーニングデータ以外の実世界との接点を持たないAIに、これらの概念を適用することの問題

結論と示唆

著者らは、認知科学者がAIシステムの理解に重要な役割を果たすべきだと強調しています。同時に、以下の重要な問いも提起しています。

システムの複雑化に伴い、その理解はより困難になる可能性
理解できないシステムを社会に導入することの是非
同様の問いは人間にも当てはまるという皮肉な事実

評価と意義

本論文は、AIシステムの評価における新しいアプローチの可能性と限界を的確に指摘しています。特に重要な点は、

従来の性能評価だけでなく、認知心理学的アプローチの必要性を提起
実験結果の解釈における慎重さの重要性を強調
AI研究における人間的概念の使用に関する本質的な問題提起

これらの指摘は、AI研究の方法論に関する重要な示唆を含んでおり、今後のAI研究の発展に貢献する可能性を持っています。

Shiffrin, R., & Mitchell, M. (2023). Probing the psychology of AI models. Proceedings of the National Academy of Sciences, 120(10), e2300963120. https://doi.org/10.1073/pnas.2300963120

【書評】The Pocket User's Guide To Running LLM Models Locally

人工知能は"理解"できるのか - 言語モデルをめぐる議論の行方

人工知能との新たな関係性:「人間-AI チーミング」が切り開く未来

New Amazon Kindle Colorsoft | 16GBストレージ、防水、7インチカラーディスプレイ、色調調節ライト、最大8週間持続バッテリー、広告無し、ブラック (2025年発売) #1

New Amazon Kindle Colorsoft | 16GBストレージ、防水、7インチカラーディスプレイ、色調調節ライト、最大8週間持続バッテリー、広告無し、ブラック (2025年発売) #2

New Amazon Kindle Colorsoft | 16GBストレージ、防水、7インチカラーディスプレイ、色調調節ライト、最大8週間持続バッテリー、広告無し、ブラック (2025年発売) #3

New Amazon Kindle Colorsoft | 16GBストレージ、防水、7インチカラーディスプレイ、色調調節ライト、最大8週間持続バッテリー、広告無し、ブラック (2025年発売)

(544153)

￥39,980 (2025年8月20日 06:51 GMT +09:00 時点 - )

【Kindleがカラー表示に対応】光の反射を抑えた目に優しい紙のような読み心地のKindleがカラーディスプレイで登場。【7インチカラーディスプレイ】Kindle Paperwhite 第12世代と同じ７インチディスプレイは白黒で300ppi、カラーで150ppiの解像度。【最大8週間バッテリー】USB-C対応、一度のフル充電で最大8週間続くバッテリー。【色調調節ライト】ホワイトからアンバーに色の暖かさを調節して、自分にとって読みやすい色合いを。【本棚をまるごと手の中に】16GBのストレ... もっと読む

Amazon Fire TV Stick 4K | 映画館のような4K体験 | ストリーミングメディアプレイヤー #1

Amazon Fire TV Stick 4K | 映画館のような4K体験 | ストリーミングメディアプレイヤー #2

Amazon Fire TV Stick 4K | 映画館のような4K体験 | ストリーミングメディアプレイヤー #3

Amazon Fire TV Stick 4K | 映画館のような4K体験 | ストリーミングメディアプレイヤー

(5441615)

￥9,980 (2025年8月20日 06:51 GMT +09:00 時点 - )

世界で最も人気のストリーミングメディアプレーヤーシリーズ ※Fire TVシリーズの2022年10月～2023年9月の世界販売/出荷台数に関する外部調査機関による調査結果、および内部データによる映画館のような4K体験 - Dolby Vision、HDR10+による躍動感のある映像と鮮やかな色彩、Dolby Atmosによる没入感あふれるサウンド、そして、Wi-Fi 6によるスムーズなストリーミング。 Wi-Fi 6対応 - 複数のデバイスが同じルーターに接続しても、高精細な4Kビデオコンテン... もっと読む

Amazon Fire HD 10 インチタブレット - 1080pフル HDディスプレイ、大画面で動画もマンガも - 32GB ブラック #1

Amazon Fire HD 10 インチタブレット - 1080pフル HDディスプレイ、大画面で動画もマンガも - 32GB ブラック #2

Amazon Fire HD 10 インチタブレット - 1080pフル HDディスプレイ、大画面で動画もマンガも - 32GB ブラック #3

Amazon Fire HD 10 インチタブレット - 1080pフル HDディスプレイ、大画面で動画もマンガも - 32GB ブラック

(5414429)

￥19,980 (2025年8月20日 06:51 GMT +09:00 時点 - )

【10.1インチの大画面】1080pフルHDで動画、マンガも大画面で。【薄くて、軽くて、丈夫】持ち運びにも便利。落下テストでの耐久性は Apple iPad 10.9 (第10世代)の約4倍。【長時間バッテリー】最大13時間の連続使用が可能で外出先でも安心。【高速パフォーマンス】前世代機よりも最大25％パフォーマンスが改善。3GB RAM、8コアプロセッサ―搭載でエンターテイメントもサクサク楽しめます。【5MPカメラ】Zoomで家族や、友達との通話に。インスタグラムに投稿する動画にも。 ... もっと読む

Amazon Fire TV Stick 4K Max(マックス) | Fire TV Stick史上最もパワフル | ストリーミングメディアプレイヤー #1

Amazon Fire TV Stick 4K Max(マックス) | Fire TV Stick史上最もパワフル | ストリーミングメディアプレイヤー #2

Amazon Fire TV Stick 4K Max(マックス) | Fire TV Stick史上最もパワフル | ストリーミングメディアプレイヤー #3

Amazon Fire TV Stick 4K Max(マックス) | Fire TV Stick史上最もパワフル | ストリーミングメディアプレイヤー

(5445339)

￥12,980 (2025年8月20日 06:51 GMT +09:00 時点 - )

世界で最も人気のストリーミングメディアプレーヤーシリーズ ※Fire TVシリーズの2022年10月～2023年9月の世界販売/出荷台数に関する外部調査機関による調査結果、および内部データによる Fire TV Stick史上、最もパワフルなストリーミングメディアプレーヤー - パワフルな2.0 GHzクアッドコアプロセッサによるアプリの高速起動。次世代Wi-Fi 6Eによるスムーズなストリーミング。ひとつ上を行く4K Ultra HDを実現。迫力の映像 - Dolby Vision、HDR1... もっと読む

Echo Dot (エコードット) 第5世代 - Alexa、センサー搭載、鮮やかなサウンド｜チャコール #1

Echo Dot (エコードット) 第5世代 - Alexa、センサー搭載、鮮やかなサウンド｜チャコール #2

Echo Dot (エコードット) 第5世代 - Alexa、センサー搭載、鮮やかなサウンド｜チャコール #3

Echo Dot (エコードット) 第5世代 - Alexa、センサー搭載、鮮やかなサウンド｜チャコール

(5427897)

￥7,480 (2025年8月20日 06:44 GMT +09:00 時点 - )

【コンパクトなのに響く低音・高音質】前世代と同じサイズでも、よりクリアなボーカル、より深い低音、そして鮮やかなサウンドが楽しめる、Alexa搭載スマートスピーカー。【音楽もポッドキャストも】Amazon Music、Apple Music、Spotifyなどからお好みの音楽、ポッドキャストを再生。オーディオブックも楽しめます。スマホからBluetoothで音楽再生も。【Alexaが暮らしのお手伝い】Alexaに話しかけて天気やニュースを聞いたり、スケジュールを確認したり、タイマーのセットも。... もっと読む

By 吉成雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ（英語教授法）、信州大学大学院工学研究科（情報工学）修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。