人工知能(AI)の進歩は目覚ましく、特に大規模言語モデル(LLM)と呼ばれる技術の発展により、人間のような対話や文章生成が可能になってきました。しかし、これらのAIシステムが本当に言語を「理解」しているのかどうかについては、研究者の間で激しい議論が交わされています。
サンタフェ研究所のメラニー・ミッチェル氏とデイビッド・C・クラカウアー氏が執筆した論文”The debate over understanding in AI’s large language models”は、この議論の現状を整理し、AIの「理解」をめぐる重要な問いを提起しています。両氏は複雑系科学の第一人者として知られ、AIと認知科学の分野で長年研究を続けてきました。
ここでは、この論文の内容を詳しく解説し、AIの「理解」に関する議論がなぜ重要なのか、そしてこの問題が私たちの社会にどのような影響を与える可能性があるのかを考察します。
大規模言語モデル(LLM)とは何か
まず、議論の中心となっている大規模言語モデル(LLM)について説明しましょう。LLMは、膨大な量のテキストデータを学習することで、人間のような自然な文章を生成できるAIシステムです。代表的なものに、OpenAIのGPT-3やChatGPT、GoogleのPaLMなどがあります。
これらのモデルは、数十億から数兆のパラメータ(重み)を持つ深層ニューラルネットワークで構成されており、インターネット上の膨大なテキストデータを学習しています。その結果、人間のような対話や文章生成、さらには推論能力まで示すようになりました。
AIの「理解」をめぐる対立
論文によると、LLMの「理解」能力については、AIの研究者コミュニティで意見が二分されています。
一方の陣営は、LLMが本当に言語を理解し、ある程度の一般的な推論能力を持っていると主張します。彼らは、LLMのパフォーマンスが人間に匹敵するレベルに達していることや、モデルの規模を大きくすれば能力がさらに向上すると考えています。
他方の陣営は、LLMが言語の形式を学習しているだけで、本当の意味や世界についての理解を持っていないと主張します。彼らは、LLMには実世界の経験や因果関係の理解が欠けているため、真の理解には至っていないと考えています。
この対立は、2022年に行われた自然言語処理研究者へのアンケート調査にも表れています。「十分なデータと計算資源があれば、テキストのみで訓練された生成モデルが自然言語を何らかの意味で理解できるようになる」という説に対し、回答者の意見は51%が賛成、49%が反対と、ほぼ真っ二つに分かれました。
人間の理解とAIの理解の違い
論文の著者らは、人間の理解とAIの理解の根本的な違いについて指摘しています。
人間の理解は、概念に基づいた内部のメンタルモデルに依存しています。これらのモデルは、外部の世界や自己の内部状態に関する概念を含み、抽象化、予測、一般化、アナロジー、合成的思考、反事実的思考などの能力を可能にします。
一方、現在のLLMは、膨大な統計的相関関係に基づいて動作しています。つまり、単語や文の統計的な出現パターンを学習しているのです。この方法は、人間のような概念理解や因果関係の把握とは根本的に異なります。
ショートカット学習の問題
著者らは、LLMの性能評価に使用されるベンチマークテストの問題点も指摘しています。これらのテストは、人間の理解力を測るために設計されたものですが、LLMはしばしば「ショートカット学習」と呼ばれる現象を利用してテストをパスします。
ショートカット学習とは、AIが人間には気づきにくい統計的な相関関係を利用して問題を解決する現象です。例えば、ある研究では、論理的推論を評価するテストで、特定の単語の有無だけで正解を予測できることが明らかになりました。
この現象は、LLMが本当に理解しているのか、それとも単に統計的なトリックを使っているだけなのかという疑問を提起します。
AIの理解を評価する新しい方法の必要性
著者らは、現在のAIシステムの「理解」を適切に評価するためには、新しい方法が必要だと主張しています。人間の認知能力を測るために設計されたテストは、LLMの能力を正確に評価するには不適切かもしれません。
LLMは人間とは全く異なる方法で「理解」を獲得している可能性があります。そのため、人間の認知科学に基づく従来の評価方法では、LLMの能力を適切に測ることができない可能性があります。
著者らは、多様な形態の知能と理解のメカニズムを明らかにする新しい種類のベンチマークやプローブ方法の開発が必要だと提言しています。
AIの理解をめぐる議論の重要性
この論文が提起する問題は、単に学術的な議論にとどまりません。AIシステムが私たちの日常生活にますます深く関わるようになる中で、これらのシステムの能力と限界を正確に理解することは極めて重要です。
例えば、自動運転車、医療診断、高齢者介護、教育など、人間の生命や福祉に直接影響を与える分野でAIが活用される場合、そのAIが本当に状況を「理解」しているのか、それとも単に統計的なパターンを再現しているだけなのかを知ることは、安全性や信頼性の観点から非常に重要です。
新しい形の「理解」の可能性
著者らは、LLMが示す能力が、人間とは全く異なる新しい形の「理解」である可能性も示唆しています。例えば、チェスや蛋白質構造予測の分野では、AIが人間とは全く異なるアプローチで驚異的な成果を上げています。
これらの例は、私たちが「理解」という概念をより広く捉える必要があることを示しています。人間の認知能力とは全く異なる、しかし同様に強力で有用な「理解」の形態がAIによって生み出されている可能性があるのです。
多様な認知モードの統合へ
著者らは、AIの発展によって「理解」の新しい形態が生み出されている可能性を指摘し、これらを「より大きな動物園の中の新しい種」と表現しています。そして、異なる問題に対して異なる種類の知能が適していると主張しています。
例えば、膨大な歴史的知識を必要とし、高いパフォーマンスが求められる問題には、LLMのような大規模な統計モデルが適しているかもしれません。一方、知識が限られていて強い因果メカニズムが重要な問題には、人間の知能が適しているかもしれません。
今後の課題は、異なる形態の知能における「理解」のメカニズムを明らかにし、それぞれの長所と限界を見極め、そしてこれらの多様な認知モードを統合する方法を学ぶことだと著者らは結論づけています。
まとめ
本論文は、AIの「理解」をめぐる現在の議論を鋭く分析し、この問題の重要性と複雑さを浮き彫りにしています。AIが急速に発展し、私たちの社会に深く浸透していく中で、これらの問いに対する答えを探ることは、AIの適切な活用と人間社会との調和のために不可欠です。
著者らが提起しているように、人間とAIの異なる形の「理解」を認識し、それぞれの長所を活かしながら統合していくことが、これからのAI研究と応用の重要な方向性となるでしょう。同時に、AIの能力と限界を正確に把握し、適切に活用していくための新しい評価方法の開発も急務です。
AIの「理解」をめぐる議論は、単にAI技術の問題にとどまらず、人間の知能や意識の本質に関する哲学的な問いにもつながっています。この論文が投げかけた問いは、AIの研究者だけでなく、認知科学者、哲学者、そして社会全体で考えていくべき重要な課題だと言えるでしょう。
Mitchell, M., & Krakauer, D. C. (2023). The debate over understanding in AI’s large language models. Proceedings of the National Academy of Sciences, 120(13), e2215907120. https://doi.org/10.1073/pnas.2215907120