言語を習得する能力は人間の認知能力の中でも最も驚くべきものの一つです。幼児が周囲の言葉を聞きながら徐々に文法を身につけていく過程は、長年言語学者たちを魅了してきました。本論文”Modelling Language Acquisition through Syntactico-Semantic Pattern Finding”は、この言語習得の過程をコンピューターモデルで再現しようという野心的な試みについて報告しています。
著者のJonas Doumen氏、Katrien Beuls氏、Paul Van Eecke氏は、ベルギーの複数の大学に所属する研究者たちです。彼らは言語学と人工知能の知見を組み合わせ、子供がどのように言語を学んでいくのかを計算機上でシミュレーションすることを目指しています。
研究の背景
言語習得に関する理論は大きく二つに分かれます。一つは生得説で、人間の脳には言語を習得するための特別な仕組みが生まれつき備わっているとする考え方です。もう一つは構成主義的アプローチで、一般的な認知能力を使って徐々に言語を学んでいくとする立場です。
本研究は後者の構成主義的アプローチに基づいています。特に、心理言語学者のMichael Tomaselloが提唱した理論に着目しています。Tomaselloによれば、子供の言語習得には二つの重要な認知能力が関わっています。一つは「意図読み取り」で、相手の発話の意図を理解する能力です。もう一つは「パターン発見」で、多くの言語表現の中から規則性を見出す能力です。
本研究の目的は、このうち「パターン発見」の過程をコンピューターモデルで再現することです。これにより、構成主義的な言語習得理論の妥当性を計算機科学の観点から検証しようとしています。
モデルの概要
著者らが開発したモデルは、文と意味の対応関係を学習していきます。例えば「赤いボールはどこですか?」という文と、それに対応する意味表現(ボールを探し、その色が赤かどうかを確認する、といった一連の操作)のペアを与えられます。
モデルは最初、個々の文をそのまま丸暗記します。しかし徐々に、似た文の中にある共通点と相違点を見出し、より抽象的なパターンを学んでいきます。例えば「赤いボールはどこですか?」と「青い車はどこですか?」から、「[色][物]はどこですか?」という一般的なパターンを抽出します。
こうして学んだパターンは「構文」として保存され、新しい文を理解したり生成したりするのに使われます。また、「赤い」「青い」といった語を「色」というカテゴリーにまとめるなど、文法カテゴリーの形成も行います。
実験と結果
著者らは、このモデルの性能を検証するためにCLEVRというデータセットを使用しました。CLEVRは幾何学的な図形が描かれた画像に関する質問文のデータセットで、人工知能の視覚言語理解能力を測るために開発されたものです。
実験の結果、モデルは約500の文例を学習しただけで、新しい文の90%以上を正しく理解できるようになりました。2000例を学習すると、理解度は99.6%に達しました。
また、学習の過程を詳しく分析すると、人間の子供の言語習得過程とよく似た特徴が見られました。例えば、最初は個々の文をそのまま覚えていますが、徐々により抽象的なパターンを学んでいく様子が確認されました。
モデルの意義と課題
この研究の意義は大きく二つあります。一つは、構成主義的な言語習得理論の計算論的な裏付けを提供したことです。人間の子供がパターン発見を通じて言語を学んでいくという考え方が、実際にコンピューター上で再現可能であることを示しました。
もう一つは、より実用的な意義です。このモデルを発展させることで、人間のような柔軟な言語理解・生成能力を持つAI(人工知能)の開発につながる可能性があります。現在の多くのAIは大量のデータを使って学習しますが、このモデルはより少ないデータで効率的に学習できる可能性を示しています。
一方で、課題もいくつか残されています。例えば、現在のモデルは比較的単純な文しか扱えません。再帰的な構造を持つ複雑な文や、形態的に豊かな言語(日本語の助詞のように、文法関係を示す要素が多い言語)への対応が今後の課題となっています。
また、実験に使用したCLEVRデータセットは人工的に作られたものであり、実際の人間の言語使用の複雑さを十分に反映していない可能性があります。より自然な言語データでの検証が必要でしょう。
おわりに
本研究は、言語学と計算機科学の境界領域に位置する野心的な試みです。人間の言語習得過程の謎に、計算モデルという新しいアプローチで迫ろうとしています。完全な解明にはまだ遠い道のりがありますが、この研究は言語習得の理解に向けた重要な一歩と言えるでしょう。
今後の発展次第では、言語教育や言語障害の理解、さらには人間らしい対話能力を持つAIの開発など、幅広い分野への応用が期待できます。言語という人間の根源的な能力の解明に向けた、興味深い研究と言えるでしょう。
Doumen, J., Beuls, K., & Van Eecke, P. (2023). Modelling language acquisition through syntactico-semantic pattern finding. Findings of the Association for Computational Linguistics: EACL 2023, 1347-1357.