人工知能(AI)による言語処理技術は急速に進歩し、私たちの日常生活に浸透しつつあります。しかし、人間レベルの言語理解には依然として大きな壁があります。この論文”Placing language in an integrated understanding system: Next steps toward human-level performance in neural language models”は、認知神経科学とAIの知見を融合させることで、より高度な言語理解システムの実現を目指す新たなアプローチを提案しています。

著者たちは、言語処理、認知科学、神経科学、機械学習など幅広い分野の専門家です。筆頭著者のJames L. McClellandはスタンフォード大学の心理学教授で、並列分散処理(PDP)モデルの提唱者として知られています。共著者には、DeepMind社のFelix Hill、Bosch AIセンターのMaja Rudolph、Google ResearchのJason Baldridge、ミュンヘン大学のHinrich Schützeらが名を連ねています。

この論文は、2020年10月に米国科学アカデミー紀要(PNAS)に掲載されました。AIによる言語処理が飛躍的に進歩する一方で、人間の言語理解能力との隔たりが改めて注目される中、今後の研究の方向性を示す重要な論考として位置づけられます。

神経計算の原理

論文ではまず、人間の脳の働きに着想を得た神経計算の基本原理を概説しています。これらの原理は1950年代に提唱され、1980年代のPDPモデルで発展しました。中心的な考え方は、認知が相互制約充足に基づくという点です。例えば、文を理解する際には、統語的曖昧性と意味的曖昧性の両方を解決する必要があります。

また、認知や言語における構造は学習によって徐々に形成されるという「創発」の概念も重要です。古典的な言語理論では離散的な記号と明示的な規則を用いますが、ニューラルネットワークでは、これらが連続的なパターンベクトル(分散表現)と結合重みの配列に置き換えられます。

この考え方は言語処理の分野で長く議論の的となってきました。支持者たちは、文脈依存的で細やかな処理が可能になると主張する一方、批判者たちは汎化能力の不足を指摘してきました。

ニューラル言語モデリングの発展

論文は次に、ニューラル言語モデリングの発展について述べています。1990年代、Jeffrey ElmanはRNN(再帰型ニューラルネット)を用いて、言語の構造を学習によって獲得できることを示しました。しかし、当時はこの手法を実際の自然言語に適用するのは困難でした。

2010年代に入り、大規模なテキストコーパスから単語の分散表現(埋め込み)を学習する手法が登場し、ブレイクスルーとなりました。さらに、文脈の長期依存性を扱うLSTM(長短期記憶)やTransformerなどのアーキテクチャが開発され、性能が飛躍的に向上しました。

特に重要なのが「クエリーベースの注意機構(QBA)」です。これにより、入力の各要素が他のすべての要素と相互作用できるようになりました。例えば、BERTと呼ばれるモデルは、この機構を用いて文脈に応じた単語の表現を学習し、多くの言語タスクで高い性能を示しています。

しかし、著者たちは現在の言語モデルにはまだ限界があると指摘します。例えば、「常識的な物理」や複雑な推論を要する課題では人間に及びません。また、人間の一生分をはるかに超える量のテキストデータで学習する必要があり、効率性の面でも課題があります。

統合的理解システムにおける言語

これらの限界を克服するため、著者たちは言語を「統合的理解システム」の一部として捉えることを提案しています。ここでいう「理解」の対象は「状況」です。状況とは、実体とその属性、関係、変化のパターンの集まりを指します。

人間が言語を処理する際には、描写された状況の表現をリアルタイムで構築しています。単語とその並びは意味を推測する手がかりとなり、状況の理解を共同で制約します。例えば「ジョンはパンにジャムを塗った。ナイフは毒に浸されていた。」という文を読むと、私たちは多くの推論を行います。

著者たちは、人間がこのように状況表現を構築していることを示す心理学的証拠を挙げています。また、言語と視覚情報を統合して状況を理解する過程を示す実験結果も紹介しています。

脳と AI に基づく理解モデルに向けて

論文の後半では、認知神経科学とAIの知見を融合した新たな理解モデルの構想が示されています。著者たちは、脳の理解システムに関する現在の知見を概説しています。

脳の理解システムは、物体表現、文脈表現、言語処理など複数のサブシステムから構成されています。これらは相互に結合し、制約充足的に処理を行います。また、海馬を含む内側側頭葉は、新しい任意の情報を迅速に学習する補完的な役割を果たしています。

著者たちは、これらの知見とAIの最新技術を組み合わせたモデルを提案しています。このモデルでは、物体認識や言語処理のサブシステムがQBAを用いて相互作用し、文脈や記憶のサブシステムにもクエリを発行します。また、内側側頭葉に似た高速学習システムを導入し、遠い過去の情報も利用できるようにしています。

さらに著者たちは、物理的・社会的世界とのインタラクションを取り入れることで、理解能力を向上させる可能性を指摘しています。例えば、3D環境でエージェントに言語指示を実行させる研究では、マルチモーダルで時間的に拡張された経験が、言語理解と行動の汎化能力の向上に寄与することが示されています。

結論

著者たちは、言語は単独で存在するものではなく、物体や状況の表現、多感覚的な経験、運動表現、過去の状況の記憶などと結びついた理解システムの一部であると主張しています。次世代の言語理解システムは、この人間の理解システムを模倣すべきだと提案しています。

具体的な状況の理解に焦点を当てつつ、抽象的な言語理解もこの基盤の上に構築されるべきだと論じています。認知神経科学とAIの知見を組み合わせることで、人間レベルの言語理解に近づく可能性があると結論づけています。

評価と展望

この論文は、言語処理研究の新たな方向性を示す重要な貢献だと評価できます。認知神経科学とAIという異なる分野の知見を融合させようとする試みは、学際的なアプローチの重要性を示しています。

特に注目すべき点は、言語を単独のモジュールとしてではなく、より広い理解システムの一部として捉える視点です。これは、現在の言語モデルが直面している限界を克服するための有望なアプローチだと考えられます。

また、具体的な状況の理解から出発し、そこから抽象的な概念の理解へと発展させていく提案も興味深いものです。これは、人間の認知発達の過程とも整合性があり、より自然な形で言語理解能力を獲得できる可能性があります。

一方で、提案されているモデルはまだ概念的なレベルにとどまっており、実装には多くの課題が残されています。特に、脳の複雑な構造や機能をどこまで忠実に再現する必要があるのか、計算資源の制約をどう克服するのかなど、検討すべき点は多くあります。

また、倫理的な観点からの考察も必要でしょう。人間のような理解能力を持つAIシステムが実現した場合、それがもたらす社会的影響について十分な議論が必要です。

総じて、この論文は言語理解研究の新たな可能性を示唆する刺激的な提案だといえます。認知科学、神経科学、機械学習など多様な分野の研究者が協力し、人間の認知能力の解明とAI技術の発展を同時に追求していくことが、今後ますます重要になっていくでしょう。


McClelland, J. L., Hill, F., Rudolph, M., Baldridge, J., & Schütze, H. (2020). Placing language in an integrated understanding system: Next steps toward human-level performance in neural language models. Proceedings of the National Academy of Sciences, 117(42), 25966-25974. https://doi.org/10.1073/pnas.1910416117

By 吉成 雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。