言語学とAIの交差点で生まれた野心的な研究

「この文章は正しい日本語ですか?」と聞かれたとき、私たちは瞬時に判断することができます。文法書を開いて規則を一つずつ確認する必要はありません。この驚くべき能力は、人間の言語習得の核心部分であり、生成言語学では「受容性判断」と呼ばれています。

ニューヨーク大学のAlex Warstadt、Amanpreet Singh、Samuel R. Bowmanによる2019年の論文”Neural Network Acceptability Judgments”は、まさにこの人間特有の能力をAIが獲得できるかという根本的な問いに挑んだ研究です。筆者らは、10,657の英文からなる大規模データセット「CoLA(Corpus of Linguistic Acceptability)」を構築し、ニューラルネットワークの文法的判断能力を体系的に調査しました。

この研究の背景には、近年のAI技術の飛躍的進歩があります。機械翻訳や文章生成で目覚ましい成果を上げているニューラルネットワークですが、果たして人間のような文法的直感を本当に身につけているのでしょうか。表面的な性能の向上の裏で、AIは言語の根本的な構造を理解しているのか、それとも巧妙なパターンマッチングを行っているだけなのか。この疑問は、AI研究者だけでなく言語学者にとっても重要な意味を持ちます。

CoLAデータセット:言語学文献から生まれた貴重な資源

この研究の最大の貢献の一つは、CoLAデータセットの構築です。これまでの類似研究では、せいぜい数百文程度の小規模データセットしか利用できませんでしたが、CoLAは桁違いの規模を実現しました。

興味深いことに、筆者らは新しい文章を作り出すのではなく、既存の言語学論文から例文を収集するという手法を取りました。これは料理に例えるなら、新しいレシピを考案するのではなく、名シェフたちが厳選した食材を集めてくるようなものです。言語学者たちが理論的議論のために慎重に選び抜いた例文は、特定の文法現象を明確に示す「純度の高い」データだからです。

データセットには、Kim & Sells(2008年)の学部向け統語論教科書、Levin(1993年)の動詞辞典、Ross(1967年)の影響力ある博士論文など、時代も分野も多様な23の文献から例文が収集されています。これにより、単一の研究者や理論的立場に偏らない、幅広い文法現象をカバーするデータセットが実現されました。

しかし、すべての非文法的例文がデータセットに含まれているわけではありません。筆者らは慎重に選別を行い、語用論的な問題(「Bill fell off the ladder in an hour.」など、文法的には正しいが不自然な文)や、特定の解釈を前提とする例文(「Hei loves Johni.」でJohnが自分自身を愛するという意味を表せない例)、規範的な規則(前置詞で文を終えてはいけないという教室で教わる規則)、造語を含む例文は除外しました。

実験設計:人間の学習条件に近づける工夫

実験設計において注目すべきは、筆者らが人間の言語学習条件に可能な限り近づけようとした点です。多くのAI研究では、人間が一生涯で接する文章量を遥かに超える大量のデータでモデルを訓練しますが、この研究では意図的に制限を設けました。

具体的には、訓練データを1億から2億トークン程度に制限し、これは人間の子どもが4歳までに接する言語データ量(約4500万トークン)の10倍以内に収めています。この制約は重要な意味を持ちます。もしAIが人間を遥かに超える量のデータを必要とするなら、それは人間とは根本的に異なる学習メカニズムを使っていることを示唆するからです。

実験では、複数のアプローチが試されました。まず、連続値表現による単語の袋(CBOW)という最もシンプルなベースラインから、LSTM言語モデル、そして「real/fake」タスクで事前訓練した文エンコーダーまで、様々な手法が検討されました。

特に興味深いのは「real/fake」タスクの導入です。これは、本物の英文と人工的に生成された偽の英文を区別する課題です。偽の文章は、言語モデルからサンプリングしたり、既存の文章の語順をランダムに入れ替えたりして作成されました。この事前訓練により、モデルは文の全体的な構造についての知識を獲得し、その後の受容性判断タスクでより良い性能を示すことが期待されました。

結果が示す現実:AIと人間の間にある深い溝

実験結果は、期待と現実のギャップを鮮明に映し出しました。最良のモデル(ELMo形式の単語表現とreal/fake事前訓練を組み合わせたもの)でも、in-domainテストセットでの精度は77.2%、Matthews相関係数(MCC)は0.341にとどまりました。一方、人間の平均的な性能は精度85%、MCC 0.644という結果でした。

この差は決して小さくありません。人間とAIの間には、まだ埋められない大きな溝が存在しているのです。特にout-of-domainテストセットでは、モデルの性能はさらに低下し、訓練時に見たことのない種類の言語学現象に対する汎化能力の限界が露呈されました。

興味深いことに、教師なしモデル(Lau et al.の手法)は、in-domainとout-of-domainで似たような性能を示しました。これは、特定のデータに過度に適応することなく、より一般的な文法知識を学習している可能性を示唆しています。

現象別分析が明かすAIの得意分野と苦手分野

研究の価値ある側面の一つは、AIモデルがどのような文法現象を得意とし、どのような現象に苦戦するかを詳細に分析した点です。まるで学生の成績表を科目別に見るように、AIの言語能力の強弱が明らかになりました。

最も印象的だったのは、基本的な語順(主語-動詞-目的語)の判断における高い性能でした。特にGloVe埋め込みを使用したモデルは、語順違反の検出において98.8%という驚異的な正解率を記録しました。これは、大量のテキストデータから学習したAIが、英語の基本的な統語構造をしっかりと把握していることを示しています。

一方で、AIが最も苦戦したのは、遠距離依存関係を含む現象でした。例えば、疑問詞とその対応する位置の関係(「What did John fry?」は正しいが「What did John fry the potato?」は不正)や、主語と動詞の一致、再帰代名詞の照応関係などです。これらの現象は、文の局所的なパターンだけでは判断できず、文全体にわたる構造的理解が必要です。

この結果は、現在のニューラルネットワークが主として局所的なパターンの学習に依存していることを示唆しています。人間が持つような階層的で構造的な文法知識の獲得には、まだ到達していないのが現状です。

訓練データ量の効果:300文で何が学べるか

研究者たちは、訓練データの量がモデルの性能にどの程度影響するかも調査しました。100文から8,551文まで段階的にデータ量を変化させた実験では、興味深いパターンが観察されました。

驚くべきことに、わずか300文の訓練データでも、モデルは相当な文法的知識を獲得できることが判明しました。これは、CoLAでの学習が単純な暗記ではなく、既存の言語知識(事前訓練で獲得された知識)の活用に基づいていることを示唆しています。

まるで、基礎的な料理の技術を身につけた料理人が、少数のレシピを見るだけで新しい料理法の本質を理解するように、事前訓練されたモデルは比較的少ない例文から文法的パターンを抽出できるのです。

この発見は実用的な観点からも重要です。大量の高品質な文法的ラベル付きデータの作成は時間と費用がかかりますが、少数の良質な例文でも十分な効果が得られるなら、より効率的な研究が可能になります。

ドメイン適応の課題:専門性の壁

論文のもう一つの重要な発見は、ドメイン間の汎化の困難さです。特定の言語学文献で訓練されたモデルは、他の文献の例文に対して性能が大幅に低下しました。これは、一見統一されているように見える「英語の文法」が、実際には研究者や理論的立場によって微妙に異なる判断基準を持っていることを反映しているかもしれません。

この現象は、人間の専門性とも関連しています。言語学者でさえ、自分の専門分野外の文法現象については判断に迷うことがあります。ましてや、AIシステムが限られた訓練データから全般的な文法知識を獲得するのは、想像以上に困難な課題なのです。

刺激の貧困という古典的問題への現代的アプローチ

この研究のより深い意義は、言語学の根本的な問題である「刺激の貧困」論への一つの回答を提示した点にあります。チョムスキーによって提唱されたこの理論は、子どもが接する言語データは文法を学習するには不十分であり、生得的な言語能力(普遍文法)が必要だと主張します。

もしAIが人間と同等の文法判断能力を獲得できれば、純粋に経験的な学習だけでも複雑な文法知識の獲得が可能であることを示すことになります。しかし、この研究の結果は、少なくとも現在の技術では、AIは人間レベルの文法能力に到達していないことを明確に示しました。

ただし、これをもって刺激の貧困論が証明されたと結論づけるのは早計です。筆者らも認めているように、教師ありの受容性判断学習は、子どもが経験する自然な言語環境とは大きく異なります。子どもは非文法的な例文を明示的に教えられることはほとんどありませんが、この研究のモデルは正例と負例の両方から学習しています。

研究手法の限界と今後の課題

この研究は多くの価値ある貢献をもたらしましたが、いくつかの限界も存在します。まず、受容性判断は言語能力の一側面に過ぎません。文の意味理解や文脈に応じた解釈など、より複雑な言語現象については扱われていません。

また、データセットの構築における主観性の問題もあります。どの例文を「文法的」とし、どの例文を「非文法的」とするかは、言語学者の判断に依存します。実際、人間の評価者とCoLAの判断が13%の文で一致しなかったという結果は、文法性判断の複雑さを物語っています。

さらに、英語という特定の言語に限定された研究であることも制約の一つです。言語類型論的に多様な言語での検証が必要でしょう。

評価:野心的な試みがもたらした価値ある知見

この研究を総合的に評価すると、AIの言語能力に関する重要な現実を浮き彫りにした価値ある貢献だと言えます。表面的な性能指標だけでは見えてこないAIの限界を、体系的で詳細な分析によって明らかにしました。

特に評価すべきは、研究の透明性と再現性への配慮です。CoLAデータセットは公開され、実験コードも利用可能にされています。また、人間の学習条件に可能な限り近づけようとした実験設計は、AI研究における重要な方向性を示しています。

現象別の詳細分析も秀逸でした。AIが得意とする分野と苦手とする分野を具体的に特定することで、今後の研究の方向性に明確な指針を提供しています。単に「AIは人間に劣る」という結論ではなく、「なぜ、どのように劣るのか」を明らかにした点は高く評価されます。

一方で、研究の射程には限界もあります。文法性判断という比較的限定的なタスクに焦点を当てているため、AIの言語能力全般についての結論を導くには慎重さが必要です。また、使用されたニューラルネットワーク技術は2019年時点のものであり、その後のTransformerの発展やGPTシリーズの登場により、状況は大きく変化している可能性があります。

現在への示唆:ChatGPTの時代に読み返す意義

この論文が発表された2019年以降、AI技術は驚異的な進歩を遂げました。ChatGPTやGPT-4といった大規模言語モデルは、人間のような自然な会話能力を示し、複雑な文章生成タスクでも優秀な性能を発揮しています。

しかし、この研究が提起した根本的な問いは今でも有効です。現在のAIシステムが示す流暢な言語使用は、真の文法的理解に基づいているのでしょうか。それとも、巨大なデータセットから学習した統計的パターンの巧妙な組み合わせなのでしょうか。

CoLAデータセットを使った最新の大規模言語モデルの評価は、この問いに対する現代的な答えを提供するでしょう。もし現在のモデルが人間レベルの性能を達成しているなら、それは技術的進歩の証拠であると同時に、言語学習における経験の役割についての新たな証拠となります。

まとめ:AIと人間の言語能力を理解するための重要な一歩

この研究は、AIの言語能力に関する楽観的な期待と厳しい現実の間にある溝を率直に示しました。現在のニューラルネットワークは、確かに一定の文法的知識を獲得できますが、人間の直感的で包括的な言語能力には及ばないというのが研究の結論です。

しかし、これを単なる否定的な結果と捉えるべきではありません。むしろ、AI研究と言語学研究の両分野にとって価値ある指針を提供する重要な貢献です。AIが何を学び、何を学べていないかを明確にすることで、より効果的な学習アルゴリズムの開発や、人間の言語能力の理解につながる可能性があります。

また、この研究が示したもう一つの重要な教訓は、AI能力の評価における詳細で多面的な分析の必要性です。表面的な性能指標だけでなく、具体的な現象レベルでの分析を通じて初めて、AIシステムの真の能力と限界が見えてきます。

言語は人間の最も基本的で複雑な能力の一つです。AIがこの能力をどこまで再現できるかという問いは、技術的な関心を超えて、人間とは何か、知能とは何かという根本的な問いにつながっています。この研究は、そうした深い問いに取り組むための重要な足がかりを提供してくれました。


Warstadt, A., Singh, A., & Bowman, S. R. (2019). Neural network acceptability judgments. Transactions of the Association for Computational Linguistics, 7, 625–641. https://doi.org/10.1162/tacl_a_00290

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

Amazon プライム対象