はじめに―ある英語教師の悩み

「単語は授業で教えた。テストでも点が取れた。なのに、三ヶ月後には何も残っていない」。こうした嘆きは、日本の英語教育現場では珍しくありませんね。中学・高校で何年も英語を学んでいるにもかかわらず、卒業後には使えるものがほとんど残らないという現象は、指導法の問題だけではなく、記憶の構造そのものに起因しています。今回取り上げる論文は、まさにその「記憶」の問題に正面から向き合い、AIを使って記憶定着を最適化しようとする研究群を丁寧に整理・評価したものです。

Michael C. Mozer、Melody Wiseheart、Timothy P. Novikoffの三人による”Artificial Intelligence to Support Human Instruction”(2019年、PNAS掲載)は、Tabibian et al.(2019)の論文”Enhancing Human Learning via Spaced Repetition Optimization”に対するコメンタリー論文として書かれています。コメンタリーとは、学術誌において主論文に寄り添いながら文脈を提供し、意義と限界を論じる短編論考のことで、第一著者のMozerはコロラド大学ボルダー校のコンピュータサイエンスおよび認知科学の教授であり、Googleの機械知性研究部門にも籍を置く、認知科学とAI双方に精通した研究者です。Wiseheartはヨーク大学(カナダ)の心理学者で、分散学習の権威。Novikoffも同じくGoogleの研究者です。この三者が共同で書いたという事実は、論文の射程が純粋な心理学にもAI工学にも収まらないことを示しています。

記憶は「曲線」を描く―忘却の科学を知っていますか

まず、この論文が前提とする科学的知見について整理しておきましょう。19世紀末にHermann Ebbinghausが提唱した「忘却曲線」は有名ですが、その後の研究が明らかにしたのは、忘却を遅らせる最も効果的な方法のひとつが「間隔をあけた復習」だということです。これを「スペーシング効果(spacing effect)」と呼びます。

論文中のFig. 1Aが視覚的に示しているのは、じつに興味深い現象です。二回の学習セッションの間隔(ISI、インタースタディ間隔)と、最後の学習から確認テストまでの間隔(RI、保持間隔)の組み合わせによって、記憶の定着率が大きく変わります。テストが近い場合(RIが7日)は短い間隔で復習する方が有利ですが、テストが遠い場合(RIが350日)は間隔を大きく取った方が効果的です。つまり、「いつ覚えたいか」によって「いつ復習すべきか」が変わるのです。これは直感に反します。多くの学習者は「苦しいうちに繰り返す」方が頭に入ると感じているからです。しかし科学はそうではないと言います。

この知見を英語教育に引き寄せて考えると、「今週のテストのために今週詰め込む」という日本の定期テスト文化がいかに記憶の定着にとって非効率かが分かります。テスト後には何も残らない。それは生徒の怠慢ではなく、脳の仕組みとスケジュール設計のミスマッチです。Mozerらは、AIこそがこの「スケジュール設計」を個別最適化できるツールだと主張します。

Tabibianらの研究は何をしたのか―確率微分方程式と記憶の関係

主論文であるTabibian et al.(2019)の貢献を簡単に説明しておきましょう。彼らは、学習者の記憶状態を確率微分方程式を使って数学的にモデル化し、どのタイミングで復習するべきかを最適制御理論で導き出しました。数式が苦手な人向けに言い換えると、「記憶の強さ」を水の入ったバケツに見立てたとき、水は時間とともに自然に漏れていきます。復習すると水が補充されますが、補充のタイミングが早すぎると効果が薄く、遅すぎると水がなくなります。Tabibianらは「水が半分以下になりそうなとき補充せよ」という直感的な戦略を数学的に証明しました。

より厳密に言えば、彼らの主要な定理は「最適な復習頻度は、学習者が記憶を想起できない確率に比例する」というものです。これは長年フラッシュカード型の学習ソフト(DuolingoやAnkiを思い浮かべてください)で経験則として使われてきた戦略に、初めて厳密な数学的根拠を与えたものです。MozerらはこのTabibianらの理論的貢献を高く評価しつつも、いくつかの重要な留保を付けます。

理論と現実のあいだにある「谷」

Mozerらが指摘する最大の問題点は、Tabibianらのモデルが「間隔の非線形な最適性」を完全には捉えられていない点です。Fig. 1Aが示す逆U字型の曲線―つまり「短すぎても長すぎてもダメで、ちょうどよい間隔がある」という構造を、彼らの数学モデルは再現できていません。Mozerらの言葉を借りれば、Tabibianらのモデルでは詰め込み学習(massed practice)も分散学習(spaced practice)と同程度に有効であるという結果になってしまい、これは実験的証拠と矛盾します。

これはモデルに内在する「理想化」の問題です。数学的に扱いやすくするために心理的現実を単純化したとき、現実の人間の学習行動とのあいだに乖離が生じます。たとえるなら、地図は現実を単純化したものですが、等高線が省略された地図を持って山登りに行けば危険です。Tabibianらの地図には、記憶の「山の形」が正確に描かれていない部分がある。Mozerらはそう指摘します。

しかし同時に、Mozerらはこの欠点が実用上は致命的でないかもしれないとも述べています。なぜなら、長い保持期間を想定した場合、最適な間隔の「山」は幅が広く平らで、多少ズレても結果に大差がない可能性があるからです。また、Tabibianらがペナルティ関数の中に「復習しすぎ」への罰則を組み込んでいることで、実質的に詰め込みを抑制する効果が生まれており、この間接的な設計が現実の学習者の行動と偶然に整合したと解釈できるという点も指摘されています。これは設計者の意図を超えた結果の一致であり、科学的には興味深いものがあります。

「自然実験」の価値―データは証言する

Mozerらが特に評価するのは、Tabibianらがオンライン学習プラットフォームの大規模データを使った「自然実験」を行った点です。彼らは実際の学習者が利用したデータを分析し、理論が予測する「最適な間隔」に近いスケジュールで学習した人ほど忘却が遅かったことを示しました。

自然実験とは、研究者が介入せず、現実のデータの中に「比較可能な条件の差」を見つけ出す手法です。この場合、学習の開始から終了までの時間、総復習回数、最初の学習後の記憶強度を統制したうえで比較を行っているため、信頼性は高いとMozerらは評価しています。RCT(ランダム化比較試験)ではないものの、「できる限り公正な比較」として機能しているという評価です。これは英語教育研究者にとっても示唆的です。実験室で証明されたことが教室でも機能するかは別問題ですが、大規模な実際のデータで追認されたとき、その知見の信頼性はぐっと高まります。

日本の英語教育が学ぶべきこと―現場への示唆

さて、ここで視点を日本の英語教育に向けましょう。日本の学校英語教育において「単語を覚えさせる」という課題は非常に重要です。大学入試センター試験(現・共通テスト)では語彙力が合否を左右し、多くの生徒が単語帳を繰り返し見ることに膨大な時間を費やします。しかしその方法は、Mozerらが論じるスペーシング効果の観点からは非常に非効率です。多くの場合、単語帳の先頭からABCの順に覚えていき、忘れたらまた先頭から。これは分散学習でも何でもありません。

Mozerらが紹介するMozer自身の先行研究(Lindsey et al., 2014)では、中学校の外国語授業において、週約30分をAI主導の個別最適化レビューに充てたところ、学期末試験一ヶ月後の保持率が比較対照群より16.5%高かったという結果が示されています。週30分という現実的な時間投資でこれほどの効果が得られるなら、日本の英語授業への応用は十分に考えられます。実際、DuolingoやAnkiはすでに分散学習のアルゴリズムを組み込んでおり、個人が自学自習ツールとして利用することは広く行われています。しかし問題は、学校教育のカリキュラムに組み込まれた形での実証研究が日本ではまだ少ないことです。

また、Mozerらが指摘する「マイクロインストラクション」の概念は日本の教育文化に特有の課題を映し出します。クラス全体を同じペースで進める一斉授業は、個々の学習者の記憶状態に応じた最適なタイミングの復習を構造的に困難にしています。AIが個々の生徒に異なるタイミングで異なる問題を出すという発想は、日本の教室では「えこひいき」や「進度の乱れ」として受け取られかねませんが、それはむしろ「一人ひとりの脳に合わせた最適化」です。

関連研究との対比―どこが新しく、どこが古いのか

スペーシング効果の研究系譜を少し整理しておきましょう。心理学的な基盤としては、Robert Bjorkの「desirable difficulty(望ましい困難)」理論が重要です。少し苦労して思い出すこと自体が記憶を強化するというこの考え方は、単純な反復練習より「引き出す練習(retrieval practice)」の方が効果的という知見と組み合わさって、英語教育界にもじわじわと浸透してきています。Mozerらはこの方向性を肯定的に評価しつつ、BjorkのモデルはAI的に見れば「ヒューリスティック(経験則)」であり、最適性の理論的保証がないと位置づけます。

計算論的教育学の文脈では、Pavlik & Anderson(2005, 2008)による活性化ベースの記憶モデルがあり、これはACT-Rという認知アーキテクチャに基づいた心理的にリアルなモデルです。Tabibian et al.のモデルはこれよりも数学的に扱いやすく最適化の理論的保証があるという意味で前進していますが、心理的リアリズムの点ではやや後退しているとMozerらは示唆しています。つまり、理論的厳密さと現実への忠実さのあいだにはトレードオフがある、ということです。この緊張関係は、教育AIの研究全体に通底する本質的な問題です。

機械学習寄りの研究としては、Settles & Meeder(2016)によるDuolingoデータを用いた訓練可能な分散反復モデルがあります。こちらは理論よりも予測精度を重視した実用的なアプローチで、Tabibianらの研究とは対照的な立場です。Mozerらは両者の位置づけを明示しながら、「理論と実用の橋渡し」こそが次の課題だと述べており、この整理は非常に有益です。

AIは教師を不要にするか―答えはノー、しかし「だから関係ない」ではない

Mozerらは、AIが教師の「機械的な役割」を引き受けることで、教師がより少人数での対話的指導に集中できるという展望を描いています。これは教師の仕事を奪うという話ではなく、教師の仕事を「質的に変える」という話です。日本で言えば、授業中の単語確認テストや反復演習をAIに委ねることで、教師が発音指導やディスカッション、ライティングフィードバックという人間にしかできない部分に時間を使えるようになる、ということです。

ただし、ここで一点慎重な視点を加えておく必要があります。Mozerらが論じているのは主に「事実の記憶」、とりわけ語彙の習得という比較的単純なタスクです。英語教育が目指すのはそれだけではありません。コミュニケーション能力、論理的表現力、異文化理解など、容易に「学習者モデル」に落とし込めない能力群があります。このような高次の能力に対して、同様のAI最適化がどこまで有効かは、現時点では分かりません。Mozerらも論文の最後で、「心理的妥当性の高い学習者モデルと理論的保証のある教師モデルの組み合わせ」はまだ実現されていないと率直に認めており、この誠実さは学術的な信頼性を高めています。

論文の評価貢献は確かだが、問いは残る

この論文の最大の強みは、Tabibianらの研究を「持ち上げすぎず、貶めすぎず」に位置づけている点です。数学的貢献を認めながら、心理学的限界を指摘し、それでも実用的成果があることを自然実験によって示す。この三段構造は批評としても研究紹介としても非常に均整がとれています。また、認知心理学とAI工学という異なる文化を持つ学術コミュニティに向けて同時に発信しており、その橋渡し機能は高く評価されるべきです。

一方で、いくつかの問いが残ります。まず、このモデルは「学習アイテムが独立している」という前提に立っていますが、言語習得では単語間の関係性(コロケーション、文法的共起など)が重要であり、この前提が崩れたときどうなるかは論じられていません。次に、「記憶の強さ」を単一の数値で表すことへの疑問です。学習者の感情状態、学習環境、そのときの疲労度によって記憶のダイナミクスは変わります。ストレスの高い環境下ではコルチゾールが記憶形成を阻害することが知られており、そうした変数をモデルに組み込む議論は本論文の範囲を超えているとはいえ、今後の研究課題として明示してほしかったところです。

さらに、日本の英語教育という文脈では、「正解か不正解か」という二値的な評価ではなく、「どれくらい自信を持って答えたか」「どのくらい時間がかかったか」という反応時間や確信度の情報を活用することで、より精緻な学習者モデルを作れる可能性があります。これはMettler et al.(2011)が提唱した方向性でもあり、Mozerらも参考文献としてリストしていますが、本文中での展開はやや薄い印象があります。

おわりに―科学の言葉を教室の言葉に翻訳するために

この論文を読んで最も印象的だったのは、「どれだけ頭のよいアルゴリズムを作っても、人間の学習の複雑さを完全には捉えられない」という著者たちの謙虚さです。それでも彼らは諦めない。なぜなら、完璧でなくても役に立てる余地がある、ということを自分たちの研究で実証しているからです。週30分のAIレビューで16.5%の改善。地味に見えますが、これが積み重なれば、英語が苦手な生徒の進路を変えるかもしれません。

日本の英語教育関係者にとってこの論文の意義は、「最新AIの動向」を知ることだけではありません。むしろ、「なぜ繰り返し練習させるのか」「いつ復習させるのが最も効果的か」という問いに、科学的な根拠を持って答えられるようになることです。経験則で「大事なことは何度も言う」と繰り返してきた教師の直感は、多くの場合正しかった。しかしその直感を精緻化し、個別最適化するのはもはや人間の手だけでは追いつかない。AIはその意味で、教師の判断を補強し精度を上げるための道具として機能し得ます。

Mozerらが最後に述べているように、真に有効な教育AIは、人間の行動の複雑さを深く理解する認知科学者と、数理的な明快さをもたらすAI研究者の協働によってのみ生まれます。それは英語教育の研究者と実践者が協力するのと、構造的によく似ています。現場の知恵と科学の論理が交わるところに、次の一歩があります。

最新の研究の解説記事を見逃したくない方へ
膨大な論文の中から、読むべき重要研究を厳選し、わかりやすくまとめた記事を毎週土曜日に届けします。 忙しい先生のための情報収集ツールとしてお使いください。
icon

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語eラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているeラーニングシステム「リンガポルタ」も開発した。最近ではAIによる新しい教育システムの開発にも着手している。

📖新刊情報|英語教育学海外論文解説: 海外の研究をサクッと解説』の最新号(第7号)が刊行されました!▶特集テーマ:生成AIと共創するアカデミック・ライティング:英語教育における実践、評価、そして倫理

X
Amazon プライム対象