研究の背景―デジタル時代の語彙学習

Xi’an Jiaotong UniversityのXiaochen WangとUniversity of MacauのBarry Lee Reynoldsによる本研究”Beyond the books: Exploring factors shaping Chinese English learners’ engagement with large language models for vocabulary learning”は、中国の英語学習者がChatGPTのような大規模言語モデルを語彙学習にどのように受け入れているかを探った興味深い調査です。2024年5月に教育科学誌に発表されたこの論文は、従来の教室での学習から、より柔軟なデジタルプラットフォームを使った学習への移行という、現代的な課題に取り組んでいます。

考えてみれば、私たちの周りでも英語学習の風景は大きく変わりました。かつては単語帳を片手に電車で暗記する学生の姿が当たり前でしたが、今ではスマートフォンで語彙アプリを使ったり、AIチャットボットと会話練習をしたりする光景が日常的になっています。本研究はこうした変化を学術的に捉え、なぜ学習者がこれらの新しいツールを使おうとするのか、その心理的・技術的要因を明らかにしようとしています。

理論的枠組み―2つのレンズで見る学習者の動機

本研究の特徴は、自己決定理論(Self-Determination Theory、以下SDT)と技術受容統合理論(Unified Theory of Acceptance and Use of Technology、以下UTAUT)という2つの理論を組み合わせた点にあります。

SDTは、人間の動機づけを理解するための心理学理論で、人は本質的に能動的で成長志向的な存在だという前提に立っています。この理論では、自律性(自分で選択できる自由)、有能感(うまくできるという感覚)、関係性(他者とのつながり)という3つの基本的な心理的欲求が満たされることで、人は内発的に動機づけられると考えます。例えば、語彙学習で言えば、自分の興味に合わせて学ぶ単語を選べる(自律性)、新しい単語を効果的に習得できている実感がある(有能感)、同じように学ぶ仲間とつながっている(関係性)といった要素が重要になります。

一方、UTAUTは技術の受容を説明する理論で、パフォーマンス期待(その技術が役立つという期待)、努力期待(使いやすさ)、社会的影響(周囲の人の意見)、促進条件(使うための環境やサポート)の4つが技術利用の意図に影響すると考えます。

この2つの理論を組み合わせることで、学習者の内面的な動機と技術受容の両面から、大規模言語モデルの利用を理解しようとした点は評価できます。

調査の設計と実施―568名の声を集めて

研究者たちは、中国のオンライン調査プラットフォーム「問巻星」を使って、568名の英語学習者からデータを収集しました。参加者の72%が女性で、年齢層は主に20-22歳(約50%)でした。教育レベルでは学士課程の学生が約63%を占め、大学のランクでは、いわゆる「985工程」や「211工程」といった中国の一流大学からの参加者は少なく、約78%がその他の大学の学生でした。専攻分野は人文科学・芸術系が最も多く32%を占めています。

参加者の募集は、大学の教員を通じた学術ネットワークと、ソーシャルメディアを通じた一般募集の両方で行われました。この二段構えのアプローチは、多様な参加者を集めるという意味で理にかなっています。まるで魚を釣るときに、餌を2種類用意するようなものです。ただし、重要な条件として、すべての参加者が「すでに大規模言語モデルを語彙学習に使った経験がある」ことが求められました。

調査では、SDTに関する9項目(各次元3項目ずつ)とUTAUTに関する15項目(各次元3項目ずつ)について、5段階のリッカート尺度で回答を求めました。例えば、自律性については「大規模言語モデルを通じて語彙を学ぶとき、多くの自由を感じる」、努力期待については「大規模言語モデルを使うのは簡単だ」といった具合です。

分析手法―構造方程式モデリングの威力

データ分析には、SPSS 26とAMOS 26という統計ソフトウェアを用い、構造方程式モデリング(SEM)という高度な分析手法を採用しています。SEMは、複数の変数間の複雑な関係を同時に検証できる強力な手法で、心理学や教育学の研究でよく使われます。

分析は4段階で行われました。まず、すべての項目に同じ回答をしているなど明らかに不適切な回答を除外し、次に記述統計を算出、そして信頼性と妥当性の検証を行い、最後にパス解析で仮説を検証しました。

信頼性(同じことを測っているか)を示すCronbach’s α値は、すべての変数で0.78から0.87と、推奨される0.7を上回りました。これは、質問項目が一貫性を持って構成されていることを示しています。妥当性(測りたいものを正しく測っているか)についても、複合信頼性(CR)と平均分散抽出(AVE)の値が基準を満たしており、モデルの適合度指標も良好でした。

主な発見―使いやすさが決め手

分析の結果、7つの仮説のうち6つが支持されました。SDTの3つの要因(自律性β=0.17、有能感β=0.23、関係性β=0.25)とUTAUTの3つの要因(パフォーマンス期待β=0.20、努力期待β=0.31、社会的影響β=0.26)がすべて、大規模言語モデルを使う意図に有意な正の影響を示しました。すべてp<0.001と、統計的に非常に強い関係が確認されています。

特筆すべきは、努力期待(使いやすさ)が最も強い影響力(β=0.31)を持っていた点です。これは、学習者にとって「簡単に使えるかどうか」が最も重要な決定要因であることを示しています。考えてみれば納得できる話で、どんなに素晴らしい機能があっても、使い方が複雑だったり、操作に手間取ったりするツールは敬遠されがちです。スマートフォンが普及した大きな理由の一つも、直感的な操作性にあったように、学習ツールも同様です。

一方、促進条件(使うための環境やサポート)だけは有意な影響を示しませんでした(β=-0.09、p=0.06)。この結果について、著者たちは、大規模言語モデルが本質的にアクセスしやすく使いやすいため、外部からのサポートや条件はそれほど重要ではないのではないかと解釈しています。つまり、すでに使いやすいツールなので、わざわざサポート体制を整える必要性が低いということです。

研究の貢献―新しい領域への一歩

本研究の貢献は主に3つあります。第一に、大規模言語モデルという比較的新しい技術と語彙学習という領域を結びつけた点です。ChatGPTのようなツールが登場してまだ日が浅く、その教育利用についての実証研究は限られています。この研究は、その空白を埋める先駆的な試みと言えます。

第二に、SDTとUTAUTという2つの理論を統合した新しい枠組みを提示した点です。従来の研究では、どちらか一方の理論だけを使うことが多かったのですが、両者を組み合わせることで、学習者の内発的動機づけと技術受容の両面から包括的に理解できるようになりました。これは、家を建てるときに、構造的な強度と住み心地の良さの両方を考えるようなものです。

第三に、568名という比較的大規模なサンプルサイズで、統計的に信頼性の高い結果を得た点です。小規模な調査では見えにくいパターンも、これだけの人数を対象にすることで明確になります。

限界と課題―研究の弱点を見つめる

しかし、本研究にはいくつかの重要な限界があります。著者たち自身も論文の最後で認めていますが、まず第一に、データ収集がオンライン調査のみに依存している点です。オンライン調査は効率的で多くの人にリーチできる利点がありますが、自己選択バイアス(興味のある人だけが参加する傾向)や、代表性の問題(インターネット環境のある人に限られる)があります。特に、すでに大規模言語モデルを使った経験がある人だけを対象にしているため、この技術に前向きな人に偏っている可能性があります。

第二に、横断的研究(一時点での調査)であるため、長期的な変化を追えない点です。例えば、最初は新鮮で使っていたツールも、時間が経つと飽きてしまったり、逆に慣れるにつれてより効果的に使えるようになったりすることがあります。この研究では、ある時点での「意図」を測っているだけで、実際の継続的な使用行動や学習成果については追跡していません。これは、まるで種を植えた直後の状態だけを観察して、その後の成長過程を見ていないようなものです。

第三に、自己報告データに依存している点です。参加者が質問に答える際、実際の行動よりも望ましいと思われる回答をする傾向(社会的望ましさバイアス)や、自分の行動や感情を正確に把握できていない可能性があります。実際にどれくらい使っているか、どれくらい効果があるかを客観的に測定する指標があればより説得力が増したでしょう。

第四に、文化的・地理的な限界です。調査は中国の英語学習者のみを対象としており、結果が他の国や文化圏にどこまで一般化できるかは不明です。中国の教育システムや英語学習の文化は独特で、例えば大学入試における英語の重要性や、学習者の動機づけのパターンが他国と異なる可能性があります。

方法論的な疑問―もっと掘り下げたかった点

研究デザインについて、いくつか疑問が残ります。まず、参加者の78%が「その他の大学」に所属しているという偏りについて、もう少し詳しい説明が欲しかったです。中国の大学システムでは、トップクラスの大学とその他の大学では、学生の英語力や学習リソースへのアクセスに大きな差がある可能性があります。この偏りが結果にどう影響したかの議論があればより良かったでしょう。

また、「大規模言語モデルを使った経験がある」という参加条件は、どの程度の経験を指すのでしょうか。一度試しただけの人と、日常的に使っている人では、技術に対する評価が大きく異なるはずです。使用経験の長さや頻度で参加者を分類し、比較分析すれば、より豊かな知見が得られたかもしれません。

さらに、促進条件が有意でなかった点について、著者たちの解釈はやや楽観的に過ぎる気がします。これは、測定項目自体に問題があった可能性も考えられます。例えば、「必要な学習知識がある」「相談できる人がいる」といった質問は、実際の技術サポートや組織的なバックアップとは少しずれているように感じます。もっと具体的に、「大学が大規模言語モデルの利用を推奨している」「使い方の講習会がある」といった項目があれば、異なる結果になった可能性があります。

実践的含意―教育現場への示唆

著者たちは、この研究結果から教育実践への示唆を導き出しています。努力期待が最も重要だという発見から、教員は学生に大規模言語モデルの使い方を丁寧に指導し、使用のハードルを下げるべきだと提案しています。これは確かに重要な点で、新しいツールを導入する際には、「どう使うか」を教えることが、「なぜ使うか」を説くことと同じくらい大切です。

また、SDTの3要素(自律性、有能感、関係性)を満たすような学習環境を作ることの重要性も指摘しています。例えば、学生が自分の興味や必要に応じて学ぶ単語を選べるようにする、適切なレベルの課題を与えて達成感を味わえるようにする、学習コミュニティを形成して互いに支え合えるようにする、といった工夫です。

ただし、これらの提案は理論的には正しいものの、実際の教育現場での実装を考えると、いくつか課題があります。例えば、教員が大規模言語モデルの使い方を十分に理解していない可能性、カリキュラムに組み込む時間的余裕がない可能性、学校の方針や保護者の理解が得られない可能性などです。研究者には、こうした実践的な障壁についても言及してほしかったところです。

データの質―もう少し慎重に

統計的な側面では、全体的に適切な手法が用いられていますが、いくつか気になる点があります。まず、記述統計(表1)を見ると、すべての項目の平均値が3を超えており、概ね肯定的な反応になっています。これは、前述の自己選択バイアスを反映している可能性があります。大規模言語モデルに懐疑的な学習者や、使ったことがない学習者の声が含まれていないため、結果が過度にポジティブに偏っているかもしれません。

また、標準偏差が0.74から1.16と、項目によってばらつきがあります。特に社会的影響の項目は平均値が高い(3.82-3.90)一方で標準偏差が小さい(0.74-0.88)傾向があり、回答が集中していることがわかります。これは、中国の集団主義的な文化を反映しているのかもしれませんが、より詳しい解釈が欲しかったです。

構造方程式モデリングの適合度指標は良好ですが、モデルの説明力(R²値)が示されていない点が惜しまれます。つまり、これら6つの要因がどの程度、行動意図を説明できているのかがわかりません。仮に説明力が低ければ、他にも重要な要因があるということになります。

理論的統合の妥当性―本当に必要だったか

SDTとUTAUTを統合したことは本研究の目玉ですが、この統合が本当に必要だったのか、少し疑問が残ります。2つの理論は異なる学問分野から来ており(SDTは心理学、UTAUTは情報システム論)、本来の文脈も異なります。無理に統合することで、それぞれの理論の深みが薄まってしまった可能性はないでしょうか。

例えば、SDTの関係性という概念は、本来は他者との温かいつながりや心理的な親密さを意味しますが、本研究では「大規模言語モデルから支援を受ける」といった項目で測定されています。これは、人間対人間の関係性というよりも、人間対機械の関係性であり、概念の本質からずれているように感じます。AIとの「関係性」を感じるというのは、やや擬人化が過ぎるかもしれません。

また、UTAUTの各要因とSDTの各要因の間に理論的な重複はないのでしょうか。例えば、努力期待(使いやすさ)と有能感(うまくできる感覚)は、ある程度関連していそうです。実際、表2の相関係数を見ると、一部の要因間には中程度の相関があります(例えば、行動意図と有能感の相関0.38、行動意図と関係性の相関0.42など)。これらの関係性について、もっと理論的な議論があっても良かったのではないでしょうか。

文化的文脈の不足―中国という特殊性

本研究は中国の英語学習者を対象にしていますが、中国特有の文化的・教育的文脈についての議論が不足しています。中国の英語教育は、大学入試(高考)での高得点を目指す試験対策が中心で、実用的なコミュニケーション能力よりも文法や語彙の正確さが重視される傾向があります。このような背景が、大規模言語モデルの利用動機にどう影響しているかは興味深い問いです。

また、中国では近年、AI技術の開発と利用が国家戦略として推進されており、若者のAIに対する態度は他国と異なる可能性があります。政府の方針や社会的な雰囲気が、学習者の技術受容に影響しているかもしれません。

さらに、中国の大学生の多くは寮生活を送っており、同世代との密接な交流があります。このような環境が、社会的影響の強さ(β=0.26)に表れているのかもしれません。こうした文化的・社会的文脈についてより深い考察があれば、研究の価値はさらに高まったでしょう。

測定の妥当性―質問項目の吟味

質問項目(Appendix A, B)を見ると、いくつか気になる点があります。例えば、パフォーマンス期待の項目「大規模言語モデルを使うと語彙を素早く学べる」というのは、やや誘導的に感じられます。「素早く」学べることが必ずしも良いことではなく、深い理解には時間がかかる場合もあります。

また、関係性の項目で「大規模言語モデルから支援を受ける」「頼りになる情報を提供してくれる」というのは、人間関係における関係性というよりも、ツールの有用性を測っているように見えます。これでは、パフォーマンス期待と区別がつきにくくなります。

行動意図を測る項目も、「友人に勧めたい」「経験を共有したい」というのは、実際の使用意図とは少しずれています。継続して使う意図は測っていますが、実際にどれくらいの頻度で使うつもりか、どのような場面で使うつもりかといった、より具体的な意図を測る項目があれば良かったでしょう。

今後の研究への期待―残された課題

著者たちも指摘していますが、今後の研究では、まず縦断的なデザインが求められます。例えば、大規模言語モデルを使い始めてから3か月後、6か月後、1年後と追跡調査をすれば、時間とともに態度や使用パターンがどう変化するかがわかります。最初は物珍しさで使っていたものが、本当に学習習慣として定着するのか、それとも新鮮味が失われて使わなくなるのか、興味深いテーマです。

また、質的研究を組み合わせることで、より深い理解が得られるでしょう。インタビューや観察を通じて、実際にどのように大規模言語モデルを使っているのか、どんな場面で役立っているのか、どんな困難に直面しているのかを詳しく調べることができます。数字だけではわからない、学習者の生の声や具体的な使用文脈が見えてきます。

さらに重要なのは、学習成果の測定です。本研究は、大規模言語モデルを使う「意図」を調べていますが、実際に語彙力が向上したかどうかは測っていません。ツールを使う意欲があることと、そのツールが効果的であることは別問題です。語彙テストの成績や、実際のコミュニケーション能力の向上を測定することで、この技術の教育的価値を実証する必要があります。

大規模言語モデルの光と影―技術への批判的視点

本研究は全体的に、大規模言語モデルの教育利用に肯定的なトーンで書かれていますが、この技術にはいくつかの懸念もあります。例えば、大規模言語モデルが生成する内容の正確性や適切性の問題です。語彙の説明や用例が必ずしも正しいとは限らず、学習者が誤った情報を学んでしまうリスクがあります。

また、過度に大規模言語モデルに依存することで、学習者の自律的な思考や問題解決能力が育たない可能性も指摘されています。すぐに答えを得られる便利さは、じっくり考える習慣を奪うかもしれません。辞書を引く、文脈から意味を推測する、といった従来の学習プロセスにも価値があります。

さらに、デジタル格差の問題もあります。本研究の参加者は全員、大規模言語モデルにアクセスできる環境にいますが、インターネット環境や適切なデバイスを持たない学習者もいます。技術の恩恵を受けられる人と受けられない人の間で、学習機会の格差が広がる可能性があります。

研究倫理の透明性―評価できる点

本研究は、第一著者の所属機関が医学部関連でないため倫理審査を受けられなかったと明記していますが、国際TESOL協会の倫理基準に従ったと説明しています。参加者への十分な説明、自発的な参加の保証、プライバシーの保護、インフォームド・コンセントの取得など、研究倫理の基本的な要件を満たしています。

この透明性は評価できます。多くの研究が倫理審査について曖昧に済ませる中、本研究は正直に状況を説明し、代替的な倫理基準に従ったことを明示しています。ただし、オンライン調査でのインフォームド・コンセントがどのように行われたのか(例えば、電子署名システムを使ったのか)、もう少し詳しい説明があれば完璧でした。

結論―価値ある第一歩だが道半ば

全体として、本研究は大規模言語モデルと語彙学習という新しい領域に踏み込んだ、価値ある先駆的研究です。2つの理論を統合した枠組み、比較的大規模なサンプル、厳密な統計分析など、方法論的にも一定の水準を満たしています。特に、努力期待(使いやすさ)が最も重要だという発見は、実践的に有用な示唆です。

しかし同時に、いくつかの重要な限界も抱えています。横断的デザイン、自己報告データへの依存、学習成果の未測定、文化的文脈の議論不足などです。また、理論統合の妥当性や、測定項目の適切性についても疑問が残ります。

この研究は、まだ始まったばかりの分野における重要な第一歩ですが、道のりはまだ半ばです。今後、より洗練された研究デザイン、多様な文化圏での調査、実際の学習効果の検証などが積み重なることで、大規模言語モデルの教育利用についての理解が深まっていくでしょう。技術の進歩が速い分野だけに、継続的な研究の蓄積が求められます。

教育者や政策立案者がこの研究から学べることは、新しい技術を導入する際には、その使いやすさを最優先すべきだということ、そして学習者の心理的欲求(自律性、有能感、関係性)を満たす形で設計すべきだということです。ただし、技術の効果を過信せず、批判的に検証し続ける姿勢も忘れてはなりません。便利な道具も、使い方次第で毒にも薬にもなるのですから。


Wang, X., & Reynolds, B. L. (2024). Beyond the books: Exploring factors shaping Chinese English learners’ engagement with large language models for vocabulary learning. Education Sciences, 14(5), Article 496. https://doi.org/10.3390/educsci14050496

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

📖新刊情報|英語教育学海外論文解説: 海外の研究をサクッと解説』が刊行されました!
海外の上位ランクの学術雑誌に掲載された論文の中から、毎月のテーマに合わせて論文を厳選、そのポイントや限界などをわかりやすく解説。最新の研究をサクッと学べる英語教育学の論文解説書です。
 第3号:「英語教育における語彙指導」 ▶第2号:「英語教育と評価を考える」 創刊号:「AIは英語学習を加速するのか」

X
Amazon プライム対象