パンデミックが変えた留学生の入試事情
2020年春、世界中の大学関係者が頭を抱えていました。新型コロナウイルスの感染拡大により、従来の英語能力試験を実施する試験会場が次々と閉鎖されていったのです。留学を希望する学生たちは、英語力を証明する手段を失いかけていました。そんな中、救世主のように現れたのがDuolingo English Test(以下DET)でした。自宅のパソコンとインターネット環境さえあれば、いつでもどこでも受験できるこの試験は、まさに時代の要請に応えるものだったといえます。
しかし、急速に普及したこの新しい試験について、誰もが抱いていた疑問がありました。「この試験で測定された英語力は、本当に大学での学業成績を予測できるのだろうか」という問いです。本論文”Examining the predictive validity of the Duolingo English Test: Evidence from a major UK university”は、University College London(UCL)に所属するTalia Isaacs、Ruolin Hu、Julia Vargaの3名と、University of YorkのDanijela Trenkicによって執筆され、まさにこの問いに正面から取り組んだ研究報告です。
筆者たちの問題意識―新しい試験には新しい検証が必要
論文の筆頭著者であるIsaacsは、UCLの応用言語学センターに所属する研究者です。彼女たちが本研究に取り組んだ動機は明確でした。DETは2016年に登場した比較的新しい試験であり、パンデミック以前は大学入試での使用実績が限られていました。ところが2020年3月、UCLを含む多くの大学が、ほとんど検証データがないまま、この試験を入学要件として認めざるを得なくなったのです。
従来のIELTSやTOEFL iBTのような確立された試験については、長年にわたって「試験の点数が高い学生ほど、入学後の成績も良い傾向がある」という関係性が研究されてきました。しかし、その相関関係は決して強くなく、多くの研究で弱い正の相関が見られる程度でした。たとえるなら、身長と体重の関係のように、ある程度の傾向は見られるものの、個人差も大きいというイメージです。英語力以外にも、専攻分野、学習スキル、サポート体制、個人的な事情など、成績に影響する要因は無数にあるからです。
研究の設計―1881名のDET受験者を追跡
筆者たちは、2020年秋にUCLに入学した学生のうち、DETで英語力を証明した1881名(大学院生1389名、学部生492名)のデータを分析しました。これは大規模な調査といえます。さらに比較のため、同時期にIELTSで入学した2651名、TOEFL iBTで入学した436名のデータも分析しました。
分析の視点は複数ありました。まず学位レベル(大学院か学部か)、次に専攻分野(生命科学、物理科学・工学、社会科学・人文科学の3分野)、そして国籍(中国系学生とそれ以外)という切り口です。このように細かく分けて分析したのには理由があります。たとえば、工学部の学生と文学部の学生では、求められる英語力の質が異なります。工学部では数式やプログラミングが中心で、長い論述は少ないかもしれません。一方、文学部では大量の文献を読み、長い論文を書く必要があります。こうした違いを無視して全員をひとまとめに分析すると、重要な傾向を見落としてしまう可能性があるのです。
主要な発見―大学院生には有効、学部生には?
研究の結果は、興味深いものでした。大学院生については、DETのスコアと1年次の成績の間に正の相関が見られました。統計的な処理を施した後の相関係数は0.195でした。これは「DETで高得点を取った大学院生は、入学後の成績も良い傾向にある」ことを意味します。ただし、この数値は統計学者が「弱い相関」と呼ぶ範囲です。完璧な相関が1.0、まったく関係がないのが0.0ですから、0.195は「傾向は見られるが、例外も多い」という状態です。
ところが学部生では、まったく異なる結果が出ました。相関係数はマイナス0.112という負の値でした。つまり「DETで高得点を取った学部生が、必ずしも良い成績を取るとは限らない」という、直感に反する結果です。これは一体どういうことでしょうか。
筆者たちは、この謎を解くために、さらに詳しい分析を行いました。すると、学部生のサンプルには、様々な背景を持つ学生が混在しており、それが結果を複雑にしていることが分かりました。たとえば学部1年次の成績は、多くの英国の大学では最終的な学位の等級に含まれません。そのため、学生によっては全力を出していない可能性があります。また、学部生の試験は大学院生に比べて選択式や短答式が多く、長い論述が少ない傾向があります。こうした要因が、英語力と成績の関係を見えにくくしている可能性があるのです。
専攻分野による違い―工学系学生の不思議な結果
専攻分野別の分析からは、さらに意外な発見がありました。大学院生のデータを見ると、物理科学・工学系の学生は、他の分野の学生よりも平均的にDETのスコアが低かったのです。これは理解できます。工学系のプログラムは、英語の要求水準が比較的低く設定されているからです。
ところが、入学後の成績を見ると、この工学系の学生たちが最も高い成績を収めていました。つまり「低い英語力で入学したにもかかわらず、最も良い成績を取った」のです。一見矛盾しているようですが、これにはいくつかの説明が可能です。
一つは、工学系の授業や評価が、英語力にあまり依存していないという可能性です。数式を解いたり、プログラムを書いたりする課題では、流暢な英語は必須ではありません。もう一つは、採点基準の違いです。UCL全体のデータを見ると、工学系の学部では他の学部に比べて高い成績を付ける傾向があることが分かりました。つまり、同じ努力や達成度でも、分野によって最終的な成績が異なる可能性があるのです。
この発見は、英語試験の予測妥当性を検証する研究において、専攻分野を考慮することがいかに重要かを示しています。
中国人学生のデータが示すもの
国籍による分析も興味深い結果を示しました。DET受験者の約73%が中国からの学生でした。これは、中国では当時、IELTSやTOEFL iBTの自宅受験版が利用できなかったためと考えられます。つまり、中国の学生にとって、DETは唯一の選択肢だった可能性があります。
分析の結果、中国人学生は非中国人学生に比べて、平均的にDETのスコアが低く、入学後の成績も低い傾向が見られました。しかし、興味深いことに、中国人学生の中でDETスコアと成績の相関を見ると、ほとんど関係が見られませんでした。一方、非中国人学生では、かなり強い正の相関(特に工学系で0.365)が見られたのです。
この違いは何を意味するのでしょうか。一つの可能性は、サンプルの均質性です。「中国人学生」といっても、実際には様々な地域、様々な教育背景を持つ人々が含まれています。中国は広大な国であり、地域による教育格差も存在します。また、中国人学生の数が多いため、様々な専攻分野に分散しており、それが統計的なノイズを生んでいる可能性もあります。
もう一つの可能性は、試験への慣れです。非中国人学生の多くは、複数の英語試験から選択できる状況にありました。その中であえてDETを選んだ学生は、この試験形式が自分に合っていると判断した可能性があります。一方、中国人学生にとっては選択の余地がなく、試験形式に不慣れなまま受験した可能性があります。
他の試験との比較―DET受験者の成績は低い?
研究の重要な発見の一つは、IELTSやTOEFL iBTで入学した学生との比較です。分析の結果、DETで入学した学生は、他の試験で入学した学生に比べて、平均的に成績が低いことが分かりました。
これは一見、DETの信頼性に疑問を投げかける結果のように思えます。しかし、筆者たちは慎重です。なぜなら、この差が試験自体の問題なのか、それとも受験者の特性の違いによるものなのかが、判別できないからです。
たとえば、DETは従来の試験よりも安価で(当時約50ドル程度)、手軽に受験できます。そのため、経済的に恵まれない学生がDETを選んだ可能性があります。残念ながら、多くの研究が示すように、社会経済的地位と学業成績には関連があります。また、DETが大学入試に使われ始めたのが入試サイクルの後半だったため、他の試験で必要なスコアを取れなかった学生が、最後の手段としてDETを受験した可能性も否定できません。
興味深いのは、試験提供者が公表している「CEFR(ヨーロッパ言語共通参照枠)レベル」に換算して比較した分析です。たとえば、C1レベル(上級)と判定された学生同士で比較しても、やはりDET受験者の成績は低い傾向が見られました。これは単純な換算の問題ではなく、より複雑な要因が関わっていることを示唆しています。
パンデミック期の特殊事情―結果の解釈を難しくする要因
この研究を評価する上で忘れてはならないのは、データが収集された時期の特殊性です。2020年秋学期は、英国で最初のロックダウンが実施された直後であり、ほぼすべての授業がオンラインで行われました。学生たちはキャンパスに来ることもできず、図書館やその他の学習リソースへのアクセスも制限されていました。一部の学生は、母国から授業に参加していたかもしれません。
さらに、大学は「不利益回避方針」を実施しました。これは、パンデミックの影響で不当に成績が下がることを防ぐための措置です。提出期限の延長が通常より多く認められ、大学院生は課題を3回まで再提出できるようになりました(通常は1回のみ)。このような状況下で、採点者が「状況を考慮して」普段より甘く採点した可能性も否定できません。
筆者たちはこれらの限界を率直に認めています。通常の年度のデータであれば、結果の解釈はもっとシンプルだったかもしれません。しかし、パンデミックという前例のない状況下でのデータであるため、結果の一般化には慎重になる必要があると述べています。
試験準備産業の影響―DETの「純粋さ」
興味深い考察の一つは、試験準備に関するものです。IELTSやTOEFL iBTには、長年にわたって確立された試験対策産業があります。中国をはじめとする受験競争の激しい国では、「塾」に通って集中的に試験対策をすることが一般的です。こうした対策により、学生の「真の英語力」と「試験のスコア」が乖離する可能性があります。
一方、DETは当時まだ新しい試験であり、効果的な試験対策方法が確立されていませんでした。つまり、DETのスコアは、集中的な訓練によって人為的に引き上げられたものではなく、より「純粋な」英語力を反映している可能性があります。皮肉なことに、これが将来的には変わる可能性があります。DETが普及するにつれて、対策産業も発達し、スコアの妥当性が低下するかもしれないのです。
研究の限界―率直な自己批判
筆者たちは、研究の限界について非常に率直です。主な限界として以下の点を挙げています。
まず、分析できたのは入学を許可され、実際に入学した学生だけです。DETを受験したものの、スコアが低くて入学できなかった学生や、入学許可は得たが入学しなかった学生のデータはありません。これは「範囲制限」と呼ばれる統計的な問題を引き起こします。たとえば、身長と体重の関係を調べるのに、身長170cm以上の人しか調べなかったら、本当の関係性は見えません。筆者たちは統計的な補正を試みましたが、完全に補正することは困難です。
また、比較に使用したIELTSやTOEFL iBTのデータについては、受験者が従来の試験会場版を受けたのか、パンデミック期に導入された自宅受験版を受けたのかが分かりません。自宅受験版には、試験会場版とは異なる特性があるかもしれません。
さらに、DETについては、多くの学生が「総合スコア」のみで入学を許可されました。DETは2020年7月から、リーディング、ライティング、スピーキング、リスニングの個別スコア(サブスコア)を報告するようになりましたが、それ以前の受験者にはサブスコアがありません。たとえば、総合スコアは同じでも、「読み書きは得意だが会話は苦手」という学生と、「会話は得意だが読み書きは苦手」という学生では、大学での成功パターンが異なるかもしれません。
実務的な含意―大学はどう対応すべきか
この研究から、大学の入試担当者が学べることは何でしょうか。
第一に、DETは大学院生の学業成績をある程度予測できる指標であることが確認されました。少なくとも、確立された試験であるIELTSやTOEFL iBTと同程度の予測力はありそうです。これは、パンデミック期に多くの大学がDETを採用した判断が、完全に間違っていたわけではないことを示しています。
第二に、DET受験者の平均的な成績が他の試験受験者より低いという発見は、合格基準点の見直しを示唆しています。筆者たちは、DETの合格基準点を少し高めに設定するか、あるいは入学後のサポートを充実させる必要があるかもしれないと提案しています。
第三に、専攻分野による違いを考慮することの重要性です。工学系のプログラムと人文科学系のプログラムでは、求められる英語力の性質が異なります。一律の基準を適用するのではなく、分野ごとに適切な基準を設定することが望ましいかもしれません。
全自動試験の本質的な課題―何を測定しているのか
より根本的な問いもあります。DETのような「完全自動化された試験」は、果たして大学で必要な英語力を適切に測定できているのでしょうか。
従来のIELTSやTOEFL iBTでは、スピーキングテストに人間の試験官や採点者が関わります。受験者は実際の人間と会話し、その様子が録音され、訓練を受けた採点者が評価します。これは時間もコストもかかりますが、実際のコミュニケーション場面に近い状況を作り出せます。
一方、DETは完全に機械が管理・採点します。これにより、安価で迅速な結果提供が可能になりましたが、測定できる能力の範囲には制約があります。機械が理解しやすい、予測可能な回答を引き出すタスクが中心になります。たとえば、複数の情報源を統合して論じる力や、相手との対話の中で自分の意見を調整していく力など、大学で重要な能力の一部は、測定が難しいかもしれません。
筆者たちは、この点について慎重に言及しています。DETは徐々に進化しており、以前よりも自由度の高い発話や記述を求める問題も導入されています。しかし、完全自動化という制約がある限り、測定できる範囲には限界があるでしょう。
今後の研究への示唆―何を明らかにすべきか
この研究は重要な第一歩ですが、まだ答えるべき問いは多く残されています。
まず、パンデミック以外の通常時のデータで、同様の傾向が見られるかどうかを確認する必要があります。オンライン授業や特別措置がない状況で、DETの予測妥当性はどうなるでしょうか。
また、より長期的な追跡調査も必要です。この研究は1年次の成績のみを分析しています。しかし、英語力の影響は、学年が上がるにつれて変わるかもしれません。卒業時の学位の等級や、さらには卒業後のキャリアまで追跡できれば、より包括的な評価が可能になります。
サブスコアの分析も重要です。同じ総合スコアでも、スキルのバランスが異なる学生では、大学での成功パターンが異なるかもしれません。たとえば、「読み書きは完璧だが、聞く話すは苦手」という学生は、講義の理解に苦労するかもしれませんが、論文執筆では優秀かもしれません。
さらに、DET受験者の背景情報も重要です。なぜDETを選んだのか、他の試験も受験したのか、どの程度試験準備をしたのか。こうした情報があれば、成績の違いの原因をより正確に特定できるでしょう。
研究の意義―妥当性検証の重要性を示す
この研究の最も重要な貢献は、新しい試験の妥当性を検証することの重要性を示したことかもしれません。パンデミックという緊急事態の中で、多くの大学が十分な検証なしにDETを採用せざるを得ませんでした。しかし、その判断が適切だったかどうかを、事後的に検証することは極めて重要です。
試験の開発者であるDuolingo社も、外部研究への資金提供を通じて、このような検証研究を支援しています。これは評価できる姿勢です。自社の試験の限界や課題を明らかにする研究にも資金を提供することは、長期的な信頼性の構築につながります。
一方で、筆者たちは利益相反について透明性を保っています。筆頭著者のIsaacsは、Duolingo社だけでなく、British CouncilやETSなど、複数の試験提供団体との仕事経験があることを明記しています。また、論文の査読プロセスは、Isaacsが後に編集者に就任する前に完了していることも記されています。
終わりに―試験と教育の関係を考える
この研究を読んで改めて感じるのは、言語能力テストと実際の学業成績の関係の複雑さです。「英語ができれば成績が良い」という単純な関係ではありません。専攻分野、学位レベル、文化的背景、個人の学習スキル、大学のサポート体制、そしてパンデミックのような外部要因まで、無数の要素が絡み合って、学生の成功を左右します。
しかし同時に、英語力が重要でないわけでもありません。どんなに専門知識があっても、授業の内容が理解できなければ、論文が読めなければ、自分の考えを表現できなければ、大学での学びは制限されます。英語試験は完璧ではありませんが、最低限の言語能力を確認する手段として、依然として重要な役割を果たしています。
DETのような新しい試験の登場は、試験の在り方そのものを問い直す機会でもあります。技術の進歩により、より安価で、より迅速で、より便利な試験が可能になりました。しかし、便利さと引き換えに失われるものはないでしょうか。完全自動化された試験で測定できる能力と、測定できない能力の境界はどこにあるのでしょうか。
これらの問いに答えるためには、Isaacsらが行ったような、地道な実証研究の積み重ねが不可欠です。試験の点数と学業成績の関係を調べ、様々な角度から分析し、限界を認めながらも知見を蓄積していく。その過程でのみ、私たちは試験をより良いものにしていくことができるのでしょう。
Isaacs, T., Hu, R., Trenkic, D., & Varga, J. (2023). Examining the predictive validity of the Duolingo English Test: Evidence from a major UK university. Language Testing, 40(3), 748–770. https://doi.org/10.1177/02655322231158550