はじめに

グローバル化が進む現代において、大学教育における英語能力の重要性はますます高まっています。特に英語を媒介とした専門科目の授業(English Medium Instruction, EMI)が普及する中で、学生が実際の学術活動に必要な英語能力を身につけているかどうかを適切に評価することは、教育機関にとって重要な課題となっています。

今回取り上げる論文”Evaluating Perceptions towards the Consequential Validity of Integrated Language Proficiency Assessment”は、この課題に正面から取り組んだ研究です。執筆者であるAsli Lidice Gokturk Saglam氏(南東ノルウェー大学言語文学研究科)とDina Tsagari氏(オスロ・メトロポリタン大学初等中等教員教育学科)は、トルコの大学で実施されている統合型英語能力テストが、実際に学生の学術的成功を予測できているかどうかを、教員と学生の認識を通じて検証しました。

この研究が注目される理由は、単なるテストスコアの分析ではなく、テストの結果が実際の教育現場でどのような影響を与えているかという「結果的妥当性」の観点から評価を行った点にあります。これは言語テスト研究の分野では比較的新しいアプローチであり、テストが教育に与える長期的な影響を理解する上で重要な視点を提供しています。

研究の背景と問題意識の重要性

統合型言語評価の意義

この研究で扱われている統合型言語評価とは、読解、聴解、作文といった複数の言語技能を組み合わせて評価する手法です。従来の言語テストが各技能を個別に測定していたのに対し、統合型評価は実際の言語使用場面により近い形で能力を測定しようとする試みです。

論文では、統合型評価の利点として以下の点を挙げています。まず、外部テキストが内容面での支援を提供し、言語学習の材料としても機能すること。次に、テストの妥当性を高め、学習に対して好ましい波及効果をもたらすこと。そして、受験者の既習知識や創造性、人生経験の影響を最小化できることです。

これらの理論的根拠は説得力があり、実際の学術活動では複数の技能を統合的に使用することが多いため、統合型評価への注目が高まっているのは自然な流れといえます。

トルコの教育文脈の特殊性

この研究が行われたトルコの大学では、英語準備プログラム(PEP)を設置し、学生が専門科目を英語で学ぶ前に必要な言語能力を身につけさせることを目指しています。このプログラムは週20時間、16週間にわたって実施される本格的なものです。

プログラム終了時に実施される統合型能力テストは、4つの異なる長さのテキストを読み、メモ取りを含む聴解課題を行った後、これらの情報を統合して作文を書くという形式になっています。合格点は100点満点中65点で、これに達しない学生は専門科目の履修が認められません。

このような高い stakes(重要度)を持つテストの効果を検証することは、単なる学術的興味を超えて、実際の教育政策や学生の進路に直接影響を与える重要な研究といえます。

研究方法の評価

調査設計の妥当性

この研究では、質問紙調査とインタビューを組み合わせた混合研究法が採用されています。学生39名と教員19名(質問紙回答者は17名)を対象とし、テスト実施から約5か月後に調査を実施するという縦断的な設計になっています。

調査対象者の選定については、学生は上級中級レベルでPEPを修了し、同一年度内に専門科目を履修している者に限定されています。これにより、テストの効果を比較的短期間で検証できるという利点があります。一方、教員については7年から20年の教歴を持つ博士号取得者で、建築学、国際関係学、工学、経営学など多様な分野にわたっています。

この設計の強みは、テストの影響を教える側と学ぶ側の両方の視点から捉えている点です。ただし、サンプルサイズがやや小さいことと、一つの大学に限定されていることは、結果の一般化可能性に制約を与える要因として注意深く検討する必要があります。

データ収集手法の適切性

質問紙調査では、4段階のリッカート尺度を用いて、英語能力と学術スキルの12項目について評価を求めています。内的一貫性を示すクロンバックのアルファ係数は、教員用が0.92、学生用が0.88と高い値を示しており、測定の信頼性が確保されています。

インタビューについては、半構造化面接を採用し、平均35分という適切な長さで実施されています。トルコ語でのインタビューも受け付けることで、参加者が母語で自然に表現できる環境を整えている点は評価できます。

ただし、学生へのインタビューが時間的制約により実施されなかった点は、研究の完全性の観点から惜しまれます。学生の声をより詳しく聞くことで、教員との認識のギャップの背景をより深く理解できた可能性があります。

結果と発見の分析

認識のギャップの深刻さ

この研究の最も重要な発見は、教員と学生の間に存在する認識の大きなギャップです。教員の評価は総じて厳しく、多くの英語・学術スキルについて学生が「準備不足」または「やや準備不足」と判断している一方、学生は自分たちの能力について概ね肯定的な評価を下しています。

特に顕著なのはスピーキング能力に関する評価で、教員の82%が「明確で正確な口頭表現」について否定的な評価をしているのに対し、学生側ではそれほど深刻な問題として認識されていません。同様に、「授業での質問」についても教員の76%が否定的評価をしています。

このギャップは単なる主観的な違いを超えて、評価リテラシーの問題を示唆している可能性があります。学生が自分の能力を適切に自己評価できていないとすれば、それは教育上の重要な課題となります。

スピーキング能力の欠如という構造的問題

教員インタビューから浮かび上がってきた最も深刻な問題は、学生のスピーキング能力の不足です。ある教員は「授業で話し、見せ、議論し、説明して、学生との相互作用や貢献、質問を期待しているが、学生は沈黙を保ち、ただ見ているだけだ。まるで壁に向かって講義をしているような気分になる」と述べています。

この問題の根本には、テスト設計の構造的欠陥があります。統合型能力テストにはスピーキング部分が含まれておらず、これが教育課程におけるスピーキング軽視につながっている可能性があります。テストで評価されない技能は教育現場で軽視される傾向があるという「教育への波及効果」の負の側面が現れているといえます。

学術的文章作成能力の課題

もう一つの重要な発見は、学生の学術的文章作成能力、特に情報源の活用に関する問題です。教員は学生が複数の情報源から情報を統合し、適切に引用する能力に欠けていると指摘しています。

ある教員は「統合する能力は本当に広く困難だ。それが言語の問題なのか批判的思考の問題なのか、我々にも確信がない」と述べており、言語能力と学術スキルの境界があいまいな状況を示しています。これは統合型評価が目指している「実際の言語使用に近い評価」の複雑さを物語っています。

理論的・実践的な貢献

結果的妥当性研究への貢献

この研究は、言語テストの結果的妥当性研究という比較的新しい分野に重要な貢献をしています。従来のテスト妥当性研究は、主にテストが測定しようとする構成概念を適切に測定できているかという構成概念妥当性に焦点を当ててきました。しかし、この研究はテストの社会的影響や教育への波及効果という観点から妥当性を検証している点で意義があります。

特に、複数の利害関係者(教員と学生)の視点を取り入れることで、テストの影響をより包括的に理解しようとする姿勢は評価できます。これは Messick(1989, 1996)が提唱した包括的妥当性理論の実践的応用として位置づけることができます。

EAP教育への実践的示唆

English for Academic Purposes(EAP)教育の分野において、この研究は重要な実践的示唆を提供しています。統合型評価の理論的優位性は認められるものの、実際の教育効果を得るためには、評価方法の改善だけでなく、教育課程全体の見直しが必要であることが明らかになりました。

特に、スピーキング能力の評価を統合型テストに組み込むことの必要性や、学生の評価リテラシー向上の重要性など、具体的な改善提案が示されている点は実務者にとって有用です。

研究の限界と課題

サンプルサイズと一般化可能性の問題

この研究の最も明らかな限界は、サンプルサイズの小ささです。学生39名、教員17-19名という規模では、統計的な分析の信頼性や結果の一般化可能性に制約があります。特に、質問紙調査の結果を解釈する際には、この点を十分に考慮する必要があります。

また、研究が単一の大学で実施されている点も一般化の障害となります。トルコの他の大学や、異なる文化的文脈における同様の統合型テストの効果については、この研究結果から直接的な結論を導くことはできません。

研究デザインの methodological な課題

学生へのインタビューが実施されなかった点は、データの三角測量の観点から重要な欠陥です。教員の否定的評価と学生の肯定的自己評価のギャップの背景を理解するためには、学生の詳細な証言が不可欠でした。

また、テスト実施から調査までの期間が5か月という設定についても検討が必要です。この期間が短すぎて長期的な影響を捉えられていない可能性がある一方、長すぎて他の要因の影響を受けている可能性もあります。

因果関係の特定における困難

この研究は相関的研究であり、観察された問題(例:スピーキング能力の不足)がテスト設計に直接起因するものかどうかを確実に特定することはできません。学生のスピーキング能力の問題は、テストにスピーキング部分がないことだけでなく、教育文化、学習者の動機、社会的要因など、複数の要因が複合的に作用している可能性があります。

データ解釈の深度と批判的検討

認識ギャップの解釈について

教員と学生の認識ギャップについて、論文では主に学生の評価リテラシー不足として解釈していますが、これは一面的な見方かもしれません。教員の期待水準が現実的でない可能性や、教員自身が統合型評価の効果を適切に理解していない可能性も考慮する必要があります。

また、文化的要因も重要です。トルコの教育文化では学生の沈黙や受動性が必ずしも能力不足を意味するとは限らず、むしろ敬意の表れとして解釈される場合もあります。このような文化的文脈を十分に考慮せずに「問題」として捉えることには慎重さが必要です。

統合型評価の効果に関する疑問

この研究結果は、統合型評価の理論的優位性に対して重要な疑問を提起しています。テストが実際の言語使用場面を模倣しているにも関わらず、なぜ期待される教育効果が得られていないのでしょうか。

一つの可能性は、テストの技術的品質(信頼性、妥当性)に問題がある場合です。もう一つは、統合型評価という手法自体が、理論的には優れていても実践的な文脈では限界があるという可能性です。この点については、より詳細な検討が必要です。

今後の研究への提言

方法論の改善

今後の類似研究では、より大規模で多様なサンプルを用いることが重要です。また、学生へのインタビューを含めた包括的なデータ収集、より長期間にわたる縦断的研究、そして比較群を設けた準実験的デザインの採用などが考えられます。

特に、同じ教育文脈で従来型のテストを使用している他の機関との比較研究は、統合型評価の真の効果を理解する上で価値があるでしょう。

理論的発展への貢献

この研究は結果的妥当性研究の発展に重要な一歩を示していますが、理論的枠組みのさらなる精緻化が必要です。特に、テストの意図した効果と意図しない効果をより体系的に分類し、測定する手法の開発が求められます。

また、文化的要因やコンテクストの影響をより体系的に理論化することも重要な課題です。

教育政策への含意

テスト設計の改善

この研究の最も明確な政策的含意は、スピーキング評価をテストに組み込む必要性です。ただし、これは技術的・コスト的な課題を伴います。スピーキングテストは実施と採点に多大な資源を必要とするため、教育機関はその投資対効果を慎重に検討する必要があります。

一つの解決策として、テクノロジーを活用した自動スピーキング評価システムの導入や、段階的なスピーキング評価の導入(例:形成的評価では含めるが、総括的評価では除外する)などが考えられます。

教員研修と学生支援

研究結果は、テスト改善だけでなく、教員研修と学生支援の重要性も示唆しています。教員は統合型評価の理念と実践をより深く理解し、学生は自己評価能力と学習戦略を向上させる必要があります。

特に、学生の評価リテラシー向上は重要な課題です。学生が自分の能力を適切に評価し、不足している部分を認識できるようになることは、自律学習促進の観点からも重要です。

研究の社会的意義と今後の課題

グローバル化への対応

この研究が扱っている課題は、トルコに限ったものではありません。世界各国の高等教育機関で英語による授業が増加する中、学生の英語能力を適切に評価し、必要な支援を提供することは共通の課題となっています。

この研究の知見は、同様の状況にある他の国や地域の教育機関にとっても参考になる可能性があります。ただし、文化的・教育的文脈の違いを考慮した適用が必要です。

評価理論の発展への貢献

言語評価の分野では、テストの技術的品質に加えて、社会的影響や教育的効果がますます重視されるようになっています。この研究は、そうした新しい評価観に基づいた実証的研究として価値があります。

今後は、結果的妥当性の概念をさらに発展させ、より精密な測定手法と理論的枠組みを構築していくことが求められます。

総合的評価

この論文は、統合型言語評価の効果を結果的妥当性の観点から検証した意欲的な研究として評価できます。理論的にも実践的にも重要な知見を提供しており、特に教員と学生の認識ギャップの発見は、今後の研究と実践に重要な示唆を与えています。

研究方法については、混合研究法の採用や縦断的デザインの使用など、適切な選択がなされています。データの信頼性も統計的に確認されており、分析手法も妥当です。

ただし、サンプルサイズの小ささ、単一機関での実施、学生インタビューの欠如など、いくつかの方法論的限界があることも事実です。これらの限界は結果の解釈と一般化において注意深く考慮される必要があります。

理論的貢献としては、結果的妥当性研究の発展に寄与している点が評価できます。実践的には、統合型評価の改善や教育政策立案に有用な知見を提供しています。

今後、この研究の知見をより大規模な研究で検証し、異なる文化的文脈での適用可能性を探ることが重要な課題となるでしょう。また、テスト改善だけでなく、教育課程全体の見直しという包括的アプローチの必要性も、この研究が示す重要なメッセージといえます。

言語評価研究の分野において、この論文は重要な一歩を示しており、今後の研究発展の基礎となる価値ある研究として位置づけることができます。ただし、研究結果の解釈と応用においては、その限界を十分に認識し、慎重なアプローチを取ることが必要です。


Gokturk Saglam, A. L., & Tsagari, D. (2022). Evaluating perceptions towards the consequential validity of integrated language proficiency assessment. Languages, 7(1), 65. https://doi.org/10.3390/languages7010065

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

Amazon プライム対象