筆者と研究の背景
この論文”Exploring the practices on macro skills integrated assessment in Philippine higher education context: Basis in designing a language training program”の著者であるJennelyn Lacar Raymundoは、フィリピンのIsabela State Universityに所属する研究者です。フィリピンは英語を第二言語として使用する国であり、教育現場では英語が重要な位置を占めています。特に高等教育機関では、学生たちが将来グローバルな環境で活躍するために、英語の4技能―リスニング、リーディング、スピーキング、ライティング―を総合的に身につける必要があります。 しかし、実際の教育現場では、これらのスキルをバラバラに教え、バラバラに評価することが長らく続いてきました。まるで、料理を作る際に「野菜を切る技術」「火加減を調整する技術」「味付けをする技術」を個別に練習させるようなもので、最終的に美味しい料理を作れるかどうかは別問題という状態だったのです。 Raymundoはこうした問題意識から、実際の言語使用に近い「統合的評価」がどのように実践されているかを調査することにしました。この研究は、最終的には教師向けの研修プログラムを開発することを目指していますが、本論文ではその第一段階である「現状分析」の結果が報告されています。
統合的評価とは何か―日常生活との類似点
統合的評価について理解するために、私たちの日常生活を考えてみましょう。例えば、レストランで注文する場面を想像してください。メニューを読み(リーディング)、ウェイターの説明を聞き(リスニング)、質問をして(スピーキング)、場合によっては特別なリクエストを書く(ライティング)こともあります。このように、実際のコミュニケーションでは複数のスキルが同時に使われます。 従来の言語評価では、これらを切り離して「リーディングテスト」「リスニングテスト」というように別々に測定していました。しかし、それでは本当にその人が英語を使えるかどうかは分かりません。統合的評価は、より実際の言語使用に近い形で、複数のスキルを組み合わせて評価する方法なのです。 Raymundoは先行研究を丁寧にレビューし、統合的評価にはいくつかの定義があることを示しています。Karumpaら(2016)は「2つ以上の言語スキルを同時に使う能力を測定するもの」と定義し、Plakans(2013)は「リスニング、リーディング、スピーキング、ライティングを組み合わせた課題を使って、本物の言語使用場面を再現するもの」と説明しています。
研究の方法―質的アプローチの強み
この研究は「開発研究」と呼ばれるタイプの研究デザインを採用しています。開発研究とは、教育プログラムや教材を開発し、その過程を分析・評価する研究方法です。料理のレシピを開発するプロセスに似ていて、まず現状を調べ(分析)、試作品を作り(設計)、実際に試し(実装)、改善点を見つける(評価)という段階を踏みます。 本論文では、この最初の「分析」段階だけを報告しています。なぜなら、この種の研究は時間がかかり、質的データの分析も複雑だからです。著者は4人の言語教師全員と、10人の3年生英語専攻学生を対象に調査を行いました。学生については、評価のプロセスを理解し、実際に経験している3年生を意図的に選んでいます。 データ収集の方法は2つありました。1つは「文書分析」で、シラバスやテスト問題、評価基準表などを詳しく調べました。もう1つは「半構造化インタビュー」で、教師や学生に直接話を聞きました。特に興味深いのは、Covid-19の影響で学生へのインタビューはFacebookメッセンジャーを使って行われたという点です。これは、研究が現実の制約の中で柔軟に行われたことを示しています。
教師と学生が考える統合的評価の特徴
インタビューから浮かび上がってきた統合的評価の特徴は4つありました。 第一に「スキルの相互依存性」です。教師の一人(TP4と匿名化されています)は、「例えば、学生に何かを読ませて、それから聞かせて、それから質問に対して話させたり書かせたりする。そうすると、スキルがどのように相互依存的に使われているかが分かる」と説明しています。これは、言語スキルが孤立して存在するのではなく、互いに支え合っているという考え方です。 第二に「ソーステキストの使用」です。統合的評価では、読み物や音声、映像などを「足場」として提供し、それを基に学生が自分の考えを話したり書いたりします。学生の一人(SP6)は、「記事を読んだり映画を見たりして、それについて自分の意見や感想を書いた」と述べています。これは、何もないところから話したり書いたりさせるよりも、現実的で公平な評価方法だと言えます。 第三に「統合的ライティング・スピーキング課題の使用」です。教師の一人(TP1)は、「ほとんどの場合、ライティングとスピーキングに焦点を当てている。なぜなら、リーディングの能力は学生が書いたものから測定できるから。リスニング、リーディング、ビューイングは入力技能なので、それらの能力はスピーキングやライティングのパフォーマンスで既に評価できる」と説明しています。これは実践的な考え方ですが、後で述べるように、いくつかの問題も含んでいます。 第四に「課題の真正性と文脈化」です。統合的評価では、教室の外の実際の場面で使われるような課題を用いることが重視されます。そのため、エッセイなどの複雑な課題を評価するためにルーブリック(評価基準表)が必要になります。教師の一人(TP2)は、「ルーブリックは本当に必要です。特にライティングでは。学生にエッセイを書かせたとき、すぐに点数をつけることはできませんから」と述べています。
3つの課題タイプ―偏りのある実践
Raymundoは、Plakans(2013)の分類を使って、実際に使われている統合的評価課題を3つのタイプに分けて分析しました。合計141の課題を分析した結果、興味深い偏りが見つかりました。
最も多かったのは「テキスト・内容依存型課題」(text- or content-responsible tasks)で、全体の73.76%を占めていました。これは、学生が読んだり聞いたりした内容について話したり書いたりする課題です。具体的には、口頭発表、プレゼンテーション、ストーリーテリング、詩の解釈、レポート作成、反応文、エッセイ、文学分析、研究批評などが含まれます。 このタイプの課題が圧倒的に多い理由について、著者は高等教育機関という文脈を指摘しています。大学では、資料を読んで理解し、それについて自分の考えをまとめて表現するという「アカデミック・リテラシー」が求められます。これは、大学の授業で実際に必要とされる能力なのです。 次に多かったのは「刺激関連型課題」(stimulus-related tasks)で、全体の26.24%でした。これは、テキストや図表、リストなどを「きっかけ」として提供しますが、学生の答えにそのまま内容が含まれていなくても良い課題です。例えば、ロールプレイ、インタビュー、ディベート、研究発表、履歴書や申請書の作成、画像の解釈、論説文などが含まれます。 興味深いのは、「主題関連型課題」(thematically linked tasks)がゼロだったことです。このタイプは、リスニングやリーディングの課題と、スピーキングやライティングの課題が同じテーマでつながっているものです。例えば、環境問題についての文章を読み、関連する音声を聞き、その後同じ環境問題について自分の意見を述べるといった課題です。 なぜこのタイプが使われていないのでしょうか。著者は、このタイプの課題が複雑で、教師がその概念を十分に理解していない可能性を指摘しています。これは重要な発見で、教師研修の必要性を示唆しています。統合的評価を妨げる要因―現場の生の声
統合的評価を妨げる要因―現場の生の声
この研究で最も価値があるのは、統合的評価を実施する上での課題を、教師と学生の両方の視点から明らかにしている点です。課題は3つのカテゴリーに分類されました。
課題自体の要因
まず、統合的評価の課題は複雑で、学生のどのスキルが強くてどのスキルが弱いのかを特定するのが難しいという問題があります。学生の一人(SP3)は、「複数のスキルを同時に評価するので、どの領域で学生が強いか弱いかに焦点を当てるのが難しい」と述べています。
例えば、ある学生が「読んだ記事について口頭で発表する」という課題で低い点数を取ったとします。この場合、リーディングの理解力が低かったのか、スピーキングの能力が低かったのか、それとも両方なのか判断が難しいのです。
また、統合的評価は比較的新しいアプローチなので、教師も学生も不慣れで不安を感じるという問題もあります。教師の一人(TP4)は、「何か新しいものだし、導入するときには、それに慣れない人がいることは予想される」と認めています。
さらに、技術的な問題もあります。プレゼンテーション課題ではプロジェクターやコンピューターが必要ですが、教師の一人(TP2)は、「プロジェクターが利用可能でない場合、特に遅れが生じる。設定だけで15分から20分もかかる」と嘆いています。限られた授業時間の中で、準備に多くの時間を取られることは大きな負担です。
採点の主観性も問題です。選択式テストのように明確な正解がないため、評価にはルーブリックが必要で、それを作成し適用するのは手間がかかります。教師の一人(TP4)は、「統合的評価では採点がより難しい。採点の主観的な性質が欠点だ」と指摘しています。
時間の制約も深刻です。50人のクラスで一人ずつスピーキング課題を行う場合、一人3分でも全員には30分では終わりません。教師の一人(TP1)は、「時には、次の日に学生の空き時間を使って課題を終わらせなければならない」と述べています。
学生側の要因
学生が感じる恥ずかしさや恐れも大きな障害です。特に英語が第二言語である環境では、人前で英語を話すことに強い不安を感じる学生が多くいます。学生の一人(SP9)は、「口頭発表では、母語以外の言葉の使用が厳しく禁止されている。国際語を使って自分を表現できないことがある。それが挫折感と批判される心配につながる」と率直に語っています。
この発言からは、学生が感じるプレッシャーの大きさが伝わってきます。教室は本来学びの場であり、間違えることも学習の一部なのですが、評価という要素が入ると、学生は完璧を求められていると感じてしまうのです。
言語能力の不足も問題です。教師の一人(TP1)は、「学生に物語を語らせると、彼らは物語を知っていても、自分の言葉で、暗記せずに、コピーなしで語り直すとき、言葉を探してしまう。適切な言葉を考えるのに時間がかかりすぎることがある」と観察しています。これは、受容的スキル(リスニング、リーディング)と産出的スキル(スピーキング、ライティング)の間にギャップがあることを示しています。
学生の反発的な反応も見られます。課題の負担が大きいと感じると、学生は不満を述べたり、延期を求めたりします。教師の一人(TP1)は、「時々、学生が問題だ。彼らは多くの不満を言う。『先生、他の科目で多くの課題があります。やることが多すぎます。まだ読むものがたくさんあります』。時には彼らの要求に応えて活動を延期することもある」と述べています。
教師側の要因
教師にとって、統合的評価課題を作成し、採点することは大きな負担です。教師の一人(TP4)は、「これらすべてのスキルの評価を本当に組み合わせる課題を考え出すには、多くの努力、多くの準備が必要だ」と認めています。
また、教師の中には新しい評価方法に対して抵抗感を持つ人もいます。教師の一人(TP1)は、「他の教師が使う評価ツールの1つはポートフォリオだが、私はそれが好きではない。反応文を書かせる方が良いと思うが、それも後でチェックするのが大変だ。ポートフォリオでどう評価するのか。難しい」と述べています。この発言からは、新しい方法への不安と、確立された方法への依存が見て取れます。
制度的な慣行も障害になっています。大学では主要な試験として従来型のペーパーテストを提出することが求められているため、統合的評価を十分に活用できないという問題があります。教師の一人(TP4)は、「私たちの教育プロセスで必要とされるテストはまだ伝統的なものなので、主要な試験では、もちろん、私たちはまだ伝統的な評価形式に頼っている」と説明しています。
最後に、統合的評価に対する理解の程度も問題です。教師の一人(TP4)は率直に、「私たちには統合的評価に関するより多くの研修が必要だと思う。私の統合的評価の理解が正しいかどうか分からない」と述べています。この正直な告白は、専門的な研修の必要性を強く示唆しています。
この研究の意義と限界
Raymundoの研究は、いくつかの点で重要な貢献をしています。 第一に、統合的評価という理論的な概念を、実際の教育現場の文脈で検証したことです。多くの先行研究は特定のタイプの統合課題に焦点を当てていましたが、この研究はより包括的に、実際の教室で何が起こっているかを記述しました。 第二に、教師と学生の両方の視点を取り入れたことです。評価は教師が行うものですが、その影響を最も受けるのは学生です。両者の声を聞くことで、より立体的な理解が得られました。 第三に、実践的な示唆を提供していることです。主題関連型課題がまったく使われていないという発見は、教師研修でこのタイプの課題について学ぶ必要があることを明確に示しています。 しかし、この研究にはいくつかの限界もあります。 まず、参加者の数が少ないことです。教師4人、学生10人という小規模な調査なので、結果を一般化するには注意が必要です。著者自身もこの点を認識しており、今後は大規模な調査も必要だと述べています。 また、この研究は分析段階のみを報告しているため、実際の介入(教師研修プログラム)の効果については分かりません。理想的には、研修を実施して、その前後で教師の実践がどう変わったかを追跡調査することが望まれます。 さらに、文化的・制度的な文脈の影響も考慮する必要があります。フィリピンの高等教育機関で見られた傾向が、他の国や教育段階でも同じように見られるかは分かりません。
統合的評価をめぐる大きな問い
この研究を読んで考えさせられるのは、「良い評価とは何か」という根本的な問いです。 伝統的なテストは、客観的で、公平で、効率的です。しかし、実際の言語使用能力を測定できているかは疑問です。一方、統合的評価は、より現実的で総合的ですが、複雑で、主観的で、時間がかかります。 この両者のバランスをどう取るかは、簡単な問題ではありません。理想的には、両方の良い点を組み合わせることが望まれますが、現実には資源(時間、人員、設備)の制約があります。 また、「評価」と「学習」の関係も考える必要があります。評価は学習の結果を測定するだけでなく、学習を促進する役割も持っています。統合的評価課題に取り組むこと自体が、学生にとって貴重な学習経験になる可能性があります。実際、多くの教師が述べていたように、統合的評価課題は「本物の」コミュニケーション場面を教室に持ち込むものです。 さらに、教師の専門性の問題もあります。統合的評価を効果的に実施するには、教師に高度な専門知識と技能が必要です。課題を設計し、ルーブリックを作成し、学生の複雑なパフォーマンスを評価し、有益なフィードバックを提供するには、相当な訓練が必要です。 Raymundoが最後に提案している教師研修プログラムは、まさにこの点に対応しようとするものです。しかし、研修だけでは十分ではないかもしれません。教師が新しい実践を試みる時間的・精神的余裕が必要ですし、失敗しても安全な環境も必要です。制度的なサポートも不可欠です。
日本の英語教育への示唆
この研究はフィリピンの文脈で行われましたが、日本の英語教育にも多くの示唆を与えてくれます。 日本でも、学習指導要領の改訂により、4技能統合型の授業と評価が推奨されるようになりました。しかし、実際の教室では、多くの課題があることが予想されます。Raymundoが明らかにした問題―時間不足、採点の困難さ、学生の不安、教師の不慣れ―は、日本の教師も経験しているのではないでしょうか。 特に、学生の「恥ずかしさ」や「恐れ」は、日本の文化的文脈でも非常に重要な要因です。人前で英語を話すことへの抵抗感は、英語教育における大きな障壁の一つです。統合的評価を導入する際には、安心して間違えられる雰囲気作りが欠かせません。 また、大学入試などの制度的要因も見逃せません。いくら授業で統合的な課題に取り組んでも、最終的な評価が従来型のテストであれば、学生も教師も本気で取り組むのは難しいでしょう。評価の改革は、システム全体で考える必要があります。
おわりに
Raymundoの研究は、言語評価の理論と実践の間にある溝を埋めようとする試みです。統合的評価は魅力的な概念ですが、実際に教室で実施するには多くの課題があります。この研究は、その課題を具体的に明らかにすることで、より現実的な改善の道筋を示しています。 印象的なのは、著者が教師と学生の生の声を大切にしていることです。統計や理論だけでなく、現場の人々が何を感じ、何に困っているかを丁寧に聞き取っています。教育研究は、究極的には人々の学びと成長を支援するためのものです。その意味で、この研究は正しい方向を向いていると言えるでしょう。 今後、Raymundoが開発する教師研修プログラムがどのような内容になり、どのような効果をもたらすのか、続報が待たれます。統合的評価の実践を広げていくためには、理論的な知識だけでなく、具体的な課題例、評価基準表の作成方法、採点のコツなど、実践的なノウハウを教師が学べる機会が必要です。 最後に、この研究が示しているのは、教育の改革には時間がかかるということです。新しい評価方法を導入するには、教師の理解と技能、学生の準備、制度的なサポート、物理的なリソースなど、多くの要素が揃う必要があります。しかし、その努力は決して無駄ではありません。なぜなら、より良い評価方法は、より良い学習につながるからです。そして、より良い学習は、学生たちがグローバル社会で活躍するための確かな力になるのです。
Raymundo, J. L. (2023). Exploring the practices on macro skills integrated assessment in Philippine higher education context: Basis in designing a language training program. International Journal of Language Education, 7(3), 429–446. https://doi.org/10.26858/ijole.v7i3.24252
