はじめに:なぜ「流暢さ」の測定が重要なのか
英語を学ぶ人にとって、「流暢に話せるようになりたい」という願いは共通のものでしょう。しかし、その「流暢さ」を客観的に測定し、評価することは思っているより複雑な問題です。本論文”Assessment of fluency in the Test of English for Educational Purposes”は、英語教育目的試験(TEEP: Test of English for Educational Purposes)における流暢さの評価について、実証的なデータに基づいて検討した研究です。著者らは、Reading大学のParvaneh Tavakoli氏を筆頭とする4名の研究者で、第二言語習得と言語テスト分野の専門家です。
この研究が重要な理由は、現在の英語能力試験における流暢さの評価が、必ずしも科学的根拠に基づいていないという問題意識にあります。多くの国際的な英語試験(IELTSやTOEFLなど)では流暢さが評価項目の一つとなっていますが、その評価基準は曖昧で、採点者の主観に依存する部分が大きいのが現状です。
研究の背景:流暢さ研究の発展
流暢さについて理解するためには、まずその定義から始める必要があります。研究者のLennon(1990)は、流暢さには「広義」と「狭義」の2つの捉え方があると指摘しました。広義の流暢さは話者の全般的な英語能力を指すのに対し、狭義の流暢さは話すスピードや中断などの測定可能な側面を指します。言語テストの観点からは、客観的な評価が可能な狭義の流暢さが重要となります。
さらにSegalowitz(2010)は、流暢さを3つの側面から捉える三要素モデルを提唱しました。認知的流暢さ(話者の頭の中での処理の効率性)、発話流暢さ(測定可能な話し方の特徴)、知覚的流暢さ(聞き手が感じる流暢さの印象)の3つです。この中で、発話流暢さは客観的に測定できるため、テスト評価には特に有用とされています。
近年の研究では、発話流暢さをさらに細かく分析する手法が発達しています。Tavakoli and Skehan(2005)は、流暢さを「速度」「中断」「修正」の3つの要素に分けて測定する方法を提案しました。速度は話すスピード、中断は沈黙やポーズの頻度と長さ、修正は言い直しや自己修正の頻度を指します。
研究方法:TEEPテストを用いた実証研究
本研究では、56名のTEEP受験者の音声データを分析しました。対象者は4つの習熟度レベル(5.0、5.5、6.5、7.5)に分かれており、これはIELTSの評価基準でいうとB2からC1レベルに相当します。研究者らは、各受験者の3分間のスピーキングタスクの録音を、PRAAT(音声分析ソフトウェア)を使って詳細に分析しました。
分析項目は以下のとおりです。速度の測定では、調音速度(ポーズを除いた純粋な話速)と発話速度(ポーズを含む全体的な話速)を計算しました。中断の測定では、文中と文末での沈黙の頻度と長さを別々に計測しました。修正の測定では、繰り返し、言い直し、自己修正などの総数を数えました。
この研究設計は、従来の研究と比較して幾つかの改良点があります。まず、ポーズの閾値を0.25秒に設定し、従来より精密な測定を行いました。また、ポーズの位置(文中か文末か)を区別して分析することで、より詳細な流暢さの特徴を把握しようとしました。さらに、音節数の計測も、文字による転写ではなく実際の音声を聞きながら行うことで、学習者の実際の発音により忠実なデータを得ようとしました。
研究結果の詳細分析
速度に関する発見
研究結果で最も興味深いのは、速度の測定値が習熟度レベルを明確に区別できたことです。発話速度(ポーズを含む)では、低いレベル(5.0と5.5)と高いレベル(6.5と7.5)の間に統計的に有意な差が見られました。一方、調音速度(ポーズを除く)では、最も低いレベル(5.0)と他のレベルとの間にのみ差が認められました。
この結果は、習熟度が高くなるにつれて話すスピードが上がることを示していますが、同時に重要な発見もありました。高いレベル同士(6.5と7.5)の間には統計的な差が見られなかったのです。これは「天井効果」と呼ばれる現象で、ある程度のレベルに達すると、速度だけでは習熟度の違いを測れなくなることを意味します。
中断(ポーズ)パターンの特徴
ポーズの分析からは、より複雑なパターンが明らかになりました。文中のポーズについては、低いレベルの学習者ほど長くて頻繁にポーズを取ることがわかりました。特に興味深いのは、5.5レベルの学習者が最も頻繁に文中でポーズを取ったことです。これは一見奇妙に思えますが、このレベルの学習者は適切な語彙や文法構造を探すために、より多くの「考える時間」を必要としているのかもしれません。
文末のポーズについては、より一貫したパターンが見られました。習熟度が低い学習者ほど、文末でより長く、より頻繁にポーズを取る傾向がありました。これは、次に何を話すかを考える時間がより必要であることを示唆しています。
修正行動の複雑さ
修正に関する結果は、予想外のものでした。言い直しや自己修正などの修正行動は、習熟度レベル間で統計的に有意な差が見られなかったのです。これは従来の多くの研究結果と一致しており、修正行動が習熟度の指標として単純に使えないことを示しています。
ただし、詳細を見ると興味深いパターンがありました。5.5レベルと7.5レベルの学習者が、他のレベルより多く言い直しを行う傾向がありました。研究者らは、これを「修正プロセスの活性化」と解釈しています。つまり、5.5レベルでは自分の間違いに気づく能力が発達し始め、7.5レベルでは正確性だけでなくより適切な表現を求めて修正を行うということです。
方法論的な評価と限界
この研究の方法論は、多くの点で先行研究を改善しています。PRAAToを使った音響分析により、従来の印象による評価よりも客観的で再現可能なデータを得ることができました。また、ポーズの位置を区別した分析や、実際の音声に基づく音節計測など、より精密な測定手法を採用しています。
統計分析についても、多変量分散分析(MANOVA)を用いることで、複数の従属変数を同時に検討し、より包括的な結果を得ています。また、効果量の計算により、統計的有意性だけでなく実質的な意味も検討している点も評価できます。
一方で、この研究にはいくつかの限界もあります。まず、サンプルサイズがそれほど大きくないことです(各レベル11-15名)。また、分析対象が一つのタスク(単独での発話)に限定されており、対話における流暢さについては検討されていません。さらに、対象者の母語や文化的背景が流暢さに与える影響についても、十分に考慮されていません。
研究者らも認めているように、修正行動はタスクの種類によって大きく影響される可能性があります。単独での発話と対話では、修正の必要性や機会が異なるため、今回の結果を他のタスクタイプに一般化する際には注意が必要です。
実践的意義:テスト改善への提言
この研究の最も価値ある貢献の一つは、実際のテスト改善への具体的な提言を行っていることです。研究者らは、TEEPテストの流暢さ評価基準の修正を提案しています。
具体的には、高いレベル(6.5-7.5)では調音速度により注目すべきこと、中断の評価では文中と文末のポーズを区別すべきこと、充填音(「えー」「あー」など)は習熟度の指標として使えないことなどを指摘しています。
また、採点者訓練への応用も提案されています。5.5レベルが修正行動の「活性化閾値」であることを採点者に理解させることで、このレベル特有の特徴をより適切に評価できるようになります。さらに、充填音は習熟度の区別に役立たないため、これに過度に注目すべきでないことも採点者に伝える必要があります。
理論的貢献と学術的位置づけ
この研究は、第二言語習得研究と言語テスト研究の橋渡しをする重要な役割を果たしています。従来、これら二つの分野は比較的独立して発展してきましたが、本研究のように実証的データに基づいてテスト改善を行う取り組みは、両分野の統合に向けた重要な一歩と言えます。
理論的には、Segalowitzの三要素モデルやTavakoli and Skehanの三因子モデルの妥当性を、実際のテスト場面で検証した意義があります。特に、速度と中断の測定値が習熟度を区別できる一方、修正行動は単純な指標として機能しないという発見は、流暢さの構造についてより深い理解を提供しています。
また、この研究は概念的複製研究(conceptual replication)としての価値も持っています。先行研究の結果を異なるテスト、異なるタスク、異なる参加者で検証することにより、研究結果の一般化可能性を高めています。
技術的応用と自動採点への示唆
現在、人工知能を活用した自動採点システムの開発が進んでいます。この研究の結果は、そうしたシステム開発にも重要な示唆を提供しています。速度や文中ポーズの長さなど、機械で客観的に測定できる指標が習熟度の判定に有効であることが示されたためです。
研究者らも指摘しているように、話速や文中ポーズ長などの時間的特徴は、自動採点システムの特徴抽出段階で活用できる代表的な流暢さの指標となり得ます。これは、より客観的で一貫性のある流暢さ評価の実現に向けた重要な知見です。
文化的・言語学的考慮事項
この研究で興味深いのは、参加者が16カ国から集まっていることです。中国系、タイ系、カザフスタン系、サウジアラビア系の学習者が最も多く、その他にもブラジル、日本、キプロス、ギリシャなど多様な言語的背景を持つ参加者が含まれています。
ただし、この多様性が結果にどのような影響を与えたかについては、十分に分析されていません。先行研究では、母語の流暢さパターンが第二言語の流暢さに影響することが知られており、文化的な話し方の違いも流暢さの知覚に影響することが報告されています。この点は、今後の研究で更なる検討が必要な領域です。
教育的含意と言語教師への示唆
この研究結果は、英語教師にとっても有用な情報を提供しています。特に、流暢さの発達が線形的でないことは重要な発見です。速度の向上は初中級レベルでは顕著ですが、上級レベルでは頭打ちになります。また、5.5レベル付近で修正行動が活発化することも、教師が理解しておくべき現象です。
これらの知見は、レベル別の指導目標設定や学習者へのフィードバックの際に活用できます。初中級の学習者には速度の向上を、中級の学習者には適切な修正能力の発達を、上級の学習者には精度の高いポーズ制御を重視した指導が効果的かもしれません。
研究の限界と今後の課題
研究者らが認めているように、この研究にはいくつかの制限があります。最も重要なのは、分析対象が単独発話タスクに限られていることです。実際のコミュニケーションでは対話が重要な役割を果たすため、対話における流暢さの特徴についても検討が必要です。
また、談話分析的な視点からの検討も今後の課題として挙げられています。この研究は主に時間的な測定に基づいていますが、流暢さには内容の組織化や表現の適切性なども関わってくるため、より包括的な分析が求められます。
サンプルサイズの拡大や、より多様な習熟度レベルでの検証も必要でしょう。特に、最高レベルでの流暢さの特徴については、さらなる研究が必要です。
結論:流暢さ評価の科学化に向けて
この研究は、英語能力テストにおける流暢さ評価をより科学的で客観的なものにするための重要な一歩を示しています。実証的データに基づいてテストの評価基準を改善するアプローチは、他のテストでも応用可能な方法論を提供しています。
研究結果から明らかになったことは、流暢さが多面的で複雑な構造を持つということです。速度、中断、修正のそれぞれが異なるパターンで習熟度と関連しており、単一の指標では流暢さを適切に評価できません。特に、修正行動の複雑さや高レベルでの天井効果は、従来の評価方法の見直しを促す重要な知見です。
また、この研究は学際的な協力の重要性も示しています。第二言語習得の理論的知見と言語テストの実践的ニーズを結びつけることで、より効果的な評価方法の開発が可能になります。
最後に、この研究が提起する問題意識は、英語教育全体にとって重要な意味を持ちます。流暢さを適切に理解し評価することは、学習者により効果的な学習指導を提供するための前提条件です。客観的で科学的な評価基準の確立は、英語学習者にとってより公正で有益な評価システムの構築につながるでしょう。
このような研究の蓄積により、将来的にはより精密で実用的な流暢さ評価システムの開発が期待されます。それは、学習者個人の特性やニーズに応じた、きめ細かな指導や評価の実現に貢献することでしょう。
Tavakoli, P., Kendon, G., Mazhurnaya, S., & Ziomek, A. (2023). Assessment of fluency in the Test of English for Educational Purposes. Language Testing, 40(3), 607-629. https://doi.org/10.1177/02655322231151384