研究の背景―試験官は何を聞いているのか

英語のスピーキングテストを受けたことがある方なら、試験官の前で話すときの独特の緊張感をご存知でしょう。言葉に詰まったとき、「えーと」と言ってしまったとき、同じフレーズを繰り返してしまったとき、果たしてそれは減点対象になるのだろうかと不安になります。実は、採点する側の試験官も同じように悩んでいるのです。受験者の「流暢さ」をどのように評価すべきか、という問題は言語テストの世界で長年の課題となってきました。

本論文” Assessment of fluency in the Test of English for Educational Purposes”の筆頭著者であるParvaneh Tavakoliは、イギリスのReading大学で第二言語習得と言語テストの研究に取り組んでいます。共著者のGill Kendon、Svetlana Mazhurnaya、Anna Ziomekも同じくReading大学の研究者です。この研究チームは、理論研究者と実務家が協力して、実際の試験の改善につながる研究を行うという、まさに「研究と実践の架け橋」を目指したプロジェクトに取り組みました。

流暢さとは何か―単純そうで複雑な概念

私たちが日常的に使う「流暢」という言葉は、実は言語学の世界では非常に複雑な概念です。例えば、友人との会話で「あの人、英語ペラペラだよね」と言うとき、私たちは何を基準にそう判断しているのでしょうか。話すスピードの速さでしょうか、それとも詰まらずに話せることでしょうか。

研究者のSegalowitzは、流暢性を三つの側面から理解すべきだと提案しました。第一に「認知的流暢性」があります。これは頭の中で言語処理がどれだけスムーズに行われているかという、外からは見えない部分です。第二に「発話流暢性」があり、これは測定可能な要素、つまり話す速度、ポーズの長さや頻度、言い直しの回数などです。そして第三に「知覚される流暢性」があり、これは聞き手が感じる流暢さの印象です。

試験の採点者は、受験者の音声を聞いて(発話流暢性)、その背後にある言語処理の難しさを推測し(認知的流暢性)、総合的な流暢さの印象(知覚される流暢性)を形成します。この複雑なプロセスを、どうやって客観的で信頼できる評価基準に落とし込むかが、本研究の出発点となっています。

TEEPという試験―研究の舞台

本研究が対象としたTEEP(Test of English for Educational Purposes)は、イギリスの大学進学を目指す学生向けの英語能力試験です。1980年代にCyril Weirによって開発されたこの試験は、毎年イギリス、中国、マレーシアで約600名が受験しています。日本で有名なIELTSやTOEFLほど大規模ではありませんが、イギリスの複数の大学で入学基準として採用されている、実用性の高い試験です。

TEEPのスピーキングテストは三つのパートで構成されています。本研究が焦点を当てたのは、受験者が4分間の準備時間を経て、3分間のモノローグ(一人で話し続ける)を行う第二パートです。例えば「公共サービスと民間サービス、どちらが優れているか」といったテーマについて、受験者は自分の考えを展開します。

採点は二人の試験官によって行われます。一人は「インターロキューター」として試験を進行し、もう一人は「アセッサー」として後ろに座って観察します。両者は「アイデアの説明」「インタラクション」「流暢性」「正確性と語彙・文法の範囲」「明瞭性」という五つの基準に基づいて評価を行います。この研究が興味深いのは、この流暢性の評価基準を、実際のデータに基づいて検証し、改善しようとしている点です。

研究の方法―音声を科学的に分析する

研究チームは、四つの習熟度レベル(5.0、5.5、6.5、7.5)で各15名程度、計56名の受験者の音声データを分析しました。これらのレベルは、IELTSのスコアに概ね対応しており、5.0は英語プログラムへの最低入学要件、5.5はビザ要件を満たす最低スコア、6.5から7.5は学位コースへの入学に必要なレベルです。受験者は中国、タイ、カザフスタン、サウジアラビアを中心に、16カ国から集まった19歳から47歳までの学生たちでした。

分析には、音声分析ソフトウェアのPRAATが使用されました。このソフトウェアは、音声の波形を視覚化し、0.25秒以上の沈黙を自動的に検出することができます。研究チームは、録音を繰り返し聞きながら、音節数を手作業で数え、ポーズの位置や長さを記録していきました。この地道な作業によって、以下のような指標が測定されました。

速度の指標としては、「調音速度」と「発話速度」の二つが用いられました。調音速度は、ポーズを除いた純粋な話す速さ(1分間の音節数)です。一方、発話速度はポーズを含めた全体的な速さを表します。例えば、ある受験者が1分間に200音節を発音できても、頻繁にポーズを取れば発話速度は下がります。

中断の指標としては、沈黙ポーズの頻度と長さが、「節の途中」と「節の終わり」で別々に測定されました。これは、「I went to the… store」(節の途中のポーズ)と「I went to the store.(ポーズ)Then I…」(節の終わりのポーズ)では、意味が異なるからです。前者は言葉探しによる困難を示し、後者は自然な思考の区切りを示します。

修正の指標としては、繰り返し、言い淀み、言い直し、自己訂正の合計回数が数えられました。これらは話し手が自分の発話を監視し、修正しようとする試みを表しています。

研究結果―データが語ること

統計分析の結果は、いくつかの興味深いパターンを明らかにしました。まず、速度に関しては、発話速度が低いレベル(5.0と5.5)と高いレベル(6.5と7.5)を明確に区別することがわかりました。しかし、5.0と5.5の間、あるいは6.5と7.5の間には統計的に有意な差は見られませんでした。これは、速度の向上が一定のレベルを超えると頭打ちになる「天井効果」を示唆しています。調音速度については、5.0レベルだけが他のすべてのレベルと異なっていました。

沈黙ポーズについては、より複雑な結果が得られました。節の途中のポーズの長さは、低いレベル(5.0と5.5)が高いレベル(6.5と7.5)よりも長く、特に7.5レベルは最も短いポーズを示しました。興味深いのは、節の途中のポーズの頻度です。5.5レベルが最も高く、次いで5.0、6.5、そして7.5の順でした。この結果は直感に反するように見えますが、研究者たちは、5.0レベルの受験者は全体的に発話量が少ないため、節の途中でポーズする機会も少ないのではないかと推測しています。

節の終わりのポーズについては、より予想通りの結果が得られました。頻度も長さも、習熟度が上がるにつれて減少する傾向が見られました。最も低い5.0レベルは、高いレベル(6.5と7.5)と統計的に有意な差がありました。

しかし、修正指標については、どの習熟度レベル間にも統計的に有意な差は見られませんでした。これは予想外の結果でした。詳しく見ると、5.5レベルと7.5レベルで修正が多く使われる傾向がありましたが、その理由は異なると考えられます。5.5レベルの学習者は、自分の誤りに気づいて修正しようとし始める段階にあり、7.5レベルの学習者は、より正確な表現や適切な表現を求めて言い直しをしているのではないかと解釈されています。

フィラーポーズ(「えーと」「あのー」のような言葉)についても、習熟度レベルによる有意差は見られませんでした。この結果は、フィラーポーズが習熟度の指標としては適切でないことを示唆しています。

研究の意義―理論と実践をつなぐ

この研究の最も重要な貢献は、第二言語習得研究と言語テストの実務を結びつけた点にあります。多くの言語テストの評価基準は、経験的な根拠よりも、長年の慣習や直感に基づいて作られてきました。本研究は、実際のデータを用いて、TEEPの流暢性評価基準が適切かどうかを検証し、改善のための具体的な提案を行っています。

研究チームは、この結果に基づいて、TEEPの評価記述子と採点者トレーニング教材の改訂を提案しています。例えば、7.0以上のレベルでは、調音速度に関する記述をより明確にすることが提案されました。また、採点者トレーニングでは、節の途中と終わりのポーズを区別することの重要性を強調すべきだとされています。さらに、5.5レベルが修正指標の「活性化の閾値」であることを採点者に認識させることも重要です。

一方で、フィラーポーズや修正指標が習熟度レベルを区別しないという発見は、多くの国際的な英語試験にとって重要な意味を持ちます。これらの要素を評価基準に含めることの妥当性を再考する必要があるかもしれません。

先行研究との関連―知識の積み重ね

本研究は、Tavakoliらが2020年に実施したBritish Council Aptis Speaking testに関する研究を、別の試験、別のタスク、別の受験者集団で再現しようとした「概念的再現研究」です。科学研究において、同じ結果が異なる条件下で再現されることは、その知見の信頼性を高める重要なプロセスです。

実際、本研究の結果は先行研究とよく一致しています。速度と中断の指標が習熟度レベルを区別し、修正指標が一貫したパターンを示さないという点は、複数の研究で確認されました。このような研究の積み重ねが、より確かな評価基準の開発につながります。

また、本研究は、Brown et al.(2005)によるTOEFLの研究や、Ginther et al.(2010)によるOral English Proficiency Testの研究といった、この分野の重要な先行研究の系譜に位置づけられます。これらの研究は、いずれも実際の試験データを用いて、流暢性の評価基準を検証するという共通のアプローチを取っています。

研究の限界と今後の課題

研究者たち自身が認めているように、この研究にはいくつかの限界があります。まず、サンプルサイズの問題です。各レベル15名程度というのは、先行研究よりは大きいものの、統計的に十分とは言えない面があります。また、分析対象がモノローグタスクに限定されているため、対話的なやり取りにおける流暢性については不明なままです。実際の大学での英語使用では、講義を聞いてディスカッションに参加するような対話的な能力も重要です。

修正指標の解釈も課題として残っています。なぜ5.5レベルと7.5レベルで修正が多いのか、その質的な違いは何か、という問題は定量的な分析だけでは十分に説明できません。今後は、実際の発話の質的な分析や、受験者へのインタビューなどを組み合わせることで、より深い理解が得られるかもしれません。

また、この研究は受験者の第一言語の影響については十分に考慮していません。近年の研究では、第二言語の流暢性は第一言語の流暢性から部分的に予測できることが示されています。例えば、もともと早口で話す文化的背景を持つ学習者と、ゆっくり話すことが礼儀とされる文化的背景を持つ学習者を、同じ基準で評価することが適切かという問題があります。しかし、実際の試験では、採点者は受験者の個人的な第一言語の話し方のスタイルを知る由もありませんから、現実的にはこの要素を評価に組み込むことは困難です。

自動採点への示唆―テクノロジーの可能性

この研究のもう一つの重要な意義は、音声の自動採点技術への貢献です。近年、人工知能を用いた言語テストの自動採点が注目されています。流暢性は、時間的な要素が中心となるため、機械による評価に適していると考えられています。

本研究が示した、発話速度や節の途中のポーズの長さが習熟度を区別するという発見は、機械学習のアルゴリズムに組み込むべき特徴量として活用できます。つまり、コンピュータに「良い流暢性とは何か」を教える際の具体的な指標となるのです。

ただし、研究者たちも指摘しているように、自動採点は「不透明なブラックボックス」になりがちです。どのような特徴量がどのように重み付けされて最終スコアに反映されているのかが見えにくいという問題があります。このような研究によって、自動採点の背後にある論理を明確にし、説明可能性を高めることができます。

採点者の視点―主観と客観の間で

言語テストの採点者の仕事は、想像以上に複雑で繊細です。受験者の発話を聞きながら、リアルタイムで複数の評価基準を頭の中で処理し、最終的に一つのスコアに収束させなければなりません。流暢性の評価においては、速度、ポーズ、修正といった複数の要素を総合的に判断する必要があります。

本研究の結果は、採点者にとって実践的なガイダンスを提供します。例えば、節の途中のポーズは流暢性の問題を示す重要なサインであること、フィラーポーズはそれほど重要でないこと、修正の使用は単純に減点材料ではなく、そのレベルと文脈を考慮すべきことなどです。

しかし同時に、この研究は採点の難しさも浮き彫りにしています。修正指標が習熟度レベルと単純な関係にないという発見は、「わかりやすい評価基準」と「実態を反映した評価基準」の間のジレンマを示しています。採点者は、数値化できる要素だけでなく、そこに込められた意味やニュアンスも読み取る必要があります。

日本の英語教育への示唆

この研究は、イギリスの試験を対象としていますが、日本の英語教育にも重要な示唆を与えます。日本では長年、「英語は読めるけど話せない」という課題が指摘されてきました。スピーキング能力の向上には、流暢性の向上が不可欠ですが、それをどう指導し、評価するかは明確ではありませんでした。

本研究が示すように、流暢性は単に「速く話すこと」ではありません。適切な位置でのポーズ、自然な修正、スムーズな言語処理など、複数の要素が組み合わさっています。英語教育の現場では、これらの要素を意識した指導が求められます。

また、評価の観点からも示唆があります。日本の学校現場で行われるスピーキング評価は、しばしば主観的で曖昧だと批判されてきました。本研究のような客観的で測定可能な指標を用いることで、より公平で透明性の高い評価が可能になるかもしれません。

研究の人間的側面―数字の向こうにある物語

この研究で分析された56名の受験者一人一人には、それぞれの物語があります。母国を離れ、英語で大学教育を受けるという挑戦に向かう彼らにとって、このスピーキングテストは人生の重要な分岐点です。3分間のモノローグの中には、準備にかけた時間、英語学習の苦労、将来への希望や不安が凝縮されています。

研究チームが音声ファイルを繰り返し聞き、ポーズを計測し、音節を数えるという地道な作業の背後には、より良い評価方法を作り出し、受験者により公平な機会を提供したいという思いがあります。データと統計の向こうには、常に人間がいるのです。

採点者もまた人間です。彼らは完璧な機械ではなく、疲労し、迷い、時には偏見に影響される可能性があります。しかし、このような研究によって提供される明確な基準とガイダンスは、採点者が一貫性のある公平な評価を行う助けとなります。それは最終的に、受験者の利益につながります。

結論―より良い評価を目指して

この研究は、言語テストにおける流暢性評価という、一見すると専門的で狭い分野を扱っているように見えます。しかし、その意義は広範囲に及びます。第二言語習得の理論的理解を深め、実際のテストの改善に貢献し、自動採点技術の発展を支え、そして最終的には、より多くの人々が公平に英語能力を評価され、教育の機会を得ることを可能にします。

Tavakoliと共同研究者たちの研究は、科学的厳密性と実践的有用性を両立させた優れた例です。彼らは、理論と実践の間の溝を埋め、研究が実際の改善につながることを示しました。このようなアプローチこそが、応用言語学研究の理想的な姿だと言えるでしょう。

もちろん、この研究だけですべての問題が解決されるわけではありません。サンプルサイズの拡大、対話タスクへの拡張、質的分析の組み込み、第一言語の影響の考慮など、今後取り組むべき課題は多く残されています。しかし、それは研究の限界というよりも、この分野がまだ発展途上であり、さらなる探求の余地があることを示しています。

言語テストの世界は、常に完璧を目指しながらも、完璧には決して到達できないという謙虚さを持ち続けなければなりません。受験者の複雑で多面的な言語能力を、限られた時間と方法で評価しようとする試みは、本質的に不完全です。しかし、このような地道な研究の積み重ねによって、私たちは少しずつ、より公平で、より正確で、より有意義な評価に近づいていくことができるのでしょう。


Tavakoli, P., Kendon, G., Mazhurnaya, S., & Ziomek, A. (2023). Assessment of fluency in the Test of English for Educational Purposes. Language Testing, 40(3), 607–629. https://doi.org/10.1177/02655322231151384

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

Amazon プライム対象