はじめに―「なぜあの人は上達するのか」という疑問
英語を何年も勉強しているのに、なぜか発音やイントネーションがなかなか改善しない。一方、同じクラスで同じ授業を受けているのに、みるみる上達してしまう人もいる。こうした格差は、努力や動機の問題だけで片付けられがちですが、実は生まれ持った聴覚処理能力の個人差が大きく関わっているとすれば、どうでしょうか。
本稿で取り上げる論文は、University College LondonのKazuya SaitoとBirkbeck, University of LondonのAdam Tierneyが共同で執筆し、2025年に学術誌『Language Learning』に掲載されたものです。タイトルは”Roles of Domain-General Auditory Processing in Second Language Speech Learning Revisited: What Degree of Precision Makes a Difference?”、つまり「第二言語音声習得における汎用的聴覚処理の役割を再考する―どの程度の精度が違いをもたらすか」といった内容です。
Saitoは、第二言語(L2)音声習得の個人差研究を長年にわたり精力的に進めてきた研究者で、音声訓練、学習環境、および聴覚処理能力の相互作用に関する多くの実証研究を発表してきました。Tierneyは神経科学・認知心理学の側から音楽知覚や言語処理を研究しており、この二人のコラボレーションは、応用言語学と認知神経科学の接点から生まれた学際的成果といえます。
この論文が問いかけているのは、「ピッチ(音の高低)を細かく識別できる能力が、英語のプロソディー(アクセントやイントネーション)習得に必要な最低ラインはどこにあるのか」という、これまで誰も明確に答えてこなかった問いです。
研究の構造―二つの研究が組み合わさる
本論文は二つの研究(Study 1とStudy 2)で構成されています。それぞれが独立した問いに答えながら、互いを補い合う設計になっており、論文全体としての説得力を高めています。
Study 1では、イギリスのロンドンの大学に留学中の中国人大学生46名を対象に、5ヶ月間にわたって英語プロソディーの産出能力を縦断的に追跡しました。参加者は研究開始時点(T1)と5ヶ月後(T2)の2時点でテストを受け、その間のイギリス英語への自然な暴露が習得にどう影響したかを分析しています。聴覚処理能力としては、ピッチ(基本周波数)の弁別能力とフォルマント(声道共鳴)の弁別能力が測定されました。プロソディーの産出は、英語母語話者の専門家評定者5名が語強勢とイントネーションの質を1000点満点で評価するという方法で計量化されています。
Study 2では、同様の背景を持つ中国人英語学習者400名を対象に、ピッチ弁別テストを実施し、Study 1で特定された「閾値」が集団全体のどの位置に当たるかを明らかにしようとしました。いわばStudy 1で見えてきた「危険ゾーン」が、実際の学習者集団の中でどれほどの割合を占めるかを推定する試みです。
何が分かったのか―閾値という概念の登場
Study 1の最も重要な発見は、Johnson-Neyman法という統計的手法を用いて特定した「ピッチ弁別の閾値」です。具体的には、100点満点のピッチ弁別テストで14点を境界とし、それ以上のスコア(つまり聴覚精度が低い)の参加者は、5ヶ月の留学を経ても英語プロソディーが統計的に有意な改善を示さず、むしろ低下する傾向が見られました。一方、14点以下(聴覚精度が高い)の参加者は、L2使用量が多い場合に限り、有意な向上を示しました。
ここで少し解説が必要です。このテストでは「スコアが低いほど精度が高い」という逆転した採点方式が使われています。スコアは、音の差異をどれくらい微細なレベルまで識別できるかを反映しており、14点というのは基本周波数の差にして約4.2Hzに相当します。ざっくり言えば、音楽でいう「ほぼ同じ音だが微妙にズレている」という違いを聴き取れるかどうかのラインです。ピアノの鍵盤を隣り合わせに弾いて区別できるかどうかに近いイメージとでも言えるでしょうか。
興味深いのは、聴覚精度が低いグループ(n=13)が単に「伸び悩んだ」のではなく、T1からT2にかけて有意にプロソディーが悪化したという点です。留学という豊富なインプット環境にいるにもかかわらず、英語らしさが薄れ、母語(中国語)のプロソディー的特徴が強化される形の後退が起きていたのです。
これはなぜでしょうか。研究者たちは、ピッチ弁別能力が低い学習者は、中国語(声調言語)のピッチ使用パターンを抑制しながら英語のイントネーション構造を取り込むという「二重課題」をこなすことができず、英語の音声インプットを母語のフィルターを通して処理してしまうと解釈しています。中国語では個々の音節ごとにピッチが意味を持つのに対し、英語では文レベルでのピッチ変動が意味やアクセントを担うという、根本的な使われ方の違いをうまく感知できないまま、母語パターンで処理し続けてしまうわけです。
Study 2では、400名のデータから、Study 1の閾値(スコア14)が第3四分位(11.16から17.91)に位置すること、そしてこの閾値を超えるスコアの学習者が全体の約35.2%に上ることが明らかになりました。つまり、3人に1人以上がこの「聴覚的準備不足」の状態にある可能性があるということです。
理論的背景―聴覚処理はなぜ重要なのか
この論文の理論的土台は、第一言語習得の感覚理論(sensory theory of L1 acquisition)にあります。Goswami(2015)やTallal & Gaab(2006)らの研究が示すように、聴覚処理能力は言語習得の「ボトルネック」、つまり最初の関門として機能します。難聴でなくても、音の細かな違いを感知する能力には個人差があり、それが語彙・文法・談話レベルへの処理にまで連鎖的に影響しうるのです。
第一言語習得においては、こうした弱点は養育者からの豊富なインプットや補完的な認知戦略によってある程度補われます。しかし第二言語習得、とりわけ大人になってから始める場合には、インプットの量も質も限られており、しかもすでに確立されたL1音韻体系との競合が生じます。そのため、聴覚処理能力の個人差がより鮮明に学習成果に反映されると考えられています。
これは「汎用的(domain-general)」な能力であるという点も重要です。ピッチ弁別能力は、音楽の訓練を受けているかどうかや、英語の学習経験の長さとは独立して存在します。本研究でも参加者の約59%が6年以上の音楽訓練を受けていたにもかかわらず、そのことがプロソディー習得に直接影響を与えるというより、聴覚精度そのものが鍵であったことが示されています。
研究の強みと評価すべき点
この研究のもっとも評価すべき点は、「閾値(threshold)の特定」という実践志向の問いを立て、それを実データで答えようとしたことです。従来の研究は「聴覚精度が高い人ほど上達する」という相関関係を示すにとどまり、「では、どの程度の精度があれば自然な習得が見込めるのか」という実用的な問いには答えていませんでした。
Wong & Perrachione(2007)の先行研究が70%という基準値を提示していましたが、それは実験的なピッチ対比の習得を扱ったものであり、自然な留学環境でのプロソディー産出発達を追ったものではありませんでした。本研究はより生態学的な妥当性(ecological validity)の高い文脈でこの問題に取り組んでいるといえます。
また、Johnson-Neyman法という統計的アプローチを採用し、事前に定められた基準ではなく、実際の言語発達データから帰納的に閾値を導出したことも方法論上の誠実さを示しています。このアプローチは、著者たちが明示的に言及している「mechanistic functionalism」という理論的立場、つまり聴覚的な違いを「欠陥」ではなく「異なる解決戦略」として捉える姿勢と一致しており、研究の一貫性を保っています。
さらに、ピッチ弁別とフォルマント弁別という二種類の聴覚処理を比較し、プロソディー習得に関与したのが前者のみであったという「次元特異的(dimension-specific)」な関係を実証した点は理論的にも重要です。これは、すべての聴覚処理能力が一括して言語習得を予測するのではなく、どの言語的側面を習得しようとしているかによって、関与する聴覚次元が異なるという精緻な視点を支持するものです。
批判的考察―見えにくい限界と問うべき問い
もちろん、この研究にはいくつかの重要な限界もあります。
まず、サンプルの問題です。Study 1はわずか46名、しかも女性が43名と極端に偏っており、「低精度グループ」はそのうちわずか13名です。統計的に有意な結果が得られているとはいえ、この規模の知見を「人口の35%が閾値以下」という集団推計へと接続するのには、やや飛躍があります。Study 2の400名も、その多くが特定の研究プロジェクトや修士論文データに由来するものであり、ランダムサンプリングとは言えません。
次に、観察期間の問題です。分析対象は「留学5ヶ月から10ヶ月」という中間期に限られており、初期の急速な習得段階でも長期の定着段階でもありません。著者たちも論じているように、Munro et al.(2024)の10年縦断研究では、一時的な後退を示した学習者が長期的には回復・上達したケースも観察されています。今回の「後退」が永続的なものなのか、それとも習得の一時的な乱れなのかを判断するためには、より長期のデータが必要です。
また、プロソディーの評定方法についても一考が必要です。5名の英語母語話者による専門家評定は信頼性(クロンバックのαが0.90以上)が確保されていますが、評定者が「ネイティブ規範」を基準にしている可能性があります。現代の英語教育では、「ネイティブライクな発音」を目標とすることへの批判もあり、国際語としての英語(English as a Lingua Franca)の観点からは、母語話者的イントネーションでなくとも十分に「通じる」英語は可能です。聴覚精度が低くても、別の補償戦略(たとえば強勢の配置や発話速度の調節)によって通じやすさを確保している学習者が、本研究の評定では過小評価されている可能性は否定できません。
さらに、認知能力の交絡因子(confounders)への対処が不十分です。著者自身も限界として認めているとおり、ピッチ弁別テストのスコアは注意制御(attentional control)やワーキングメモリといった他の認知能力と相関している可能性があります。本研究ではこれらの変数が測定・統制されていないため、「ピッチ弁別能力そのもの」が因果的に作用しているのか、それとも背後にある認知的能力の一般的な差異が反映されているのかを区別することができません。
関連研究との対比―研究の位置づけを確認する
本研究は、Saito et al.(2020)の縦断研究を直接の前身としており、その研究では同様に聴覚処理能力が留学中の音声習得に関与することが示されていましたが、今回のように「閾値」を特定することはしていませんでした。本論文はその延長線上にあって、よりpractitioner-oriented(実践者向け)な答えを出そうとした発展版といえます。
Perrachione et al.(2011)との関係も重要です。彼らは、ピッチ処理能力が低い学習者が高変動性(high-variability)の訓練環境では学習が阻害されるという知見を示しており、本研究の自然習得文脈での後退という知見はその延長として理解できます。ただし、Perrachioneらの研究は実験室的訓練パラダイムを用いたものであり、本研究のような「留学」という複雑な生態学的文脈での再現は独自の意義を持ちます。
McWeeny & Norton(2024)のメタ分析が示す通常聴覚者と失読症者の聴覚処理の差(g=0.70-0.80)という知見と本研究を対比すると、本研究が対象にしている「正常聴力の範囲内の個人差」が習得に影響しているという点は、より微細なメカニズムへの注目を促す点で理論的に興味深いものです。
日本の英語教育現場への示唆
この論文から日本の英語教育文脈を考えると、いくつかの重要な示唆が浮かび上がります。
まず日本語は、中国語ほど声調的ではないものの、音高アクセントを持つ言語です。英語の文レベルのイントネーション(強勢アクセント言語としての英語)とは異なるピッチ使用パターンを持つため、日本語話者も中国語話者と類似した課題に直面する可能性があります。そうだとすれば、ピッチ弁別能力の個人差が日本人英語学習者のプロソディー習得にも同様に関与するという仮説は十分に成り立ちます。
特に注目すべきは、「高変動・自然インプット型の学習環境が、聴覚精度の低い学習者には逆効果になりうる」という知見です。日本の大学や高校で近年推進されている「英語で行う英語授業(EMI: English-Medium Instruction)」や「タスク基盤型言語教育(TBLT)」は、本研究が示す「通じる英語を使う環境への暴露」の典型です。これらのアプローチは聴覚精度の高い学習者には恩恵をもたらす可能性が高い一方で、そうでない学習者には混乱や後退を招くリスクがあるということになります。
では、どうすればよいのでしょうか。著者たちが推奨しているのは、「矯正的アプローチ(remedial strategies)」として、明示的な音声指導(explicit phonetic instruction)や聴覚訓練(auditory training)を自然習得の前に、あるいは並行して実施することです。具体的には、音響的に強調された音声素材を使った指導や、単一話者・低変動性の入力から始める段階的なアプローチが考えられます。
日本の学校現場でこれを実装しようとすれば、まず個々の学習者のピッチ弁別能力を把握するスクリーニングが必要ということになります。著者たちはSaito & Tierney(2024)で開発した聴覚処理評価ツールを公開しており(http://sla-speech-tools.com)、原理的にはオンラインで実施可能なため、教育現場への導入障壁はそれほど高くないかもしれません。
ただし、日本の現場でこのアプローチを実践する際には、いくつかの現実的な課題も伴います。クラスサイズが大きい日本の学校環境で個別の聴覚プロファイルに応じた指導を行うのは容易ではありませんし、ピッチ弁別能力が低いと診断された学習者が「自分は英語が上手くなれない」という誤った受け取り方をしないように、概念の丁寧な説明と教育的配慮が不可欠です。著者が繰り返し強調しているように、低聴覚精度は「欠陥」ではなく「異なる学習スタイル」であり、適切な支援によって克服できる可能性がある問題として伝えることが重要です。
より大きな問いへ―聴覚の個人差をどう位置づけるか
この研究が本当に面白いのは、「才能」や「センス」として漠然と語られてきた音声習得の個人差に、測定可能な神経認知的基盤を与えようとしていることです。ピアノをどれだけ練習しても音痴は直らない、という話を聞いたことがある方もいるでしょうが、本研究の視点からすれば、それは怠惰ではなく、聴覚精度という「知覚的準備状態」が整っていないまま練習だけ積み重ねている状態に近いかもしれません。
ただ、ここで注意しなければならないのは、「だから聴覚精度の低い人は英語発音を諦めるべきだ」という結論は全く正当化されないということです。著者が引用しているWhiteford & Oxenham(2018)の研究では、先天性失音楽症(amusia)と診断された人でさえも訓練によってピッチ知覚が改善し、診断の閾値を超えたケースが報告されています。聴覚処理能力自体も固定したものではなく、適切な訓練によって変化する可能性があるのです。
本論文の著者たちが採用している「mechanistic functionalism」という立場は、言語習得研究が今後向かうべき方向性を示唆しているように思えます。「誰もが同じ方法で学べるはずだ」という均一化の前提から離れ、個々の神経認知的プロファイルに応じた「最適な学び方」を探索するというアプローチは、教育の個別化(personalization)という現代的な課題とも共鳴しています。
おわりに―この研究が問いかけるもの
Saito & Tierneyの研究は、「なぜ英語が上手くならないのか」という問いに、従来とは異なる角度から答えようとした意欲的な試みです。努力や動機、暴露量といった変数だけでは説明しきれない学習成果の格差に、聴覚処理という神経認知的変数から迫ったことで、研究と実践の両面において新しい問いが生まれました。
本研究には、サンプルの小ささや観察期間の限定性、認知変数の未統制という方法論上の課題も残ります。しかし、「聴覚精度の閾値」という実践的な概念を提示し、それを実際の学習者データから帰納的に導出したことは、応用言語学における聴覚処理研究を大きく前進させるものです。
英語の音声指導に携わる教師、留学プログラムを設計する教育者、そして「なぜ自分は発音が上達しないのか」と悩む学習者にとって、この研究は不快な問いを突きつける一方で、「適切な支援があれば変わりうる」という可能性も指し示しています。測定し、診断し、そして個々の学習者に合わせた支援を設計する―そのための理論的・実践的枠組みの一端を、この論文は着実に積み上げています。
Saito, K., & Tierney, A. (2025). Roles of domain-general auditory processing in second language speech learning revisited: What degree of precision makes a difference? Language Learning, 75(S1), 97–138. https://doi.org/10.1111/lang.12722
