はじめに―「三つの言語を知っている」とはどういうことか

外国語を学ぶとき、私たちはどこかで「音の壁」にぶつかります。英語を学び始めた日本人の多くが、”r”と”l”の聞き分けに苦労したり、スペイン語学習者がbとvの違いに頭を抱えたりする経験をお持ちではないでしょうか。こうした「音を聞き分ける難しさ」は、第二言語習得研究(Second Language Acquisition, SLA)の分野で長年研究されてきたテーマです。

ところが最近になって、「三言語目(L3)を学ぶとき、脳の中では何が起きているのか」という問いに、研究者たちが本格的に向き合い始めました。二言語を既に使いこなしている人が三つ目の言語を学ぶとき、その難しさや特徴は、単に「二言語目を学ぶのとは違う」どころか、従来の理論では説明しきれない不思議な現象が起きるようです。

今回取り上げるのは、Georgetown大学のJeong MunとAlfonso Morales-Frontによる2025年の論文”Distributional Learning and Language Activation: Evidence from L3 Spanish Perception Among L1 Korean-L2 English Speakers”です。タイトルを日本語にすると、「分布学習と言語活性化―韓国語母語・英語第二言語話者におけるL3スペイン語知覚からの証拠」となります。MDPI社の査読誌『Languages』に掲載されたこの論文は、韓国語を母語とし、英語を第二言語として習得し、さらにスペイン語を第三言語として学ぶ成人の「音を聞き分ける能力」を詳細に調べたものです。

筆者の一人であるJeong Munは、この論文のもととなる博士論文をGeorgetown大学で2022年に完成させており、指導教員でもあるMorales-Frontは同大学スペイン語・ポルトガル語学科で音声学・音韻論を専門とする研究者です。つまりこの研究は、長年にわたるフィールドワークと実験の積み重ねから生まれた、実証的かつ理論的な貢献を目指すものです。

研究の舞台設定―なぜ「韓国語×英語×スペイン語」なのか

この研究が選んだ三言語の組み合わせには、音声学的な必然性があります。

まず、日本語話者にも身近な概念から説明しましょう。「VOT」(Voice Onset Time、声帯振動開始時間)という指標があります。簡単に言えば、「パ」や「バ」といった破裂音を発音するとき、唇が開く瞬間から声帯が振動し始めるまでの時間的な差です。この数値がプラスに大きければ「気息音(有気音)」、つまり息が多く出る音になり、マイナスであれば声帯が先に振動する「有声音」になります。

英語の場合、語頭の”p, t, k”は強く息を伴う有気音で、VOTは55〜100ミリ秒ほど。一方、”b, d, g”は無気音でVOTは30ミリ秒以下です。スペイン語は少し異なり、語頭の”p, t, k”のVOTは0〜40ミリ秒とずっと短く、むしろ英語の”b, d, g”に近い。つまり、英語話者がスペイン語を学ぶと、スペイン語の”p”が英語の”b”に聞こえてしまう現象が起きやすいのです。

そしてここに韓国語が加わると、さらに複雑になります。韓国語の破裂音は「三つ」あります。英語やスペイン語のような二項対立ではなく、「激音(有気音)」「濃音(緊張音)」「平音(弛緩音)」という三種類が使い分けられています。さらに近年のソウルの若者の間では、VOTだけでなく「F0(基本周波数、つまり音の高さ)」が音を区別する主な手がかりになってきているという研究もあり、この三言語の組み合わせは音声学的な多様性という観点からほぼ理想的な実験材料と言えます。

研究者たちが注目したのは、こうした「異なるルールを持つ三つの言語」を脳の中でどう整理しているか、そしてその整理能力がスペイン語の習熟度と関係しているかどうか、でした。

実験の設計と参加者

研究には40名が最終的に参加しました(当初59名でしたが、基準を満たさない19名が除外されました)。全員が韓国語の母語話者(ソウル・京畿方言)で、幼少期にアメリカまたはカナダに移住して英語を習得し、その後スペイン語を学び始めた人たちです。年齢は18〜40歳、平均28歳。スペイン語の習熟度は初級から中級まで幅広く設定されており、まさに「スペイン語習熟度の効果」を検証するための理想的な構成です。

習熟度の測定には、EIT(Elicited Imitation Task、誘発模倣課題)が用いられました。これは耳で聞いた文をそのまま繰り返すテストで、言語の習熟度を比較的短時間で測れる便利なツールです。韓国語と英語については全員がほぼ母語レベルまたはそれに近いスコアを示しており、スペイン語だけが幅広く分布していました。

実験は二つの課題から成ります。一つ目は「奇数課題(Oddity Task)」という弁別実験です。三つの音を聞かせて「どれが違うか」を答えさせます。この課題は記憶への負荷が少なく、バイアスが入りにくい手法として音声学研究では広く使われています。課題では、スペイン語と英語、スペイン語と韓国語の音の組み合わせ五種類が使われました。二つ目は「同定課題(Identification Task)」で、スペイン語の音が韓国語または英語のどの音に近いかを判断させ、さらにその「一致度」を五段階で評価させるものでした。

刺激音には「pafe」「bame」といった意味を持たない擬似語(pseudo-words)が使われました。これは実際の単語を使うと、意味からの連想や記憶が判断に影響してしまうためです。音そのものへの純粋な反応を引き出すための工夫と言えます。

結果―予想を裏切る「なだらかな無差別」

この研究の最も驚くべき発見は、「スペイン語の習熟度が高くなっても、音の弁別能力が上がらない」という結果です。

従来のL2(第二言語)研究の知見では、習熟度が上がれば音の聞き分け能力も向上するという関係が、多くの研究で確認されていました。Flege率いるチームの研究や、Wilson and Gickによる日本語話者の英語学習研究など、「習熟度と知覚能力の正の相関」は第二言語音声学における「常識」のひとつとも言える知見でした。

しかしこの研究では、スペイン語の習熟度とどの音の組み合わせの弁別精度との間にも、統計的に有意な相関が見られませんでした。Stuart-KendallのTau-c(順序尺度に適した相関係数)による分析でも、どのペアも有意水準(p < 0.05)をクリアしていません。

ただし、興味深い「例外」もありました。弁別精度が高かったのは、「スペイン語/p/―英語/p/」と「スペイン語/b/―韓国語平音/p/」の組み合わせです。これら二つのペアに共通するのは、「有気音(aspiration)」が含まれるという点です。英語の/p/も韓国語の平音/p/も、長いVOTを持つ有気音であり、その「シュー」という音は言語横断的に非常に目立つ聴覚的手がかりになります。チンチラ、ウズラ、マカクザルでさえもVOTの対立を弁別できるという過去の研究(Kuhl & Miller, 1975)が引用されているのも示唆的で、これは「言語」というよりも「生物学的な音響知覚」の問題であることを暗示しています。

一方で、F0や負のVOTに依存する組み合わせ―例えばスペイン語/p/と韓国語の濃音/p*/など―では弁別が難しかった。これらは、言語固有の知識を活用しなければ区別しにくい対立です。参加者は韓国語でも英語でも日常的にこれらの音を使いこなしているはずなのに、です。

同定課題の結果も興味深いものでした。スペイン語の/p/は、韓国語モードでは89%が韓国語の濃音/p*/として認識され、適合度評価も4.49(5点満点)と高い。英語モードでは66%が英語の/p/と認識されました。スペイン語の/b/については、韓国語の平音/p/として98.4%、英語の/b/として98.7%と、ほぼ一致した認識を示しました。しかしこれらの認識パターンも、スペイン語の習熟度とは有意な相関を示しませんでした。

理論的解釈―「分布学習」と「言語の同時活性化」

では、なぜこのような結果になったのでしょうか。著者たちは二つの説明を提示しています。

一つ目は「ドメイン一般的処理(domain-general processing)」の優先です。言語固有の知識ではなく、種横断的にも機能する一般的な聴覚処理メカニズムに頼ってしまったというものです。有気音だけが弁別できたのは、それが言語の知識なしでも感知できる音響的に顕著な手がかりだからだ、という解釈です。

二つ目が、この論文の最も独自な提案である「言語の同時活性化(co-activation)」仮説です。著者たちは、Green(1998)の「抑制制御モデル(Inhibitory Control Model, ICM)」を援用します。このモデルによれば、多言語話者は複数の言語を常に潜在的に活性化した状態にあり、特定の言語を使うときには「他の言語を積極的に抑制する」ことで言語の切り替えを実現しています。コードスイッチングや干渉が起きるのも、この抑制が不完全なときだと説明されます。

ところが今回の実験のように、「どの言語モードで処理すればよいか不明確な状況」では、この抑制メカニズムがうまく機能しないのではないかと著者たちは論じます。三言語すべてが同時に「起動した状態」になってしまい、各言語の音韻分布が重なり合った「複合カテゴリー」に基づいて知覚が行われてしまう。その結果、言語固有の細かい対立の弁別が難しくなるという理屈です。

ここで「分布学習(Distributional Learning, DL)」の概念が登場します。これは、言語習得においてひとつひとつの音への接触がそれぞれ「記憶の痕跡」を残し、それが積み重なってベル型の正規分布(ガウス分布)をなし、最終的にひとつの音韻カテゴリーが形成されるという考え方です。乳幼児の言語習得研究でも確認されており(Maye, Werker & Gerken, 2002)、現在のSLM-r(Speech Learning Model改訂版、Flege & Bohn, 2021)にも組み込まれています。

三言語話者の場合、この分布が三言語分それぞれ形成されていますが、それらが単一の知覚空間を共有しているとすれば、各言語の音が互いに干渉し合うことになります。どの言語が「活性化」されているかによって、どの分布が前面に出るかが変わる―これが著者たちの提唱するモデルの本質です。

先行研究との対比―L2研究の「常識」は通じない

この論文が対話しているのは、主にFlege & Bohn(2021)のSLM-r、Best & Tyler(2007)のPAM-L2(Perceptual Assimilation Model for L2)、そしてEscudero(2005)のL2LP(Second Language Linguistic Perception model)という三つの代表的な知覚モデルです。

SLM-rは、L2学習者が自分のL1の音体系を基盤にして新しい音カテゴリーを形成していくプロセスを説明する、最も影響力のあるモデルのひとつです。SLM-rの予測の一つ(Postulate P2)は、「バイリンガルは共通の音韻空間にある子音と母音すべてにおいて音声的対比を維持しようとする」というものです。この予測に従えば、習熟度が上がれば上がるほど、音の弁別能力も高まるはずです。しかしMunらの結果はこれを支持しませんでした。

PAM-L2は主にL2学習の初期段階における知覚を説明するモデルで、L1の音韻カテゴリーにL2の音がどう「同化」されるかを記述します。L2LPは確率的最適性理論(Stochastic Optimality Theory)という計算論的枠組みを使い、学習の軌跡を予測しようとします。著者たちはこれらのモデルがいずれも二言語(L1とL2)を前提として構築されており、三言語以上のコンテキストには本質的な修正が必要だと主張しています。

特に注目すべきは、この論文が「同じ学習者グループを対象にした別の研究(Mun, 2022の博士論文)では、知覚ではなく産出においてはスペイン語習熟度と正の相関が見られた」と述べている点です。つまり、同じ人が同じ音を「産出する」ときは習熟度の影響を受けているのに、「知覚する」ときには受けない。この「産出と知覚の乖離」は、L2研究でも報告例がありますが(Flege, 1995)、三言語コンテキストではその乖離がさらに顕著になる可能性があります。これはSLMファミリーのモデルにとって、単なる「例外」ではなく、理論的な再考を促す重要な問題提起です。

日本の英語教育現場への示唆

筆者がこの論文を読んで強く感じたのは、「日本の英語教育」への直接的な含意です。

日本語話者にとって英語のVOT体系は、ある意味でスペイン語よりも難しい場合があります。日本語の破裂音は、英語のような明確な有気音・無気音の対立を音韻的に使用しておらず、環境によって有気音的に聞こえることもありますが、それは音韻論的な対立ではありません。したがって、英語の/p/と/b/の区別は、日本語話者にとって概念的には理解できても、聴覚的に安定して実現するのが難しい対立です。

では、もし日本語話者が英語に加えてスペイン語やフランス語などの第三言語を学ぶ場合、この研究の知見はどう適用できるでしょうか。Munらの結果が示唆するのは、「L3の習熟度を上げれば自然に音声知覚も改善される」という期待が、少なくとも短期的には根拠の薄いものかもしれないということです。

また、この研究で使われた「擬似語による同定課題」や「奇数課題」といった手法は、音声知覚の訓練ツールとして応用できる可能性があります。実際の語彙に頼らず、純粋に音の特徴に注目させることは、特に大学レベルの英語音声学教育や、スペイン語・フランス語などのL3教育において有効な指導技法になりえます。

さらに、この研究が示す「言語モードの不明確さが知覚の不安定さを招く」という知見は、指導言語の切り替えが頻繁な多言語環境の教室で特に重要です。教師がある特定の言語モードで課題を提示するとき、学習者がその言語モードに「チューニング」できているかどうかを意識することが、音声知覚課題の有効性に影響するかもしれません。

研究の限界と今後の課題

この論文が誠実だと感じるのは、自らの限界についても率直に議論している点です。

まず、サンプルサイズの問題があります。40名という数は音声知覚研究としては珍しくありませんが、習熟度という連続変量との相関分析には、より大規模なサンプルが望ましいでしょう。また、参加者全員がアメリカ在住の韓国系移民という特殊な背景を持っており、結果の一般化には注意が必要です。

次に、刺激の問題があります。実験で使われた擬似語(例えば”pafe”や”bame”)は意味を持たないため、語彙的な手がかりなしに音だけを判断しなければなりません。これはSLM-rの想定する処理過程に即した設計ではあるものの、実際の言語使用とは乖離しているという批判も成り立ちます。Munら自身もこの点を認め、「語彙情報なしでも弁別は可能なはずだ」という先行研究を引用しつつ、「しかしL3コンテキストでは影響があったかもしれない」と慎重な立場をとっています。

また、今回の実験では特定の「言語モード」を誘導する操作を行っていません。言語モードの影響を検証するためには、例えば「今から英語の音として聞いてください」というように明示的に言語モードを指定する条件と、そうでない条件を比較する実験デザインが有効でしょう。この点は著者たちも「今後の研究課題」として提案しています。

さらに、音声知覚と産出の関係を同一被験者で縦断的に追うデザインがあれば、より説得力のある証拠が得られるでしょう。今回の研究は横断的(クロスセクション)デザインであり、習熟度の「効果」は厳密には「個人差」の問題として解釈される必要があります。

独自の学術的考察―「知覚の混雑」という現象

本論文を読んで、個人的に最も興味深く感じたのは、「言語の共有知覚空間が混雑しすぎると、むしろ弁別能力が下がる」という逆説的な含意です。

通常の直観では、「たくさんの言語を知っているほど、音声的に豊かな判断ができるはず」と思いがちです。しかし、Munらの研究が示しているのは、その「豊かさ」が逆に「ノイズ」になりうるという現象です。これは言語学の外でも類比を見つけることができます。例えば、複数の専門分野に深く精通しているほど、ある特定の問題に対して「どの枠組みで考えるべきか」という判断自体が難しくなることがあります。「専門性の過負荷」とでも呼ぶべき状態です。

この「知覚の混雑(perceptual crowding)」とでも呼ぶべき現象は、今後の三言語・多言語研究において重要な概念になりえます。SLM-rのPostulate P2が「バイリンガルは音声対比を維持しようとする」と述べる際、それが「バイリンガル」の話であることに注目すべきです。「トリリンガル」以上になると、維持すべき対比の数が飛躍的に増え、その管理コストが認知的負荷として現れるのかもしれません。

もう一つ興味深いのは、著者たちが言及している「産出と知覚の非対称性」の理論的意味です。Flege(1995)以来、SLMファミリーのモデルは産出と知覚の間に密接な関係を仮定してきましたが、三言語コンテキストではその関係が崩れる可能性があります。産出は「一言語モード」で行われやすい(例えば「今スペイン語で話している」という状況が明確)のに対し、知覚は刺激が複数の言語カテゴリーにまたがる曖昧な状況におかれやすい―この非対称性こそが、三言語コンテキストを特殊たらしめる要因のひとつではないでしょうか。

読んで気になった点―批判的な視点から

誠実な批評のためには、論文の貢献を認めつつも、いくつかの気になる点を挙げる必要があります。

まず、仮説の設定に関して。著者たちはH1(「高習熟度のトリリンガルは言語横断的なカテゴリーを区別できる」)を立てながら、その根拠としてSLM-rのPostulate P2を挙げています。しかしPostulate P2はもともとバイリンガルを対象にした予測であり、それをトリリンガルに適用することの理論的正当性については、もう少し丁寧な議論が欲しかったところです。結果が「予想に反した」という驚きを強調するためには、その「予想」が理論的に十分正当化されていなければなりません。

次に、統計的な問題として、Stuart-KendallのTau-cは適切な選択ですが、「有意差なし」の結果の解釈には注意が必要です。統計的に有意でないことは「効果がない」ことの証明ではなく、「効果を検出できなかった」ことを意味します。Bayesian分析やeffect sizeの報告があれば、「本当に関係がない」のか「サンプルが小さすぎて検出できなかっただけ」なのかをより明確にできたでしょう。

さらに、ICMを援用した解釈は魅力的ですが、その適用はやや間接的です。ICMはもともと語彙産出のモデルであり(著者自身もこれを認めています)、それを音声知覚に援用することの理論的架橋が、論文の中で完全に果たされているとは言い難い部分もあります。

まとめ―「混雑した耳」の音声学

Mun & Morales-Frontの研究は、多言語音声習得研究における重要な問題提起を行っています。「習熟度が上がれば知覚能力も向上する」というL2研究の蓄積された知見が、L3コンテキストでは必ずしも成立しないかもしれないという発見は、既存理論の適用範囲を真剣に問い直す契機になります。

特に、言語の「分布学習」と「複数言語の同時活性化」という二つのメカニズムを組み合わせた説明は、今後のL3音声研究の枠組みとして可能性を持っています。言語横断的なカテゴリー間の「距離」だけでなく、どの言語が「活性化」されているか、そしてその活性化がどう管理されるかという視点は、これまでのL2モデルが十分に扱ってこなかったものです。

日本の英語教育という観点からも、この研究は「音を知っているからといって、それを弁別できるとは限らない」という、教育実践上の重要な認識を与えてくれます。特に、複数の外国語を学ぶ学習者が増えている現代の日本の教育環境において、音声知覚の指導はより細やかな言語モードの管理を意識したアプローチが必要かもしれません。

三つの言語を耳の中に持つということは、三倍豊かなことであるのと同時に、三倍複雑であるということでもあります。その複雑さを解きほぐそうとする地道な実験研究の積み重ねが、多言語話者の言語処理という難問に、少しずつ光を当てていくのだと感じさせてくれる論文でした。


Mun, J., & Morales-Front, A. (2025). Distributional learning and language activation: Evidence from L3 Spanish perception among L1 Korean–L2 English speakers. Languages, 10(6), 147. https://doi.org/10.3390/languages10060147

 

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語eラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているeラーニングシステム「リンガポルタ」も開発した。最近ではAIによる新しい教育システムの開発にも着手している。

Amazon プライム対象