研究の背景―教科書評価の「勘と経験」に依存してきた問題
英語の教科書を選ぶとき、あなたはどんな基準で判断するでしょうか。「なんとなくこのくらいのレベルが合いそう」「以前使ったシリーズだから信頼できる」「授業で使いやすそう」―そういった感覚的な判断は、現場経験の豊かな教員であればあるほど、むしろ精度が高いこともあります。しかし、その「勘」が体系的に検証されることはほとんどありません。今回取り上げるのは、その感覚的な評価に代わる、データに基づく教科書評価の可能性を示した研究です。
Li, Wang, Qianの三名による “Exploring Syntactic Complexity and Text Readability in an ELT Textbook Series for Chinese English Majors”(2025年、SAGE Open掲載)は、中国の大学英語専攻生向け精読教科書シリーズの構文複雑性(syntactic complexity)と文章可読性(text readability)を、データマイニング技術を用いて定量的に分析した研究です。筆頭著者のChili Liは湖北工業大学に所属し、共著者のXue Wangは中央中国師範大学との二重所属、第三著者のLong Qianは武漢工程大学と香港理工大学に籍を置いています。中国の複数機関にまたがる研究チームが、教育部人文社会科学基金の支援を受けて実施した、中規模ながら実証性の高い研究と言えます。
分析対象となったのは北京外語教学与研究出版社が刊行したContemporary College English(第2版)の4冊、全56テキスト、総語数11万1723語です。このシリーズは中国の大学英語専攻カリキュラムにおいて精読(Intensive Reading)の主要教材として広く使われており、いわば日本でいう大学英語の「定番教科書」に相当します。分析には14の構文複雑性指標を算出するL2 Syntactic Complexity Analyzer(L2SCA)と、6つの可読性公式が用いられました。
構文複雑性とは何か―専門外の方へのやさしい解説
「構文複雑性」という言葉は、言語学や英語教育学の専門家以外には馴染みがないかもしれません。料理に例えると分かりやすいかもしれません。カレーライスを作るとき、市販のルーを使った単純な手順と、スパイスを何十種類も調合してじっくり煮込む本格レシピとでは、「料理の複雑さ」がまるで異なります。英語の文章でいえば、「I like cats.」という文は単純で、「The reason why I began keeping cats, despite my initial reluctance, was that my daughter persistently insisted on adopting one.」という文は、従属節が複数あり、構文的に複雑です。この「複雑さ」を客観的な数値で測ろうというのが構文複雑性分析の試みです。
本研究が用いたL2SCAは、Xiaofei Luが開発したPythonベースのツールで、文の平均長(MLS)、T-unitあたりの節数(C/T)、節あたりの従属節数(DC/C)など14の指標を自動算出します。T-unitというのは「主節とそれに付属する従属節のまとまり」と理解すれば十分です。これらの指標を組み合わせることで、単に「文が長い/短い」という粗い評価を超えた、より精密な難易度の記述が可能になります。
可読性公式とは何か―Fleschたちの遺産
可読性(readability)の測定にも長い歴史があります。本研究が採用した6つの公式のうち最も有名なのはFlesch Reading Ease(FRE)で、1948年にRudolf Fleschが開発したものです。音節数と文長を組み合わせ、0から100のスコアで「読みやすさ」を表します。スコアが高いほど読みやすく、70以上は「fairly easy」、30以下は「very difficult」とされます。他にFlesch-Kincaid Grade Level(FKG)、Automated Readability Index(ARI)、Coleman-Liau Index(CLI)、Gunning-Fog Index(GFI)、Simple Measure of Gobbledygook(SMOG)が用いられ、これらは主にアメリカの学年レベルに対応するスコアを出力します。
これらの公式は元来、英語を母語とする学習者向けに設計されたものです。ですから英語を外国語として学ぶEFLの文脈に直接当てはめる際には慎重な解釈が必要になります。この点は後ほど詳しく論じます。
主要な発見―4冊で何が起きているか
研究の結果は明確でした。4冊を通じて構文複雑性は増加し、可読性は低下する、つまり難易度が段階的に上がっていることが確認されました。これは教科書シリーズとして当然の設計ではあるものの、データで裏付けることに意義があります。
具体的な数値を見ると、文の平均長(MLS)はBook 1の11.23語からBook 4の16.74語へと増加し、従属節の比率を示すDC/Cも0.27からBook 4の0.38へ上昇しています。可読性ではFREスコアがBook 1の89.32(「easy」カテゴリ)からBook 3で70.66(「fairly easy」カテゴリ)まで低下し、Book 4では73.77とやや回復します。この「Book 3が最難関」という現象は、後述する考察で興味深い問題を提起します。
一方で、14指標すべてが一貫した上昇を示したわけではありませんでした。MLS、C/S(節あたりの節数)、T/S(文あたりのT-unit数)の3指標はBook 2でBook 1より低下するという逆転現象を示したのです。これは「漸進的難易度」の原則からの逸脱であり、著者たちはこれを教科書編集上の問題点として指摘しています。Krashenの「i+1」仮説、つまり学習者の現在の習熟度より少しだけ高いインプットが最も効果的という原則に照らせば、Book 2が設計上の一貫性を欠いている可能性を示唆します。
回帰分析の結果、構文複雑性14指標が可読性の変動をかなり説明できることが示されました。決定係数はFKGで.951、ARIで.953と非常に高く、FREでも.749でした。そして最も強力な予測因子として浮かび上がったのがC/T(T-unitあたりの節数)、C/S(文あたりの節数)、DC/C(節あたりの従属節数)の三つです。従属節の多さが読みにくさに直結するという、直観的にも納得できる結論です。
批評―方法論の強みと弱点
この研究が持つ最大の強みは、評価の客観化です。教科書評価の先行研究の多くはチェックリスト、インタビュー、アンケートに依存しており、評価者の主観から逃れられないという批判が繰り返されてきました。Cheng and Zhao(2021)やTomlinson(2012)が指摘してきたその問題に、本研究はデータで応答しています。L2SCAというツールの信頼性も、開発者であるXiaofei Luとの直接的なやりとりを通じて確認したと記述されており、手続き上の丁寧さが伺えます。
しかし批判的な目でも読む必要があります。まず可読性公式の適用可能性の問題です。FREやFKGはアメリカの初等中等教育の学年に基づいて設計されており、中国人EFL学習者に直接適用することには理論的な緊張があります。著者らも「EFLの文脈における文化的背景や動機の違い」に触れていますが、それが分析結果の解釈にどの程度影響するかについての考察は十分とは言えません。Book 1のFREが89.32で「easy」とされても、それは英語を母語とする子どもにとって「easy」なのであって、中国人大学生にとってそれが意味することは別の問題です。
次に、可読性公式の設計上の限界があります。FRE、SMOG、GFIはいずれも音節数や複雑語(3音節以上)の割合を重視します。英語を外国語として学ぶ学習者にとって、音節数の多い単語が必ずしも難しいわけではありません。「establishment」は音節が多いですが、上級学習者にはよく知られた語でしょう。一方で短い単語でも意味が難解なものはあります。この点で語彙難易度(lexical difficulty)を直接測定する指標の欠如は、本研究のギャップとして認識すべきです。
また、テキストジャンルの問題も見逃せません。著者らはBook 1から4にかけて論説文(argumentative texts)の割合が増加し、それが構文複雑性上昇の一因だと論じています。Pei(2019)を引用しながら論説文の構文複雑性の高さを示唆していますが、ジャンル分布の変化そのものを系統的に分析したわけではありません。ジャンルを統制しないままに4冊間の比較を行うと、難易度の上昇が教科書の設計によるものなのか、ジャンル選択によるものなのかを区別できない危険があります。
関連研究との対比―何が新しく、何が足りないか
Ryu and Jeon(2020)が韓国中学英語教科書をCoh-Metrixで分析した研究や、Jin, Lu, and Ni(2020)が適応教材の構文複雑性を学年別に比較した研究と比べると、本研究は大学英語専攻という、先行研究では手薄だった領域に光を当てた点で貢献しています。Gedik and Kolsal(2022)のトルコの高校・大学入試向け教科書分析、Solnyshkina et al.(2017)のロシアの英語教科書分析なども類似のアプローチを取っていますが、いずれも大学専攻レベルの精読教材を対象としたものではありません。
Y. Wang(2021)が語彙複雑性と可読性の関係を探った研究と比較すると、本研究は語彙面よりも構文面に焦点を当てており、分析の視点が補完的です。両者を合わせれば、教科書の難易度をより立体的に描写できるはずです。これは本研究が示唆しつつも実践していない方向性であり、今後の課題として挙げられています。
Crossley, Greenfield, and McNamara(2008)が認知的指標を用いた可読性分析を行ったTESOL Quarterlyの論文と比較すると、本研究の可読性測定は比較的伝統的な公式に依存しており、テキスト処理の認知的側面への踏み込みが浅いとも言えます。Coh-MetrixやCrossleyが近年開発している自然言語処理に基づく可読性指標(Crossley, 2024として本文中でも引用されています)を組み合わせることで、より精緻な分析が可能だったかもしれません。
Book 3の謎―異例のスコアが示すもの
本研究で最も興味深い発見のひとつは、FREとSMOGにおいてBook 3がBook 4より低い可読性スコアを示したことです。つまり4冊シリーズの3冊目が最も読みにくく、4冊目でやや難易度が下がるという、直線的な難易度上昇からの逸脱が確認されました。著者らはこれをBook 4の改訂・再設計時に可読性が意識的に調整された可能性として解釈しています。
これは面白い視点ですが、もうひとつの解釈も考えられます。Book 3のテキストが特定のジャンル、たとえば論説・評論系の文章に偏っていた可能性です。ジャンル分布の詳細なデータが示されていないため断言はできませんが、ジャンル構成の変動が可読性指標に与える影響は無視できないはずです。このBook 3問題は、教科書シリーズ全体のバランスを検討する際の重要な警告として機能しています。
日本の英語教育現場への示唆―何が使えて、何に気をつけるべきか
この研究から日本の英語教育関係者が学べることは少なくありません。まず最も直接的な示唆は、教科書の難易度を「感覚」ではなく「指標」で評価するアプローチの導入可能性です。文部科学省の学習指導要領では「学習者の習熟度に応じた段階的な教材提供」が求められていますが、それが実際に達成されているかを検証する手段は整備されていません。L2SCAのようなツールは、Webベースで無料使用が可能であり、教科書研究者や教材開発者が比較的容易に活用できます。
ただし、日本固有の文脈を考慮する必要があります。中国の英語専攻生と日本の大学英語学習者とでは、学習背景も到達目標も異なります。加えて、日本の高校・大学で使われる英語教科書の多くは、文学的テキストや実用文書を混在させており、精読教材と多読教材が明確に区別されていないこともあります。本研究の手法をそのまま移植するには、日本の教育文脈に合わせた指標の選択と基準値の設定が必要です。
構文指導という点では、本研究の回帰分析が示したC/T、C/S、DC/Cの重要性は示唆に富みます。従属節の理解と使用が可読性・難易度に深く関わるということは、日本の英語教育で文法指導と読解指導を結びつけることの意義を裏付けます。Norris and Ortega(2009)が強調した「有機的アプローチ」、つまり正確性・流暢性・複雑性を有機的に結びつけた指導の視点から言えば、文法の構造的理解をテキストの難易度認識と連動させる授業設計が有効です。
一方で、日本の英語教育において可読性公式をそのまま適用することへの慎重さも求められます。日本語話者が英語を学ぶ際の難しさのひとつは音節構造の違いではなく、語彙・文化的背景知識の欠如であることが多いからです。FREやSMOGが音節数に大きく依存していることを考えると、これらのスコアだけで日本の学習者にとっての難易度を測ることには限界があります。語彙難易度を測るツール、たとえばVocabulary Profile(Cobb, 2000)やAVS(Academic Vocabulary Size)などと組み合わせることで、より実用的な評価が可能になるでしょう。
また、日本では教員が教科書を批判的に評価する文化がまだ十分に根付いているとは言えません。検定教科書への信頼、あるいは依存が強く、「使いにくいと思っても指定教科書だから」という場面は珍しくありません。この研究が示すような、客観的データに基づく教科書評価の視点を、教員養成課程や現職研修に取り入れることが、日本の英語教育の質的向上に貢献しうると考えます。
独自の学術的考察―この研究が開く問いと残す課題
この研究を読んで感じる知的な手応えのひとつは、教科書評価という地味に見えるテーマが、実は第二言語習得の中核的な問い、「どんなインプットが習得を促進するか」という問いに直結しているという点です。Krashenの入力仮説はi+1という図式で知られていますが、「+1」がどの程度なのかを実証的に測ることは難しい課題でした。本研究は構文複雑性と可読性という二つのレンズで、その「+1」を可視化しようとする試みとして読むこともできます。
しかし残された問いも多くあります。テキストが客観的に難しいとしても、それを学習者がどう経験するかは別問題です。可読性の研究者はしばしば「readability」と「comprehensibility」を区別します。前者はテキストの特性、後者は読み手との相互作用の結果です。本研究はもっぱら前者に焦点を当てており、実際の学習者がこれらのテキストをどの程度理解できたか、どう感じたかは捉えていません。著者らも論文末尾で縦断的研究の必要性に触れていますが、これは真剣に受け止めるべき提言です。
さらに、デジタル教材の台頭という現代的文脈を考えると、紙の精読教科書への分析集中という選択が今後どの程度有効かという問題も生じます。動画、音声、インタラクティブなタスクを組み合わせたデジタル教材が増えるなかで、「テキストの難易度」だけを分析することの意義と限界は、研究者が常に意識しておく必要があります。
おわりに―「測れないものは改善できない」という原則の前で
マネジメントの世界では「測れないものは管理できない」という格言があります。英語教育に置き換えれば「測れない難易度は調整できない」と言えます。この研究はその意味で、教科書評価に「測るための言語」を与えようとする誠実な試みです。完璧ではありません。可読性公式の文化的バイアス、ジャンル統制の不十分さ、学習者の主観的経験への未踏といった限界は率直に認めるべきです。
それでも、授業で使ってきた教科書に対して「これは本当に適切な難易度だったのか」という問いを立て、その答えをデータで探ろうとする姿勢は、教員にとっても研究者にとっても価値があります。次に教科書を選ぶとき、あるいは自分で教材を作るとき、構文複雑性や可読性という視点を頭の片隅に置いておくことで、いままでとは少し違う判断ができるかもしれません。それで十分なのです。
Li, C., Wang, X., & Qian, L. (2025). Exploring syntactic complexity and text readability in an ELT textbook series for Chinese English majors. SAGE Open, 15(1), 1–17. https://doi.org/10.1177/21582440251323619
