英語を外国語として学ぶ学習者にとって、「書く力」を伸ばすことは長年の課題です。特に日本のような、日常生活で英語を使う機会が限られた環境では、授業の中でいかに質の高いフィードバックを届けるかが、教師にとって頭を悩ませるテーマであり続けています。そんな中、近年急速に普及しているのが、AI技術を活用した「自動作文評価(Automated Writing Evaluation、以下AWE)」ツールです。GrammarlyやCriterionといったツールは、文法・スペル・句読点などを即座にチェックし、学習者に直接フィードバックを返してくれます。教師の負担を軽減しながら、学習者の自律性を高める可能性を秘めたこれらのツールは、果たして従来の教師によるフィードバックと比べて、どれほど有効なのでしょうか。
今回紹介するのは、イランのBonab大学のZahra Fakher AjabshirとRazi大学のSaman Ebadiによる2023年の研究です。この論文は、Asian-Pacific Journal of Second and Foreign Language Educationに掲載されており、AWEと教師フィードバック(Teacher-focused Feedback、以下TF)が、EFL学習者のライティングに与える影響を、複数の観点から比較・検討しています。特に興味深いのは、単に「全体的な文章の質」だけでなく、CALF―すなわち統語的複雑性(Complexity)、正確性(Accuracy)、語彙多様性(Lexical diversity)、流暢性(Fluency)という四つの指標に分けて分析している点です。さらに、ナラティブ(物語文)とアーギュメンタティブ(論述文)という二つのジャンルを比較しているところが、この研究の大きな特徴です。
研究の概要―53名のイラン人EFL学習者による実験
研究の参加者は、イランのある大学でGeneral English(一般英語)を履修する53名の成人EFL学習者(男性25名・女性28名、年齢19〜31歳)です。Oxford Quick Placement Test(OQPT)と事前のライティングテストによって、参加者の英語力の均質性が確認されたうえで、TFグループとAWEグループの2クラスにランダムに割り当てられました。
治療期間は4週間(週2回、各90分)です。両グループともに、まずナラティブ・ジャンルの指導を受け、次いでアーギュメンタティブ・ジャンルの指導を受けます。その後、各ジャンルで2回ずつ、30分間の作文課題に取り組みました。TFグループの学習者は教師から直接フィードバックを受け、AWEグループはGrammarlyの無料版を使って自分でテキストを修正しました。両グループへのフィードバックはいずれも、文法・語彙・句読点などのローカルレベル(局所的な誤り)に焦点を当てたものです。事前テストと事後テストには、それぞれナラティブと論述文の2種類の作文課題が含まれており、ライティングの質はJacob et al.(1981)の評価ルーブリックによって採点されました。
どちらのフィードバックも「効く」―全体的な結果
まず結論から言えば、AWEも教師フィードバックも、どちらも学習者の全体的なライティング力の向上に有効でした。事前テストと事後テストを比較すると、両グループともに統計的に有意な改善が見られました(p=0.000)。さらに、ANCOVA(共分散分析)を用いて両グループを比較したところ、全体的なライティングの質においては有意な差がなかった(p>0.05)という結果が得られました。つまり、「AWEでも教師と同程度の成果が出せる」ということを、この研究はデータで示しているのです。
日本の教育現場に引きつけて考えると、これは非常に示唆深い結果です。クラスに30名以上の学生がいて、週に1〜2度の授業の中で全員の作文に丁寧なフィードバックをつけるのは、現実問題としてきわめて難しい。GrammarlyのようなAWEツールをうまく活用すれば、教師の負担を大幅に軽減しつつ、学習者の書く力を伸ばせる可能性があるわけです。
差が出たのはCALFの細かい指標―AWEと教師フィードバックの違い
しかし、全体的な質では差がなかったとはいえ、CALFの各指標に目を向けると、興味深い違いが浮かび上がってきます。AWEグループは語彙多様性と統語的複雑性(節の平均長÷節の総数)で有意に高いスコアを示しました。一方、TFグループは流暢性(語数)で上回りました。
なぜこのような差が生じたのでしょうか。著者たちは、教師フィードバックでは、よく使われる一般的な語彙や構文が提示されやすいため、流暢に書けるようになる一方で、語彙や構文の多様性はやや抑えられる傾向があると推測しています。対してAWEは、学習者が語彙候補やサンプル表現にアクセスしながら修正できるため、より多様で複雑な表現の使用を促すのかもしれません。正確性については、両グループ間で有意差は見られず、どちらのフィードバックも文法的な正確さの向上に等しく貢献したと言えます。
この結果は、2014年にDikliとBleyleが報告した「自動評価ツールは教師に比べてエラーの特定精度が低く、言語的正確性の向上に貢献しにくい」という知見とは異なります。Grammarlyの性能が当時のツールよりも向上していること、また本研究がローカルレベルのフィードバックに絞って実施されていることが、この差異を生んでいる可能性があります。
ジャンルによる違い―物語文と論述文では何が変わるのか
この研究のもう一つの柱は、ナラティブ(物語文)とアーギュメンタティブ(論述文)というジャンルの違いが、CALFにどう影響するかを検討した点です。
結果をまとめると、論述文は統語的複雑性が高く、物語文は語彙多様性・正確性・流暢性が高いという傾向が確認されました。論述文では、理由づけや因果関係、対立する論点の提示などが必要であり、より複雑な構文が求められます。これはRobinsonの「認知仮説」(複雑なタスクは、より複雑な言語産出を促す)とも一致します。
一方、物語文は日常的な経験を語るという、学習者にとって比較的なじみやすいジャンルです。Skehan(2009)が指摘するように、馴染みのあるトピックや明確な構造を持つタスクは、正確性と流暢性を高める傾向があります。先に取得した知識のスキーマが自動的に活性化され、新たな情報処理に割くべき認知リソースが節約されるためです。これはSweller(1994)の認知負荷理論とも符合します。
語彙多様性については、論述文では「Therefore」「In conclusion」「On the other hand」といった定型的な表現に依存しがちなため、語彙の多様性が下がる傾向があります。物語文では、場面描写や人物の行動を表現するために、より多彩な語彙が使われるということでしょう。この傾向はOlinghouseとWilson(2013)、YoonとPolio(2017)、ChungとAhn(2020)の知見とも一致しており、先行研究の再現性という意味でも重要な意義を持ちます。
フィードバックの種類とジャンルの交互作用―細部にこそ意味がある
さらに踏み込むと、フィードバックの種類とジャンルの間に交互作用が確認されたという点が、この研究の白眉とも言える発見です。正確性について見ると、物語文ではTFグループもAWEグループも同程度の成績でしたが、論述文ではTFグループの方がAWEグループを上回りました。つまり、複雑なジャンルにおける文法的な精度の向上には、教師の人間的なフィードバックがより効果的だということです。
これは感覚的にも納得できる話です。論述文は抽象的なテーマを扱い、複雑な文構造を用います。教師はその文脈を理解したうえで、誤りの原因を診断し、適切な修正を促すことができます。AWEはあくまでパターン認識ベースの評価であり、文意や文脈に基づいた判断には限界があります。特に高度なライティング指導においては、機械と人間の役割分担を意識した設計が重要だということを、この研究は示唆しています。
日本の英語教育現場への示唆
この研究が持つ意義を、日本の英語教育という文脈に引き寄せて考えてみましょう。まず、GrammarlyのようなAWEツールは、日本でも比較的容易に利用できます。大学の英語授業や高校のライティング指導に組み込むことで、学習者の自律的な修正行動を促しながら、教師が全員分の作文を添削しなければならないという物理的な負担を減らす現実的な選択肢になり得ます。
ただし、AWEは万能ではありません。本研究でも示されたように、論述文の正確性については教師フィードバックが優れていました。日本の大学英語教育では、特に学術論文の書き方や、主張を論理的に展開するライティング指導が近年重視されています。このような目的には、AWEだけに頼るのではなく、教師の介入を組み合わせたハイブリッドなアプローチが有効でしょう。
また、物語文と論述文という二つのジャンルを意図的に使い分けることで、異なるCALF側面を伸ばせるという知見も、カリキュラム設計に活かせます。流暢性と語彙多様性を高めたいなら物語文の課題を、統語的複雑性を鍛えたいなら論述文を使うという発想は、実践的かつ証拠に基づいた指導法の一つです。
研究の限界と今後の課題
著者たちも率直に認めているように、この研究にはいくつかの限界があります。第一に、今回使用したフィードバック(TFもAWEも)は、局所的な誤り(文法・語彙・句読点など)に焦点を当てたものに限られており、内容や構成レベルのフィードバックは含まれていません。内容や組織面まで含めた評価をした場合、AWEと教師の違いはより鮮明になる可能性があります。
第二に、参加者数が53名と比較的少なく、イランのEFLコンテキストという特定の環境に限定されています。研究知見の一般化可能性については慎重に判断する必要があります。日本を含む他のEFLコンテキストで同様の研究が行われることで、より普遍的な結論が得られるでしょう。
第三に、AWEツールとして使用されたのはGrammarlyの無料版のみです。有料版や他のツール(CriterionやWriteAndImprove等)を使った場合、結果が変わる可能性も否定できません。
さらに言えば、本研究はライティングの「産出物(product)」の分析に焦点を当てており、学習者がフィードバックをどのように処理・活用したか(プロセス)の分析は含まれていません。認知的・感情的な側面、たとえばフィードバックへの態度や動機づけへの影響なども、今後の研究課題として残されています。
機械と人間のフィードバック、それぞれの役割
最後に、この研究が私たちに問いかけていることを整理しておきましょう。「AWEか教師か」という二項対立で考えるのは、おそらく得策ではありません。この研究が明らかにしたのは、それぞれのフィードバックが異なる強みを持っているということです。AWEは語彙多様性や統語的複雑性の向上に寄与し、教師フィードバックは流暢性と、特に論述文における文法的正確性の向上に優れています。
教師はAWEが苦手とすること―文脈の読み取り、書き手の意図の理解、高度な論理的思考への介入―に集中できるようになる。AWEはその下支えをする。そういう役割分担のもとで両者を組み合わせることが、現実的かつ効果的なアプローチであると、この研究は示唆しています。
テクノロジーが進化し、AIが私たちの仕事の多くを代替しつつある時代に、「教師にしかできないこと」とは何かを問い直す視点としても、この研究は読み応えがあります。英語教育に関わるすべての実践者にとって、一度じっくり向き合う価値のある論文です。
Ajabshir, Z. F., & Ebadi, S. (2023). The effects of automatic writing evaluation and teacher-focused feedback on CALF measures and overall quality of L2 writing across different genres. Asian-Pacific Journal of Second and Foreign Language Education, 8, Article 26. https://doi.org/10.1186/s40862-023-00201-9
