生成AIが教育現場に急速に浸透しつつある今、「AIに採点や添削を任せてもよいのか」という問いは、日本の英語教育現場でも避けては通れないテーマになっています。特にライティング指導においては、教員の負担が大きく、個別フィードバックの質と量をどう確保するかは長年の課題でした。そこに颯爽と登場したのがChatGPTをはじめとする大規模言語モデル(LLM)です。本稿では、Escalante, Pack, Barrettの三名による研究論文 “AI-generated feedback on writing: insights into efficacy and ENL student preference”(2023年、International Journal of Educational Technology in Higher Education掲載)を取り上げ、その内容と意義を詳しく検討します。
研究者たちはどんな人物か
筆頭著者のJuan EscanlanteはBrigham Young University-Hawaiiの助教授で、テクノロジーを活用した言語教育、教員研修、言語アセスメントを専門としています。共著者のAustin Packも同大学の助教授で、学習動機づけと複雑系ダイナミクスをキーワードに、テクノロジー活用型言語教育を研究しています。Alex BarrettはFlorida State Universityの博士課程候補生で、人間とコンピュータのインタラクション、没入型学習、テクノロジー活用型言語教育を研究領域としています。三者ともに「言語教育×テクノロジー」を軸に据えた研究者であり、この論文はその集大成ともいえる実証研究です。
研究の舞台はアジア太平洋地域にある小規模リベラルアーツ大学で、2023年春学期に実施されました。参加者はENL(English as a New Language)学習者、つまり英語を新たに学んでいる大学生たちです。CEFRのB1レベル以上の英語力を持つ学生91名が2つの研究に分けて参加しました。
研究の設計―二つの問いに二つの方法で迫る
この論文は実は二つの独立した研究(Study 1とStudy 2)から構成されており、それぞれが異なる問いに答えようとしています。
Study 1では「AIが生成したフィードバックを受けた学生と、人間の教師からフィードバックを受けた学生とでは、言語力の伸びに差があるか」という問いを6週間の準実験的デザインで検証しました。48名の学生が実験群(AIフィードバック群)と統制群(人間チューターフィードバック群)に分けられ、週一回の300語パラグラフライティング課題をこなしながら、プレテストとポストテストを受けました。
Study 2では「学生はAIと人間のどちらのフィードバックを好むのか、そしてその理由は何か」を明らかにするため、別の43名がAIと人間の両方からフィードバックを受けながら、毎週アンケートに回答しました。定量的なリッカートスケール調査と、自由記述による定性データの両方を収集するという、混合研究法が用いられています。
AIフィードバックはどのように生成されたのか
使用されたAIはOpenAIのGPT-4です。研究チームがこれを選んだ理由として、テスト段階で最も適切かつ正確なフィードバックを生成したこと、リリース時点での学術ベンチマークで他のLLMを上回っていたことが挙げられています。
注目すべきはプロンプト設計の丁寧さです。単に「この文章を添削してください」と投げかけるのではなく、二名の経験豊富な言語教育専門家が反復的にプロンプトを磨き上げました。具体的には、まずGPT-4に「英語学習者のライティングフィードバックの専門家である言語教師」という役割を与え、次にその週の課題を提示し、さらに6項目(トピックセンテンスの質、アイデアの展開、アカデミックな語彙・表現、接続語句の使用、資料・証拠の活用、文法的正確さ)についてシンプルな言葉でコメントするよう指示しました。特に文法的正確さについては、表形式(エラーが含まれる文、エラーの種類、説明、修正提案の4列)での出力を求めており、学習者が見やすい構造化されたフィードバックを意識した設計になっています。
こうしたプロンプトエンジニアリングの工夫は、この研究の実践的価値を高める重要な要素です。現場の教員がChatGPTをすぐに使いこなせるよう、具体的なプロンプトの枠組みが付録として掲載されている点も評価に値します。
Study 1の結果―AIも人間も、実は同じくらい効果的だった
6週間の介入を経た結果、実験群(AI)も統制群(人間)も、どちらもライティングスコアを有意に伸ばしました。実験群の平均スコアの伸びは5.848点、統制群は6.86点。数字の上では統制群がやや上回っていますが、統計的に有意な差はありませんでした。2×2の反復測定分散分析(RM-ANOVA)では、グループと時間の交互作用効果(F=3.094, p=0.085)も有意ではなく、効果量(ηp²=0.063)も小さいものでした。
これは何を意味するのでしょうか。AIによるフィードバックは、人間のチューターによるフィードバックに劣らないという結論です。言い換えれば、「少なくともこの研究の条件下では、AIに任せてもライティング力の向上を妨げない」ということが示されました。
ただし、ここで一点冷静に考えてほしいことがあります。「差がない」ことと「同じ」ことは必ずしもイコールではありません。この研究では6週間という短い期間、300語のパラグラフライティングという限定的なタスク、B1レベル以上という比較的均質な学習者集団という条件が揃っています。より長期の介入や、多様なレベルの学習者、あるいはエッセイライティングなどより複雑なタスクでも同様の結果が得られるかどうかは、今後の研究を待つ必要があります。
Study 2の結果―半々に割れた好み、そしてその理由
Study 2では43名の学生が毎週、人間とAI両方のフィードバックを受けながら、どちらを好むかをアンケートで回答しました。結果は「ほぼ真っ二つ」でした。6週間を通じて、人間のチューターを好む学生の平均数が18名、AIを好む学生が19.667名と、わずかにAI優位ではあるものの、統計的には有意差なし。どちらのフィードバックも高く評価されており、満足度・明瞭さ・有用性・全体的な好みのすべての項目で、6週間の平均がほぼすべて4点以上(5点満点)でした。
興味深いのは自由記述による理由です。人間のチューターを好んだ学生たちは「対面でのやりとりが楽しい」「フォローアップの質問ができる」「ライティングとスピーキングを同時に練習できる」といった、インタラクションの情意的・社会的価値を挙げています。一方、AIフィードバックを好んだ学生たちは「具体的で明確」「アカデミックな語彙の提案が的確」「いつでもどこでも確認できる」といった利便性と精度を評価していました。ある学生は「AIのコメントはとても役立つが、AI修正後に書き手の個性が失われる可能性がある」と鋭く指摘しており、AIへの過度な依存がライターとしての声を消してしまうリスクを見抜いています。
また、「両方あればベスト」という声も複数あり、ある学生は「ENLチューターとのやりとりは脳を活性化させてくれる。一方、AIは問題を正確に指摘してくれる。二つは学生にとって良い組み合わせだと思う」と述べています。この一言に、この研究の核心が凝縮されていると言えるでしょう。
日本の英語教育現場への示唆
この研究が日本の英語教育者にとって示唆に富むのは、いくつかの理由からです。
まず、日本の大学や高校の英語授業では、クラスサイズが大きく、個々の学習者に丁寧なライティングフィードバックを返すことが構造的に難しい状況があります。週に30名以上の学生のエッセイを添削するのは、現実的に非常に負荷が高い作業です。そこにAIを活用できるとすれば、教員の業務改善という観点から大きな意味を持ちます。この研究は、そのような活用が学習成果を損なわないことを実証的に示した点で、現場の背中を押す一歩になり得ます。
次に、日本のEFL(English as a Foreign Language)学習者がAIフィードバックとどう向き合うかという問題があります。この研究の参加者はアジア太平洋地域のENL学習者であり、アジア系の学習者が含まれていた可能性は高いですが、日本の文脈そのものではありません。日本の学習者は英語使用機会が限られており、母語干渉も強く、ライティング指導における課題の性質がやや異なる場合もあります。そのため、この研究結果を日本に直接当てはめる際には慎重さも必要です。
また、「AIが出したフィードバックをそのまま信じてしまう」という問題は、日本の学習者にも起こりやすいと考えられます。研究でも指摘されているように、学習者はAWEツールの出力を批判的に検証せずに受け入れる傾向があります(Koltovskaia, 2020)。日本の教育文化において「先生(あるいはシステム)の言うことは正しい」という権威への依存傾向を考えると、AI出力のリテラシー教育はセットで行う必要があります。
関連研究との対比と独自の学術的意義
この研究が位置づけられる先行研究として、まずDai et al.(2023)の研究が挙げられます。彼らはChatGPTのフィードバックが人間の教員のフィードバックよりも読みやすく詳細であることを示しました。本研究のStudy 2の結果もこれと一致しており、AIフィードバックを好む学生が「明確で詳細」と評価した点は呼応しています。
Mizumoto and Eguchi(2023)はChatGPTを使った自動エッセイ採点の信頼性を大規模コーパスで検証し、おおむね信頼できると結論づけています。これらの研究が「AIは使えるか」という実現可能性(feasibility)を問うていたのに対し、本研究は「実際に使ったときに学力は伸びるか、そして学習者はそれを好むか」という効果(efficacy)と受容(acceptance)の両面に踏み込んでいます。この点が本研究の独自性です。
一方、比較的小規模なサンプル(実験群23名、統制群25名)、6週間という短期間、単一機関・単一コースという限定的な文脈は、研究の一般化可能性という観点から課題でもあります。また、人間チューターとAIのフィードバックの「量」や「具体性」が揃えられていたかどうかについての詳細な比較が論文中に乏しく、「条件の等価性」という実験デザイン上の問題点も残ります。さらに、統制群の学生はチューターと30分の対面セッションを行っていたのに対し、実験群はメールでフィードバックを受け取るだけという形式の違いは、フィードバックの「モダリティ」の差というよりも「インタラクションの有無」という質的な違いを含んでいます。この設計上の非対称性は、結果の解釈に注意を要する点です。
ブレンド型アプローチの現実的可能性
論文の著者たちは最終的に「ブレンド型アプローチ」を推奨しています。AIによる詳細で明確なフィードバックを基盤として提供し、学習者が人間のチューターとそのフィードバックについてディスカッションし、フォローアップの質問もできる環境を整えるというモデルです。これは理にかなっています。たとえばピアノの練習で言えば、AIが音程やリズムの誤りを正確に指摘し、人間の先生がその演奏に込められた表現の意図や感情を引き出してくれるようなイメージに近いかもしれません。それぞれの得意領域を活かした協働です。
日本の英語教育の現場でこれを実現するには、教員がプロンプトエンジニアリングの基本を習得し、AIの出力を読み解いて学習者に適切に橋渡しできるリテラシーを持つことが必要になります。本研究が付録として提供している具体的なプロンプト例は、その実践への入り口として非常に有用です。
残された課題と今後の展望
著者自身が今後の研究課題として挙げているように、学習者の習熟度レベルがAIフィードバックの理解・活用能力にどう影響するかは重要な問いです。B1以下の学習者、あるいはA2レベルの初級学習者にとって、GPT-4が生成する英語のフィードバックはそもそも理解できるのか。フィードバックを理解できなければ、その効果は期待できません。
また、この研究ではGPT-4の使用が学生に知られていましたが、学生が自分でChatGPTを使って課題を生成するリスクを避けるため、AIへのダイレクトアクセスは制限されていました。しかし実際の教室では、学生はスマートフォン一台でいつでもAIにアクセスできます。「フィードバックを受けてから書く」のではなく、「AIに書かせてから提出する」という使い方をどう防ぐか、あるいはそもそも防ぐべきなのかという問いは、ライティング教育の目的論そのものに関わります。
さらに、著者たちが言及しているように、ネイティブスピーカーの学生を対象にした類似研究も必要です。ENL学習者という文脈での知見が、日本人英語学習者(EFL)にそのまま当てはまるとは限らないからです。
おわりに―問いは続く
「AIは教師の代わりになれるか」という問いに対して、この研究は「少なくともライティングフィードバックという限定的な文脈では、学習成果においてAIは人間の教師と同等の効果をもたらす可能性がある」と答えています。しかし、教育とは単に成果指標を最大化することではありません。人間とのやりとりを通じて生まれる動機づけ、自己理解、表現の喜びといった次元は、スコアでは測れません。Study 2でAIフィードバックを好んだ学生が「個性が失われるかもしれない」と懸念した言葉は、その本質的な問いを私たちに投げかけています。
AIと人間の教師が互いの強みを活かして協力するという方向性は、今後の英語教育実践において現実的かつ建設的な道筋を示しています。本研究はその第一歩として、実証的な根拠と具体的な実践例を提供した点において、日本の英語教育関係者にとっても読む価値のある論文です。
Escalante, J., Pack, A., & Barrett, A. (2023). AI-generated feedback on writing: Insights into efficacy and ENL student preference. International Journal of Educational Technology in Higher Education, 20, Article 57. https://doi.org/10.1186/s41239-023-00425-2
