ChatGPTの可能性と限界を探る

近年、ChatGPTをはじめとする大規模言語モデル(LLM)の急速な発展により、教育分野でも人工知能(AI)の活用可能性が注目されています。特に外国語教育の分野では、AIを活用した教材作成や評価ツールの開発が進められています。本研究「ChatGPTは人間の専門家に匹敵する英語読解テストを作成できるか?」は、ChatGPTが人間の専門家に匹敵する英語読解テストを作成できるかどうかを検証したものです。

研究の背景

著者のDongkwang Shin氏(光州教育大学校教授)とJang Ho Lee氏(中央大学校教授)は、韓国の英語教育の専門家です。彼らは、ChatGPTの登場により、言語学習や評価の分野に大きな変革が起こる可能性があると考えました。特に、教師の負担が大きい読解テストの作成において、ChatGPTが有効なツールになるのではないかと着目しました。

これまでの研究では、ChatGPTが英語読解問題を解く能力が高いことは示されていましたが、テスト問題を作成する能力については十分に検証されていませんでした。そこで著者らは、ChatGPTが作成した読解テストと、人間の専門家が作成したテストを比較する実験を行いました。

研究方法

実験では、韓国の大学入学試験(CSAT)の英語セクションから5つの読解問題を抽出し、同様の形式でChatGPTに新たな読解問題を作成させました。これらのテスト問題を、英語教育を専攻する大学生38名(教職課程履修者)と現職の英語教師・教授12名に評価してもらいました。

評価項目は以下の4点です:

  1. 文章の流れの自然さ
  2. 英語表現の自然さ
  3. 選択肢の魅力度(問題の難易度を適切にする役割)
  4. テスト項目全体の完成度

参加者には、これらの項目について5段階のリッカート尺度で評価してもらい、さらに自由回答形式で意見を求めました。

主な結果

  1. 文章の自然さ CSATとChatGPTが作成した読解文章は、流れや表現の自然さにおいて同等の高評価を得ました(平均4.3以上)。参加者からは、ChatGPTが作成した文章について「流れが自然」「文章の構成が適切」といった肯定的なコメントが寄せられました。
  2. 選択肢の魅力度 CSATの問題(平均4.19)がChatGPTの問題(平均3.73)を有意に上回りました。ChatGPTが作成した選択肢に関しては、「魅力的な選択肢がない」「意味をなさない選択肢がある」「正解になり得る選択肢がある」など、改善を要する点が多く指摘されました。
  3. テスト項目全体の完成度 CSATの問題(平均4.18)がChatGPTの問題(平均3.88)を有意に上回りました。CSATの問題に対しては、「文章を十分に理解し、正確に分析しないと解けない」「論理的な流れを考慮している」といった評価がありました。

ChatGPTの可能性と限界

本研究の結果から、ChatGPTは人間の専門家に匹敵する自然な英語の読解文章を作成できることが示されました。これは、教師が読解教材を準備する際の負担を大幅に軽減できる可能性を示唆しています。

一方で、テスト問題としての完成度、特に選択肢の作成においては、人間の専門家の方が優れていることが明らかになりました。ChatGPTが作成した選択肢には、問題の難易度を適切に調整する「魅力的な誤答」が不足していたり、逆に正解と紛らわしい選択肢が含まれていたりする傾向がありました。

これらの結果は、ChatGPTを英語読解テストの作成に活用する際の指針を提供しています。例えば、ChatGPTを使って読解文章の下書きを作成し、人間の教師がそれを編集・改善するという使い方が効果的かもしれません。また、選択肢の作成については、人間の教師が主導権を持って行う必要があるでしょう。

今後の展望

著者らは、この研究結果を踏まえて、以下のような提案をしています:

  1. ChatGPTを活用したテスト作成の手順の確立 教師がChatGPTを効果的に活用するためには、明確な手順が必要です。例えば、測定したい能力を特定し、モデルとなる問題を用意し、適切なプロンプトを作成するといったステップが考えられます。
  2. 学習者を対象とした大規模な研究の実施 今回の研究は教師を対象としていましたが、実際にテストを受ける学習者の視点からの評価も重要です。
  3. 他の言語スキルへの応用 読解以外のリスニングや文法など、他の言語スキルのテスト作成におけるChatGPTの可能性も検討する必要があります。
  4. 長期的な影響の調査 ChatGPTを活用したテスト作成が、教師の指導法や学習者の学習方法にどのような影響を与えるか、長期的な調査が求められます。

おわりに

本研究は、ChatGPTが英語教育、特にテスト作成の分野で大きな可能性を秘めていることを示しています。同時に、人間の教師の専門性や判断力が依然として重要であることも明らかになりました。

今後、AIと人間の教師が協働してより質の高い教育を提供するモデルの構築が期待されます。そのためには、AIの特性を十分に理解し、適切に活用する方法を模索し続けることが重要です。

本研究は、急速に発展するAI技術と教育の関係性を考える上で、重要な示唆を与えてくれます。教育者、研究者、そして学習者自身が、これらの知見を踏まえて、より効果的な言語学習の方法を探求していくことが求められています。


Shin, D., & Lee, J. H. (2023). Can ChatGPT make reading comprehension testing items on par with human experts? Language Learning & Technology, 27(3), 27–40. https://hdl.handle.net/10125/73530

By 吉成 雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。