はじめに

人工知能(AI)の進歩は目覚ましく、教育の分野にも大きな変革をもたらそうとしています。特に注目を集めているのが、AIによる自動採点システムです。今回、ジョージア大学のAI4STEM教育センターの研究チームが、ChatGPTを用いた自動採点システムの性能を検証し、従来のシステムを大きく上回る精度を達成したという研究結果を発表しました。この研究は、教育現場におけるAI活用の可能性を大きく広げるものとして注目を集めています。

研究の概要

この研究では、OpenAIが開発した言語モデルであるGPT-3.5を基にしたChatGPTを、教育分野の特定のタスクに対して微調整(ファインチューニング)を行いました。研究チームは、中学生と高校生の科学の授業における記述式回答を自動採点するタスクに焦点を当てました。

具体的には、以下の6つの評価タスクを対象としています:

  1. ガス入り風船(多ラベル分類)
  2. 試験管内の層(多ラベル分類)
  3. 落下する重り(多クラス分類)
  4. ゼラチン(多クラス分類)
  5. バスタブ(多クラス分類)
  6. 砂と水1(多クラス分類)

これらのタスクは、科学的概念の理解度や数学的思考能力を評価するものです。研究チームは、これらのタスクに対するファインチューニングされたChatGPTの性能を、従来の最先端言語モデルであるBERTと比較しました。

驚くべき研究結果

研究の結果、ファインチューニングされたChatGPTは、全体的にBERTを大きく上回る精度を示しました。具体的には以下のような結果が得られています:

  1. 平均して9.1%の精度向上:ChatGPTはBERTと比較して、平均で9.1%高い採点精度を達成しました。
  2. 多ラベル分類タスクでの優位性:「ガス入り風船」タスクでは両モデルともに97%の高い精度を示しましたが、「試験管内の層」タスクではChatGPTがBERTを12%上回る結果となりました。
  3. 多クラス分類タスクでの圧倒的な性能:4つの多クラス分類タスクにおいて、ChatGPTは平均で10.6%高い精度を示しました。特に「落下する重り」タスクでは、ChatGPTが92%の精度を達成し、BERTの82%を大きく上回りました。
  4. 不均衡データへの対応:ChatGPTは、データの偏りがある場合でも安定した性能を示し、特にマイノリティクラスの採点において優れた結果を残しました。

これらの結果は、ChatGPTが教育分野における自動採点システムとして非常に有望であることを示しています。

なぜChatGPTが優れているのか?

研究チームは、ChatGPTが優れた性能を示した理由として、以下の点を挙げています:

  1. 高度な言語理解能力:ChatGPTは膨大な量のテキストデータで事前学習されており、文脈や意味を深く理解する能力を持っています。
  2. 柔軟な適応力:ファインチューニングによって、教育分野特有の用語や概念を効果的に学習することができます。
  3. 少量のデータでの学習能力:ChatGPTは、比較的少量のデータでも効果的に学習できる「少数ショット学習」の能力に優れています。
  4. 生成的な性質:ChatGPTは文章を生成する能力を持っているため、採点だけでなく、フィードバックの提供にも活用できる可能性があります。

これらの特性により、ChatGPTは従来のモデルよりも複雑な記述式回答の評価に適していると考えられます。

教育現場への影響と可能性

この研究結果は、教育現場に大きな影響を与える可能性があります。以下のような変化が期待されています:

  1. 教師の負担軽減:自動採点システムの精度向上により、教師は採点業務から解放され、より生徒との対話や個別指導に時間を割くことができるようになります。
  2. リアルタイムフィードバック:AIによる即時採点が可能になれば、生徒は自身の回答に対してすぐにフィードバックを得られ、学習効果の向上が期待できます。
  3. 個別化された学習:AIが生徒一人一人の理解度を正確に把握することで、より個別化された学習プランの提案が可能になります。
  4. 大規模オンライン教育の質向上:MOOCsなどの大規模オンライン講座において、多数の受講生の課題を効率的に評価できるようになります。
  5. 評価の公平性向上:人間の採点者による主観的なバイアスを排除し、より客観的で公平な評価が可能になります。

課題と今後の展望

しかし、AIによる自動採点システムの導入には、いくつかの課題も残されています:

  1. 倫理的配慮:AIによる採点の公平性や透明性をどのように確保するかが重要な課題となります。
  2. プライバシーとデータセキュリティ:生徒の回答データをAIが扱うことによる、プライバシーやデータセキュリティの懸念に対処する必要があります。
  3. 教師の役割の変化:AIの導入により、教師の役割がどのように変化していくのか、慎重に検討する必要があります。
  4. 批判的思考力の育成:AIに頼りすぎることで、人間の批判的思考力が失われないよう配慮が必要です。
  5. 様々な教育分野への適用:今回の研究は科学教育に焦点を当てていますが、他の教科や分野でも同様の効果が得られるか検証が必要です。

研究チームは、これらの課題に対処しつつ、AIによる自動採点システムの実用化を目指しています。今後は、実際の教室環境での実験的な導入や、より多様な教育コンテンツへの適用など、さらなる研究が期待されます。

まとめ

ChatGPTを用いた自動採点システムの研究結果は、教育とAIの融合がもたらす可能性を明確に示しています。従来のシステムを大きく上回る精度を実現したことで、教育現場における革新的な変化が期待されます。

しかし、技術の進歩と同時に、倫理的な配慮や人間の役割の再定義など、解決すべき課題も多く残されています。AIを教育に活用する際には、テクノロジーの可能性を最大限に引き出しつつ、人間の強みを生かした調和のとれたアプローチが求められるでしょう。

この研究は、AIと教育の融合による新しい学習環境の創造に向けた重要な一歩と言えます。今後、さらなる研究や実践を通じて、AIが教育の質を向上させ、すべての学習者にとってより効果的で個別化された学習体験を提供することが期待されます。

教育の未来は、人間とAIの協調によって築かれていくのかもしれません。私たちは今、その変革の入り口に立っているのです。


Latif, E., & Zhai, X. (2024). Fine-tuning ChatGPT for automatic scoring. Computers and Education: Artificial Intelligence, 6, 100210. https://doi.org/10.1016/j.caeai.2024.100210

By 吉成 雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。