はじめに
2022年に発表されたマイク・シャープルズ氏による論文”Automated Essay Writing: An AIED Opinion”は、教育現場が直面している新たな課題について率直に論じた重要な研究です。シャープルズ氏は英国ミルトン・キーンズにあるオープン大学の教育技術研究所に所属する研究者で、人工知能と教育の関係について長年研究を重ねてきました。この論文は、氏がラファエル・ペレス・イ・ペレス氏と共著で執筆した「Story Machines: How Computers Have Become Creative Writers」という書籍の宣伝方法を考えているときに、学生がAI文章生成システムを使ってエッセイを書くことができることに気づいたことから始まっています。
この気づきがきっかけとなって、シャープルズ氏は自動エッセイ作成について調査を開始し、43,000回もの反響を呼んだTwitterでの議論を経て、この論文を執筆しました。論文の内容は、GPT-3などのTransformer AI システムが教育評価にもたらす根本的な問題について、具体的な事例を示しながら詳細に分析したものです。
従来の教育評価システムへの挑戦
シャープルズ氏がまず指摘するのは、エッセイ形式の評価が教育現場で果たしてきた重要な役割についてです。エッセイによる評価は19世紀初頭からヨーロッパの大学で始まり、現在でも学校、大学、研究機関において中心的な評価方法として使われています。その理由は明確で、出題が容易であること、学生の理解の深さを測ることができること、そして議論を組み立てる能力を養うことができるからです。
近年では、エッセイの形式も多様化しており、物語的なもの、議論的なもの、反省的なもの、表現的なもの、応答的なもの、分析的なものなど、様々な種類の文章課題が設定されるようになっています。これらの多様性は、学生の異なる能力や思考過程を評価するために発展してきたものです。
しかし、シャープルズ氏は、このような評価システムが既に以前から問題を抱えていたことも指摘しています。書面での課題は労力がかかり不公平であるという批判があり、さらに深刻な問題として「エッセイ工場」と呼ばれる代筆業者による契約不正行為が存在していました。これらの業者は1つの20ページエッセイに対して最大400ポンド(約5万円)という高額な料金で代筆サービスを提供しており、ニュートン氏の2018年の調査によると、調査対象の学生の15.7%が誰かに課題を代筆してもらったことを認めています。
Transformer AIシステムの登場とその影響
GPT-3のようなTransformer AIシステムの出現は、これまでの不正行為の問題を質的に変化させました。シャープルズ氏が強調するのは、これらのシステムが「不正行為を民主化」してしまったということです。従来の代筆業者を使った不正行為には高額な費用がかかりましたが、AI システムを使えば、学生は数秒でエッセイ全体を生成することができ、その費用はわずか50セント程度に過ぎません。
この変化の重要性を理解するために、シャープルズ氏は具体的な例を示しています。GPT-3に「学習スタイルの概念は問題がある」という短いプロンプトを与えると、システムは完全なエッセイを生成します。生成されたエッセイには適切な見出し、引用文献、そして一見説得力のある議論が含まれており、表面的には優秀な学生が書いた中程度の質のエッセイに見えます。
生成されたエッセイの内容を詳しく見ると、文章は正しく綴られており、文の構成も適切です。また、適切な主張から始まり、研究証拠によって裏付けられた一貫した議論を展開し、学習スタイルが柔軟で環境によって変化するという主張の再確認で終わっています。しかし、シャープルズ氏が指摘する通り、詳細に検討すると重大な問題が明らかになります。
AI生成文章の根本的な問題
最も深刻な問題は、GPT-3が偽の引用文献を作成したことです。論文には「Dunn, R., & Dunn, K. (1997). Learning styles: Research and practice. Journal of Research in Education, 7(2), 139–151.」という引用が含まれていますが、実際には「Research in Education」という雑誌の1997年第7巻第2号は存在しません。ダン夫妻は確かに学習スタイルに関する研究を発表していますが、この特定の雑誌には掲載していません。
さらに重要なことは、GPT-3が引用している研究内容自体も作り上げられたものであるということです。学習スタイルが柔軟で固定されていないというダン夫妻の研究は実際には存在しません。このように、AIシステムは一見もっともらしい文章を書きながら、引用文献や研究内容を完全に捏造してしまうのです。
シャープルズ氏は、このような問題が生じる理由について、GPT-3の開発者による説明を引用しています。開発者たちは「大規模な事前訓練された言語モデルは、ビデオや現実世界での物理的相互作用などの他の経験領域に基づいていないため、世界についての多くの文脈を欠いている」と述べています。つまり、Transformerシステムは言語のモデルであって、経験的知識のモデルではないのです。
検出の困難さとその限界
シャープルズ氏が次に検討するのは、AI生成エッセイを検出することの困難さです。従来の盗作検出ソフトウェアは、既存の文献からの複写を検出するように設計されているため、AI が生成した全く新しい文章を検出することはできません。実際に、著者が2つの盗作検出ツールでテストしたところ、どちらも95%以上が独創的な文章であると判定しました。
興味深いことに、シャープルズ氏はGPT-3自身にそのエッセイが人間によって書かれたものか機械によって書かれたものかを判断させてみました。GPT-3は「確実には言えないが、コンピュータによって書かれた可能性が高い。言語が非常に技術的で流暢さに欠け、アイデアが非常に簡潔で箇条書きのようなスタイルで提示されており、これはコンピュータ生成テキストでよく見られる特徴である」と回答しました。
しかし、この判断能力も信頼できません。シャープルズ氏が自身の高被引用研究論文の序文をGPT-3に判定させたところ、システムは「明確な著者の声の欠如と、やや堅い、ぎこちない文体」があるためAI生成テキストの特徴を示していると主張しました。このことは、十分に強力なAIテキスト生成プログラムと同等に強力な検出プログラムとの間で、実りのない計算上の軍拡競争が起こりうることを示しています。
人間による検出能力の限界
さらに深刻なのは、人間もAI生成エッセイの検出においてほとんど能力を発揮できないということです。EduRef.netが行った小規模な研究では、大学教授たちに人間が書いたエッセイとGPT-3が生成したエッセイを、どれが機械によって生成されたかを知らせずに採点してもらいました。
その結果は驚くべきものでした。研究方法論というテーマでは、機械生成エッセイはC評価を受け、人間のエッセイはBとD評価でした。米国史のテーマでは、機械と人間のエッセイが同程度の評価を受けました。法学のエッセイでは、GPT-3がB-評価を受け、人間のエッセイはA-からFまでの幅広い評価でした。創作文章という分野でのみ、機械エッセイは不合格となり、人間の文章はA-からD+までの評価を受けました。重要なことは、教授たちが機械作品に対して人間の作家と同様の書面フィードバックを提供したことです。
ウチェンドゥらによる2021年の包括的研究では、「人間は機械生成テキストを偶然レベルでしか検出できない」と結論づけており、AI ベースの検出についても「全体として、コミュニティはミッション・クリティカルなアプリケーションのためのより良いソリューションを研究開発する必要がある」と述べています。
教育現場への提案と対応策
このような状況を踏まえて、シャープルズ氏は教育現場がどのように対応すべきかについて具体的な提案を行っています。まず、現実的な対応として、教師が監督付き試験にエッセイ課題を制限することが考えられますが、これは形式的で時間を要するという問題があります。
より建設的なアプローチとして、シャープルズ氏はAIでは生成できない反省的で文脈化された書面課題を設定することを提案しています。例えば、各学生に独立した研究プロジェクトを設定し、その特定のプロジェクトについての書面報告を求め、その報告に対してフィードバックを与え、さらにそのフィードバックと プロジェクトで提起された問題について批判的な反省を書かせるという段階的なアプローチです。
さらに想像力豊かな方法として、教師がTransformer AIを使ってあるトピックについての代替エッセイセットを生成し、学生にそれらを批評させ、より良いバージョンを書かせることも提案されています。また、複雑な質問を設定して各学生にAI回答を生成させ、その回答を採点基準に関連させて評価させるという方法も考えられます。
創作活動への応用可能性
シャープルズ氏は、Transformer AIが創作文章のツールとして活用できる可能性についても言及しています。例えば、学生が最初の段落を書き、AIが2番目の段落を続け、そのような形で交互に進めていく方法です。このAI作文パートナーは言葉の流れを維持するのに役立ち、また物語を予期しない方向に導くことで、学生がそれに応答しなければならない状況を作り出します。
物語にいくつかの代替的な継続を生成することで、学生作家が創作文章を線形の進行ではなく、可能性の空間の探索として捉えるのに役立つかもしれません。このようなAI支援文章練習は、批判的読解、正確性、議論、構造の技能に焦点を当てることができ、AIが許可されていない課題では、スタイル、表現、声、個人的反省について評価することができます。
倫理的問題と教育的意義
シャープルズ氏は、教師が学生と一緒に生成AIの倫理と限界を探求することの重要性も強調しています。内在的な道徳を持たず、世界についての経験もない専門的な言葉の使い手と対話することはどのような感覚なのでしょうか。AIとの共同執筆は盗作に相当するのでしょうか。これらは教育現場で真剣に議論されるべき問題です。
AIED コミュニティへの影響
シャープルズ氏は、人工知能教育国際ジャーナル(IJAIED)のレビュアーも、提出された論文がAIシステムの支援を受けて書かれたかどうかを評価するという課題を避けることができないと指摘しています。実際に、著者は実験として、IJAIEDに掲載された実際の論文のタイトルをランダムに選択し、GPT-3を使って完全な短い研究論文を生成しました。
この実験では、「コンピュータベース学習環境におけるドメイン固有モデリング言語:計算モデリングを通じて科学学習を支援するシステマティックアプローチ」というタイトルから始めて、GPT-3に3つの代替要約を生成させ、その中から「レビュー論文」用の生成要約を選択しました。その後、要約に「序論」という見出しを追加してGPT-3に論文生成を依頼し、続いて「議論」、「参考文献」を順次追加させました。最終的に、新しく生成された要約だけをGPT-3に提示して論文の新しいタイトルを要求したところ、「科学学習を支援するためのドメイン固有モデリング言語の使用:文献レビュー」というタイトルが生成されました。
この結果として、5分足らずで2,200語の「学術論文」が完成しました。シャープルズ氏は、この論文はおそらく最初の編集者レビューを通過しないだろうが、AIの支援を受けて生成された論文の洪水の前兆であると警告しています。
技術的制約と今後の課題
シャープルズ氏は、Transformer AIシステムの根本的な制約についても詳しく説明しています。GPT-3の開発者が認めているように、「大規模事前訓練言語モデルは、ビデオや現実世界の物理的相互作用などの他の経験領域に基づいておらず、したがって世界についての大量の文脈を欠いている」のです。
これらのシステムは言語のモデルであって、経験的知識のモデルではありません。学術的になるように、つまり学術的参考文献をチェックし、証拠が事実に基づいていることを確認するようには設計されていません。人間的な表現で言えば、これらのシステムは本質的に経験不足で、思考力がなく、非道徳的なのです。自分が書いたものについて反省し、それが正確で適切かどうかを判断する能力を持っていません。
OpenAIはGPT-3に悪い言語をフィルタリングするアドオンを提供していますが、正確性をチェックするツールを製造する可能性は低いでしょう。同社の焦点は教育ではなく汎用人工知能にあります。将来的には他の企業が生成された参考文献の正確性をチェックしたり、記事に真正な参考文献を追加したりするツールを提供する可能性がありますが、これらはGPT-3のようなTransformer言語モデルの根本的な制約を克服することはできません。
教育技術としての位置づけ
シャープルズ氏は、Transformer AIシステムを教育技術の代替的歴史における一環として位置づけています。学生たちは新興デバイス、つまりポケット計算機、携帯電話、機械翻訳ソフトウェア、そして現在はAIエッセイ生成器を、生活を楽にするために活用してきました。教師や教育機関の対応は、無視、抵抗、そして遅ればせながら適応するという予測可能な順序をたどります。
AIによって書かれた課題を提出する学生の増加を無視することは困難になるでしょう。大手盗作チェック企業であるTurnitinは、「学生がボタンを押すとコンピュータが論文を書いてくれる時代において、私たちは既にやってくるAIの波の始まりを見ている」と認めています。
既に示したように、どの文章が機械によって書かれたかを検出するソフトウェアを展開してAI生成課題に抵抗することは、おそらく無駄な取り組みになるでしょう。それでは、これらの新しいツールにどのように適応すればよいのでしょうか。
長期的な展望と考察
シャープルズ氏の論文は、教育にとって極めて重要な転換点について論じています。学生たちが、一部の人々が評価の単調作業と見なすものに代わる強力な新しいAIツールを身につけるにつれて、これらのツールは学生のためにエッセイを書くだけでなく、複雑な質問に答え、コンピュータコードを生成するようになるでしょう。
要約的な書面評価に依存して学生の能力を評価する教育システムは、その頂点に達した可能性があります。すべての新しい教育技術は、利点と制約を伴って登場します。AI Transformer技術は、チャットボット、テキスト要約器、言語翻訳器、そして現在ではエッセイ生成器や創作文章ツールを通じて、既に教育に組み込まれつつある強力な汎用言語モデルです。
AIEDコミュニティは、これらのシステムの教育への応用について議論するだけでなく、学習のための文章、推論、会話のための新しい生成AIツールを設計するのに適した立場にあります。
批評的考察
シャープルズ氏の論文は、AI時代の教育評価について重要な問題提起を行っていますが、いくつかの点で更なる検討が必要です。まず、論文では主にGPT-3の能力と制約に焦点を当てていますが、技術の急速な進歩を考慮すると、これらの制約の一部は既に改善されている可能性があります。
また、提案されている対応策は確かに建設的ですが、実際の教育現場での実装可能性については十分に検討されていません。特に、大規模な教育機関や標準化された評価システムにおいて、個別化された反省的課題を設定することの現実的な困難について、より詳細な分析が必要でしょう。
さらに、シャープルズ氏は主に高等教育の文脈で議論を展開していますが、初等・中等教育段階でのAI使用についても考慮する必要があります。若い学習者にとって、AI支援ツールは学習プロセスに異なる影響を与える可能性があり、それぞれの発達段階に応じた対応策が求められます。
結論
シャープルズ氏の論文は、教育評価システムが直面している前例のない課題について、率直かつ包括的な分析を提供しています。GPT-3などのAIシステムが従来の評価方法に与える影響は単なる技術的問題ではなく、教育の本質に関わる根本的な問題です。
論文で示された具体例と詳細な分析は、この問題の深刻さと複雑さを明確に示しています。同時に、提案されている対応策は、危機を機会に変える可能性を示唆しています。AI技術を教育の敵として捉えるのではなく、学習プロセスを向上させるツールとして活用する方法を模索することが重要です。
教育関係者、政策立案者、そして技術開発者は、この論文が提起する問題について真剣に議論し、協力して解決策を見つけていく必要があります。シャープルズ氏の研究は、その議論の出発点として極めて価値の高い貢献と言えるでしょう。教育の質を保ちながら、新しい技術の利点を活用するバランスを見つけることが、今後の教育界に求められる重要な課題となっています。
Sharples, M. (2022). Automated essay writing: An AIED opinion. International Journal of Artificial Intelligence in Education, 32, 1119-1126. https://doi.org/10.1007/s40593-022-00300-7