論文の概要と著者たちの立ち位置
本論文”A bibliometric analysis of artificial intelligence in L2 teaching and applied linguistics between 1995 and 2022″は、トルコのNecmettin Erbakan大学に籍を置くGalip Kartalと、Burdur Mehmet Akif Ersoy大学のYusuf Emre Yeşilyurtの二名によって執筆され、2024年にCALL(Computer-Assisted Language Learning)分野の主要査読誌であるReCALL誌(第36巻第3号)に掲載されました。Kartalは英語教育における語彙指導や教師研修、そしてAI活用を専門とする准教授であり、YeşilyurtはイギリスのBristol大学でTESOLの修士号を取得した後、Gazi大学で博士号を得たという経歴を持ち、学術的なライティングや会話分析にも造詣が深い研究者です。二人とも英語教育の実践者でありながら、テクノロジーと言語教育の接点に強い関心を寄せている点において共通しており、その背景がこの研究の方向性を自然に規定しています。
書誌計量分析(bibliometric analysis)とは、耳慣れない言葉かもしれませんが、平たく言えば「学術論文の流行を数値で読み解く方法」です。どの論文がよく引用されているか、どの著者が影響力を持っているか、どんなテーマが盛んに研究されているかを、文献データベースから大量のデータを取り出して可視化するアプローチです。図書館で本の貸し出し記録を分析して「最近の読者はどんな本に興味があるか」を調べるようなイメージと言えばわかりやすいでしょうか。本研究では、Web of Science(WoS)という世界有数の学術データベースから収集した1995年から2022年の185本の論文を対象に、VOSviewerというソフトウェアを使って分析を行っています。
研究の背景―なぜ今AIと第二言語教育なのか
そもそもなぜ、今このタイミングでAIと第二言語(L2)教育の書誌計量分析が必要とされるのでしょうか。この問いに答えるには、過去数十年の流れを少し振り返る必要があります。
1990年代から2000年代にかけて、コンピューターを使った言語教育はCALLという名称のもとで活発に議論されてきました。当時は主に、発音練習ソフトや文法ドリルのようなものが中心でした。それが2010年代に入ると、機械学習(Machine Learning)や自然言語処理(Natural Language Processing、NLP)の急速な発展により、コンピューターが人間の言語を「理解」したり「生成」したりする能力が飛躍的に向上しました。ChatGPTに代表される大規模言語モデルの登場は2023年ですが、その礎となる研究は2010年代を通じて着実に積み上げられていたわけです。
著者たちが指摘するように、チャットボットによる対話練習、知的チューターシステム(ITS)による個別指導、ロボットを使った語学授業(RALL)、NLPを活用した自動作文評価など、AIの応用範囲は広がる一方です。しかし、それに関連する研究の全体像を誰かが整理しなければ、研究者も教育実践者も「木を見て森を見ず」になってしまいます。本研究はそのような現状認識から出発しており、研究の必要性という意味では十分な説得力を持っています。
方法論の丁寧さと、その限界
本研究の方法論は、書誌計量分析の標準的な手順に沿って進められており、全体として丁寧に設計されています。最初の検索で4,858本の候補論文が得られ、そこから絞り込みを経て最終的に185本が分析対象となりました。この絞り込みの過程では、査読済み論文であること、英語であること、SSCIに掲載されていること、関連分野のWoSカテゴリーに属することなど、複数の基準が適用されています。さらに、3名の研究者が手動でスクリーニングを行い、そのうちの10%を独立した第三者がランダムにチェックするという手順も取られています。これは研究の信頼性を担保しようとする真摯な姿勢の表れです。
ただし、方法論にはいくつかの注意すべき点もあります。まず、英語論文のみを対象にしている点です。AIと言語教育の研究は、中国語や日本語、スペイン語などを母語とする研究者によっても活発に行われており、英語以外の言語で発表された重要な研究が見落とされている可能性があります。著者たち自身も論文末尾でこの限界を認めていますが、日本の英語教育研究者の立場から見ると、この点はやや残念に感じます。また、SSCIに限定したことで、新興の査読誌や会議録に掲載された先駆的な研究が排除されている点も見逃せません。書誌計量分析は基本的に「過去に何が評価されたか」を測るものであり、「これから重要になるもの」を捉えるには向いていません。レーダーのようなものですが、そのレーダーはあくまでも後方を向いているのです。
四つのクラスターが語るもの
VOSviewerを用いた共起分析によって、著者たちは研究分野を四つの主要クラスターに整理しました。すなわち、AI全般、NLP、ロボット支援語学教育(RALL)、そしてチャットボットです。
第一のAIクラスターは、語彙学習、タスクデザイン、社会文化理論といったキーワードを含む幅広いテーマを抱えており、34の総リンク強度と23のリンクを持つ、この分野の「中核」とも言うべき集合体です。ここで興味深いのは、純粋にテクノロジーを扱うキーワードだけでなく、「社会文化理論」のような学習理論的なキーワードも含まれている点です。これは、AIを言語教育に適用しようとする研究者たちが、テクノロジーそのものだけでなく、「どのように人間は言語を習得するのか」という根本的な問いを常に意識していることを示しています。
第二のNLPクラスターは、自動作文採点、学習者コーパス分析、構文的複雑性といったテーマを中心に、45の総リンク強度と28のリンクを持ちます。このクラスターにはS. A. Crossley、K. Kyle、D. S. McNamaraといった研究者が名を連ねており、彼らが共著論文を多数発表していることが高い共引用率につながっています。特にCrossleyは446名の著者の中で最多の18本を執筆しており、この分野における影響力は群を抜いています。NLPによる作文評価や語彙分析は、大量の学習者データを効率的に処理できるという点で、教育現場への実装可能性が高い研究領域です。
第三のRALLクラスターは、ヒューマノイドロボットやテレプレゼンスロボット、子ども―ロボット間インタラクションなどを含む13のリンクを持つ比較的コンパクトな集合体です。ここで着目すべきは、デジタルストーリーテリングや感情といったキーワードが含まれる点です。ロボットを使った語学教育は、単に「ロボットが単語を教える」のではなく、感情的な関与や創造的な活動との統合が重要であることが示唆されています。子どもがロボットと遊びながら英語を覚えるような授業を思い浮かべると、このクラスターの方向性がよく伝わるでしょう。
第四のチャットボットクラスターは、会話エージェント、学習者のモチベーション、ダイナミックアセスメント、語彙学習などのキーワードを含む15のリンクを持ちます。ChatGPT以前から、チャットボットを用いた語学練習の研究は進んでいましたが、このクラスターの分析は、単に「チャットボットが役に立つかどうか」を問うのではなく、「どのような設計が学習者の動機づけや言語習得を促すか」という実践的な問いと結びついています。
最も引用された研究たちが示す傾向
本論文の表1は、年間平均引用数が高い上位10本の論文を紹介しています。これを眺めると、いくつかの傾向が浮かび上がります。
まず、Kessler(2018)の「Technology and the Future of Language Teaching」が年間15.17回という最高の平均引用率を記録しています。これはレビュー論文であり、AIが言語教育に与えるインパクトを包括的に論じたものです。次いで、KyleとCrossleyによるL2ライティングの構文的複雑性を測定した研究が13.67回で続いています。これはNLPを使って学習者の文章を精密に分析するという方向性を示しており、先述のNLPクラスターの中心的な研究と位置付けられます。
Changら(2010)によるヒューマノイドロボットを小学校の英語授業で使う可能性を探った研究(年平均11.64回)が、総引用数163と、最も多く引用された論文の一つになっていることも目を引きます。この研究が発表された2010年当時は、教室にロボットを置くこと自体が斬新なアイデアでした。それから10年以上が経過した現在、このアイデアが実際に多くの研究に引き継がれていることがわかります。
一方、上位10本の中にYangとTsai(2010)によるオンラインピアアセスメントに関する研究(年平均7.79回)が含まれているのは、やや意外に感じるかもしれません。しかし、これはAI時代の語学教育においても、学習者同士の協働的な評価活動が重要であるという認識が根強いことを示しているとも解釈できます。AIが自動的にフィードバックを与えることと、人間同士が互いに学び合うことは、対立するものではなく、補完的な関係にあるのかもしれません。
時系列から見えてくる研究の変遷
研究の時系列的な変化を示すオーバーレイ可視化(Supplementary Material Figure E)の分析は、本論文の中でも特に価値のある部分です。著者たちは研究の展開を三つの時期に分けています。
2016年から2018年にかけての第一期は、知的チューターシステム(ITS)と機械学習が中心的なテーマでした。この時期はAIの語学教育への応用が本格的に始まった黎明期と言えます。2018年から2020年にかけての第二期は、自動作文評価、語彙の豊かさ、学術的ライティングといったより具体的なテーマへの移行が見られます。2020年から2022年の第三期には、チャットボット、会話エージェント、ダイナミックアセスメント、ゲーミフィケーション、L2スピーキングといった多様なテーマが台頭しています。
この変遷は、AIの語学教育への応用が「理論的な可能性の探求」から「実際の教室での実装とその評価」へと成熟しつつあることを示しています。比喩的に言えば、「こんな技術があれば面白いかもしれない」という段階から、「実際に授業でやってみたらどうだったか」という段階へのシフトです。
日本の英語教育現場への示唆
本論文を日本の英語教育の文脈で読むとき、いくつかの重要な示唆が得られます。
まず、RALLの研究が活発であることは、日本のような「ロボット大国」にとって特に興味深いです。日本ではSoftBankのPepperやHondaのASIMOのような社会的ロボットが広く知られており、教育用ロボットの開発にも投資が行われています。RALLの研究成果を積極的に取り入れる基盤は、日本にはすでに存在していると言えます。しかし、本論文が示すように、RALLの研究はまだ発展途上であり、長期的な学習効果や特定の学習者グループ(特に成人学習者や特別な支援を要する学習者)への適用については、さらなる研究が必要です。
次に、自動作文評価(AWE)ツールの活用は、日本の大学英語教育において特に実用的な可能性を持ちます。日本の大学では、大人数クラスでの英語ライティング指導において教員の添削負担が大きな課題となっています。NLPを活用したAWEツールが、その負担を軽減しながら学習者への個別フィードバックを増やすことができるなら、実践的な価値は高いでしょう。ただし、日本語を母語とする英語学習者特有の誤用パターン(例えば、冠詞の欠落や前置詞の誤用)に対応したツールの開発や検証が日本独自の課題として残ります。
さらに、本論文が言及するチャットボットを使った語学学習の研究は、日本の英語学習者にとっても示唆に富んでいます。日本の多くの学習者は、英語を話す相手が限られる環境で学んでいます。チャットボットは、そのような環境における「仮想の会話相手」として機能する可能性があります。特に、本論文が指摘するような「動機づけと関与を高めるチャットボット設計」の研究は、日本の学習者の心理的特性(発話への不安、完璧主義的傾向など)を踏まえた応用研究と結びつくことで、より実践的な成果を生む可能性があります。
関連研究との対比から見えてくる位置づけ
書誌計量分析という方法論は、特にHuangら(2022)によるチャットボットの系統的レビューや、Liangら(2023)によるAIと言語教育に関する統合的書誌計量・系統的レビューと比較すると、本研究の独自性がより明確になります。これらの先行研究は特定のテーマ(チャットボット、AIの役割)に焦点を当てているのに対し、本研究はL2教育とAIの全体像をより広い視野から把握しようとしています。
また、Yangと Kyun(2022)が活動理論の視点からAI言語学習研究の系統的レビューを行っているのと対照的に、本研究は理論的枠組みよりも文献ネットワークの可視化に重点を置いています。これは一長一短であり、本研究は「何が研究されているか」の全体像を把握するには優れていますが、「それぞれの研究がどのような理論的前提に基づいているか」を問う深度においては、活動理論のような枠組みを用いた分析には及びません。
学術的考察―この研究が問い直すもの
本論文を読んで改めて考えさせられるのは、書誌計量分析という方法論が持つ「民主的な側面」と「保守的な側面」の共存です。引用数が多い研究が「重要な研究」として可視化されるのは、研究コミュニティの評価を反映している点で民主的です。しかし同時に、それは「すでに評価された研究が、さらに評価される」という累積的優位の構造を生みます。新興のテーマ、少数言語圏の研究、非英語圏の研究者による成果は、この構造の中で見えにくくなります。
著者たちが提案する今後の研究課題のうち、倫理的考察の不足という指摘は特に重要です。AIが学習者のデータを収集・分析する際のプライバシー、AIが生成するフィードバックに含まれる可能性のあるバイアス、そして教師の役割の変容といった問題は、技術的な効果検証と同等以上の注意を要します。日本の文脈では、個人情報保護法やGIGAスクール構想との整合性も重要な論点になります。
また、本論文は2022年までのデータを対象としており、2023年以降のChatGPT普及による研究の急増は含まれていません。生成AIが登場する以前の研究地図として本論文は価値を持ちますが、読者はこの研究が「ChatGPT以前の世界」を描いたものであることを念頭に置く必要があります。ちょうど2020年以前に書かれた感染症対策の教科書が、パンデミック後の世界を理解するには不十分であるように、本研究も現在進行形のAI語学教育研究の全体を捉えるには補完が必要です。
まとめ―誠実な地図作りの意義
本論文は、AIとL2教育の研究動向を1995年から2022年にわたって丁寧に整理した、信頼性の高い書誌計量分析の成果です。英語のみ・SSCI限定という制約や、理論的分析の深度における限界はありますが、この分野に参入しようとする研究者や実践者にとって、まず確認すべき「地図」としての機能は十分に果たしています。
日本の英語教育研究者にとっても、ロボット支援言語学習、NLPを活用した作文評価、チャットボットを使った会話練習という三つの方向性は、今後の実証研究や授業実践の参照点となるでしょう。ただし、それぞれの技術を日本の学習者文化や教育制度に即した形で「翻訳」していく作業は、本論文の先にある、私たちの課題です。どんなに優れた地図があっても、実際に歩くのは私たち自身です。AIがどれほど語学教育を変えようとも、学ぶことの意味を問い続ける人間の営みそのものは、変わることなく続いていくのではないでしょうか。
Kartal, G., & Yeşilyurt, Y. E. (2024). A bibliometric analysis of artificial intelligence in L2 teaching and applied linguistics between 1995 and 2022. ReCALL, 36(3), 359–375. https://doi.org/10.1017/S0958344024000077
