論文の背景と筆者の主張

Alexander Koplenig氏は、ドイツのマンハイム・ドイツ語研究所(IDS)の語彙部門に所属する研究者です。本論文”Against statistical significance testing in corpus linguistics”は、コーパス言語学という分野における統計的手法の使用について、根本的な問題を提起しています。コーパス言語学とは、大量の実際に使われた言語データ(新聞記事、小説、会話記録など)を電子的に収集・分析することで、言語の特徴や使用パターンを解明しようとする研究分野です。

筆者の中心的な主張は明確です。コーパス言語学では、統計的有意性検定(p値を用いて結果が偶然ではないことを示す手法)を完全に放棄すべきだというものです。これは単なる手法論の改善提案ではなく、この分野の研究方法論に対する根本的な挑戦といえます。

筆者がこの主張に至った背景には、2005年にGries氏が提起した問題があります。Gries氏は「コーパス言語学者は帰無仮説検定を放棄すべきか」という問いを投げかけましたが、その後の議論は十分に深まっていませんでした。Koplenig氏は、この議論を復活させ、より踏み込んだ答えを提示しようと試みています。

統計的推論の前提条件とその問題

論文の核心を理解するために、まず統計的推論がどのような前提の上に成り立っているかを確認する必要があります。筆者は、雨林の花の色と花弁数の関係という分かりやすい例を用いて、統計的推論の基本的な仕組みを説明しています。

統計的推論では、調査したい全体(母集団)から一部のサンプル(標本)をランダムに選び、そのサンプルの特徴から母集団全体の特徴を推測します。重要なのは「ランダムに選ぶ」という点です。これによって、サンプルが母集団を公正に代表していることが保証されます。

筆者は、この「ランダム性」の要求について、統計学者のBerkとFreedmanの言葉を引用しています。「従来の統計的推論(平均の標準誤差の公式、t検定など)は、ランダムサンプリングの仮定に依存している。これは議論や意見の問題ではなく、数学的必然性の問題である」。この引用は、統計的手法の適用における厳格な条件を強調しています。

問題は、言語研究においてこの「ランダムサンプリング」が事実上不可能だということです。言語は人間の認知活動の産物であり、言語使用者は意識的・無意識的に語彙や表現を選択しています。また、研究者が言語データを収集する際も、様々な制約により完全にランダムな選択は困難です。

コーパスの代表性という根本的課題

筆者は、コーパス言語学における「代表性」の問題を多角的に検討しています。この分析は、論文の中でも特に詳細で説得力のある部分です。

まず、内在化言語(I-language)と外在化言語(E-language)というChomsky氏の区別を取り上げています。I-languageは人間の心の中にある言語能力そのものを指し、E-languageは実際に産出された言語データを指します。コーパス言語学は、観察可能なE-languageから、観察不可能なI-languageについて推論しようとしています。しかし、この二つの関係は複雑で、単純な対応関係があるとは限りません。

次に、筆者はEvert氏の「巨大な図書館」という比喩を詳細に検討しています。この比喩では、ある言語の全ての発話が巨大な図書館に収められており、コーパスはその中からランダムに選んだ本の集合体だと考えます。一見すると魅力的な比喩ですが、筆者は現実的な問題を次々と指摘しています。

法的制約の問題では、全ての話者から録音許可を得ることは不可能です。技術的制約では、全ての発話を記録・転写することは現実的ではありません。最も重要なのは「観察による影響」の問題です。人々は自分が録音・記録されていることを知ると、普段とは違う話し方をしてしまいます。これは社会科学研究でよく知られた「ホーソン効果」の一種です。

さらに、筆者は「何をもって言語データとするか」という定義の問題も提起しています。下書きと最終稿は別々にカウントするのか、複数の新聞に掲載された同じ記事は何回カウントするのか、引用やサブタイトルはどう扱うのか。これらの問題は、表面的には技術的に見えますが、実際は言語研究の根本的な哲学に関わる問題です。

統計モデルの記述的価値

重要な点は、筆者が統計的手法自体を全面的に否定しているわけではないことです。論文の後半では、統計モデルを「記述的ツール」として使用することの価値を詳しく論じています。

筆者は、最小二乗法による回帰分析を例に、統計的推論と記述的分析の違いを説明しています。8人のドイツ首相の就任演説の語彙特性を分析する仮想的な研究を示し、この場合は全ての首相のデータがあるため推論は必要ないが、変数間の関係を記述し予測に活用することは可能だと説明しています。

この議論は実用的に重要です。多くの研究者は、p値を計算することと、データのパターンを理解することを混同しがちです。筆者の提案は、後者の価値を維持しながら、前者の問題のある使用を避けるものです。

収束証拠の重要性

筆者は、統計的有意性検定に代わる方法として「収束証拠(converging evidence)」の概念を提示しています。これは、複数の異なる研究方法や データソースから一貫した結果が得られる場合、その発見がより信頼できるという考え方です。

例えば、コーパス分析で発見されたパターンが、心理言語学実験、神経言語学研究、言語習得研究でも確認されれば、その発見の信頼性は大幅に向上します。この手法は、単一の統計的検定に依存するよりも、はるかに堅実な科学的証拠を提供します。

批判的検討と限界

この論文は説得力のある議論を展開していますが、いくつかの限界も指摘できます。

まず、筆者の議論は主に理論的・哲学的なものであり、実証的な検証が限られています。統計的有意性検定を使った研究と使わない研究の比較、収束証拠アプローチの具体的な成功例などがあれば、議論はより説得力を持ったでしょう。

また、筆者は「完全なランダムサンプリング」の不可能性を強調していますが、「近似的な代表性」の価値については十分に検討していません。完璧ではなくても、慎重に設計されたコーパスが有用な情報を提供する可能性はあります。

さらに、統計的有意性検定を完全に放棄することの実践的な困難さについても、より詳細な議論が必要です。学術雑誌の査読基準、研究費獲得の評価基準など、制度的な変更も必要になります。

実用的含意と今後の展望

この論文が提起する問題は、コーパス言語学に留まらず、より広い社会科学研究に関わります。実際に、2016年にアメリカ統計学会(ASA)が発表した声明では、「統計的有意性の広範な使用は科学的プロセスの相当な歪曲をもたらす」と警告しています。

筆者の提案が実現されれば、言語研究の方法論は大きく変わることになります。研究者は単一の大規模研究よりも、複数の小規模研究の組み合わせを重視するようになるかもしれません。また、質的研究と量的研究の境界がより曖昧になり、学際的な協力が一層重要になるでしょう。

教育の面でも影響があります。統計教育において、p値の計算方法よりも、データの特徴を記述し解釈する能力の育成により重点が置かれるようになるかもしれません。

結論

Koplenig氏の論文は、コーパス言語学の方法論に対する重要な挑戦を提示しています。完全なランダムサンプリングが不可能である以上、統計的有意性検定は数学的に正当化できないという主張は、論理的に一貫しており説得力があります。

しかし、この提案の実現には多くの課題があります。制度的変更、研究者の意識改革、新しい評価基準の開発などが必要です。また、統計的有意性検定を完全に放棄することで失われるものについても、慎重な検討が必要でしょう。

それでも、この論文は言語研究者に重要な問いを投げかけています。私たちは何を測定しているのか、その測定は何を意味するのか、そして研究結果をどのように解釈し応用すべきなのか。これらの根本的な問いに向き合うことで、言語研究はより堅実で有用な学問分野として発展していくことができるでしょう。

筆者が最後に表明している「新鮮な議論を呼び起こしたい」という希望は、確実に実現されたといえます。この論文は、方法論に対する批判的思考の重要性を示す好例であり、他の研究分野にとっても参考になる議論を提供しています。


Koplenig, A. (2017). Against statistical significance testing in corpus linguistics. Corpus Linguistics and Linguistic Theory. Advance online publication. https://doi.org/10.1515/cllt-2016-0036

By 吉成 雄一郎

株式会社リンガポルタ代表取締役社長。東京電機大学教授、東海大学教授を経て現職。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。

Amazon プライム対象