本論文”Knowing When to Ask – Bridging Large Language Models and Data”は、Google社の研究チームによる最新の研究成果を報告したものです。この研究は、大規模言語モデル(LLM)の一つの大きな課題である「事実の正確性」の問題に取り組んでいます。特に、数値データや統計情報に関する質問に対して、LLMが不正確な情報を生成してしまう傾向に焦点を当てています。

研究チームは、LLMと「Data Commons」という大規模なオープンソースのデータベースを組み合わせることで、この問題の解決を目指しています。Data Commonsには、国連や疾病管理予防センター(CDC)、各国の国勢調査局などの信頼できる機関から収集された公的統計が含まれています。

研究の背景と重要性

近年、ChatGPTなどのLLMが驚異的な能力を示し、様々な分野で活用されつつあります。しかし、これらのモデルには「幻覚」と呼ばれる問題があります。つまり、もっともらしいが事実とは異なる情報を生成してしまうのです。この問題は特に、数値データや最新の事実に関する質問で顕著です。

この研究の重要性は、AIの信頼性と有用性を高める点にあります。正確な情報を提供できるAIシステムは、教育、ビジネス、政策立案など、幅広い分野で活用できる可能性があります。また、誤情報の拡散を防ぐという社会的な意義も大きいと言えるでしょう。

研究手法:RIGとRAGの2つのアプローチ

研究チームは、LLMとData Commonsを連携させるために、主に2つの方法を探究しています:

1. Retrieval Interleaved Generation (RIG)
このアプローチでは、LLMを訓練して、Data Commonsからデータを取得するための自然言語クエリを生成させます。つまり、AIが自ら「質問」を作り出し、データベースに問い合わせるのです。

2. Retrieval Augmented Generation (RAG)
こちらは、ユーザーの質問に関連するデータテーブルをData Commonsから取得し、それをLLMのプロンプト(入力)に追加する方法です。これにより、AIは関連データを参照しながら回答を生成できます。

両方のアプローチにおいて、研究チームはGoogleのオープンソースモデルであるGemmaを使用し、それぞれの方法に適したモデルの微調整(ファインチューニング)を行っています。

評価方法と結果

研究チームは、多様な質問セットを用意し、これらの方法の有効性を評価しています。評価項目には、事実の正確性、Data Commonsからの自然言語クエリの正確性、質問の関連性、データカバレッジなどが含まれています。

結果は、両方のアプローチがLLMの事実的正確性を向上させる可能性を示しています。例えば、RIGアプローチでは、正確性が5-17%から約58%に向上しました。RAGアプローチでは、統計的主張の98-99%が正確でした。

しかし、課題も明らかになりました。例えば、Data Commonsのデータカバレッジの制限や、LLMが生成する質問の関連性の問題などです。また、複雑な推論を必要とする質問に対しては、正確性がやや低下する傾向も見られました。

研究の限界と今後の展望

研究チームは、この研究にはいくつかの限界があることを認めています。例えば、評価に使用した質問セットが比較的小規模であること、評価の多くを研究チーム自身が行っていることなどが挙げられます。これらの点は、結果の一般化への可能性に影響を与える可能性があります。

今後の展望として、研究チームは以下の点を挙げています:

1. モデルのファインチューニングに使用するトレーニングセットの改善(質と量の両面で)
2. Data Commonsの自然言語処理能力の向上
3. 統計情報に対するGeminiモデルのパフォーマンス評価
4. ユーザーインターフェースとユーザー体験の改善

研究の意義と影響

この研究は、AIの信頼性と有用性を高めるための重要なステップと言えるでしょう。特に、公的な統計データとAIを組み合わせるアプローチは、教育、政策立案、ジャーナリズムなど、正確な情報が重要な分野で大きな影響を与える可能性があります。

また、この研究はオープンソースの精神に基づいて行われており、Data Commonsプロジェクトやモデルの重みなどが公開されています。これにより、他の研究者や開発者がこの成果を基に更なる発展を促進できる環境が整っています。

まとめ:AIと人間の協力の重要性

最後に、この研究は、AIの能力を高めるためには、人間の知識や既存のデータベースとの連携が重要であることを示しています。つまり、AIはそれ単独で全ての問題を解決できるわけではなく、人間が作り上げてきた知識体系と組み合わせることで、より信頼性の高い、有用なツールになり得るのです。

この研究は、AIの発展における一つの重要な方向性を示唆しています。今後、この分野でさらなる進展が見られることが期待されます。同時に、AIの正確性や信頼性に関する議論が、技術者だけでなく、社会全体で行われることの重要性も示唆しているといえるでしょう。


Radhakrishnan, P., Chen, J., Xu, B., Ramaswami, P., Pho, H., Olmos, A., Manyika, J., & Guha, R. V. (2024). Knowing When to Ask – Bridging Large Language Models and Data. Google, Inc.

By 吉成 雄一郎

東海大学教授。コロンビア大学大学院ティーチャーズカレッジ(英語教授法)、信州大学大学院工学研究科(情報工学)修了。東京電機大学教授を経て現職。専門は英語教授法、英語教育システム開発。 さまざまな英語学習書、英検、TOEIC 対策書、マルチメディア教材等を手がけてきた。英語e ラーニングや英語関係の教材・コンテンツの研究開発も行う。全国の大学、短期大学、高専等で使われているe ラーニングシステム「リンガポルタ」も開発した。最近ではAI による新しい教育システムの開発にも着手している。