今日、私たちの生活に深く浸透している人工知能。その中でも特に注目を集めているのが、ChatGPTに代表される大規模言語モデル(LLM)です。これらのモデルは、人間のように自然な会話ができ、複雑な質問に対しても的確な回答を返すことができます。しかし、Penn State UniversityのYusen Zhang氏らの研究チームによって、これらの人工知能が人間とよく似た「弱点」を持っていることが明らかになりました。
研究の背景
人間には面白い特徴があります。確信が持てないことを答える時、かえって言葉数が多くなってしまうのです。例えば、試験で自信のない問題に遭遇した学生は、関係ありそうな情報を次々と書き連ね、長い解答を作成しがちです。また、日常会話でも、自信のない話題になると「えーと」「そうですね」といった言葉を多用し、本題に入る前に前置きを長々と続けることがあります。
このような人間の特性は、心理学や教育学の分野で長年研究されてきました。特に、不確実性と言語表現の関係は、人間のコミュニケーションを理解する上で重要なテーマとされてきました。
そして今回、最新の研究によって、最先端の人工知能にも同様の特徴があることが判明したのです。研究チームはこの現象を「冗長性補償(Verbosity Compensation)」と名付けました。
研究の詳細と衝撃的な発見
研究チームは、14種類の最新の大規模言語モデルを対象に、5つの異なるデータセットを使って詳細な実験を行いました。その結果、すべてのモデルにおいて冗長性補償が観察されました。特に注目すべきは、最も高性能とされるGPT-4でさえ、回答の50.40%でこの現象が確認されたことです。
さらに興味深いことに、冗長な回答は簡潔な回答と比べて正確性が大きく低下することも判明しました。例えば、Qasperと呼ばれるデータセットでは、冗長な回答の正確性は簡潔な回答と比べて27.61%も低下していたのです。これは、人工知能が不確実な場合に言葉数を増やすことで、かえって誤りを増やしてしまう可能性を示唆しています。
人工知能の「言い訳」パターン
研究チームは、人工知能の冗長な回答を詳細に分析し、5つの典型的なパターンを特定しました。
まず一つ目は「質問の繰り返し」です。人間でいえば、「えーと、その質問についてですが…」と話し始めるようなものです。二つ目は「曖昧な表現の使用」で、具体的な答えを避けて一般的な表現を用いる傾向です。三つ目は「複数の回答の列挙」で、確信が持てないために複数の可能性を並べ立てる行為です。四つ目は「不必要な詳細の付加」で、本質的ではない情報を付け加えることです。そして五つ目は「冗長なフォーマットの使用」で、必要以上に形式的な言い回しを採用することです。
これらのパターンは、私たち人間が不確実な状況で無意識のうちに取る行動とよく似ています。例えば、職場でよく分からない質問を受けた時、「ご質問の件についてですが」と前置きを入れ、「AとかBとか、様々な可能性が考えられます」と複数の選択肢を提示し、最後は「~かもしれません」といった曖昧な表現で締めくくるような場面を想像してみてください。人工知能の「言い訳」パターンは、まさにこのような人間の行動と酷似しているのです。
解決への取り組みと新たな発見
この問題に対して、研究チームは「カスケードモデル選択」という興味深い解決策を提案しています。これは、複数のモデルを組み合わせて使用し、冗長な回答が検出された場合は、より強力なモデルに切り替えるという方法です。実験では、この方法によってMistralモデルの冗長性を63.81%から16.16%まで削減することに成功しました。
さらに研究チームは、モデルの不確実性と冗長性の関係についても深く分析を行いました。その結果、冗長な回答を生成する時、モデルの内部状態がより高い不確実性を示していることが分かりました。これは、人間が不確実な時に言葉を重ねてしまうのと同じメカニズムが、人工知能の中にも存在する可能性を示唆しています。
研究の意義と今後の展望
この研究は、人工知能研究において複数の重要な意義を持っています。
まず、人工知能の振る舞いを評価する新しい視点を提供しました。従来は正確性や適切性が主な評価基準でしたが、回答の簡潔さも重要な要素であることが示されたのです。これは、より効率的なAIシステムの開発につながる重要な知見といえます。
また、モデルの不確実性と冗長性の関係を明らかにしたことで、人工知能の「思考プロセス」をより深く理解する手がかりが得られました。これは、より信頼性の高いAIシステムの開発に向けた重要な一歩となるでしょう。
さらに、人工知能と人間の認知プロセスの類似性について、新たな示唆を与えています。人工知能が人間と同じような「弱点」を持っているという事実は、人工知能の本質を理解する上で重要な視点を提供しています。
一方で、すべての状況で簡潔な回答が望ましいわけではないという点にも注意が必要です。文脈や用途によっては、詳細な説明が必要な場合もあります。今後は、状況に応じて適切な詳細さを判断できるようなモデルの開発が期待されます。
今後の研究課題としては、不確実性と冗長性の関係をより詳細に解明すること、状況に応じた適切な詳細さを判断できるモデルの開発、そして人工知能の「思考プロセス」をより深く理解することなどが挙げられます。
おわりに
この研究は、最新の人工知能が私たち人間とよく似た特徴を持っていることを示す、興味深い証拠を提供しています。自信がない時に言葉を重ねてしまうという特徴は、人工知能が予想以上に「人間らしい」存在であることを示唆しています。
また、この研究は人工知能の限界と可能性を理解する上でも重要な示唆を与えています。人工知能も人間と同じように不完全な存在であり、時には「言い訳」をしてしまう──そのことを理解した上で、どのように活用していくべきかを考えることが重要でしょう。
今後、この研究の知見を活かすことで、より自然で効率的な人工知能の開発が進むことが期待されます。そして、人工知能と人間がお互いの特徴をより深く理解し合いながら、よりよい協力関係を築いていくことができるはずです。
Zhang, Y., Das, S. S. S., & Zhang, R. (2024). Verbosity ≠ veracity: Demystify verbosity compensation behavior of large language models. arXiv preprint arXiv:2411.07858v1. https://doi.org/10.48550/arXiv.2411.07858