はじめに – 人工知能時代の創造性をめぐる新たな問いかけ
ChatGPTをはじめとする大規模言語モデルの登場は、私たちの社会に大きな変化をもたらしました。特に注目されているのは、これらのAIシステムが創造的な作業においても人間に匹敵する、あるいはそれを上回る能力を示しているという点です。長らく創造性は人間固有の能力とされてきましたが、この前提が根本的に問い直される時代を迎えています。
アーカンソー大学の研究チームが2024年に発表した論文”The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks”は、まさにこの問題に正面から取り組んだ研究です。この研究は、GPT-4と人間151名を対象に、発散的思考タスクを用いて創造性を比較し、AIが人間を上回る創造的可能性を示したと主張しています。
しかし、この研究結果をどのように受け止めるべきでしょうか。AIが人間より創造的だという結論は、果たして妥当なのでしょうか。研究の方法論や結果の解釈には、どのような課題があるのでしょうか。本稿では、この研究を詳細に検討し、AI時代の創造性について考察してみたいと思います。
研究の概要と筆者について
この研究を主導したのは、アーカンソー大学心理科学部のKent F. Hubert氏、Kim N. Awa氏、そしてDarya L. Zabelina氏です。Zabelina氏は創造性研究の分野で知られる研究者であり、これまでにも発散的思考や創造的認知に関する多くの研究を発表しています。
研究では、人間の参加者151名とGPT-4を対象に、創造性を測定する3つの標準的なタスクを実施しました。使用されたのは、Alternative Uses Task(代替用途課題)、Consequences Task(結果予測課題)、そしてDivergent Associations Task(発散的連想課題)です。これらのタスクは、発散的思考の能力を測定する代表的な手法として、創造性研究において広く使用されています。
興味深いのは、研究者たちが「流暢性」(回答数)を統制したことです。つまり、人間とAIが同じ数の回答を提供した場合の創造性を比較しました。これにより、単に多くの回答を生成する能力ではなく、質的な創造性を評価しようとしたのです。
結果として、GPT-4は独創性(semantic distance)と精巧性(elaboration)の両面で人間を統計的に有意に上回りました。研究者たちは、この結果がAI言語モデルの創造的可能性が人間のそれを超えていることを示していると結論づけています。
方法論の評価 – 研究設計の妥当性と限界
この研究の方法論を詳しく検討すると、いくつかの重要な特徴と課題が見えてきます。
まず、評価基準として使用されたOpen Creativity Scoring(OCS)ツールについて考えてみましょう。このツールは、GLoVe 840Bテキストマイニングモデルを使用して意味的距離を自動計算し、独創性を評価します。従来の人間による評価と比較して、時間や費用の節約、評価者の疲労や偏見の排除といった利点があります。
しかし、この自動評価システムには根本的な限界があります。意味的距離は確かに独創性の一つの指標ですが、創造性の全体像を捉えているとは言えません。例えば、「フォークを宇宙船として使う」という回答と「フォークを楽器として使う」という回答を比較した場合、前者の方が意味的距離は大きくなるかもしれませんが、実用性や実現可能性を考慮すると、必ずしも創造的に優れているとは言えないでしょう。
また、研究では人間の参加者に3分間の時間制限を設けた一方で、GPT-4には時間制限がありませんでした。これは比較条件として公平とは言えません。人間の創造的思考には時間が必要であり、制限時間内では十分に考えを練ることができない可能性があります。
さらに、GPT-4への指示内容も重要な要素です。研究では人間への指示から「量より質が重要」という部分を削除してGPT-4に与えています。これは流暢性を統制するための措置ですが、同時にGPT-4により有利な条件を提供している可能性があります。
結果の解釈について – 数値が示すものと示さないもの
研究結果を詳しく見ると、確かにGPT-4は統計的に有意に高い独創性スコアを示しています。Alternative Uses Taskでは、人間の平均が0.79(フォーク)と0.68(ロープ)であったのに対し、GPT-4は0.84(フォーク)と0.79(ロープ)でした。Consequences Taskでも同様の傾向が見られ、Divergent Associations Taskでは人間の76.95に対してGPT-4は84.56という結果でした。
これらの数値は統計的に有意な差を示していますが、その解釈には慎重になる必要があります。まず、これらのスコアが実際の創造性とどの程度相関しているかという問題があります。意味的距離が大きいことが、必ずしも創造的に価値のあるアイデアを意味するわけではありません。
興味深いのは、語彙の多様性に関する結果です。人間の参加者は単一出現語(グループ内で一度だけ使用された語)の割合が69.92%であったのに対し、GPT-4は47.95%でした。つまり、人間の方がより多様な語彙を使用していたのです。しかし、この多様性は意味的距離スコアには反映されませんでした。
この結果は、GPT-4が特定の「高度な」語彙(例:quasar, quantum, philosophy など)を頻繁に使用することで高いスコアを獲得している可能性を示唆しています。人間が「dog」「car」「book」といった身近な語彙を使う傾向があるのに対し、GPT-4は「elephant」「symphony」「microscope」といった語彙を多用しています。これは本当に創造的なのでしょうか、それとも単に言語モデルの学習データの偏向を反映しているのでしょうか。
創造性の定義と測定の限界
この研究を理解する上で最も重要なのは、創造性をどのように定義し、測定するかという問題です。研究者たちも認めているように、創造性には独創性だけでなく、有用性や適切性という要素も含まれます。
発散的思考タスクは創造的「可能性」を測定するものであり、実際の創造的「成果」を保証するものではありません。例えば、「フォークを時計として使う」というアイデアは独創的かもしれませんが、実用性に欠けます。一方、「フォークを土に穴を開ける道具として使う」というアイデアは比較的平凡に見えても、実際に有用で実現可能です。
現在の評価システムでは、このような実用性や実現可能性を適切に評価することができません。GPT-4が高いスコアを獲得したとしても、それが実世界で価値のある創造的アイデアを生み出す能力を意味するとは限りません。
また、創造性には文脈依存性という側面もあります。同じアイデアでも、それが提示される状況や目的によって創造的価値は大きく変わります。発散的思考タスクという人工的な環境での成績が、実際の創造的活動における能力をどの程度反映しているかは疑問です。
実用性と適切性の問題
研究結果を実際の創造的活動に当てはめて考えると、いくつかの重要な課題が浮かび上がります。
まず、GPT-4の回答には実現不可能または非現実的なものが含まれている可能性があります。例えば、「ロープを量子もつれ実験に使用する」といった回答は意味的距離は大きいかもしれませんが、実用性は皆無です。人間は自然と実現可能性や実用性を考慮してアイデアを生成する傾向がありますが、AIにはそのような常識的判断が欠けている場合があります。
また、文化的・社会的適切性の問題もあります。創造性は文化的文脈の中で評価されるものですが、AIの学習データには様々な文化的背景の情報が含まれており、特定の文脈における適切性を判断することが困難です。
さらに、GPT-4の高い精巧性スコア(elaboration)についても検討が必要です。研究では、GPT-4の平均語数が人間の約4-7倍であったことが報告されています。しかし、語数が多いことが必ずしも創造的価値の高さを意味するわけではありません。簡潔で的確なアイデアの方が、冗長な説明よりも創造的に価値がある場合も多いからです。
人間とAIの創造性の本質的違い
この研究結果を考える上で重要なのは、人間とAIの創造性における本質的な違いです。
人間の創造性は、個人的な経験、感情、直感、身体的体験などと密接に結びついています。創造的アイデアは、しばしば異なる経験や知識の予期しない結合から生まれます。また、人間は創造的過程で試行錯誤を重ね、失敗から学び、時間をかけてアイデアを練り上げていきます。
一方、GPT-4のような言語モデルは、大量のテキストデータから学習したパターンに基づいて回答を生成します。確かに学習データの組み合わせは膨大で、予期しない連想を生み出すことがありますが、これが人間の創造性と同質のものかは疑問です。
研究でも指摘されているように、AIには「アイデア固着」という人間特有の認知的制約がありません。これは一見利点のように思えますが、逆に言えば、人間の創造性における重要な要素である「制約の中での工夫」や「限界の突破」という体験がAIには欠けているということでもあります。
また、創造性には動機や目的意識も重要な要素です。人間は特定の問題を解決したい、何かを表現したい、他者を感動させたいといった内発的動機によって創造的活動を行います。AIにはこのような内発的動機が存在しないため、創造性の質的側面で根本的な違いがあると考えられます。
研究の意義と今後の課題
この研究は、AI時代における創造性の理解に重要な貢献をしています。特に、従来の創造性測定手法の限界を浮き彫りにし、新しい評価方法の必要性を示した点は評価できます。
また、AIの創造的能力の一側面を定量的に示したことで、人間の創造性の独自性について再考する機会を提供しています。AIが特定のタスクで人間を上回ったとしても、それが人間の創造性の価値を減じるものではありません。むしろ、人間固有の創造性の特徴をより明確に理解するきっかけとなります。
今後の研究では、いくつかの重要な課題に取り組む必要があります。まず、創造性の実用性や適切性を含めた包括的な評価方法の開発です。意味的距離だけでなく、実現可能性、社会的価値、文化的適切性なども考慮した評価システムが必要でしょう。
また、より現実的な創造的タスクでの比較研究も重要です。発散的思考タスクは創造性の一側面を測定するものですが、実際のデザイン、芸術制作、問題解決などの複雑な創造的活動における人間とAIの能力比較も求められます。
さらに、人間とAIの協働による創造性についても研究が必要です。この研究では人間とAIを対立的に比較していますが、実際の創造的活動では両者が補完し合う関係になる可能性があります。AIの高い言語生成能力と人間の文脈理解力や価値判断能力を組み合わせることで、どちらも単独では達成できない創造的成果が生まれるかもしれません。
教育と社会への含意
この研究結果は、教育分野にも重要な示唆を与えています。もしAIが特定の創造的タスクで人間を上回るのであれば、教育現場では何を重視すべきでしょうか。
従来の発散的思考スキルの訓練だけでは不十分かもしれません。むしろ、批判的思考、価値判断、実用性の評価、他者との協働など、人間固有の能力をより重視した教育が必要になるでしょう。また、AIツールを適切に活用しながら、人間の創造性を最大限に発揮する方法を学ぶことも重要です。
社会的には、創造的職業における人間の役割の再定義が必要になるかもしれません。しかし、これは人間の創造性が無価値になることを意味するものではありません。むしろ、技術的な作業をAIに任せることで、人間はより高次の創造的活動に集中できるようになる可能性があります。
倫理的考察
AI の創造性に関する議論では、倫理的な側面も考慮する必要があります。AIが創造的作品を生成する場合、その著作権や責任の所在はどうなるのでしょうか。また、AIが人間の創造物を学習データとして使用することの妥当性についても議論が必要です。
さらに、AIの創造的能力が向上することで、人間の創造的職業が脅かされる可能性もあります。しかし、このような変化は必ずしも負の側面だけではありません。歴史を振り返ると、技術の進歩は常に新しい形の創造性や職業を生み出してきました。重要なのは、変化に適応し、人間とAIの協働関係を構築することです。
おわりに – 創造性の本質を問い直す
Hubert らの研究は、AI時代における創造性の理解に重要な一石を投じました。GPT-4が特定の発散的思考タスクで人間を上回ったという結果は、確かに注目に値します。しかし、この結果をもって「AIは人間より創造的である」と結論づけるのは性急でしょう。
創造性は、独創性だけでなく、実用性、適切性、文脈への適応、そして何より人間の経験や価値観と深く結びついた複雑な現象です。現在の測定手法や評価基準では、創造性の全体像を捉えることはできません。
むしろ、この研究結果は、私たちに創造性の本質について再考する機会を与えてくれています。人間の創造性の独自性は何なのか、AIと人間はどのように協働できるのか、そして創造性をどのように測定し、育成すべきなのか。これらの問いに答えるためには、さらなる研究と議論が必要です。
AI技術が急速に発展する現在、人間の創造性の価値を再確認し、その独自性を理解することがより重要になっています。この研究は、そのための重要な出発点となるでしょう。技術と人間の能力を対立的に捉えるのではなく、互いを補完し、より豊かな創造的活動を実現するための方向性を模索することが、今後の課題となります。
創造性の測定と理解は、単なる学術的興味にとどまらず、教育、社会、そして人間の存在意義にも関わる重要なテーマです。この研究を出発点として、より深く、より包括的な創造性の理解に向けた取り組みが続くことを期待します。
Hubert, K. F., Awa, K. N., & Zabelina, D. L. (2024). The current state of artificial intelligence generative language models is more creative than humans on divergent thinking tasks. Scientific Reports, 14, Article 3440. https://doi.org/10.1038/s41598-024-53303-w