AIのアイデアは人間を超えるか?相反する結論の論文2本から学ぶ「創造性」の正しい測り方
はじめに
「生成AIは、人間の創造性を超えるのか?」
この問いは、技術者からビジネスパーソンまで、多くの人が関心を寄せるテーマです。この問いに答えようと、学術の世界でも「人間 vs AI」の比較研究が数多く行われています。
しかし、不思議なことに、その研究結果は必ずしも一貫していません。「人間がAIを上回った」という研究もあれば、「AIが人間を上回った」という研究も存在するのです。
この記事では、奇しくも2024年に発表された、相反する結論に至った2つの論文を徹底的に比較・分析します。
- 人間がAIを上回った研究: 立命館大学 鈴木貴之准教授の論文
- AIが人間を上回った研究: 独ニュルンベルク工科大学などの共同チームによる論文
なぜ、同じような比較研究で正反対の結果が出たのか?その謎を解き明かす鍵は、創造性を測る「ものさし」そのものにありました。この記事を読めば、AIの創造性を表面的にではなく、多角的かつ目的に応じて評価するための、深い洞察と具体的なフレームワークを得ることができます。
評価の原点:ギルフォードの「拡散的思考」と4つの指標
ケーススタディに入る前に、両方の論文で触れられている創造性評価の「ものさし」が、そもそもどこから来たのかを解説します。
これらの指標の源流は、アメリカの心理学者 J.P. ギルフォード(Joy Paul Guilford) が1950年代から発展させた創造性研究にあります。彼は、創造性の重要な要素として 拡散的思考(Divergent Thinking) という概念を提唱しました。
- 拡散的思考 (Divergent Thinking): 一つの問いに対して、制約のない自由な発想で、多様な答えを数多く生み出す思考。いわゆる「頭の柔らかさ」や「発想力」の源泉。
- 収束的思考 (Convergent Thinking): 多数の選択肢の中から、論理的な分析に基づき、唯一の正しい答えを見つけ出す思考。
この「拡散的思考」の能力を測定するためにギルフォードが1967年に開発した有名なテストが AUT(Alternate Uses Task) です。これは、例えば「レンガの使い道をできるだけ多く挙げてください」といった課題を与え、その回答を以下の4つの観点から評価するものです。
- 流暢性 (Fluency): 生成されたアイデアの総数。
- 柔軟性 (Flexibility): 生成されたアイデアのカテゴリーの多様性。(例:「重し」「武器」「建材」など、異なるカテゴリーのアイデアをいくつ出せたか)
- 独創性 (Originality): 生成されたアイデアの新規性・珍しさ。(例:「粉々にして赤い顔料にする」など、他の人が思いつかないような珍しいアイデアか)
- 精緻性 (Elaboration): 生成されたアイデアの具体性・詳細さ。(例:「ドアが風で閉まらないようにするための重しとして使う」など、単なる「重し」より具体的か)
元々は人間の心理を測るために開発されたこのフレームワークが、非常に汎用的で強力なため、現代ではAIの創造性を評価する「ものさし」としても応用されているのです。
ケーススタディ①「人間がAIを上回った」研究(立命館大学)
では、この4つの指標を使って人間とAIを比較した研究から見ていきましょう。
- 論文: 鈴木貴之 (2024). 人間vs生成AI: 創造的アイデア生成の能力に関する比較分析. デザイン科学研究, 4(1), 77-96.
- AIモデル: GPT-4
研究の概要
この研究では、「漬物の新製品開発」というテーマで、大学生のチームとGPT-4がアイデア出し対決を行いました。両者は「5W1Hフレームワーク」という共通の手法を用い、生成されたアイデアを第三者が評価しました。
評価の「ものさし」
この研究で採用されたのが、まさに先ほど解説したギルフォード由来の4指標です。
- 独創性 (Originality)
- 柔軟性 (Flexibility)
- 流暢さ (Fluency)
- 詳細性 (Elaboration)
具体的なアイデアの方向性
論文中では、個々の具体的なアイデア(例:「アボカドの味噌漬け」など)までは記載されていません。しかし、どのような種類のアイデアが各指標で評価されるかの定義例が示されています。
-
独創性で評価されるアイデア例:
- 「通常の漬物にはない特別な食材を使用したり、新しい保存方法を提案するアイデア」など。
-
柔軟性で評価されるアイデア例:
- 「漬物を健康食品として再定義するアイデアや、漬物を用いた新しい料理の提案」など。
-
詳細性で評価されるアイデア例:
- 「新しい漬物の製法や具体的な味の組み合わせ、市場での位置づけなど、アイデアに関する具体的な情報を提供すること」など。
結果
分析の結果、独創性・柔軟性・詳細性の3つの指標で、人間のアイデアがGPT-4を有意に上回りました。一方で、アイデアの量を示す流暢さには、両者で有意な差は見られませんでした。
この研究は、AIは量を出すのは得意でも、質(特に人間的な経験からくる発想の飛躍や、深い具体性)の面では、まだ人間の創造性に及ばない可能性があることを示唆しています。
ケーススタディ②「AIが人間を上回った」研究(ニュルンベルク工科大)
次に、AIが人間を上回るという、正反対の結果を示した研究を見ていきます。
- 論文: J. Joosten, V. Bilgram, A. Hahn and D. Totzek, "Comparing the Ideation Quality of Humans With Generative Artificial Intelligence," in IEEE Engineering Management Review, vol. 52, no. 2, pp. 153-164, April 2024, doi: 10.1109/EMR.2024.3353338.
- AIモデル: GPT-3.5
研究の概要
こちらは「特殊パッケージングソリューション」という専門的なテーマで、その企業の専門家チームとChatGPTが出したアイデアを比較しました。評価は、企業の責任者がアイデアの出所を知らない状態(ブラインド評価)で行われました。
評価の「ものさし」
こちらの研究で使われた指標は、立命館大学の研究とは異なり、よりビジネス的な観点を含んでいます。
- 斬新性 (Novelty): アイデアが既存市場の規範と比較してどれだけ際立っているか。
- 顧客便益 (Customer benefit): アイデアが顧客の根本的な問題をどれだけ効果的に解決できるか。
- 実現可能性 (Feasibility): アイデアを実際の商業製品に変換するのがどれだけ容易か。
具体的なアイデアの方向性
こちらの論文でも、企業との共同研究という性質上、個々の具体的なアイデアは機密情報にあたるため記載されていません。しかし、アイデアを生成するためのタスク(お題)が具体的に記されています。このお題から、どのような方向性のアイデアが求められていたかが分かります。
人間とAIには、以下の2つの共通のタスクが与えられました。
-
タスク1:
- 会社の顧客に付加価値を与えるような、新しく創造的で具体的なパッケージングソリューションのアイデアを生成する。
-
タスク2:
- 持続可能な開発目標(SDGs)や環境規制に沿った、持続可能なパッケージングソリューションまたはビジネスモデルを考案する。
このお題に対し、AIは「斬新性」と「顧客便益」で高いスコアを出しました。これは、AIが「持続可能性」という現代的なテーマと、学習した膨大な情報の中から「顧客が価値を感じる意外な組み合わせ」を結びつけるのが得意だった可能性を示唆しています。
結果
驚くべきことに、結果は立命館大学の研究とは正反対になりました。
斬新性と顧客便益の2つの指標で、AIのアイデアが人間の専門家のアイデアを有意に上回ったのです。実現可能性については、両者に有意な差はありませんでした。総合的な品質スコアでもAIが人間を上回り、評価の高かった「トップアイデア」の大半もAIによるものでした。
なぜ結果は正反対になったのか?評価の「ものさし」を考察する
同じ「人間 vs AI」のアイデア対決で、なぜここまで真逆の結果が出たのでしょうか。その答えは、両者の研究デザインの違い、特に評価の「ものさし」の違いにあります。
比較項目 | ① 立命館大の研究 | ② ニュルンベルク工科大の研究 |
---|---|---|
人間の参加者 | 大学生 | 企業の専門家 |
評価指標 |
創造性が中心 (独創性、柔軟性、流暢さ、詳細性) |
ビジネス価値が中心 (斬新性、顧客便益、実現可能性) |
結論 |
人間 > AI (質・具体性で優位) |
AI > 人間 (斬新性・顧客便益で優位) |
この比較から、以下の2点が考察できます。
1. 評価指標の違いが結論を左右した
立命館大学の研究は「アイデアそのものの創造的な特性(珍しさ、多様さ)」を測っています。一方でIEEEの研究は「アイデアがもたらすビジネス上の価値(顧客にとっての価値、実現しやすさ)」を測っています。
つまり、「創造性」という言葉をどう定義し、何を測るかによって、AIと人間の優劣が逆転しうるのです。
2. 参加者の違いも影響した可能性
IEEEの論文では、人間の専門家は既存の知識や実現可能性の壁に無意識に捉われ、思考が制約される「認知バイアス」に陥る可能性があると示唆されています。一方、大学生はより自由な発想ができたかもしれません。この参加者の特性の違いも、結果に影響を与えた可能性があります。
私たちは「AIの創造性」をどう評価すべきか?
これら2つの論文は、AIの創造性を評価する上で非常に重要な教訓を与えてくれます。
-
評価の「目的」を明確にする
測りたいのは、純粋な発想のユニークさ(立命館大の研究モデル)なのか、それとも市場での成功可能性(IEEEの研究モデル)なのか。まず目的を定め、それに合った「ものさし」を選ぶことが全ての出発点です。 -
評価指標を具体的に定義する
「良いアイデア」といった曖昧な基準ではなく、「斬新性とは、既存製品と比較して〇〇な点」のように、評価指標を具体的かつ明確に定義することが、客観的な評価には不可欠です。両研究とも、この定義を厳密に行っています。 -
評価方法のバイアスを意識する
評価者が誰かによって結果は変わります。IEEEの研究のように、評価者の無意識なバイアスを測定したり、立命館大学の研究のように複数の評価者の平均を取ったりするなど、評価プロセスの公平性を担保する工夫が求められます。
おわりに
「AIのアイデアは人間を超えるか?」——この問いへの答えは、私たちがどの「ものさし」を手に取るかによって変わります。
今回紹介した2つの論文は、一見すると矛盾していますが、両方読むことで初めて「AIの創造性評価」の全体像が見えてきます。それは、AIの能力を単一の軸で測るのではなく、目的に応じた多角的な視点で評価する必要があるという、深く、重要な教訓です。
そして、どちらの論文も最終的には、AIと人間が競い合うのではなく、互いの長所を活かし合う「ハイブリッドな協働アプローチ」の重要性を結論として示唆しています。AIに多様なアイデアを生成させ、それを人間がビジネスの文脈で磨き上げる。この協力関係こそが、未来のイノベーションの鍵となるでしょう。
参考文献
- 鈴木貴之 (2024). 人間vs生成AI: 創造的アイデア生成の能力に関する比較分析. デザイン科学研究, 4(1), 77-96.
- J. Joosten, V. Bilgram, A. Hahn and D. Totzek, "Comparing the Ideation Quality of Humans With Generative Artificial Intelligence," in IEEE Engineering Management Review, vol. 52, no. 2, pp. 153-164, April 2024, doi: 10.1109/EMR.2024.3353338.
Discussion