From Google Gemini to OpenAI Q* の論文を読んだ
概要
From Google Gemini to OpenAI Q* (Q-Star): A Survey of Reshaping the Generative Artificial Intelligence (AI) Research Landscape という論文を読みました。
2023年12月の論文です。現時点での生成AIに対する最新のサーベイ論文と言えます。カバーしている範囲がかなり広いので全部紹介するのは諦めて、個人的に面白かった点をかいつまんで紹介したいと思います。
各要素の生成AIへのインパクト
この論文で一番面白かったのは、生成AIに関係する各要素が今後どのくらいの影響度を持つのかをまとめた表です。
最初の表は評価基準を示したもので、右上の矢印は「新しい研究分野であり、今後とくに重要になる要素」を意味します。双方向の矢印は「大きな進歩はないが現在の価値を維持する要素」、左下の矢印は「今後は関連が低くなる、もしくは時代遅れとなる要素」を示します。これを元に2つ目の表を見てみます。
この表はモデルアーキテクチャー、トレーニング手法、アプリケーションドメインなどの各分野のサブドメインごとの要素がMoE、マルチモーダリティ、AGIにおいてどの程度インパクトがあるかを示しています。Transformerモデルは今後とも関連性が高いですが、RNNは重要性が下がっていくようです。マルチモーダルモデルはインパクトが大きくなっていきます。この辺は肌間と近いのではないでしょうか。
面白いのは教師あり学習(Supervised Learning)のAGIでのスコアが低い点です。AGIにおける自律的な学習手法へのシフトに伴い、教師あり学習に関連するラベル付きデータセットへの依存度が低下し、重要度が低下する可能性があると書かれています。
コンプライアンスまわりのスコアが高くなっています。AGIの幅広い認知能力により、多様な領域のバイアスを理解し、対処するための包括的なアプローチが重要な研究領域として浮上しつつあると記載がありました。またマルチモーダルAIシステムで画像や音声などの機密データを扱う場合にテーラーメイドのプライバシー戦略が必要となってくるため、重要度が上がってくるようです。
インタラクティブ分野のスコアが高いのも興味深い点です。ロボット工学やバーチャルアシスタントの分野でスコアが高くなっています。AGIの進化にはインタラクティブなAIの大幅な進歩が含まれているのが原因のようです。
査読プロセスの改善について
論文の後半ではarXvへのプレプリントの投稿件数の大幅な増加と、学会の査読がそれに圧倒されている点が取り上げられています。ここも面白かったので紹介します。
まずarXvへの投稿数がすさまじいペースで増えています。ChatGPTのようなLLMによって論文の作成ペースが大幅に上がっているのが原因と言えます。学術的な厳密さの基礎となる査読システムは圧倒され、脅威にさらされています。「学会は岐路に立たされています」緊急かつ思慮深い言説が必要であり、放置すると制御不能になると書かれています。かなり強い表現ですが、最近の論文の発表ペースを見ると、完全に事実だと思います。
改善のためには自動化されたツールやAIによるレビュープロセスを取り入れる必要があります。またコミュニティベースの予備レビューを取り入れ、その後より正式な査読プロセスで学術的な厳密性と品質を保証をすることができます。このようなハイブリッドな査読システムを導入することで、プレプリントの速度と査読付き研究の信頼性の両方を確保することができるのではないかと提案しています。
まとめ
抽象度が高めに書かれているので、AIエンジニア以外が読んでも面白い内容になっていると思います。最新のQ-Star、AGIを踏まえてのサーベイなので、最先端のトレンドを押さえるという目的でも役に立ちそうです。
Discussion