🐰

2024年12月時点の生成AIについてのメモ

2024/12/27に公開

生成AIに関して、いろいろ聞いてみたいと依頼を受けたので、脳内メモをまとめてみようと思います。
せっかくなので(一般情報+私見なので)公開してしまいます。
ちなみに年末なので、この1年の振り返りと、来年の「私的」予想というストーリーで書いてみようと思います。

2024年を考える(振り返り)

  • 前半はGPT-4oが登場し、RAG全盛のタイミング
  • 後半はOpenAI o1が登場し、ファインチューニングに移行

AOAI(Azure OpenAI Service)を中心に利用しているということもあり、5月にBuildに参加、11月にはIgniteに参加させて頂きました。一番印象的だったのは、5月時点では「みんなRAGをやろうよ、今のトレンドだから。ファインチューニングはまだ早い」という感じだったのに、半年経って11月に話を聞いてみると「RAGのセッションがほとんどない。多くの内容はファインチューニングに移行していた」ということです。半年でこうも変わるか、と思わされましたが、それだけ激動の一年だったと思います。

ちなみに、多くの企業がファインチューニングに移行していますが、目的はコスト削減です。性能の高いモデルをファインチューニングして高みを目指すのではなく、コストの安いモデルをファインチューニングし、高いモデル並みに動かす、という事例がほとんどです。

12月時点での見え方

AIのフレームワークについて

私は、今年初めの時点で、AIの世界の流れが早すぎるので抽象化レイヤーを入れて吸収できないかと考えていました。そのため、オーケストレータ―としてのLangChainに注目して、5月のタイミングでサンフランシスコのLangChainにも伺いました。現状でもオーケストレータ―としてはLangChain・LangGraphがかなり使われています。

来年どうなっているかわからないなぁと思いつつ、立ち止まっていては何も進まないので、現状ではLangGraphベースで作ったりしています。来年に向けては継続して要チェックな領域です。

RAGがどうなっているか?

実際にやってみてというのもありますし、いろいろな事例を聞いていて感じるのは、「RAGが不要にはならないが、頑張ったものの精度向上に限界を迎えている。70%以上の精度がでれば十分とするケースも多い」ということです。春にはRAGを頑張ってもっと高い精度を求めるのかなと思っていましたが、気づけばみんなある程度のところで見切りをつけていました。

具体的にはRAGの精度に満足していないのでファインチューニングの組み合わせがはじまっているという印象が強いです。もちろん既に書いたようにコスト削減のためのファインチューニングのほうが多いですが、狙いも様々という感じです。

ファインチューニングの進度

一番多い事例は、高価なモデル(GPT-4o)と同精度の出る安価なモデル(GPT-4o mini)への置き換えです。やっぱり高額モデルをたくさん回すとどうしても高額になってしまうので、どうにかしたいというニーズは多いです。ちなみに、GPT-4o miniをファインチューニングするための学習データが足りないので、o1モデルを使う方法もあり、この辺のテクニックはどんどん進化しています。

そうなってくると2025年は?

一旦わかりやすい範囲をまとめてみる

  • ファインチューニングによって、自分たちが管理するモデルが増える傾向になる
  • RAGはある程度限界を迎えているが、GraphRAGを組み合わせる方向に進化
  • つまりコンポーネントが多様化していて、それらの結びつけが必要な状況になってきている

これらは予想しやすい世界観です。「XXX用のモデル」みたいな感じでモデルが増産されて、管理しなければならなくなりますし、ベクトルDBだけでなく、グラフDBも増えてきて、それらを統合的に管理する必要があります。うまく結びつけないと良さは引き出せないし、管理コストを抑えることも考えないといけません。

ではエージェントの進化はどうなる?

  • 現在(12月時点)の評価としてはエージェントがバズワードになっている
  • エージェントになっていないものは置いておいて、狭義のエージェントと広義のエージェントがある
  • 狭義のエージェントはLangGraphのようなオーケストレータ―の中のエージェント。コントローラーに近い
  • 広義のエージェントはクラウドベンダーが提唱するようなエージェントでサービス化されている
  • 特に広義のエージェントはサブスク化が進み、選択が広がると想定(マルチモーダルなども)

来年はエージェントに注目ですが、我々利用者はキーワードに踊らされないようにする必要があるので、どういう文脈のエージェントと言っているのかを確認しながら会話する必要があります。感覚的には3種類の使われ方をしていて、全然エージェントではないがバズワードに乗っかってエージェントと言っているパターンと、上記のような狭義パターン、広義パターンです。そのため、如何にノイズを除去して、分類・整理できるかも重要になってきます。特に広義のほうは群雄割拠している状態なので、情報を収集しつつ良く観察しておく必要があると思います。

DifyなどのAI民主化ソリューションは?

  • 一定数の利用が進むと思うものの、どこまで広まるかは未知数
  • ネガティブ要素があるとすれば、できることが限定的
  • SaaSとしてライトに活用できるほうがよく、使い捨てがベースかもしれない

ローコード的に使えるAIソリューションですが、ここもかなり流れが早いと思います。個人的に気になっているのは、本格的に使おうとすると割と早い段階で限界が来てしまうというところです。特に、なんだかんだ言ってもRAGは必要ですし、GraphRAGも必要になってくることを考えると、データの部分をローコードソリューションに取り込むのは難しいのが課題です(外に出して連携する必要が出てきてしまいます)。
そうなってくると、無理にローコードで実装する必要もなく、システム開発が必要ですがオーケストレータ―で繋げてしまったほうが良いとも思います。そう考えると、使い方がある程度限定されるので、判断ポイントが難しいと思っています。

モデル自体の進化は?

  • o1モデルがかなり賢いので、賢さ重視のモデルには期待
  • 分析型(o1)、標準型(GPT-4o)、コスパ重視(GPT-4o mini)のような分化が進む
  • 個人的には音声や画像の理解度が上がる気がする。例えばGPT-4oでも単に聞こえる音声だけでなく、文脈も加えて判断しているように見受けられる。例えば、canとcan’tの聞き分けは難しいが、逆の意味で取り違えていないかを文の流れで判断しているように感じることがある(モデルがより人間っぽくなっている)

と言っているそばからo3が登場しました。はじめ、この記事を書く前には12Daysのまとめ記事を書こうかなと思ってましたが、既にいい記事も沢山あります。一緒に海外で情報収集した森重さんも記事を書いてくれているので、添付しておきます。
(なので私的な観点・ビジョンを書いたほうが面白いかなと思って、この記事を書きました)
https://galirage.notion.site/12-Days-of-OpenAI-16641352f7238089a411c9b789b4aa34

さて、話は戻してモデルですが、ここは想像を超えてきているというのが正直な感想です。また、思った以上に高額化の波も進んでいて、如何にそれらの良さを引き出せるかがポイントになってくるでしょう。o1モデルをどう使いこなすかを考えていましたが、その後の2手先くらいは考えないとダメですね。特にシステム開発に関してはドラスティックに変わる可能性があって、本当にプログラマーが不要な時代が来てしまうかもしれません。厳密にはゼロにならないと思いますが、量産する部分は不要になってしまうかもしれません。

また、そういう世界観になると、開発プロセスも変化すると思います。これまで、ウォーターフォール開発→スパイラル開発→アジャイル開発という流れがありましたが、そろそろ次の手法が生まれそうな気がします。アジャイル開発の進化版という人もいるかもしれませんが、個人的には別物として再定義したほうが面白いのでは、と思ったりしています。

今回の記事はここまでです。それでは良いお年を。

Discussion