【2025年最新】生成AIツール2024年のまとめと2025年の最新動向
2022年11月30日、ChatGPTが公開されて以降2024年12月31日現在まで2年以上が経過しましたが、生成AIの話題が収まる様子はありません。
驚くだけの話題、実際役に立つ話題など、話題をキャッチアップするのも大変です。
2024年の1年の終わりに、これまでの振り返りと2025年の予測をまとめてみました。あと個人の勝手ながら、最後に生成AI大賞2024も発表します。
LLM動向、LLMモデルベンダー動向
GPT-4oの登場
従来のモデルと違い、ハイレベルでのマルチモーダルを実現したモデルが2024年5月に登場しました。
今では標準的なLLMモデルとして利用する人も多いのではないでしょうか。
登場した当時は、回答精度の良さより回答速度が劇的に早くなって驚いた記憶が残っています。たしか、当時GPT-4は精度は良いけど結構遅いという印象がありましたので、使い勝手は今一つでした。
それが、圧倒的な速度によって一段生成AIのレベルが上がったように感じました。
「たしかに速度の速さもAIにとって重要な要素だよなー」
という点も改めて実感しました。
役立ち度: ★★★★☆
驚き度: ★★★☆☆
今では常用LLMモデルとしてGPT-4oを使っていますので役立ち度は★4つにしました。
まだ、登場から1年も経ってないですがGPT-4oの精度や回答速度が当たり前になってること自体が、生成AIの進化速度を物語っていると思います。
マルチモーダル
そんなに何年も前の話ではないですが、GPT-4Vがマルチモーダルの最初でしたでしょうか?もしかしたら2023年の登場だったかもしれません。
テキストだけでなく、画像認識対応したのはかなり驚きでした。しかも精度もそこそこ賢くて、「もうOCRいらないのでは?」と思ったくらいです。
今では当たり前になったマルチモーダルですが当時のことを振り返ると以下の評価としました。
役立ち度: ★★★★☆
驚き度: ★★★★☆
GPT-4o、Claudeでも画像認識はできます。
当時は驚きましたが、今ではLLMモデルに当たり前についている機能となってきました。
Anthropicのプロダクト
OpenAIの対抗馬として有名なAnthropicですが、2024年は怒涛のリリースラッシュでした。
先日2024年11月にAmazonから40億ドル(約7000億円)もの追加投資を受けるというニュースもあり、まだまだ世間を騒がしてくれそうです。
Claudeバージョン3.0あたりまでは、総合的にはややGPTに劣るかなという印象もありましたが、3.5sonnetの登場あたりから、
「Claude結構使えるね」
という印象に変ってきました。
というのもあり、Anthropicに$20課金してしまいました。笑
APIもOpenAIのGPTがメインでしたが、今ではClaudeのAPIも適材適所に使っています。
Claude以外にも、Anthropicは魅力的な周辺技術を数多くリリースしてきました。
Anthropic関連のニュース振り返りはこちら👇
- Artifacts
- Computer use
- MCP
役立ち度: ★★★★☆
驚き度: ★★★★★
Artifactsのインパクトと、Computer useが面白かったので驚き度は★5個にしました。
MCPも斬新なアイデアでした。OpenAIと同じくLLMモデルを提供しているAnthropicですが、OpenAIとは違うアプローチをしてるところが面白いですね。
MCPのようにプロトコルを定義して賛同者を募るというのも良い戦略だと思います。
Gemini
正直あまり使ってないのでわかりませんが、評判は悪くは無さそうです。
Googleは最初のLLMモデルの印象がとても悪かったので、多少偏見が残っていて、あまり使うモチベーションが湧き上がらないですが、GPTやClaudeと比較して遜色ないかなと思っています。
役立ち度: ?
驚き度: ★★☆☆☆
使ってないので役立ち度はわかりません。あまりGoogleからは驚くような斬新なものがリリースされたか記憶にないので、驚き度は★2つにしました。
気になったのはNotebookLMくらいかもしれません。
開発ツール
Dify
開発ツールの分野では、なんといっても2024年はDifyですね。
ジャンルとしては、ノーコードツールに該当します。
ノーコードでLLMを利用したワークフローが簡単に組めるので、プログラミングできない人でもLLMアプリケーションが作れるようになりました。
ワークフローを作るツールは、RPAを始め世の中多種多様なツールがありますが、DifyほどLLMと親和性のあるツールは無いのではないでしょうか。
前のノードのタスク出力結果を、LLMのInputとして渡して、LLMのOutputを次のノードのタスクの入力にする。といった処理がとても簡単に実現できます。
UI機能も備わっているうえに、ワークフローをAPIで呼び出せるのも強力な武器になっています。
あとは、OSSで自前のサーバでローカルに動かせるのも大きなメリットです。
情報の外部流出にリスクを抱える企業での利用においても、強力なアドバンテージになります。
ワークフローイメージ
もし、
「Difyは、名前聞いたことあるけどまだ使ったことない」
という方は、ぜひ一度使ってみることをお勧めします。
自前でサーバを立てなくても、サービスとしても提供されていますので無料でさくっと使えます。
役立ち度: ★★★★★
驚き度: ★★★☆☆
役立ち度は満点の★5つです!
実際、自分の分身AIエージェントなどでフル活用しています。
デメリットとしては、デバッグがやりづらい点でしょうか。
あとは、「この処理はPythonのこのライブラリ使えば一発で終わるのになー」
というときもあるので、結局
「最初からPythonで作ったほうが早くない?」
と感じるときも多々あります。
本番環境で利用するときも、サービス利用であれば問題にならないですが、自前の環境で自前で構築したものを利用する際には、可用性などが問題になります。
AWSのマネージドサービスで実現している例もありますが、そこそこAWS使いこなしている人でないと、
「さくっとAWSマネージドサービスで可用性を担保したDifyの立ちあげました!」
というのは難しいでしょう。
とはいえ、そんなデメリットよりメリットの方が大きいので役立つことには変わりないです。
思いついたことを、さくっとワークフロー組んで実現できるので、プロダクトにする前の検証やPoCには最適です。
特にAIエージェントは、泥臭い試行錯誤との戦いになるので、Difyほど最適なツールは今のところ見当たらないです。
Difyで試行錯誤したあと、ワークフローが固まってきたら、Pythonで置き換えるという手もあります。より高度なAIエージェントを実現したい場合は、LangGraphで実装したほうがよいケースもあると思いますが、さすがにLangGraphでワークフローの試行錯誤するのは困難だと思いますので、Difyでまず試行錯誤するのは理にかなっています。
デバッグについては、最近のバージョンで「エラー処理」の分岐ができるようになったので、デメリットも徐々に改善していくことでしょう。
機能追加などのバージョンアップ頻度がかなり多いのもDifyの魅力の1つです。
LangGraph
AIエージェントのフレームワークです。最初に登場したのは、もしかしたら2023年かもしれませんが、2024年にメジャーになってきた感じがします。
DifyはGUIによるワークフロー作成でしたが、LangGraphの場合はコーディングによりワークフローが作れます。
ワークフローイメージ
LangGraphのコードイメージ
from typing import Annotated
from langchain_anthropic import ChatAnthropic
from langchain_community.tools.tavily_search import TavilySearchResults
from langchain_core.messages import BaseMessage
from typing_extensions import TypedDict
from langgraph.graph import StateGraph, START, END
from langgraph.graph.message import add_messages
from langgraph.prebuilt import ToolNode, tools_condition
class State(TypedDict):
messages: Annotated[list, add_messages]
graph_builder = StateGraph(State)
tool = TavilySearchResults(max_results=2)
tools = [tool]
llm = ChatAnthropic(model="claude-3-5-sonnet-20240620")
llm_with_tools = llm.bind_tools(tools)
def chatbot(state: State):
return {"messages": [llm_with_tools.invoke(state["messages"])]}
graph_builder.add_node("chatbot", chatbot)
tool_node = ToolNode(tools=[tool])
graph_builder.add_node("tools", tool_node)
graph_builder.add_conditional_edges(
"chatbot",
tools_condition,
)
# Any time a tool is called, we return to the chatbot to decide the next step
graph_builder.add_edge("tools", "chatbot")
graph_builder.add_edge(START, "chatbot")
箱の部分が「ノード」と言われていて、線の部分が「エッジ」と言われています。
この「ノード」と「エッジ」を組み合わせて、ワークフローを作っていきます。
DifyもGUIで見ての通り、箱と線があると思いますが似たようなイメージです。
LangGraphは名前のとおり「Graph」という名前が付いているので、「グラフ理論」を意識したものになっているみたいですね。
「グラフ理論」自体、あまり詳しくないですが、GraphRAGでも「グラフ」の概念が利用されています。
有向非巡回グラフ(DAG)という言葉もありますが、Difyのように元のノードに戻るようなループ構造が無い場合は、DAGというみたいです。
一方で、LangGraphの場合は、元のノードに戻ってループ構造が作れるので、このあたりが違いになります。そういえば、Difyも以前ループも開発中という情報見たことがありますが、そろそろ使えるようになっているでしょうか。
LangChainから派生したものなので(と思ってますので)、メモリ機能やツール実行機能など、AIエージェントに必要な機能はそろっています。
もちろん、流行りの複数の役割を持ったエージェント同士が処理を行う「マルチエージェント」も作れます。
ドキュメント類もチュートリアルを始め、Exampleも充実しますのでこのあたりが大いに助けになります。
LangGraphを使わない場合もExample自体が参考になりますので、PythonでスクラッチでAIエージェントを作る場合も参考になります。
以下は、「Part 4: Human-in-the-loop」のコードサンプルです。
from typing import Annotated
from langchain_anthropic import ChatAnthropic
from langchain_community.tools.tavily_search import TavilySearchResults
from typing_extensions import TypedDict
from langgraph.checkpoint.memory import MemorySaver
from langgraph.graph import StateGraph, START
from langgraph.graph.message import add_messages
from langgraph.prebuilt import ToolNode, tools_condition
memory = MemorySaver()
class State(TypedDict):
messages: Annotated[list, add_messages]
graph_builder = StateGraph(State)
tool = TavilySearchResults(max_results=2)
tools = [tool]
llm = ChatAnthropic(model="claude-3-5-sonnet-20240620")
llm_with_tools = llm.bind_tools(tools)
def chatbot(state: State):
return {"messages": [llm_with_tools.invoke(state["messages"])]}
graph_builder.add_node("chatbot", chatbot)
tool_node = ToolNode(tools=[tool])
graph_builder.add_node("tools", tool_node)
graph_builder.add_conditional_edges(
"chatbot",
tools_condition,
)
graph_builder.add_edge("tools", "chatbot")
graph_builder.add_edge(START, "chatbot")
graph = graph_builder.compile(
checkpointer=memory,
# This is new!
interrupt_before=["tools"],
# Note: can also interrupt __after__ tools, if desired.
# interrupt_after=["tools"]
)
user_input = "I'm learning LangGraph. Could you do some research on it for me?"
config = {"configurable": {"thread_id": "1"}}
# The config is the **second positional argument** to stream() or invoke()!
events = graph.stream(
{"messages": [("user", user_input)]}, config, stream_mode="values"
)
for event in events:
if "messages" in event:
event["messages"][-1].pretty_print()
Exampleの例
問題は、Difyと比べるとだいぶとっつきにくいので、最初のうちは学習コストがかかります。
ただし、本格的なAIエージェントを作る場合は、有効なツールですのでDifyで満足できなくなったら、LangGraphに移行するなど適材適所で使うのがよいかなと思います。
役立ち度: ★★☆☆☆
驚き度: ★☆☆☆☆
将来性: ★★★☆☆
プロフェッショナル度: ★★★★★
役立ち度と驚き度だけだと、LangGraphの評価が低くなってしまうので、無理やり「将来性」と「プロフェッショナル度」という項目を追加しました。
改めて整理すると、既に作るAIエージェントのフローがある程度決まっている場合などは、とても有効です。
ただし、学習コストはそれなりなのと、コーディングでワークフローの試行錯誤は大変なので、
「こんな感じのAIエージェントがあったら面白いかな」
という段階ではGUIでビジュアルにワークフローが作れるDifyでモックレベルを作ってみるのがおすすめです。
AutoGen
MicrosoftによるLLMマルチエージェントフレームワークです。
登場したのは2023年だったと思いますが、「AIエージェント」という言葉の盛り上がりとともに2024年注目されてきました。
使った感じは、「LLMマルチエージェントが簡単に作れる」という点が魅力的でした。
触ってみた程度でしたが、LangGraphのとっつきにくさと違って、エージェント同士が会話するものをさくっと作れます。
反面、「これってどう使って役立てればいいのかな?」というのが引っかかったままでした。おそらく使いこなせば、役に立つマルチエージェントが作れるのかもしれませんが、本格的なAIエージェント作るのであれば「LangGraphのほうが制御しやすいかなぁ」という感じです。
あくまでも「マルチエージェントのデモアプリ」程度にはちょうどよいのかもしれませんね。
役立ち度: ★★☆☆☆
驚き度: ★★☆☆☆
マルチエージェント
デモアプリ度: ★★★★☆
AutoGenも無理やり「マルチエージェントデモアプリ度」という項目を用意しました。
個人的にはさくっと「マルチエージェントのデモアプリ」を作って披露したい場合に使えそうかなと思っています。
といっても、デモアプリ程度であればDifyのほうがさくっとできるかもしれませんね。
jinbaflow
Difyと同じようなGUIでノーコードでLLMアプリが作れます。
「No-codeを超えるLet it code」というキャッチコピーにあるとおり、自然言語でワークフローが作れます。
実はまだ使ったことがないのですが、「もしかしたらDifyより良いかも」と期待していますので、2025年新年早々に使ってみたいと思います。
なんと、noteに公式の記事がありますのでいろいろ参考になりそうですね。
役立ち度:?
驚き度: ?
期待度: ★★★★★
使ったことはないですが、今、一番期待していますので期待度を★5つにしました。
AI検索エンジン
Perplexity、GenSpark、Felo
「AI検索エンジン」という用語が適切かどうかもわかりませんが、Perplexity、GenSpark、Feloなどの「AI検索エンジン」も2024年話題になったプロダクトの1つといえるでしょう。
Google、Bingのような普通の検索エンジンと違って、検索した結果をもとにAIがいい感じで情報をまとめてくれます。
これまで、当たり前のように使っていたGoogle検索ですが、改めて考えると、検索したページを1つずつクリックしてページを見ていかないと情報にたどり着けないという煩わしさがあります。
検索の上記3件くらいで見つかればまだいいですが、10件くらいページを開いてほしい情報が見つからなかった場合は、またキーワードを試行錯誤して目的の情報を探し回ることになります。
今考えるととっても面倒ですよね?
Perplexityのような「AI検索エンジン」を使うと、いくつかのページを読み込んだうえでAIが適切にまとめてくれます。
AIが介入するので、ハルシネーションが問題になるケースもありますが、引用元の情報のリンクなどがちゃんと同時に表示されますので、自分で確認することも可能です。
検索して要約するだけでなく、各プロダクト共に付加価値の機能もいろいろありますので、使っているだけで楽しいです。
「検索革命」とも言われていますが、Google検索で味わえなかったUXを体験することができます。
GenSparkの出力例
以下はGenSparkの例ですが、「Sparkpage」というページも用意してくれます。
複数ページを参考情報として、1ページにまとめてくれます。
関連動画も紹介してくれるので、ふつうの検索と違って知識の幅も広がります。
Perplexity、GenSpark、Feloは似ていますが、細かい機能はそれぞれ特徴があります。お試しであれば無料で使えますので、一度新しい「AI検索エンジン体験」をしてみることをお勧めします。
以下はFeloの例ですが、「生成AIとは」と入力したたけで、結果をPowerPointといったプレゼン資料にしてくれる機能もあります。
役立ち度: ★★★★☆
驚き度: ★★★★☆
Perplexity、GenSpark、Feloなど「AI検索エンジン」をひっくるめた評価です。
プレゼンテーション自動AI
Gamma
プレゼンテーション自動AIツールも多種多様なものが登場してきましたが、一番人気はやはりGammaでしょうか。
無料でお試しできますので、使ってみて損はないと思います。
一言自然言語を入力するだけでセンスのいいスライド資料ができあがります。
以下は「日本の未来」と入力しただけですが、とてもおしゃれなプレゼンスライドを作ってくれました。
なんと、資料の編集もできます!グラフやガントチャートなども追加できます。
ファイルにエクスポートも可能です。
こんなおしゃれなプレゼンスライドが無料で作れるのはすごいですね。
もちろん、有料版もあるので無料で使って見て気に入ったら有料版に移行することも可能です。
役立ち度: ★★★☆☆
驚き度: ★★★★☆
それほど頑張ってプレゼン資料作る機会は無いので、役立ち度は★3つにしましたが、普段からプレゼンの機会が多い人は★5つくらいになるかもしれません。
とにかく、自然言語1つでこれだけのプレゼンスライドを作れるようになったのは驚きでした。
RAG、AdvancedRAG
ハイブリッド検索、GraphRAG、RAG-Fusion、Hyde、リランカ―など
従来のバニラRAGに対して、「AdvancedRAG」というのが盛り上がりました。
RAGの精度向上を狙ったもので、キーワード検索とベクトル検索を併用する「ハイブリッド検索」、グラフを活用した「GraphRAG」、クエリなどを加工する、RAG-Fusion、Hyde、検索結果を並び替えるリランカ―など、ありとあらゆるRAG周辺技術が2024年も話題になりました。
ただ、RAGの場合はインプットデータによって、それぞれの技術に一長一短があるので、なかなか「これさえあればOK」という技術は登場しなかったように思います。
もしかしたらキャッチアップできてないだけかもしれませんが・・・
ただ、いずれも「うまくいったケース」だけが誇張され過ぎているように感じてますので、なかなかRAG精度向上は至難の業だなーと思っています。
RAGをむきになって精度向上を狙っても、しょせんは
「検索して、LLMのプロンプトに貼りけるだけ」
です。精度向上には限界があるので、「RAGは所詮精度60~70点を狙うもの」と割り切った方が胃にやさしいのではと思っています。
RAGも限界が見えてきたせいか、生成AI界隈の話題は「RAG」から「AIエージェント」に移り変わってきたように感じています。
AIエージェント
RAGに変って生成AIの主役に躍り出たのが「AIエージェント」でした。Auto-GPTやBabyAGIなど、概念自体は古くからありましたが、LangGraph、AutoGen、Diryなどのフレームワークや開発ツール、あとGPTsのようなサービスとして提供されるものまで、2024年にかなり洗練されてきたように思います。
「AIエージェント」は2025年もまだまだ話題になりそうですね。
とはいえ、「AIエージェント」も課題が多くまだまだ研究要素が強い領域ですので、そう簡単に「何でも役に立つAIエージェント」は作れません。
「苦労しながら頑張って作ったわりに、あまり役に立つAIエージェントができなかった」
という事例も2025年たくさん出来上がってくるでしょう。
おそらく、失敗事例は公になることは少なく、
「ほら、こんな役立つAIエージェントできた!」
というデモレベルのアプリケーションが量産されていくことが予想されます。
という中でも本当に役立つAIエージェントができればインパクトは大きいです。
「AIエージェント」の概念自体は、未来にとって必要不可欠なものですので2025年もトライする価値はあると考えています。
その他
動画生成AI
soraを始め、Runway、Pikaなどの動画生成AIにも驚かされました。
もう、そのうち映画も自分で作れそうですね。
まだまだ、映画ほど長時間の動画は難しいと思いますが、CM程度の数十秒くらいであれば、自分でそこそこ作れるようになってきました。
役立ち度: ★☆☆☆☆
驚き度: ★★★★☆
天才くん
使ったことは無いですが、面白そうでしたのでご紹介まで。
天秤AI
生成AIのLLMもGPT、Claude、Geminiとメジャーなものでも3種類あって、しかも、それぞれモデルバージョンによって回答精度が変わってくるので、
「いったいどれ使えばいいの?」
というのがよくわからず、
「とりあえず使い慣れたGPT-4o使っておけば間違いないだろう。」
という人も多いのではないでしょうか。
そんなときに画面で横並びで各LLMの出力結果を比較できる「天秤AI」がおすすめです。
以下は、「生成AIとは?」というプロンプトをGPT-4o、Gemini 2.0Flash、Claude3.5Sonnetを横並びで比較した結果です。
こうやって横並びで比較すると、モデルごとの良し悪しが一目でわかるので最高です。
しかも、これが無料で使えるのでさらに最高ですね。
satto
ソフトバンクの生成AIエージェントがリリースされました。まだベータ版です。
これも使ったことは無いですが、面白そうでしたのでご紹介まで。
生成AI大賞2024
まだまだ生成AIツールはありますが、紹介するだけで大量の文章になりそうで、今年中に書き終わる自信がなくなってきました・・・
そろそろ今年も終わりそうなので、勝手に2024年生成AI大賞を決めて終わろうと思います。
今年2024年の生成AI大賞は、
Difyです!! 👏👏👏🎉🎉
理由は、Difyのおかげで検証、PoCスピードが圧倒的に加速しました。
生成AIでアプリケーションを作る場合、AIというプログラミングだけとは違ったエッセンスが入ってくるので、「AIで本当にやりたいことが実現できるか」を確認するために、さくっとワークフローを作って試行錯誤する必要性がどうしても出てきます。
DifyはそんなAIの課題を解決してくれます。
自分に日々日課であるルーチンワークもDifyで少しずつ代替できつつあります。
そのうち自分専用のAIエージェントもDifyさえあれば、そう遠くないうちに実現できそうです。
2025年も新年早々に「AIエージェント」の話題で始まりそうですので、引き続き「AIエージェント」を勉強していきます。
2025年の予測
最後に2025年の予測ですが、「AIエージェント」が盛り上がることは間違いないでしょう。
でも、前述のとおり「AIエージェント」にはまだまだ課題が多いです。
ワークフローはDifyなどのおかげで、簡単に作れるようになりました。
あと足りない技術としては、AIエージェントの「可視化」、「評価」ができるツールがまだ見つけられていません。
AIエージェントが複雑になるにつれて、この「可視化」と「評価」が重要なポイントとなります。
おそらく、探せば何かはありそうですので、2025年新年から探していこうと思います。
Discussion