🌊

最近のAI Agentの意味合いを考えてみる。

に公開

人によってニュアンスや、定義幅が異なるAI Agent。

AI Agentの機能と近年のインターフェイスを知ることでAI Agentの意味を考える記事です。
無論、下記に該当しないAI Agentも存在すると思いますが、近年のAI Agentは下記のようなインターフェイスが求められている感があります。(あなたがイメージしているAI Agentとの比較をしてみましょう。)

1. A2Aで他のAI Agentとコミュニケーションが取れること。

googleが考えたプロトコル
https://google.github.io/A2A/


引用:https://google.github.io/A2A/

このプロトコルが存在することを考えると、完全に万能な(神様的)AI Agentが作られていくというよりは、さまざまなAI Agentが協力しあって課題を解いていくという感じでしょうか?

2. AI AgentはMCPプロトコルで、ツールやAPIを呼び出すことができる。

https://modelcontextprotocol.io/introduction

AI Agentは特定の課題を解決(アシスト)するのに有効なtoolやリソースを呼び出すためのプロトコルといった感じでしょうか。

  • Resources
  • Prompts
  • Tools
    ...

AI AgentはMCPクライアント、内部でtools等も含めて実装してしまう場合は、内部側でMCPサーバーを実装している必要があります。

3. AIエージェントは自身の脳みそである高性能なLLMを包括している。

ここは相変わらず、LLMの性能は非常に重要な要件だと思います。(ポンコツLLMだとAgentは瞬時に破綻する。)
ただ、全てLLMに任せるのではなく、外部知識の参照(RAG)や、MCPを活用したtoolやリソースの利用の権限をLLMに、移譲または、プログラムで、挙動を最低限命令してタスクをこなすことが重要なポイントだと思います。

4.AI Agentが解くべき課題と密接に関連するtoolに対して、AI Agentが、直接的にそのtoolと連動できること(ユーザビリティ)。

たとえば、あるAI Agentの解決すべき課題が、GithubのissueからPRを生成することであるにもかかわらず、AI AgentがGithubに直接連携できない問題があれば、ユーザーの手間が増えることが考えられます。そんなAI Agentはおそらくすぐ廃れてしまうでしょう。ただしここはセキュリティとのトレードオフにはなりそうな予感がします。

Discussion