☎️

自律駆動型AIエージェントについて・・おや?こんな時間に電話が・・・

に公開

エンジニアとして、これまで数々の技術トレンドを見てきましたが、今回は今流行り始めの自律駆動型AIエージェントについてお話しします。皆さんに何かヒントになれば幸いです。では、早速始めましょう。

1. 自律駆動型AIエージェントとは

自律駆動型AIエージェントは、人間が細かく指示を出さなくても、与えられた目標に向かって自ら考えて行動するAIのことです。従来のAIが「ボタンを押したら決まった動きをする」ようなものだとすれば、これは「目的を伝えたら勝手にプランを立てて実行する」ようなイメージです。例えば、旅行の計画を立てたり、コードを書いたりするようなタスクを、複数のステップを踏んでこなしてくれます。技術的には、大規模言語モデル(LLM)や強化学習がベースになっていて、自己学習や状況への適応が強みです。

2. 最近の主な自律駆動型AIエージェント

最近、この分野で面白い動きが国内外で出ています。ここでは、代表的なものを2つの表にまとめました。まずは、幅広い用途のエージェントから。

2.1 様々なAIエージェント

製品名 メーカー名 有償/無償 国内/海外 カテゴリー 内容・特徴 参考ページURL
AutoGPT OpenAI 無償 海外 自律駆動型AI タスクを自律実行し、情報収集や問題解決を行う リンク
BabyAGI Wrexiv 無償 国内 自律駆動型AI 新規開発やアプリ組み込みが可能な自律型エージェント リンク
SmartAgent NTTデータ 有償 国内 業務効率化 オフィスワーカーの生産性向上を目指す リンク
Devin Cognition 無償 国内 エンジニア支援 完全自律型AIエンジニアとしてコード補完やテストを自動化 リンク
Operator OpenAI 無償 海外 業務自動化 タイマーでAI操作を自動化 リンク
Magentic-One Microsoft 無償 海外 マルチエージェント 複数AIが協力してタスク遂行するオープンソースシステム リンク
LITRON Sales NTTデータ 有償 国内 営業支援 営業業務のデータ入力や提案書作成を自律実行 リンク
Google Agentspace Google 無償 海外 業務効率化 企業データを活用し生産性向上を支援 リンク
DoNotPay DoNotPay 無償 海外 法律支援 法律関連の問題を自動解決 リンク
Fujitsu Kozuchi AI Agent Fujitsu 無償 国内 業務支援 会議や業務の効率化を図る リンク

次に、コーディング支援に特化したエージェントです。エンジニアなら、ここが気になるところでしょう。

2.2 最近ホットなコーディング支援系エージェント

製品名 メーカー名 有償/無償 国内/海外 カテゴリー 内容・特徴 参考ページURL
Cline Cline 無償 国内 コーディング支援 VSCode上で動作。コード生成やターミナル操作を自動化 リンク
Roo Code qpd-v(GitHub) 無償 国内 コーディング支援 Clineベースの強化版。自然言語で開発支援 リンク
Manus Monica.im 有償 海外 コーディング支援 指示に基づきプログラム生成。複雑なタスクを自動化 リンク
Aider オープンソース 無償 国内 コーディング支援 CLIベース。Git連携でコード変更を自動コミット リンク
Devin Cognition AI 有償 国内 コーディング支援 設計からデプロイまで自動化。ターミナル内蔵 リンク
Claude Code Anthropic 無償 国内 コーディング支援 自然言語操作が可能。コード理解力とGit操作が強み リンク
Bolt StackBlitz 無償 国内 コーディング支援 自然言語からWebアプリ構築。ブラウザで完結 リンク
Cursor Cursor 有償 国内 コーディング支援 VSCode派生。リアルタイム補完と文脈把握が特徴 リンク
V0 Vercel 無償 国内 コーディング支援 テキストからUI生成。Tailwind対応コードを出力 リンク
Roo-Cline takahiroanno2024(GitHub) 無償 国内 コーディング支援 Clineベース。自然言語指示で開発を進める リンク

3. Gensparkのスーパーエージェントについて

この記事を執筆中に、多数のAIをミックスして使えることで有名なGensparkが、スーパーエージェントなるものを公開したというニュースが入ってきたため、急遽、私自身が使ってみた感想を交えて紹介します。結論から言うと、一線を越えた感がすごい・・・という感想となります。詳細は後述します。
https://mainfunc.ai/blog/genspark_super_agent

このスーパーエージェント、Gensparkの機能的には複数のエージェント機能が追加され、元々各種のAIをミックス出来た上に、それらエージェント機能を使いこなして、計画と行動を自立して行えることから、「スーパー」を冠するようになったようです。

そんなことを言われても、なかなか分かりにくく、ベンチマークとか見せられても何が凄いか分からないので、とりあえず使ってみました。

3.1 名古屋旅行の旅程を作成してみた

まず、Gensparkスーパーエージェントに次の日曜日に予定している名古屋日帰り旅行プランを作ってもらいました。結果は驚くほど良かったです。子供連れやシニアといったメンバーの属性を伝えると、それに合わせた観光地やスケジュールを提案してくれました。観光地の写真付きで、移動時間や休憩ポイントまで計算済み。趣味嗜好に合わせた立ち寄り先に食事。自分で作るよりきめ細やかで、正直、旅行代理店に頼む必要がないレベルだと感じました。他のAIでも幾度か試したことでしたが、今回は質の高さに感心しました。ただ、スーパーエージェントは言い過ぎだと正直思いました。

3.2 会社のポスター作成

次に、会社のイベント用ポスターを依頼。デザインや雰囲気自体は悪くなかったのですが、文字が一部文字化けしていたり、重要なロゴが斜めに配置されていたりと、実用性には難ありでした。ただ、指示の出し方を工夫すれば改善できそうで、将来的にはデザインツールの代替として使える可能性を感じます。まだ発展途上ですが、リサーチ結果を基に画像を作成する、ちょっと面白い機能です。ただこれも、スーパーエージェントか、と言われると最近の画像生成AIの機能向上を考えると、二番煎じ的に思え、新鮮味に欠けました。

3.3 通話代行エージェント

次は通話代行です。エージェントに自分の電話番号を登録することからこのサービスの利用は始まるのですが、その時点で「ふんふん・・・え?」となりました。試しに番号を登録すると、自分の携帯に確認コードが届き、番号の正当性確認が終了後、エージェントの声を10人くらいのキャラクターから選んで、通話テストが始まりました。

しばらくすると、自分の携帯電話に着信があり、先ほど選択したキャラクターが電話越しに日本語でしゃべりかけてきました。「・・・え?」としばらく固まってしまったのですが、思いついたように「はい!」と答えると電話は切れてしまいました。パソコンの画面を見ると、僕が「Hi」と喋ったログが表示されていましたが、「電話に出られなかったようです」と通話結果が表示されていました。

情報量が多すぎてしばらく混乱し、頭を冷やして整理しましたが、要はAIエージェントにプロンプト指示することで、自律的に必要な相手先に電話をかけて、必要な会話を行って、電話を切って一仕事終えるまでをやってくれるエージェントみたいです。※ちなみに通話テストの着信元は050番号でした。

ここで無料プランは限界を迎えてしまい、残念ながら本格的なテストは出来なかったのですが、サンプル動画等を見る限り、ガチでレストランに電話して音声ガイダンスに対するプッシュ音での対応から、店の人が電話口に出てきてから、AIエージェントが曜日や人数の指定をして窓際テーブルを希望して、店側が困惑しながら窓際にはテーブルが無くてカウンターしかないんやけど・・・などの会話を全てクリアして、予約完了するまで3分弱でやりきっていました。
・・・これはスーパーエージェント!!!!
Gensparkのレストラン予約実行のサンプルはこちら

AIエージェントがブラウザの中だけから出てきて、コーティングや資料作成や色々とやり始めたと思ったら、ついにPCから外に出てしまい、電話をかけてきて人としゃべり始めました。貞子で有名な「リング」という小説の続編の「らせん」のさらに続編の「ループ」で、コンピュータシミュレータの中の世界の住人が外の現実世界に電話をかけるシーンを思い出しました。

4. AIエージェントの今後の活用と考察

Gensparkの機能はいつも実用を意識した利用し甲斐のある機能が追加され(ファクトチェック機能など)、無課金勢でもしばらくは楽しめるという魅力的なサービスなので、他にも試したい新しい機能の使い方があったのですが、残念ながら無課金勢としては「ここからは有料です」になると、これ以上使えず、本当に課金したくなりました。

最後に、これからの話を少し。自律駆動型AIエージェントは、もっと進化して、いろんな場面で使われていくでしょう。エンジニア目線では、コード生成やデバッグの自動化で開発スピードが上がるのは間違いありません。業務効率化でも、単純作業から提案書の作成までカバーできて、秘書やプランナーの代わりになる可能性もあります。

ただ、課題もあります。ポスター作成で見たように、細かい精度やセンスはまだ人間に及びません。通話代行でも、微妙なニュアンスを伝えるのは難しい場面があるでしょう。通話代行エージェントも、皆さんが想像された通り、一歩間違えば何か怪しいことに発展しかねない危うさをはらんでおり、倫理的な問題や、どこまでAIに任せるかの線引きも考える必要があります。

それでも、AIが人間の仕事を補い、新しい価値を生む未来は近いです。技術が進むにつれて、AIとの協働の形も変わってくるはず。エンジニアとしては、この流れを見逃さず、積極的に取り入れてスキルや業務の質を高めていくのが大事だと感じています。皆さんも、ぜひ試してみてください。

Accenture Japan (有志)

Discussion