[2025年4月4日] 特化していくAIエージェント、汎用化していくIDE (週刊AI)
こんにちは、Kaiです。
先週、先々週と怒涛のアップデートやリリースが続いたせいか、ちょっと落ち着きましたね。
今週の大きなトピックスとしては、GensparkのSuperAgentでしょうか。3月末にリサーチ機能が終了するとアナウンスがあり、どのような展開を迎えるのかと注目しておりましたが、リサーチ機能を包含したより高度なAgentに極振りしてきました。少し使ってみたところ、確かにこれはすごい。概念自体はManusなどと同じですが、全体の体験が非常に洗練されています。スマホアプリに特化したエージェントも出てきており、この領域の競争は激化の一途をたどっています。
一方、エージェントの草分けであるDevinはIDE統合への回帰も発表。現時点のエージェントは、簡易的な単発タスクを次々にこなすことは得意でも、複雑なコンテクストや仕様はやはり人間と協働する必要がある、ということなのでしょう。
整理すると、大きな動きとしては以下のような感じでしょうか。
- 統合エージェント:総合型から課題特化型へのシフト
- IDE:Cursorをはじめ、VSCode拡張など、ユーザとの協働を加速。IDEからAI統合何でもエディタへ。
- エージェントSDK:OpenAIのSDKやMCPなど、ミドルウェアレベル、仕様レベルでの様々な動きと採用が活発化。
では今週のトピックスいってみましょう。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
Genspark: Super Agent
ファクトチェック機能で一時期話題になっていたGenspark。Deep Researchにお株を奪われていましたが、統合エージェントとして再登場。無料でも1日1度は使えるようです。体験が素晴らしいのでぜひ一度試してみてください。
Devin 2.0: IDE内で動くバージョンを発表
これまでの単体エージェント$500に対し、$20でIDE内に。Cursorの成功を見ての動きだと思います。
プロンプトからアプリ構築、AppStore公開まで可能なエージェント「Rork」
すごい、ちゃんと実機確認まで出来ます。もちろんUI/UXはシンプルなものですが、プロンプトだけでとりあえず動くものが実機で見られるというのはよい体験。
その他AI系話題
OpenAI Agents SDK使用例
nkapaさんが2つ実装例を出してくれていたのでご紹介。日本語でのサンプルがあると直感的に理解しやすいですね。
Docker Model Runner登場
Dockerコンテナと同様、任意のLLMをDocker Hubから導入可能だということです。LLMパッケージマネージャーにはOllamaがありますが、コンテナ内で実行できるのは強み。
GPT-4.5がチューリングテストに合格
プレプリント。チューリングテストは説明不要ですよね。なんと、7割以上の人間が「人間である」と思ったそうです。やはりこれが人格基盤モデル。
AWS謹製MCPサーバ実装
さすがAWS、動きが速い。
最近のコーディングにおけるLLMの使い方QA
「誤りが混入すると伝播する」「コミュニティが成熟した言語が強い」というのは全く同感です。その上で、「PoC大量実装に使う」というのは、確かに現時点での正解かもしれませんね。
Microsoft 製の ブラウザ操作 MCP が実用レベルだった件
Playwright MCPという、ブラウザの内容をyamlで表現する仕様を介して、これまでスクショベースで扱っていたブラウザ操作を効率化するというお話。というか全てのWebサービスがエージェント向けのヘッドレスサービスを実装する世界が来るような気がするんですよね。
Claude×SVG×PowerPointの最強コンボ!生成画像を劇的に進化する編集方法!
これもアリですね。あとは、XML経由でdraw.ioを介する手法なども最近使われている気がします。
Vision Language Modelを活用した メルカリの類似画像レコメンドの性能改善
以前ご紹介した内容のスライド化かな。アルゴリズムやロジックもさることながら、VertexAIを用いたMLOpsのノウハウとしても有用です。
Cline、めっちゃ便利、お金が飛ぶ💸
Clineノウハウ。実際にどういうコードにどういうタスクをやらせて、いくらかかったかが提示されているのでとても参考になります。
Cursorエージェント講座 超入門+実践編
エンジニア向けではなく、PdMやPM向けの使い方。夕食の献立を一緒に作るハンズオンは分かりやすい。
Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた
「4日間で数ヶ月分のコードが生成できたが、技術的負債の返済にさらに4日以上かかった。しかし、最終的にはきちんと動くコードとノウハウが出来た。なお$800かかった」という感じの内容です。1つのことに集中させる、前提条件を与えるなど、現時点でのAIコーディングにすぐ活かせそうなTIPSがたくさん。
AIコーディングとゲームエンジン~今何が起きているのか、我々はどうするか
ゲームエンジンと付いていますが、AIコーディングの現在位置を俯瞰していてその部分も興味深いです。Unity+VRだと身体感覚の投影が難しいというのはその通りですね……。
PromptもFine-tuningも不要なLLM出力言語の制御手法
日本語以外のトークン生成確率にペナルティをかけるという手法。LLMが不完全な日本語を無理やり絞り出しているのが、なんかこう、脳をクチュクチュされてる感……。
WEB開発系話題
フロントエンドテストの育て方
Reactで、実際のコードを参照しながらどのようにテストを作っていくかのノウハウを共有。超具体的。
その他一般テック話題
Amazon Redshiftからの移行で積年の課題を解決
NewsPicksがDWHをRedshiftからSnowflakeに移行した事例。BigQueryとの比較はあまり見かけないのでなるほどという感じ。
Thoughtworks Technology Radar とはなにか
おーこれは知りませんでした。独立した観点から、今後プロジェクトにおいて検討すべき技術をレーダーとして評価したもの。年2回発行。
ペアーズにおけるData Catalog導入の取り組み
Atlan、寡聞にして知らなかったのですが各所に散らばっているデータの構造(メタデータ)を統合的に扱えるのはよさそう。
Discussion