🥇

「RAGとAIエージェント、開発の未来を変える?」~【ai】今週の人気記事TOP5(2025/09/28)

に公開

【2025/9/28】「RAGとAIエージェント、開発の未来を変える?」今週の人気記事TOP5(2025/09/28)

RAGを30倍速くするMetaの新技術「REFRAG」

ナレッジセンスの記事では、RAGの高速化手法「REFRAG」を紹介しています。Metaの研究によるREFRAGは、検索した関連文書をベクトル化し、LLMへの入力時にテキストではなくベクトル形式で注入することで、LLMの処理時間を大幅に短縮します。実験では、最初のトークン生成までの時間が最大30倍高速化され、精度を損なわずに従来の高速化手法よりも3.75倍高速という結果が出ています。
特にエンタープライズ向けのRAGにおいて、入力文字数の制限を緩和し、より詳細な回答生成に貢献することが期待されています。

Storybook公式MCPの解説とその先 - Design Systems with Agentsの提案について -

Storybook公式MCP Addonと、AIを活用したDesign Systems連携に関する提案が紹介されています。

MCP Addonは、AIエージェントがStorybookのコンポーネント情報にアクセスし、Storybookのベストプラクティスに基づいたStoryファイルを生成する機能を提供します。

さらに、AIがデザインシステムを遵守したUIを生成できるよう、「Storybook Design Systems with Agents RFC」が提案。コンポーネント情報を整理した「コンポーネント・マニフェスト」と、AIが理解しやすい形式に変換する「Design System MCP Server」を通じて、デザインシステムとAIの連携を目指します。段階的な実装計画も提示されています。

決定論的システムと非決定論的AI Agentの接合点:OSSフレームワークEmbabelが拓く新しいソフトウェア開発の可能性

ログラスはSaaSの価値変容を目指し、非決定論的なタスクをAI Agentで実現する「Loglass AI Agents」構想を発表。課題はAIエージェントの非決定性。解決策として、決定論的な計画アルゴリズムGOAPとドメインモデル統合(DICE)を提供するOSSフレームワークEmbabelを紹介。Embabelは、LLMに依存せずタスク実行前に計画を策定し、型安全性を確保。エンタープライズグレードの信頼性を獲得を目指し、AIネイティブなプロダクト創造の鍵となる可能性を示唆。

AIエージェントを脱線させないプロンプト設計の実践ガイド

AIエージェントを開発タスクで脱線させないためのプロンプト設計の実践ガイド。

重要なポイントは、READMEやdocsにエージェント専用のルールを明記し、プロンプトで参照を強制すること。タスクを「調査→設計→実装→検証」に分割し、各段階で承認を得るステップ制にする。Issueテンプレートに「やらないこと」や「完了の定義」を設け、報告フォーマットを固定する。作業開始前と途中でスコープ確認を促すリマインドをプロンプトに含める。

モバイルアプリ開発でAIにレイアウト修正を頼むと微妙なのはなぜか?

AIがモバイルアプリのレイアウト修正で微妙なのは、技術の学習データ分布が影響している。Web系技術はデータが豊富でAIが得意な「on distribution」だが、iOS/Swiftは情報が少なく「off distribution」寄り。Flutterはデータ量が多いにも関わらず、制約駆動レイアウトが実行時のコンテキストに依存するため、AIが最適解を判断しにくい。今後はAIと人間の役割分担(AIはUIベースやロジック、人間はUIの細部やレイアウト)が現実的。

【2025/9/21】「AI開発、どこから攻める?コード、テスト、データ活用…🤔」今週の人気記事TOP5(2025/09/21)

openai/codex でのプロジェクト固有MCPを設定する

OpenAI Codexでプロジェクト固有のMCP設定を行う方法として、mizchi氏は2つの暫定的な手段を紹介。
1つ目はCODEX_HOME環境変数をプロジェクトディレクトリに設定する方法だが、認証情報等のコミットリスクがある。
2つ目は--configオプションでmcp_serversを直接上書きする方法で、.mcp.jsonから設定を読み込むエイリアスも紹介。ただし、JSONからTOMLへの変換に注意が必要。
最終的に、これらの方法は過渡的なTIPSであるとしている。serenaに関する追記として、JSONからTOMLへの変換の修正が記載されている。

AIでテスト設計を効率化!ぶつかった壁と乗り越え方

COMPASS社はAIを活用し、テスト設計の効率化を試みました。仕様書からの因子・水準抽出では、AIに専門用語を理解させるため、自社の定義を言語化。WebツールをAIに作成させ、組み合わせテストケース生成を自動化しました。フロントエンドコードを連携させ、具体的なテストケース生成も実現。しかし、トークン数の限界や、期待結果の分割など課題も残りました。プロンプト手順書を作成し、属人化を防ぎ、再現性を確保。今後は、トークン数制限の克服と完全自動化を目指します。

CodexとClaude codeの考え方の違いを振る舞いのシミュレートで体験してみる

Claude CodeとCodexの違いを、ECサイトのカート機能の動作シミュレーションで検証。Claude Codeは全体的な視点から品質改善計画を提案、パフォーマンス、セキュリティ、UX、アクセシビリティなどを網羅。一方CodexはAPI仕様やテストケースを具体的に生成し、実装に直結する設計書を作成する。Codexは実装とテストに、Claude Codeは品質要件の定義と計画策定にそれぞれ最適で、両者は相互補完的な関係にある。

Snowflakeにおける非構造化データを構造化データに変える選択肢

Snowflakeの新機能、Document AI、AI_EXTRACT、AI_PARSE_DOCUMENT(OCR/LAYOUT)は、非構造化データを構造化データに変換する。Document AIは特定フォーマットの文書に、AI_EXTRACTは多様な文書からの柔軟な抽出に、AI_PARSE_DOCUMENTは文書全体のテキスト化に適している。特にLAYOUTモードは構造も保持する。コストはOCRが最も安く、Document AIは高いが抽出精度が期待できる。これらの機能は魔改造されたExcelデータの活用にも役立つ。

フロントエンド学習にPlaywright MCPを使う

メドレー新卒エンジニアの記事。フロントエンド学習にPlaywright MCPを使用するメリット・デメリットを紹介。

結論: Playwright MCPは、AIがブラウザ上の動きとコードを関連付けて解説してくれるため、コードだけでは気づけない学びを得られる。Reactコンポーネントの状態管理に関する理解が深まった例を紹介。

デメリット: トークン消費量が増加し、AIの応答遅延やトークン上限への到達を招く可能性がある。

E2EテストツールであるPlaywright MCPを学習用途として活用できる可能性を示唆。

【2025/9/14】「AI開発、効率化の鍵は「MCP」?あなたはどう使う?」今週の人気記事TOP5(2025/09/14)

Playwright MCPを使ってE2Eテストを楽に書く

ナレッジワークは、Playwright MCPを活用してE2Eテストの課題(ロケーター記述、テストケース記述、デバッグの煩雑さ)を解決。Accessibility Snapshotからロケーターを自動生成し、Page Object Modelを構築。自然言語によるテストケースをAIでコード化し、Playwrightのレポート機能をMCPで解析してデバッグを効率化。これにより、E2Eテスト実装の未経験者でも取り組みやすくなった。ただし、トークン消費量には注意が必要。

国産の仕様駆動開発ツール cc-sdd を推していきたい

国産の仕様駆動開発(SDD)支援ツール「cc-sdd」は、Claude Code上で手軽にSDDを実行できるオープンソースツール。Vibe Codingで設計が甘くなったコードのプロダクション運用を支援し、ドキュメント整備や開発生産性向上に貢献する。
簡単なコマンドでインストールでき、Steering Documentsの自動生成、TDD前提の実装、タスク管理機能などを備える。
Claude Code, Gemini CLI, Cursorなどの複数のCLI/IDEに対応し、プロトタイプからプロダクション開発への移行を容易にする。

話題のMCPサーバー「Serena」をClaude Codeで使ってみた

Claude Codeの精度低下に対処するため、MCPサーバー「Serena」を検証。SerenaはLSPを活用し、AIがシンボルレベルでコードを認識・編集可能にする。検証では、Serenaのオンボーディング機能でプロジェクトの全体像を把握。機能追加やリファクタリング提案、実際のコード修正も実施。Serena導入後、Claude Codeの振る舞いが改善し、手戻りが減少したと体感。Codex CLIでも利用可能。

複数 AI エージェントの MCP サーバーの設定を一元管理する「mmcp」の紹介

複数のAIエージェントのMCPサーバー設定を一元管理するツールmmcpが紹介されました。mmcpは、MCPサーバーの追加、対象エージェントの指定、設定適用をCLIから実行可能にします。設定ファイルは~/.mmcp.jsonに保存され、dotfilesでの管理を容易にします。Codex CLIのTOML形式設定ファイル更新には@shopify/toml-patchが利用され、コメント保持が可能です。Claude Code, Codex CLI, Gemini CLI等、複数のAIエージェントに対応しています。

Vercel製AIツール三種の神器で実現する - モダンなAIチャット開発

Vercel製AIツール群によるモダンなAIチャット開発を紹介。

  • Vercel AI SDK: プロバイダーAPIの統一、ストリーミング処理、UIMessageとModelMessageの分離、RAGシステム統合、ツール呼び出し、構造化出力に対応。
  • AI Elements: Reactコンポーネント集。shadcn/uiベースでチャットUI構築を支援。Conversationコンポーネント等を提供。
  • Streamdown: AIストリーミングに特化したMarkdownレンダラー。不完全なMarkdownも適切に表示。react-markdown互換で、セキュリティ機能も搭載。

これらのツールを組み合わせることで、AIチャット開発における課題を解決し、スムーズなUXを実現する。

【2025/9/7】「AI開発、今注目の「Codex/Claude」と「SDD」あなたはどっち派?」今週の人気記事TOP5(2025/09/07)

Codex CLIを使いこなすための機能・設定まとめ

OpenAIのCodex CLIは、ChatGPT有料プラン加入者向けに無料提供され、Claude Codeからの移行者が増加しています。
重要な設定は、~/.codex/config.tomlで、特にmodel_reasoning_effort = "high"による推論モードの向上が推奨されます。
Notify機能でタスク完了を通知したり、MCPを設定して外部ツール連携も可能です。
Web検索機能も有効化できます。
VS Code拡張も公開され、ファイル参照が容易になりました。
利用にはメッセージ数に制限があります。

Spec Kit で仕様書駆動開発を体験する

GitHubが公開した仕様書駆動開発ツールSpec Kitの体験記事。Claude Code等のコーディングエージェントと連携し、CLIから仕様書生成、実装計画、タスク分解を行う。
/specifyで要件定義、/planで実装計画と技術調査、/tasksで具体的なタスクを生成。TDDを重視し、テストを先に記述。
既存プロジェクトへの適用は課題が残るが、仕様・タスク整理に役立つ。今後のエンタープライズ対応に期待。

Claude Codeを用いて仕様書の自動更新の仕組みを構築した話

クラシルリワードでは、アフィリエイト仕様の複雑化に伴う問い合わせ増加を解決するため、Claude Codeを用いた仕様書自動更新システムを構築。
Gitの変更履歴から仕様変更を検出し、Notion MCPと連携して非エンジニア向けに仕様書を自動更新する仕組みを導入。
その結果、問い合わせ対応時間を25%削減し、ナレッジの一元化と属人化解消、非エンジニアのセルフサービス基盤構築を実現。
カスタムコマンドとプロンプトエンジニアリングにより、過去の問い合わせ内容を学習させ、用語集に基づいた記述で品質向上を図った。

シングルエージェント vs マルチエージェントを整理してみる

AIエージェント開発において、マルチエージェントとシングルエージェントの優位性に関する議論があります。マルチエージェントは並列処理しやすいタスクで高い性能を発揮しますが、エージェント間のコンテキスト共有が課題です。一方、シングルエージェントはコンテキスト維持に優れ、一貫性が重要なタスクに適しています。重要なのはタスクの特性とコストを考慮し最適なアーキテクチャを選ぶことであり、中長期的にはタスク特性に応じたデザインパターンの確立、コンテキストエンジニアリングのための専門ツールの発展などが起こることが予測されます。

[2025年9月5日] Codexしか勝たん気がしてきた(手のひら返し) (週刊AI)

この記事は、AI技術の進化と、それが開発の現場にもたらす変化について述べています。特にCodexの進化を評価しつつ、要件定義や設計といった本質的なスキルが重要になると指摘。AIネイティブな開発ツールへの置き換えが進む可能性に言及しています。

AI関連のトピックとしては、オンプレミス版Geminiの提供開始、Anthropicの巨額調達、Codex CLIとClaude Codeの比較、Vibe KanbanによるAIエージェント管理、Devin APIによるVRT自動追加、Bedrock EvaluationsによるRAG精度評価などを紹介。Grafana MCPサーバーによるダッシュボード生成や、Anthropicのデータ利用方針変更にも触れています。

WEB開発系の話題ではWebアプリのベンチマークについて触れ、その他一般テック話題ではリソース効率を考慮したアーキテクチャ設計、Nxのインシデント、AIの暴走事例などを取り上げています。

CareNet Engineers

Discussion