🗺️

『オトナの自由研究』の歩き方——全記事の地図と、最初の一本の選び方

に公開

はじめに

ここは、AIコーディングエージェントの実験記録の地図です。3つのAIコーディングエージェント(Claude Code、Codex CLI、GitHub Copilot CLI)と複数のモデルを掛け合わせ、Docker×Ubuntuのサンドボックスで自由に走らせた18本の検証を、5つのクラスタに整理しています。

これまでの実験を通して見えてきたのは、見える品質と見えない品質——「手出しゼロ」という極端な実験条件下で、AIコーディングエージェントが越えられなかった境界線です(2026年4月時点)。

結論から知りたい方は「見える品質と見えない品質の発見」へ、関心に合わせて入口を選びたい方は「最初の一本を選ぶ」へ、全体を眺めたい方は下の関係図からどうぞ。


オトナの自由研究 関係図——AIコーディングエージェント実験記録の全体地図。中央に「オトナの自由研究」のハブを置き、実験室・MCP連載実験・Copilot CLI・書斎ラボ・パイプ活用の5クラスタを手描き風に配置した18本の歩き方マップ。

この地図は AI に描かせた手描き風の画像です。AI の実験を記録する連載の地図を AI 自身に描かせる——連載のテーマがそのまま絵の成り立ちに入れ子になっています。

地図の内容をテキストで読む(画像が表示できない環境向け)

連載は現在、5つのクラスタで構成されています。クラスタ構成は連載の進行に応じて再編される可能性があります。

実験室(サンドボックス) — 環境構築と土台づくり

  • #01 Docker × Ubuntu で AI 実験用サンドボックスを作る
  • #13 サンドボックスを物理化する:OS 編(実機編は「書斎ラボ」クラスタにも収録)

MCP 連載実験見える品質と見えない品質の発見と追跡

  • #02 Claude Code でカラーパレットジェネレーターを作る
  • #03 MCP SQLite サーバーを Claude Code で作る
  • #04 同じ課題を Codex CLI × GPT-5.3 で再現する
  • #05 Codex CLI × GPT-5.4 で再挑戦する
  • #06 Codex の環境設計(AGENTS.md・Skills・MCP)で品質条件を装填する
  • #07 Codex リマッチ
  • #08 Codex ステージゲート
  • #09 5回走らせてわかったこと

Copilot CLI 3 部作 — 別キャラクターの対比実験

  • #10 GitHub Copilot CLI 1日目
  • #11 Copilot CLI 2日目
  • #12 Copilot CLI 3日目

書斎ラボ(Raspberry Pi 編) — 実機にAIコーディングエージェントを常駐させる

  • #13 サンドボックスを物理化する:OS 編(OS 編は実験室クラスタにも収録)
  • #14 Raspberry Pi 4 に Claude Code・Codex CLI・Copilot CLI は導入できるのか
  • #15 Claude Code・Codex CLI・Copilot CLI が Raspberry Pi 4 で 3 番勝負

番外編(パイプ活用) — CLI を道具として使い倒す小ネタ

  • side-01 パイプ活用
  • side-02 パイプでログを流し込む
  • side-03 tail -f の壁を越える

最初の一本を選ぶ

関心に合わせて読み始められるよう、入口を用意しました。複数の入口がある項目は、どちらから入っても構いません。


クラスタで読む、オトナの自由研究

これまでの連載で輪郭が見えてきた5つのクラスタについて見ていきましょう。

実験室(サンドボックス)——連載の序章、実験の土台

AIコーディングエージェントが自由に動く環境を作りたかったので、Macに直接インストールするのではなく、Docker上にUbuntu環境を構築し、そこで自由に実験できるようにしました。これはかなりうまくいき、その後の実験の土台となっています。

実験を繰り返す中で、デプロイも大きな課題の一つとして見えてきました。途中でGoogle CloudのCloud Run(本連載未収録の試行)にデプロイしてみましたが、セキュリティも含めた設定の難易度が高く、簡単なCI/CDの検証には不向きだと感じました。そこで、経験があり、安価で使いやすいRaspberry Piを導入することにし、書斎の机の上にUbuntu Serverを導入したPiを設置——ここから先は実機の話になるので、「書斎ラボ(Raspberry Pi 編)」 クラスタとして切り出しています。

#01で立ち上げたDocker×Ubuntuサンドボックス上でClaude Codeを初起動した画面


見える品質と見えない品質:MCP連載実験の発見と追跡

#02から#09までは、主にMCPツールをさまざまなAIコーディングエージェント、モデル、そして事前環境(AGENTS.md・Skills・MCPなどのエージェント周辺装備)を変えて実験を重ねてきました。そこで見えてきたのは、見える品質と見えない品質の境界線です。

結論から言うと、本連載の「手出しゼロ」実験条件下では、Claude Code、Codex CLI、GitHub Copilot CLIのいずれも、自律的に満足のいく品質まで完成度を上げることはできませんでした。動作する、画面が出る、エラーがなくなる——こうした「見える品質」は、プロンプトだけでもそれなりに到達できました。一方、設計意図との整合、保守性、セキュリティといった「見えない品質」は、本連載の実験範囲ではプロンプトだけでは届かなかった。AGENTS.md・Skills・MCP、そしてハーネスエンジニアリングまで装備を重ねて試した結果と、そこから出てきた一つの答えは、#09 5回走らせてわかったことに書きました。

ハーネスエンジニアリングとは

AIエージェントの周囲を構成する要素——ツール、コンテキスト、メモリ、実行環境、ガードレール、評価と復旧の仕組み——を設計し、モデル単体では成立しないエージェントを実運用に耐える形に仕立てる工学。

#09の5回実験を横断比較したヒートマップ——「見える品質」はどの組合せでもおおむね埋まるが、「見えない品質」は色が入らない

#06以降は環境設計や人とペアを組んだフローを実行することで、見えない品質の課題もクリアしようとしましたが、残念ながら100%というところまでは到達できていません。総括は #09 で詳述しています。


Copilot CLI 3 部作——別キャラクターの対比実験

Claude CodeやCodex CLIは、モデルを提供するOpenAIおよびAnthropicが提供するAIコーディングエージェントだったので、この2つのモデルを組み合わせるということができませんでした。そこで、GitHub Copilot CLIを導入し、OpenAIおよびAnthropicのGPTとClaude(Opus)を協業させてみることにしました。加えて、ペルソナという概念をエージェントに与えて仮想開発チームを設立し、#12では7人の仮想チームで開発を進めてくれました。ただ残念ながら、本連載の実験条件下では、ここでも見えない品質の壁を乗り越えることはできませんでした。

#10でGitHub Copilot CLIを初起動した画面——別キャラクターの対比実験のスタート地点


書斎ラボ(Raspberry Pi 編)——実機にAIコーディングエージェントを常駐させる

クラウド前提ではなく自宅 LAN の小さなサーバーにAIコーディングエージェントを常駐させる選択は、API 課金を抑えつつ24時間稼働させたいエンジニアや、ローカルでデータを完結させたい個人開発者にとっての現実的な選択肢を探る挑戦でもあります。実験室で確立したDocker×Ubuntuサンドボックスを物理化して、書斎のRaspberry Pi 4にUbuntu Serverを入れ(#13)、そこにClaude Code・Codex CLI・GitHub Copilot CLIの3つを導入し(#14)、最後にこの3つで3 番勝負まで持ち込みました(#15)。Raspberry Pi 4 4GBで普段使いするならClaude CodeかCodex CLIの2 択という具体的な結論が #15 で出ました。

#15のヒーロー画像——Claude Code・Codex CLI・GitHub Copilot CLIの3つがRaspberry Pi 4でグローブを構える


番外編(パイプ活用)——脇道から生まれた知見

番外編は本編で扱うには少しライトなテーマを、サクッと実験する形で3回ほどやっています。CLIのAIコーディングエージェントだからこそパイプとの相性を試した——シェルスクリプトに組み込む小さな実用知見が、本編とは違う角度から得られました。

#side-03でtail -fの壁を越えてログを監視しているターミナル画面


全記事索引

本編(Lab シリーズ)

番外編(Side シリーズ)


更新履歴

  • 2026-05-02 — #14・#15 公開に伴い「書斎ラボ(Raspberry Pi 編)」クラスタを新設(#13 を移管。実験室にも併載)。MCP 連載実験クラスタの見出しに見える品質と見えない品質を前出しし、旧 H2「見えてきた境界線」を当該クラスタの段落として統合。
  • 2026-04-20 — 初版公開(#01〜#13、side-01〜side-03 を収録)

「オトナの自由研究」シリーズは、消費財メーカーでデジタル戦略を推進する筆者が、最新テクノロジーを自分の手で試し、何ができるのか・どんな価値を生むのかを検証する過程を記録しています。
※本連載は個人の実験と学びの共有であり、所属組織の公式見解ではありません。

Discussion