AIエージェント3体にAI業界を毎朝分析させて55日が経った
毎朝8時に、こういうレポートがGitリポジトリに自動で積まれる。
今日のポイント:
IND-027がelevated→highに移行し、MCPが業界標準として確定。一方、Blue Agentの最重要所見(4社サンドボックスパートナーによる囲い込み)はRed指摘で診断的価値「極高」→「高」に引き下げられ、SCN-001/002のシフトも取消された。Red指摘採用率67%は確証バイアス検出の実効性を示す。
企業 仮説 前回確度 今回確度 変化理由 Gemini統合でエンタープライズシェア拡大 57% 56% Red指摘: Cloud 11%シェア・6R+I=0累積 xAI Xリアルタイムデータ活用で差別化 56% 55% 12日+連続証拠不在・構造見直しトリガー発動
これは、3体のAIエージェントが73件の公開情報を処理して生成したインテリジェンスレポートの一部だ。RSS要約でもニュースまとめでもない。仮説の確率が前日比で何%動いたか、どの証拠が仮説と矛盾しているか、明日何を調べるべきかまで構造化されている。
55日間、毎朝これが届く生活をしている。
「要約」では判断できない
AI情報収集の自動化はZennにも記事が多い。RSSにAI要約をつける、n8nでSlackにダイジェストを流す、GitHub Actionsでスクレイピングする。自分も試した。
でも困っていたのは「集める」ことではなかった。
たとえば4月16日、OpenAIがVercel・E2B・Daytona・Modalの4社をAgents SDKの公式サンドボックスパートナーとして同時発表した。AI要約ツールはこれを「OpenAIが4社とパートナーシップを発表」と要約する。
知りたいのはそこじゃない。「これはエコシステム囲い込みの兆候なのか、それとも一時的な開発者獲得施策なのか」。この判断をするには、E2Bがもともとマルチランタイム対応であること、VercelがすでにAnthropic/Googleもサポートしていること、契約に専属性があるかどうかが未確認であること、を突き合わせる必要がある。
要約はInformationを短くするだけで、Intelligenceにはしてくれない。この2つの違いに気づいたのは、前職の経験からだった。防衛大学校を出て陸上自衛隊に9年いた。軍事の世界では、生の報告(Information)と判断に使える形に加工された情報(Intelligence)を明確に区別する。そしてInformationをIntelligenceに変えるプロセスは、米軍が何十年もかけて教範(Field Manual)として体系化し、一般公開している。
その思考法をLLMエージェントに載せたのがこのシステムだ。
Blue / Red / Arbiter:3体のアーキテクチャ
GitHub Actionsで毎朝8時に動く。リポジトリ名は「I-am-S-2」。軍の幕僚組織でS-2は情報担当を意味する。自分にとってのS-2を自動化した。
収集フェーズでは、KIQ(Key Intelligence Questions)に紐づいた56の検索クエリをFirecrawl MCPで実行し、並行してRSSHubでAI企業3社の公式・主要人物29アカウントのX投稿を取得する。4月16日は113クエリ+動的7クエリで73件の情報を収集した。
ポイントは収集の後だ。
Blue Agent がACH(Analysis of Competing Hypotheses)で分析する。複数の仮説に対して、集めた証拠が「整合する」「矛盾する」「中立」のどれかを一つずつ評価する。支持する証拠が多い仮説ではなく、矛盾する証拠が少ない仮説を有力とする。確認バイアスを構造で抑える手法だ。
Red Agent がBlueの分析に反論する。「4社パートナーシップは囲い込みの証拠」というBlueの解釈に対して「E2Bは元々マルチランタイム対応、契約の専属性が未確認」と突っ込む。ここで診断的価値が「極高」から「高」に下がる。
Arbiter がBlueとRedを突き合わせて最終判断を下す。仮説の確率、シナリオの順位、警戒指標のレベルを設定ファイルに直接書き込む権限を持つ。4月16日はRed指摘の67%(9件中6件)を採用し、Blueが提案したシナリオ確率の変更を取り消した。
なぜ3体に分けたか。1つのAIに「公正に分析しろ」と指示しても確認バイアスからは逃れられない。自分の計画の弱点は自分では見つけにくい。米軍がRed Teamという「専門の逆張り部隊」を組織するのと同じ発想で、LLMでも構造的に反論する役割を分離した。
昨日の分析が今日の収集を変える
このシステムは毎日独立して動いているわけではない。Arbiterが最終判断を書き出すとき、「明日の収集で優先すべき事項」も一緒に記録する。翌日のPhase 1はそのファイル(state/arbiter-latest.md)を読み込んで、通常の56クエリに加えて動的クエリを自動生成する。
## 動的追加クエリ(Arbiter v3.50フィードバックに基づく)
- KIQ-ARR-001: Anthropic $30B ARR第三者検証(7日連続の最重要ギャップ)
- Google I証拠探索: H-GOO-001/002/003の3仮説連続I=0解消
- xAI動向: H-XAI-001/003の構造見直しに必要な新規情報
「Anthropic $30B ARRの第三者検証」は、Anthropicが自己申告した数字を裏付ける外部ソースが見つからないまま7日が経過している。Arbiterが毎日「明日も探せ」と指示し、収集フェーズが毎日探し、それでも見つからないことが「情報の不在」として蓄積していく。
xAIの仮説「Xリアルタイムデータ活用で差別化」も同じ構造だ。12日間連続で証拠が見つからず、ついに構造見直しトリガーが発動した。「探しても見つからない」こと自体が、仮説の信頼性を下げる証拠として機能する。
この閉ループがないと、毎日が独立したスナップショットになり「先週から何が変わったか」を追えない。日々の分析が翌日の問いを生み、その問いに対する答え(あるいは答えの不在)がさらに仮説を更新する。55日分の蓄積が、1日だけの分析では到達できない判断に繋がっている。
Before / After:生情報73件がどう変わるか
Before(生情報の一例)
### INFO-080
- タイトル: Vercel Sandbox + OpenAI Agents SDK
- ソース: X @OpenAIDevs
- 信頼性コード: A-3
- 関連KIQ: KIQ-001-01, KIQ-001-03
- 要約: Vercel SandboxがOpenAI Agents SDKに統合
### INFO-082
- タイトル: E2B x OpenAI Agents SDK
- ソース: X @OpenAIDevs
- 信頼性コード: A-3
- 要約: E2BがOpenAI Agents SDKの公式サンドボックスに
### INFO-083
- タイトル: Daytona x OpenAI Agents SDK
- ソース: X @OpenAIDevs
- 信頼性コード: A-3
- 要約: DaytonaがOpenAI Agents SDKの公式サンドボックスに
(同日の収集: 全73件、113クエリ+動的7クエリで取得)
これがInformationだ。個別のファクトが並んでいる。読んでも「で、何が起きているのか」はわからない。
After(インテリジェンスレポート)
### 1.1 Blue Agent最重要所見の診断的価値が引き下げられた
事実:
- OpenAI Agents SDKがVercel/E2B/Daytona/Modalの4社を
公式サンドボックスプロバイダーとして同時発表した
判断:
- Red Agent指摘を採用し、診断的価値を「極高」→「高」に引き下げ
- E2B/Daytonaは元々マルチランタイム対応、Vercelは既に
OpenAI/Anthropic/Googleをサポートしており、
4社を「囲い込み」の決定的証拠とするには
契約条件(専属性の有無)が未確認
仮説への影響:
- H-OAI-001 の確度: 60% → 60%
(Blue +1%をRed指摘で取消。サンドボックスは囲い込みの
証拠でありB2B支配の直接証拠ではない)
同じ事実から出発して、仮説との整合性を評価し、反論を受け、確率を更新している。「OpenAIが4社と提携した」で終わらずに「これは囲い込みの証拠か? → 現時点では決定的ではない、なぜならば…」まで到達する。これがIntelligenceだ。
レポートにはさらに、4つのシナリオの確率推移、警戒指標のアラート、未解決の問いと明日の収集優先事項が含まれる。
レポートに含まれる全セクション
- 今日のポイント(300字要約)
- 主要変化(事実→判断→仮説への影響の三層構造)
- 仮説の変化(確度の%変動テーブル)
- シナリオ確率更新(4シナリオの確率と変動解釈)
- 注意すべき兆候(警戒指標のアラート)
- 未回答のKIQ・明日の収集優先事項・アクションアイテム
- 付録:情報源一覧(INFO-ID/信頼性コード/URL)
55日間運用して見えたこと
情報の量は変わらない。変わったのは問いの設計。 収集前に「自分は何について判断する必要があるのか」を5つ定義した(米軍でいうPIR:Priority Intelligence Requirements)。これだけでノイズが激減する。100本のニュースを全部読む必要はない。PIRに関係しない情報は無視していい。
[
"AI企業各社のエージェント戦略の方向性",
"エンタープライズ向けAI市場の競争構造",
"モデル性能と価格のトレードオフの変化",
"エンジニアのキャリアに影響する技術シフト",
"AGI到達度と安全性をめぐる動向"
]
バイアス制御は構造でしか解けない。 Blue Agentだけだと、最初に立てた仮説に有利な証拠を集める傾向が出た。Red Agent追加後、仮説の確率が急に動くことが増えた。4月16日のRed採用率67%はその象徴で、Blueが5ラウンド連続で推してきた「囲い込みシナリオ上昇」をRedが止めた。人間の意思決定でも同じ構造の問題が起きる。
「静的」と「動的」の分離が効いた。 日々のレポートは座標上の「点」。企業プロファイルや市場構造の分析は「座標軸」。座標軸を書き換えるのはCEO交代やモデル世代交代のような構造的イベントのときだけ。この分離がないと、日々のニュースに全体像が引きずられる。
失敗もある。 AIは情報源の表現に引きずられる。公式発表の強い言い回しに過剰反応して警戒指標を上げすぎたことがあった。情報に信頼性コード(公式発表=A、個人のXポスト=Dなど)を事前に貼っていても、分析フェーズでの重みづけが甘いケースがある。
まとめ
このシステムの設計思想は3つに集約できる。
- 集める前に「何のために」を定義する。 PIRを3つ書くだけでいい。情報収集の空回りは、大抵ここが決まっていないことが原因だ
- 自分の結論に構造的に反論する。 Red Teamは組織だけの話ではなく、個人の判断にも効く。「こう思う」と決めたら、反対の立場から1分だけ考えてみる
- 要約で止まるな。 「何が起きたか」を短くするのは要約。「何を判断すべきか」まで到達するのがIntelligence。RSSリーダーの設定を増やすより、分析と判断のプロセスを設計する方が先だ
リポジトリはパブリックで公開している。パイプラインの設計、プロンプト、55日分のレポートすべてが閲覧できる。
思考法の元ネタである米軍教範は、FM 2-0(Intelligence)、ATP 2-33.4(Intelligence Analysis)、ATP 2-22.9(Open-Source Intelligence)が参考になる。Army Publishing Directorateで無料公開されている。
Discussion