ClaudeCode と Gemini の反証ループで市場調査から要件定義まで
ClaudeCode と Gemini の反証ループで市場調査から要件定義まで
はじめに
ClaudeCodeをメインに置いていろんなことを聞きまくっているのですが、ひとつ気になることがあります。
何を聞いても放っておくと、それっぽい結論を出して話を畳もうとする癖があるのです。本当にそれで正しいのか、調べ漏れはないのか、と粘っていれば深掘りはしてくれるのですが、何も言わずにいると「完了しました。タスクを更新していいですか」となって終わります。一見もっともらしい答えを返してくれるので、知識のない領域だと気付かずに終わってしまいかねません。
そこで取り入れているのが、ClaudeCodeが出した結論をGemini(具体的には gemini-3.1-flash-lite)に悲観的視点で論破させる方法です。雑な反論でもいいから揺さぶってもらうと、ClaudeCodeが「いやそれは違う」と根拠を出してくる過程で話が深まる、というのが狙いです。詳細はこのあと書きます。
私のルーティーン
ざっくり言うと、ClaudeCodeに手を動かさせて調べ、ある程度方向性が見えてきたところでGeminiと討論させ、結果を私が読んで指摘し、もう一度討論させる、というサイクルを回しています。
私はこの反証ループを、新規アプリの市場調査や、企画段階での方針決め、それを踏まえた要件定義まで、幅広い場面で使っています。一人で考えていると見落としや早期の合意形成が起きがちなところを、AI 2台に殴り合わせることで多角的に詰めるのが狙いです。
具体的には次のような流れです。
- ClaudeCodeに調査テーマを投げて、壁打ちしながら一旦とことん調べてもらう。Web検索、公式ドキュメントの参照、実機検証のためのスクリプト作成までやらせる
- 方向性がまとまってきたら、ClaudeCodeが出した結論を
gemini-3.1-flash-liteに「悲観的な視点で」と指示して論破させる(ClaudeCode 側が内部で背景・自己申告の盲点リスト・期待する回答形式まで含む構造化プロンプトに膨らませてGeminiに投げる挙動を取っているようです) - 出てきた反論を私が読み、もっと詰めるべきポイントを指摘する
- どちらかが反論を出し切るまで繰り返させる。合意したから終わりではなく、ネタが尽きるまでとことん粘らせる
- 討論ラウンドごとのログはMarkdownで残し、それを踏まえた最終結論は別途HTMLでまとめさせる
ポイントは2つあります。
第一に、すぐに結論に持っていかせないこと。ClaudeCodeは放っておくとろくに調べないままうまい具合にまとめて終わろうとする癖があります。一見もっともらしい結論を出してくるので、私が注意して見ていないといつの間にか完了したことになっているため、意識的に粘らせる必要があります。
第二に、双方を悲観的視点で殴り合わせること。「この結論は本当に正しいか」「反証はないか」「データ不足ではないか」をお互いに探させます。納得するまで客観的なデータを揃えるまで終わらせません。
なぜこの分担なのか
ClaudeCode単体だと視野が狭くなりがちで、何より早くまとめて終わろうとする傾向が強いです。これはAIとして悪意があるわけではなくて、ユーザー(私)の質問に「答え」を返したい強いインセンティブが内在していて、不確実性のままで返すよりは結論を出すほうを優先するように見えます。
Gemini単体で使うとハルシネーションが多いです(もちろんClaudeCodeもあります)。事実と異なるURLを実在するかのように生成したり、根拠の弱い主張を断定形で書いたりします。それぞれの会話だけ見ると気づきにくいですが、ClaudeCodeにGeminiの発言を検証させると間違いが多く出てきます。
ところが、お互いを討論させるとそれぞれの弱みが補完されます。ClaudeCodeの早期収束をGeminiが(雑ですが)突っ込んで揺さぶり、Geminiの幻覚をClaudeCodeが実機検証で潰す。両方とも完璧ではありませんが、討論の過程で結果的に妥当な範囲に収束していくことが多いです。
どちらのAIも自信満々に間違うので、最終判断は私がやる必要があります。AIに丸投げではなく、AI同士の摩擦を観察しながら自分の判断材料を集める、というスタイルです。
モデル選定の現実
討論役には gemini-3.1-flash-lite を使っています。理由はコストです。
gemini-3.1-pro の方が当然賢いのですが、API としてはそもそも無料枠が用意されていません(AI Studio Web UI での試用は限定的に可能ですが、スクリプトから叩く運用は paid Tier が必須)。paid Tier で課金して回すという選択肢もありますが、討論を頻繁にやる前提だと割に合いません。
gemini-3.1-flash-lite なら無料枠が用意されており(2026年5月時点で 15 RPM・500 RPD 程度、project/地域で変動するので最新は AI Studio ダッシュボードで確認してください)、実際の討論は1議題あたり数ターンで反論ネタが尽きることが多いので、無料枠の範囲で十分回せます。
ハルシネーション率はProの方が低いはずですが、討論の場ではClaudeCodeが事実検証する側に回るので、Flash-Liteの雑さは大きな問題になりません。むしろFlash-Liteが突拍子もない反論を出してきたほうが、ClaudeCodeが「いやそれは違う、理由はこうだ」と根拠を出してくるので結果的に話が深まります。
出力フォーマット
討論のラウンドごとのやり取りはMarkdownで記録します。ClaudeCodeが後のセッションで同じテーマを読み返す時の保管庫として機能します。同じトピックの続編や派生調査をする時、過去の討論を ClaudeCode が文脈ごと拾い直してくれるので、ゼロから組み直さずに済みます。
討論を踏まえた最終結論は、別途HTMLでまとめさせます。テーブルや色分けが効くので、私が後で確認したい時に視認性が高いです。Markdownのままだと表が崩れたり、強調が単調になったりするので、最終版だけHTMLに整形させています。
討論ログ自体はHTML化しません。あくまでも「議論の生ログは Markdown、結論まとめは HTML」という分業です。整形はClaudeCodeが全部やってくれるので、私は構成と論点を指示するだけです。
このやり方の限界
このルーティーンは万能ではありません。
両方ともAIなので、似た情報源から似た誤りを共有していることがあります。討論で「両者合意」になっても、その合意自体が間違っていることもあるので、最終的な裏取りは私が公式ドキュメントや実機で確認するしかありません。
もう一つよくあるのが、情報が古いまま回答してくる問題です。サービス名のリブランドや料金体系の変更などを、AI が持っている古い知識ベースで答えてしまうことがあります。回避策として、調査依頼の文頭に「2026年5月時点の情報で」と日付を明示するようにしています。最新版を参照しなさい、という指示が暗に入るので、Web 検索や公式ドキュメントの当日参照に動いてくれる確率が上がります。
こうした注意点はあるものの、自分一人で全部調べるより速いです。AI 2台に粗削りな仮説と反論を出させてから自分が裏取りに入る方が、見落としは減ります。
次回予告
本記事ではGeminiの無料枠でできる活用方法を扱いました。次回は有償の範囲の話です。Google AI Pro加入特典の月10ドルGoogle Cloudクレジットと、新規GCPプロジェクト作成時の300ドルFree Trial、この2つを併用してNano Banana 2(gemini-3.1-flash-image-preview)の画像生成を実費ほぼゼロで動かす実験の話を書きます。
公式ドキュメントの建前と実際の挙動にズレがあり、フォーラムでも報告が割れているテーマでした。最終的には実機のクレジット消費画面の数字で結論を取った記録です。
次回記事に続きます。
他のプラットフォームでも公開
本記事は ZennとSubstack の両方で公開しています。同じ内容です。
Discussion