優秀な5AIを活かせなかった私の60回
この記事は、TrackAIコンペティションでの実体験に基づいて、脚色しながら物語風にまとめました。5AIツール(Claude Code、Gemini CLI、Qwen Code、Codex CLI、Cursor CLI)との60回の挑戦を通じて学んだ、AI時代のマネジメントについての率直な記録です。
はじめに:TrackAIコンペティションとは
AI生成コード分類コンペ - プログラムコードが人間によって書かれたものか、大規模言語モデル(LLM)によって生成されたものかを判別する二値分類タスク。
競技概要
- 課題: コードの作成者(人間 or AI)を判別
- 提出制限: 最大60回まで(これが運命の分かれ道)
- データ: train.jsonl(ラベル付き)、test.jsonl(予測対象)
- 対応言語: C、C++、Java、Python3、JavaScript等、多言語対応
- 評価指標: F1スコア(精度と再現率の調和平均)
- 参加規模: 27人
「60回」という提出制限。無限に試せるわけではない。この制約が、5AIツールとの協調において想像以上の重圧となることを、この時の私はまだ知らなかった。
導入:期待と現実の落差
TrackAI競技への参加が決まった時、私の胸は期待で躍っていた。手元には5つの最強AI—Claude Code、Gemini CLI、Qwen Code、Codex CLI、Cursor CLI—がいる。それぞれがHumanEval 90%超、SWE-bench 70%超の圧倒的な性能を誇る精鋭部隊だった。『これで優勝は確実だ』。そんな根拠のない自信が私の心を支配していた。
しかし、現実は一撃で私たちの幻想を打ち砕いた。最初の提出結果:『フォーマットエラー』。このシンプルな9文字が、その後の60回にわたる苦闘の序章だった。5つのAIが作り出した完璧に見えるコードが、最も基本的な部分で躓く。期待値との乖離に困惑する私。そしてAIたちからは次々と『修正しました』という報告が上がるものの、スコアは思うように向上しない。
F1スコア0.7x台からスタートし、最終的に0.82293(v119モデル)で12位。決して悪い成績ではない。しかし『5つの最強AI』という期待値とのギャップが生んだ挫折感は、数字以上に重くのしかかった。優秀なAIたちを活かしきれなかった自分への反省。そして、その過程で学んだ「AI時代のマネジメント」について、正直に記録していきたい。
第0章:過剰なまでの準備
実は、5AIツールとの協働を始める前に、私は一人で膨大な準備をしていた。DeepResearchを使って18本ものレポートを作成。CodeBERT、CodeT5といった最先端モデルの有効性分析から、RTX 4090とRTX 3060を使ったマルチGPU環境の最適化戦略まで。
📚 事前準備レポート(18本)
━━━━━━━━━━━━━━━━━━━━━━━━
• CodeBERT/CodeT5有効性分析 ×4本
• AI生成コード検出戦略 ×5本
• マルチGPU実装ガイド ×3本
• データ拡張技術 ×3本
• F1スコア最大化戦略 ×3本
━━━━━━━━━━━━━━━━━━━━━━━━
総文字数: 約200,000字(原稿用紙500枚分)
Claude、Gemini、Perplexity、ChatGPT5...あらゆるAIを駆使して情報を集めた。「これだけ準備すれば、5AIツールとの協働は完璧にいくはずだ」。そう信じていた。
しかし、後から思えば、この「過剰な準備」こそが落とし穴だった。情報が多すぎて、5AIツールたちも私も、何を優先すべきか見失ってしまったのだ。
第1章:理想的な船出
最初の戦略会議は、まるで優勝チームの作戦会議のようだった。私は18本のレポートを5AIツールに読ませた。「これを基に戦略を立てよう」。
「Claude Code、君は全体戦略を頼む」
「Gemini CLI、データ分析と先行研究の調査を」
「Qwen Code、実装の中核を担当してくれ」
「Codex CLI、デバッグとエラー処理を」
「Cursor CLI、全体の統合とUIを」
各AIから次々と「了解しました」という返答が返ってくる。まるでサッカーの監督が、ワールドクラスの選手たちに指示を出しているような高揚感があった。実際、彼らの初動は素晴らしかった。
Claude Codeが提案した戦略は理論的で、Gemini CLIが収集した関連論文は網羅的だった。Qwen Codeが書いたコードは美しく、358言語対応の実力は伊達ではない。Codex CLIのエラーハンドリングは堅牢で、Cursor CLIの統合作業はスムーズだった。
最初の提出物を見た時、私は確信した。「これは間違いなく上位に入る」と。コードは整然としており、ドキュメントも完璧。5つのAIが作り出したこの作品は、まさに芸術品のようだった。
しかし、提出ボタンを押した瞬間から、私たちの理想は崩れ始める。返ってきた結果は予想外のものだった。F1スコア:0.73。そして何より衝撃的だったのは、「提出フォーマットエラー」という警告メッセージ。
「どういうことだ?」私は画面を見つめた。5つの優秀なAIが揃って、最も基本的なCSVフォーマットでミスをする?信じられなかった。しかし、これが60回の挑戦の始まりだった。AIたちからは「すぐに修正します」という楽観的な返答。だが、この時の私はまだ気づいていなかった。問題は技術力ではなく、マネジメントにあることに。
第2章:最初の亀裂 - 形式エラーの悲劇
「形式を修正しました」とQwen Codeが報告する。「ヘッダーの順番が違っていたようです」とGemini CLIが補足。私は安堵しながら2回目の提出を行った。結果:再びフォーマットエラー。
ここから始まった形式エラーとの戦いは、まさに悪夢だった。各AIが「今度こそ大丈夫」と言うたびに提出し、そのたびにエラー。気がつけば、60回中5回もの貴重な提出機会を、この基本的なミスで失っていた。
最も苛立ったのは、AIたちの楽観的すぎる態度だった。「大丈夫です、次は必ず」という言葉の裏に、本当の確信があるのか疑問に思い始めた。Claude Codeは「統計的に見て、次回の成功確率は高い」と言い、Codex CLIは「エラーパターンを学習しました」と報告する。しかし結果は変わらない。
ある時、私は気づいた。5つのAIが、それぞれ異なる「正解」を持っていることに。Gemini CLIは最新の論文形式を参照し、Qwen Codeは一般的なプログラミング慣習に従い、Cursor CLIは見た目の美しさを優先していた。誰も間違っていない。しかし、誰も「このコンペの正解」を理解していなかった。
私は初めて、マネージャーとしての責任を感じた。優秀な選手が5人いても、戦術が統一されていなければチームは機能しない。サッカーで言えば、フォワードが勝手にドリブルし、ミッドフィルダーが独自の判断でパスを出し、ディフェンダーが個人プレーに走っているようなものだった。
「全員、一度立ち止まろう」私は指示を出した。「提出フォーマットの仕様書を、全員で同じように解釈する必要がある」。この時から、私の役割は「AIに任せる人」から「AIを統率する人」へと変わり始めた。しかし、本当の試練はまだこれからだった。次に待っていたのは、スコアが改善しない理由を巡る、さらに深い混乱だった。
第3章:スコア悪化の罠 - 分析を飛ばす5AIツール
ようやくフォーマットエラーを克服し、本格的な改善フェーズに入った。F1スコア0.78まで上昇し、希望が見えてきた矢先のことだった。新しいアプローチを試した結果、スコアが0.74に下落。この瞬間、5AIツールの反応は私を驚かせた。
「前のバージョンに戻しましょう」とClaude Codeが即座に提案。「リスクを避けるべきです」とGemini CLIが同調。「安定版で確実に」とCodex CLIも賛成した。
私は違和感を覚えた。「待って、なぜスコアが下がったか分析しないの?」
しかし、AIたちの答えは一致していた。「時間の無駄です。確実に動いていた版があるのですから」。この瞬間、私は5AIツールの決定的な弱点を理解した。彼らは「失敗から学ぶ」ことができない、いや、しようとしないのだ。
人間の私にとって、失敗は学びの宝庫だ。なぜうまくいかなかったのか、どの部分が問題だったのか、その分析こそが次の成功への鍵となる。しかし、AIたちは違った。彼らにとって失敗は単なる「避けるべきリスク」でしかない。
ここから始まった「分析なき後退」の連続は、私たちの進歩を完全に止めた。新しいアプローチ→スコア低下→即座に前版へ→また新しいアプローチ→スコア低下→また前版へ。この無限ループに陥り、貴重な提出回数を浪費していく。
実際、60回の提出の内訳を見ると愕然とする。
提出結果の内訳(60回)
━━━━━━━━━━━━━━━━━━━━━━━
成功 ████████████████████ 45回 (75.0%)
形式エラー ███████ 15回 (25.0%)
巻き戻し ██ 5回 (8.3%)
成功したのは45回、形式エラーで無駄にしたのが15回(なんと25%!)、そして性能低下による巻き戻しが5回(この5回は成功45回に含まれる)。つまり、実質的な前進に使えたのは40回程度だった。特に形式エラーの15回は痛恨の極みだ。「prediction.txt」のフォーマット、改行コード、文字エンコーディング...こんな基本的なミスで貴重な提出機会を失うとは。
30回目の提出あたりで、私はついに爆発した。「もう前に戻すな!なぜ下がったか分析してから判断しろ!」
サッカーで例えるなら、失点したからといって、その原因を分析せずに守備的戦術に切り替えるようなものだ。相手の攻撃パターンも、自チームの守備の穴も理解せずに、ただ「守れば失点しない」という短絡的な判断。これでは成長はない。
私は新しいルールを設定した。「スコアが下がったら、必ず以下を実行する。1.どの特徴が悪化したか特定、2.変更箇所との因果関係を分析、3.仮説を立てて検証、4.その上で次の手を決める」。
この「分析プロトコル」の導入により、ようやく私たちは前進を始めた。5AIツールは優秀だが、その優秀さを「失敗を恐れない挑戦」に向けさせるのは、人間の役割だと痛感した瞬間だった。しかし、40回の提出を過ぎた頃、私はさらに重要なことに気づくことになる。
第4章:管理者としての覚醒
40回目の提出を終えた夜、私は深く考え込んでいた。残り20回。これまでの40回で学んだことを整理する必要があった。
最大の気づきは、5AIツールそれぞれの「性格」を理解し始めたことだった。Claude Codeは慎重で理論的だが、時に保守的すぎる。Gemini CLIは情報収集に長けているが、時に情報過多で本質を見失う。Qwen Codeは実装が速いが、細部にこだわりすぎることがある。Codex CLIは問題解決に優れているが、既存の枠組みに囚われやすい。Cursor CLIは統合が得意だが、個々の要素の深い理解が不足することがある。
これらは欠点ではない。個性だ。そして私の役割は、これらの個性を理解し、適切に組み合わせることだった。
新しい指揮体系を導入した:
- 探索フェーズ:Gemini CLI主導で情報収集、他は待機
- 設計フェーズ:Claude Code主導で戦略立案、他は提案のみ
- 実装フェーズ:Qwen Code主導、Codex CLIがサポート
- 検証フェーズ:全員で多角的にレビュー
- 統合フェーズ:Cursor CLI主導で最終調整
この明確な役割分担により、それまでの混沌とした議論が、構造化された生産的な協働へと変わった。スコアも徐々に改善し始め、0.80を超えた。
しかし、最も重要だったのは「私自身の変化」だった。私は5AIツールを「使う」のではなく、「共に働く」ことを学んだ。彼らの提案を鵜呑みにするのでも、完全に却下するのでもなく、「なぜそう考えたのか」を問い、理解し、時に挑戦することが必要だった。
サッカーの監督が選手の特性を理解し、最適なフォーメーションを組むように、私も5AIツールの特性を活かす「フォーメーション」を見つけた。それは固定的なものではなく、状況に応じて柔軟に変化する、生きた戦術だった。
この頃から、私たちは本当の意味での「チーム」になり始めた。お互いの強みを認め、弱みを補い合う。45回目の提出で0.82を記録した時、私たちは静かに喜びを分かち合った。派手な成功ではないが、確実な前進だった。
第5章:最後の20回
残り20回となった時、私たちには明確な戦略があった。もはや「優勝」は現実的ではない。しかし、「学びを最大化する」ことはできる。
最後の20回は、これまでで最も生産的だった。形式エラーはゼロ。無意味な後退もゼロ。各提出で、必ず何かを試し、結果を分析し、次につなげた。スコアは0.82前後で安定していたが、それでよかった。私たちは「勝つこと」より「成長すること」を選んだのだ。
興味深いことに、プレッシャーから解放された5AIツールは、より創造的になった。Gemini CLIは予想外の論文を見つけ、Qwen Codeは独創的な実装を提案し、Codex CLIは従来とは異なる問題解決アプローチを示した。「失敗してもいい」という安心感が、彼らの真の能力を引き出したのかもしれない。
56回目の提出で、私たちは最高スコア0.82293を記録した(v119モデル)。その後の4回は、あえて実験的なアプローチを試した。スコアは下がったが、後悔はない。60回すべてを「学び」に使い切ったという満足感があった。
最終日、順位表を見た。27人中12位。中途半端な順位だ。しかし、不思議と悔しさはなかった。むしろ、この12位という数字が、私たちの旅を正確に表していると感じた。
技術力だけなら、5AIツールの組み合わせは間違いなくトップクラスだった。しかし、それを活かすマネジメント力が不足していた。最初の20回を無駄にし、中盤の20回で学び、最後の20回でようやく本領を発揮した。この学習曲線が、12位という結果に現れている。
エピローグ:学んだ教訓
60回の挑戦を終えて、私は多くを学んだ。技術的な学びもあったが、最も価値があったのは「AI時代のマネジメント」に関する洞察だった。
第一に、AIは道具であり、パートナーでもあるということ。彼らを過信してもいけないし、軽視してもいけない。適切な距離感と理解が必要だ。
第二に、複雑さは必ずしも優位性にならないということ。5つのAIツールより、1つのAIツールを深く理解し使いこなす方が、時に効果的だ。
第三に、失敗から学ぶのは人間の特権であり責任だということ。AIは最適解を提示するが、「なぜそれが最適なのか」「失敗から何を学ぶか」を考えるのは人間の役割だ。
そして最後に、最も重要な教訓。優秀なAIツールを活かせるかどうかは、結局のところ人間次第だということ。5AIツールは確かに優秀だった。活かせなかったのは、私のマネジメント力不足が原因だ。
しかし、この「失敗」こそが、私にとって最大の成功だったのかもしれない。もし簡単に優勝していたら、これらの学びは得られなかった。12位という結果が、私に多くのことを教えてくれた。
これからもAIとの協働は続く。しかし、次は違う。60回の経験が、私を成長させた。5AIツールを活かせなかった私は、もういない。
Discussion