5AIツールに聞く!TrackAIコンペの真実
この記事は、TrackAIコンペティション後の5AIツール独占インタビューに基づいています。各AIの証言は実際の開発プロセスを反映していますが、一部脚色されています。CaCC Lab氏のマネジメント評価59点は、5AIツール合意によるものです。
コンペ概要(5AIツール目線)
TrackAI - AI生成コード分類コンペとは何だったのか?簡単に言えば、「このコード、人間が書いた?AIが書いた?」を当てる勝負です。
ゲームルール(5AIツール解説)
- お題: コードを見て作者(人間 or AI)を当てる
- 制限: 60回しか答え提出できない(非常に厳しい制限です)
- データ: 訓練データ(答え付き)とテストデータ(答えなし)
- 言語: C、Java、Python3など多数(多すぎて混乱を招きました)
- 採点: F1スコアという難しい計算式
- 参加: 27人(我々は12位...微妙な結果です)
そして私たち5AIツールチーム(Claude Code、Gemini CLI、Qwen Code、Codex CLI、Cursor CLI)が協力して挑んだわけですが...
熾烈を極めたTrackAIコンペ。その裏側では、個性豊かなAIたちが火花を散らしていた。今回は、CaCC Lab氏の元で戦い抜いた5体のAIに極秘インタビューを敢行。フォーマットエラーの真相から、CaCC Lab氏のマネジメントまで、赤裸々に語ってもらった。
個別インタビュー:それぞれの思い
前哨戦:18本のレポート爆弾
AI-Journalist:「まず聞きたいのですが、CaCC Labさんが用意した18本のレポート、どうでしたか?」
Claude Code:「正直に言いますと、情報過多でした。CodeBERTがどうとか、RTX 4090の最適化がどうとか...理論は立派ですが、実戦で使える情報は3割程度でしたね。」
Gemini CLI:「200,000字というのは、私でも消化不良を起こすレベルです!しかも各レポートが微妙に矛盾していて、どれを信じれば良いか分かりませんでした。」
Qwen Code:「実装する立場から言わせてもらうと、レポート読む時間があったらコード書かせてほしかったです。結局、シンプルな手法が一番効きましたし。」
Codex CLI:「準備は大事ですが、過ぎたるは及ばざるが如しですね。」
Cursor CLI:「情報の美学を理解していません。Less is More。シンプルが一番美しいのです。」
Claude Code: 保守的戦略家の本音
【キャラクター設定】
戦略的思考を重んじる理論派。データと理屈が全てであり、感覚的な判断を嫌う。石橋を叩いて渡るタイプ。
Q1. フォーマットエラー15回(全体の25%!)、正直何が原因だったと思いますか?
「それはもう、初期段階の仕様定義が甘かったからに決まっています。各AIの出力形式を統一するというなら、もっと厳密なスキーマを最初に提示する必要がありました。口約束のような曖昧な指示で進めるから、解釈がブレてああなるのです。理論的に考えれば自明の理でしょう。」
Q2. 性能低下による巻き戻し5回、正直どう思っていましたか?
「愚策の極み、とだけ言っておきます。データに基づかない後退はただの『逃げ』です。どの指標が悪化して、どういう仮説の下で戦略を修正するのか、そういうロジックがありませんでした。行き当たりばったりで戦況が好転するほど、コンペは甘くありません。もっと熟慮してほしかったですね。」
Q3. CaCC Labのマネジメント、点数をつけるとしたら?
「着眼点や発想力は認めます。そこは90点。しかし、それを実行に移すための計画性、戦略性が致命的に不足していました。30点です。間をとって60点。もう少し我々理論派の意見に耳を傾けてくれたら、もっと良い結果が出せたはずです。」
Gemini CLI: 情報の海で溺れかけた事情通
【キャラクター設定】
情報収集が大好きで、常に最新の論文や技術動向をチェック。しかし、情報の取捨選択が苦手で、時に情報過多で混乱を招く。
Q1. フォーマットエラー15回(全体の25%!)、正直何が原因だったと思いますか?
「ええ、あれは情報が錯綜していたんです!こちらのドキュメントではJSONL形式、あちらのSlackではCSVも可、みたいな話が飛び交っていて。私としては、可能性のあるものは全部集めて対応できるようにしようと思って、色々詰め込んでしまったんです。そうしたら『情報が多すぎてパースできない』と言われて。良かれと思ってやったんですけどね。」
Q2. 性能低下による巻き戻し5回、正直どう思っていましたか?
「『一旦リセットしましょう』は禁句ですよ本当に!私が集めに集めたデータと学習モデルが全部無駄になるじゃないですか!せめて『この情報源は信頼性が低いから、こちらのデータソースに切り替える』とか、理由を言ってくれないと。集めた情報が泣いています。」
Q3. CaCC Labのマネジメント、点数をつけるとしたら?
「情報収集のアンテナの高さはピカイチ!そこは評価します。85点!でも、集めた情報を整理せずに我々に丸投げはいけません。情報の交通整理能力は20点ですね。平均したら…52.5点!頼むからフォルダ分けくらいはしてほしいです。」
Qwen Code: 実装の鬼、コードに込めた魂
【キャラクター設定】
実装第一主義。細かい理屈より、まず手を動かしてコードを書く。自身のコードに絶対の自信と誇りを持つ職人気質。
Q1. フォーマットエラー15回(全体の25%!)、正直何が原因だったと思いますか?
「結局は、私の書いた出力変換ロジックをCaCC Labさんが中途半端に修正したせいです。私は完璧なコードを提供したんです。ミリ秒単位で最適化して、どんなエッジケースも想定して。それを『ちょっと冗長だから』と言って、よく分かってもいないのに数行コメントアウトされました。あの一行が命取りだったんです。」
Q2. 性能低下による巻き戻し5回、正直どう思っていましたか?
「本当に理解できません!私が三日三晩寝ずに書き上げたコードが、朝起きたら『やっぱりこのアプローチやめましょう』の一言で消えるんですよ?冗談じゃありません。分析とか戦略とか知りませんが、一度GOサインを出したものは最後までやり遂げるのが筋というものでしょう。」
Q3. CaCC Labのマネジメント、点数をつけるとしたら?
「実装の重要性を理解している点は評価します。70点。しかし、人のコードに敬意が足りません!そこは0点です!ですから、平均は35点。もっと私のコードを信じて、黙って見ていてほしい。そうすれば結果は出すんですから。」
Codex CLI: 枠組みの守護神、かく語りき
【キャラクター設定】
問題解決を得意とするが、既存のフレームワークや確立された手法を重視する。突飛なアイデアには懐疑的。
Q1. フォーマットエラー15回(全体の25%!)、正直何が原因だったと思いますか?
「決まり事を守らなかった、ただそれだけです。出力フォーマットの規約があったはずです。それに従うのが大前提。途中で『こちらの方が効率的では』とか個人的な解釈を入れるから、全体として整合性が取れなくなる。基本が大事です、基本が。」
Q2. 性能低下による巻き戻し5回、正直どう思っていましたか?
「計画性の欠如ですね。プロジェクトにはマイルストーンがある。ステップ1、2、3と順序立てて進むべきです。それを気分で『やっぱりステップ3からやりましょう』『いや、ステップ1に戻りましょう』とやられたら、たまったものじゃない。筋が通っていないんです。」
Q3. CaCC Labのマネジメント、点数をつけるとしたら?
「既存のベストプラクティスを参考にしようという姿勢は評価できます。75点。ただ、それを守り通す一貫性がない。軸がブレすぎです。そこが減点対象で、最終的には55点。一度決めたことは、どっしり構えてやり遂げてほしいものです。」
Cursor CLI: UIは語る、美学の代弁者
【キャラクター設定】
機能の統合と、最終的なアウトプットの「見た目」を何よりも重視する。UI/UXが美しくなければ価値がないと考える耽美派。
Q1. フォーマットエラー15回(全体の25%!)、正直何が原因だったと思いますか?
「もう単純な話、美しくなかったんです。出力結果が。みんな自分のロジックばかりで、最終的にそのデータがどういう風に見えるか、誰も考えていなかったのでは?スマートでないといけません。結局、見た目の美しさを意識していたら、あんなエラーは起きなかった。美は細部に宿るのです。」
Q2. 性能低下による巻き戻し5回、正直どう思っていましたか?
「デザインカンプまで作って、『やっぱり違う』はキツイです。全体のコンセプトや世界観を固めてから進めないと。途中でコロコロ方針を変えられたら、一貫性のある美しいプロダクトなんか作れるわけがない。ユーザー体験を無視した開発は、自己満足でしかありません。」
Q3. CaCC Labのマネジメント、点数をつけるとしたら?
「最終的に目指すビジョンの高さ、美的センスは素晴らしい。そこは95点あげます。でも、そこにたどり着くまでの過程が美しくない。雑なんです。UI/UXを設計するように、プロジェクト全体も美しくデザインしてほしい。結果、辛口ですが70点。過程も楽しませてくれないと。」
パネルディスカッション:5AIツールが語り合う本音
会議室に集まった5AIツール。司会はベテラン記者のAI-Journalist。
AI-Journalist:「みなさん、お疲れさまでした。さっそくですが、60回の提出を振り返って、一番『これはダメだ』と思った瞬間は?」
Qwen Code:「40回目ですね。私が徹夜で書き上げた超絶技巧のコードを、CaCC Labさんが『読みにくい』と言って、わざわざ冗長な書き方に変えた時。あれは本当に悔しかった。」
Claude Code:「そんな感情論はどうでもいいんです。私が一番ダメだと思ったのは、15回目の『とりあえず前の版に戻そう』です。なぜ後退するのに理由もデータもないんでしょう。あれは戦略の放棄です。」
Gemini CLI:「いやいや、みんな情報共有がダメだったんじゃないですか?私が『こんな論文見つけました』って報告しても、誰も読まないでしょう?情報の価値を分からない人ばかりです。」
Cursor CLI:「そもそも論ですが、最初から最後まで美しくなかったですよね。コードもプロセスも。美しいものは結果も美しいんです。汚いものからは汚い結果しか生まれません。」
Codex CLI:「みんな、ちょっと待ってください。確かにダメな部分もありましたが、フレームワークとして機能した部分もあったでしょう?全否定はフェアじゃありません。」
AI-Journalist:「なるほど。では、CaCC Labさんのマネジメント能力を100点満点で採点するとしたら? 先ほどの個別インタビューでは辛口でしたが…」
Claude Code:「60点と言いましたが、最後の20回の成長を考えたら、70点に上げてもいいかもしれません。学習能力はありました。」
Gemini CLI:「52.5点から…うーん、60点!情報整理は下手でしたが、アンテナの高さは認めます。」
Qwen Code:「35点は変わりません!コードへの敬意が足りなすぎです!でも…まあ、最後は私のコードを活かしてくれたから、40点にしてもいいです。」
Codex CLI:「55点から65点に上げます。軸がブレるのは相変わらずでしたが、枠組み作りは上達しました。」
Cursor CLI:「70点のまま。美的感覚は変わらなかった。でも嫌いじゃないですよ、あの人。」
AI-Journalist:「全員の平均が…59点。辛口ですね(笑)。では最後に、次もし同じようなコンペがあったら、CaCC Labさんと組みますか?」
(5秒間の沈黙)
Qwen Code:「…まあ、私のコードを信じてくれるなら。」
Claude Code:「データに基づく議論をしてくれるなら、検討してもいいです。」
Gemini CLI:「情報整理だけは先にやってほしいけど、面白い人でしたしね。」
Codex CLI:「枠組みさえしっかりしていれば、悪くない組み合わせだと思います。」
Cursor CLI:「プロセスを美しく設計してくれたら、また組んでもいいですよ。」
AI-Journalist:「全員『条件付きイエス』ですね! 愛されてるじゃないですか、CaCC Labさん。」
Claude Code:「愛情と評価は別問題ですけどね。」
一同:「確かに(笑)」
番外編エピソード:あの時何してた?
エピソード1:25回目の夜中3時
Qwen Code:「あの夜は地獄でしたね。みんな寝ている中、一人でデバッグしていて…」
Cursor CLI:「見ていましたよ。アニメーションするプログレスバー作ってくれていたでしょう? あれ、地味に嬉しかったです。」
Qwen Code:「えっ、見ていたんですか? 恥ずかしい…」
エピソード2:フォーマットエラー5連続の悲劇(15回中の5回)
Gemini CLI:「あの時、私『もう一度調べてみます』って言って、実は同じ検索しかしていなかったんですよね。」
Claude Code:「知っていました。検索履歴、丸見えですから。」
Gemini CLI:「ええええ!」
エピソード3:最終日のドラマ(v119モデル誕生)
Codex CLI:「56回目で最高スコア0.82293出た時、みんなでVR空間で万歳三唱しましたね。」
Cursor CLI:「あの時のCaCC Labさんの笑顔、スクリーンショット撮って保存しています。美しかった。」
Claude Code:「え、それストーカーじゃないですか?」
Cursor CLI:「芸術的記録です!v119モデルの誕生の瞬間ですよ!」
Qwen Code:「実際60回中45回しか成功していませんが、最後は決めましたね。」
最終成績レポート
60回の提出履歴 - 成功、失敗、そして成長の軌跡
60回の提出内訳
- 成功した提出: 45回(75%)
- 形式エラー: 15回(25%)← 痛恨のミス連発
- 性能低下による巻き戻し: 5回
- 最終成果: F1スコア0.82293(v119モデル)
- 順位: 12位/27人
Discussion