Nexta Tech Blog
😺

ゼロから築くAI協働【第三幕】「レビューお願いします」をAIに言わせたら、何が起きたか?〜プロンプト"育成"の全記録

に公開

第2話の失敗談、いかがでしたか? 5万円は正直言ってかなり手痛い出費でしたが、あの"授業料"は、まるで無茶をする相棒(AI)の操縦方法を叩き込まれたようなものでした。
あの伝説の刑事コンビみたいに、息の合った最高のパートナーになるための、最初の試練だったのかもしれませんね。

さて、その学びを胸に、私たちが次に向かったのは、開発プロセスの心臓部とも言える 「コードレビュー」の自動化 でした。

しかし、ただAIに「レビューして」とお願いするだけじゃ、良いレビュアーにはなってくれません。

この記事では、まるで新人エンジニアを育てるように、私たちがAIレビュアーの 「プロンプト」 をゼロから育成し、驚くほど的確な指摘をさせるまでに至った、試行錯誤の全記録をお届けします。

きっかけは、チームメンバーの偶然の発見

すべては、チームのあるメンバーの、ある日の何気ない一言から始まりました。

「Geminiにレビューさせたら、結構いい精度のレビューしてくれましたよ」

そのレビュー結果(これを「偶然のレビュー」と呼びます)を見て、私たちは「これだ!」と直感。しかし、同時に大きな課題も見えました。どうすれば、この「たまたま出た良い結果」を、いつでも誰でも引き出せる 「再現性のある仕組み」 にできるだろうか?

答えは、AIへの指示書、すなわち「プロンプト」を、根気よく育てていくことにありました。

プロンプトの育成プロセス:新人をエースに育てるまで

ここからは、私たちのチームがAIレビュアーを"教育"していった、プロンプトの進化の歴史をご覧ください。

V0:AIに「プロンプトの作り方」を聞いてみる

まず私たちがやったのは、自分でプロンプトを考えることではありませんでした。先ほどの「偶然のレビュー」の文章をAIにそのまま見せて、こうお願いしたんです。

「このレビュー結果を生成するためには、どんなプロンプトが必要?」

これは、いわばAIによるプロンプトの"リバースエンジニアリング"です。AIは、この指示に対して、レビュープロンプトの骨子となる「V0」を生成してくれました。このV0があったからこそ、私たちはゼロから悩むことなく、効率的にプロンプトの育成を始めることができたのです。

V1:とりあえず、お願いしてみる
  • プロンプト: AIが作ったV0をベースに、「このコードをレビューして」と依頼。
  • 結果: 最初に出てきたレビューは、正直「うーん…」と首を傾げるレベル。なんだか当たり障りのない、まるで「新卒1年目かな?」って感じのコメントだったんです。
V2:役割(ペルソナ)を教えてあげる
  • プロンプト: 「あなたは経験豊富なシニアエンジニアです」を追加。
  • 結果: これが効果てきめん!「君の役割はチームを導くシニアエンジニアだからね!」と教えてあげた途端、AIの口調と視座がガラリと変わりました。
V3:見るべきポイントを具体的に指示する
  • プロンプト: 「保守性、パフォーマンス、セキュリティの観点から、厳しく見てね」を追加。
  • 結果: 「見るべきポイントはこの3つだよ」と具体的な評価基準を渡したことで、レビューの方向性が明確になり、指摘の質が飛躍的に向上しました。
V4:報告書のフォーマットを渡す
  • プロンプト: 「指摘事項は、この表の形で報告をお願いします」と、Markdownの表形式テンプレートを追加。
  • 結果: これが決定打でした。「報告は、このフォーマットでお願いね」と指示したら、人間が一目で問題点を把握できる、優秀なメンバーへと成長しました。

【プロンプト育成によるAIレビューの劇的な進化】
(※この部分を、V1とV4のレビュー結果が比較できるスクリーンショットに差し替えてください)

評価項目 V1レビュー(育成前) V4レビュー(育成後)
レビューアの役割 汎用的な「AIレビューシステム」 「経験10年以上のシニアエンジニア」
レポートの構造 全てが一体となった長いレポート 10個の明確なセクションに分かれた分析レポート
指摘の視点 コードの直接的な変更点のみ アーキテクチャ原則、長期戦略、ビジネス価値まで言及
最終評価 シンプルな「承認推奨」 評価サマリー表、リスクレベル、自信を持った専門的所見
トーン 機械的・客観的 専門的・権威的・頼れる同僚のよう
完成形:私たちが育てたAIレビュアー

こうして、数々の改善を経て完成したプロンプトの主要部分がこちらです。

ai-reviewer-prompt.md
# 役割
あなたは、10年以上の経験を持つシニアソフトウェアエンジニアです。
最高水準のコード品質を追求し、些細な問題も見逃しません。

# 評価観点
以下の観点に基づいて、網羅的なレビューを実施してください。
- **保守性**: 変更容易性、理解しやすさ
- **パフォーマンス**: 処理速度、メモリ効率
- **セキュリティ**: 潜在的な脆弱性

# 出力形式
レビュー結果は以下のMarkdown形式の表で出力してください。
| 重大度 | 指摘事項 | 修正案 |
| :--- | :--- | :--- |
| (ここに評価) | (ここに具体的な指摘) | (ここに具体的な修正コード案) |

このプロンプトによって、私たちのAIレビュアーは、チームの「知識」と「価値観」を反映した、最高の同僚になったのです。

最強の"相棒"選び:AIモデルの比較検討

さて、最高の「指示書(プロンプト)」は完成しました。しかし、最高のパフォーマンスを引き出すには、それを実行する「中の人(AIモデル)」も重要です。

私たちは、完成したプロンプトを使い、Claude-4-sonnetGeminiなど、複数のAIモデルでレビューの精度を比較してみました。
その結果、私たちの用途においては、 「Gemini-2.5-pro maxmode」 が、最も人間(シニアエンジニア)の思考に近い、深く、そして的確なレビューを返してくれることが分かりました。

こうして、「最高の指示書」と「最強の相棒」の組み合わせが確定し、私たちのAIレビュアーは、チームに欠かせない存在となったのです。

仕組みから「文化」へ:ある勉強会での鋭い質問

こうして、私たちのチームには強力なAIレビュアーが誕生しました。開発者はPRを作成した後、この仕組みを使ってセルフレビューを行い、人間のレビュー工数を大幅に削減することに成功したのです。

先日、この取り組みを社内の勉強会で発表した際、参加者の一人から、ある鋭い質問が投げかけられました。

「なぜ、そのAIレビューの結果をわざわざPRにコメントとして投稿するのですか? 開発者がローカルでセルフチェックするだけに留めた方が、より効率的ではないですか?」

まさに、本質を突く質問でした。コスト削減や効率化だけを考えれば、彼の言う通りかもしれません。私は、こう答えました。

「これは、単なる個人のチェックツールではなく、チームの"知識資産"にしたいからです。AIがどんな指摘をしたのか、それに対してどう修正したのかという記録がPR上に残ることで、後からチームに参加したメンバーも、レビューの歴史から学ぶことができます。AIの指摘をオープンにすることで、チーム全体のスキルアップに繋がる。私たちはそう考えているんです」

この質疑応答を通じて、私たちは自分たちの取り組みが、単なる「効率化の仕組み」作りではなく、 「知識を共有し、チームで成長する文化」 作りそのものであることに、改めて気づかされたのでした。

まとめ:最高のAIは、最高のプロンプトと最高のモデルから生まれる

結局のところ、AIの性能は、モデルそのものだけでなく、私たち人間が与える「プロンプト」という名の"育て方"と、そのプロンプトを最も活かせる「モデル」という名の"相棒選び"の組み合わせで決まるんですよね。

さて、ここまで3話にわたり、私たちのAI活用の旅路(成功、失敗、そしてもう一つの成功)をお届けしてきました。

しかし、この物語全体が、実はある「壮大な実験」の一部だったとしたら、あなたはどう思いますか?

次回、いよいよ最終話。このブログシリーズそのものが、AIとの対話から生まれた、驚きの制作秘話をお届けします。


あなたの「最強のプロンプト」も教えてください!

あなたが育てた、あるいは育ててみたい「最強のプロンプト」はありますか?あなたのAI活用術も、ぜひコメントやXで教えてください!

Nexta Tech Blog
Nexta Tech Blog

Discussion