AI出力の品質が悪い?「レビューと改善を3回繰り返して」だけで圧倒的に品質が上がる

に公開

こんにちは、ログラスの松岡(@little_hand_s)です。

3行まとめ

  • AIに 「レビューと改善を3回繰り返して」 と指示するだけで、アウトプットの品質が向上する
  • 本記事では、この手法を 「セルフレビュー反復」 と呼び、ドキュメント生成でもコーディングでも活用できる
  • シンプルな指示から始めても効果が出る。レビュー基準を育てていくことで、さらに品質が向上する

はじめに

AIの生成物、なかなか思った通りの品質にならないという感覚、ありませんか?

記事を生成させたら、論理が飛躍していたり、表現が分かりにくかったり、冗長だったり...。
コードを生成したら設計に問題があったり要件を満たしていなかったり…。

結局、かなりの割合を自分で修正して結構な時間がかかってしまった、ということ、ありますよね。

そこで効果的なのが、AIに 「レビューと改善を繰り返させる」 という手法です。
本記事では、これを 「セルフレビュー反復」 と呼びます。

自分が書いた文章を時間を置いて読み返すと、書いている時には気づかなかった問題点が見えてくる経験、ありますよね。AIも同様に、「生成モード」と「レビューモード」を切り替えることで、より高品質な成果物を生み出せます。

この手法は2023年の論文「Self-Refine」で効果が科学的に実証されています。しかも、やり方は超シンプル。具体的なやり方を見ていきましょう。

1. 実践方法

1-1. 基本の使い方

やり方は簡単:プロンプトに「レビューと改善を3回繰り返して」と指示するだけです。

これだけで、AIが自動で「レビュー→改善→レビュー...」を繰り返してくれます。
なぜこれで効果があるのか、なぜ3回と指定するのか、といった理由は後述しますが、まずは実践方法を説明します。

1-2. 実践プロンプト例

セルフレビュー反復は、いつでも利用することができますが、生成開始時、生成後という代表的な2つのタイミングの例を紹介します。

パターン1:生成開始時に指示する

何かの生成を依頼するタイミングで指示をすると、最初のアウトプット段階から品質を上げられます。
ChatGPT、Claude、Claude Codeなど、どんなAIツールでも同じように活用できます。

ブログ記事の例:

記事構成AIなどでアウトラインを作った後に、以下のプロンプトを実行します。

以上の構成で、ブログ記事を生成してください。
生成後、レビューと改善を3回繰り返してください。

コードの例:

受入基準を記述した後に、以下のプロンプトを実行します。

この受入基準を満たすコードを実装してください。
実装後、レビューと改善を3回繰り返してください。

パターン2:生成完了後に指示する

パターン1は新規生成時に指示する方法でしたが、生成完了後や作業途中でも、いつでもセルフレビュー反復を実行できます。
AIの生成が完了した後、または人間が修正を加えた後に実行する方法です。

この記事(コード)に対してレビュー、改善を3回繰り返してください

このシンプルな指示だけで、記事でもコードでも、安定して品質が向上します。
生成完了後だけでなく、それに対して自分で修正を加えた後など、適宜細かく実施しても効果があります。


2. なぜセルフレビュー反復で品質が上がるのか

次は、なぜこれで効果があるのかを見ていきましょう。

2-1. 原理:生成とレビューの分離、そして反復

セルフレビュー反復が効果的な理由は、生成とレビューで異なる処理プロセスを使い、それを反復することにあります。

  • 生成時(Generate)

    • 複数の要素を同時に考慮する必要がある
    • 例:コードを書く時は、アルゴリズム、変数名、エラー処理を同時に考える
    • → 複雑なタスクのため、見落としが発生しやすい
  • レビュー時(Feedback)

    • 既存の出力を評価するだけなので、判定基準が明確
    • 例:既にあるコードを「読みやすいか?」「バグはないか?」と判定する
    • → 評価タスクに集中できるため、精度が高い

つまり、同じLLMでも、生成とレビューを別途実行することで品質が向上 し、反復により段階的な改善が可能 になります。

2-2. 実証例:Self-Refine論文の成果

この「セルフレビュー反復」の効果を科学的に実証したのが、2023年にNeurIPS(AI分野のトップ学会の一つ)で発表された論文「Self-Refine: Iterative Refinement with Self-Feedback」です。

具体的な改善データ:

  • 📊 平均20%の品質向上(全タスク平均)
  • 💻 コード生成:+8.7〜13.9ポイント改善
  • 📝 テキスト生成:+15〜30ポイント向上
  • 🔄 最適回数:2-3回(それ以降は効果が薄い)
評価の詳細(7タスクでの実証結果)

Self-Refine論文では、以下の7つのタスクで評価されました:

コード生成系(2タスク):

  • コード最適化:+8.7ポイント改善
  • コード可読性:+15ポイント改善

テキスト生成系(4タスク):

  • 感情反転:+30ポイント改善
  • 対話応答:+26ポイント改善
  • 制約付き生成:+41ポイント改善
  • 頭字語生成:+15ポイント改善

推論系(1タスク):

  • 数学的推論:+5.2ポイント改善

評価方法:

  • GPT-4による評価、自動メトリクス、人間評価を組み合わせて測定
  • 2023年NeurIPS(AI分野のトップ学会の一つ)で発表された研究成果

AI分野では2023年の論文は古いと感じるかもしれません。しかし、「生成とレビューを分離し、反復的に改善する」という原理は、2025年現在も様々な実務ツールで引き継がれています

  • 2024年Microsoft AutoDevが、コード生成においてレビューと改善を反復する機能を実装
  • 2024-2025年:「Claude Code Best Practices」という記事の中で、「人間と同様に、Claudeのアウトプットは反復によって大幅に改善される傾向がある。最初のバージョンが良くても、2-3回の反復を経ると通常はるかに良くなる」と紹介されている

最新のLLMでも、この原理は変わらず効果を発揮し続けています。

3. さらに精度を上げるコツ

セルフレビュー反復の効果と原理が分かりました。次は、さらに精度を上げるコツを見ていきましょう。

3-1. 繰り返し回数について

Self-Refine論文では、2-3回の反復が最も効果的で、それ以降は効果が薄くなるという結果が示されています。
ただし、これは利用するAIのモデル、タスクの種類、難易度によってもばらつきがあります。実際には、少ない回数で十分な場合もあれば、3回でも足りない場合もあります。実際の結果を見ながら調整してください。

プロンプト的には「改善点がなくなるまで」より「3回」と指定した方が安定する傾向があるため、本記事ではプロンプトで3回と明示的に指定することを推奨しています。

3-2. 具体的なレビュー観点を指定する

単に「レビューして改善して」と指示するより、具体的な観点を明示した方が改善の質が高くなります。

ブログ記事の例:

以下の観点でレビューと改善を3回繰り返してください:
- 論理展開に飛躍がないか
- 専門用語に説明がついているか
- 冗長な表現がないか
- 読者の疑問に先回りして答えているか
- 具体例が十分にあるか
- 誤字脱字がないか

コードレビューの例:

以下の観点でレビューと改善を3回繰り返してください:
- 受入基準を満たしているか
- テストが通過しているか
- エッジケース(null、空配列など)に対応しているか
- 関数・変数名が分かりやすいか
- 重複コードがないか(DRY原則)
- エラーハンドリングが適切か
- セキュリティ(SQL Injection、XSS対策)
- パフォーマンス(計算量が適切か)

これらの観点は毎回プロンプトに記載しても良いですが、ドキュメントに保存しておき、それを参照させる形を推奨します

Claude Codeの場合:
CLAUDE.mdなどのプロジェクト固有のルールや、チームのコーディング規約をドキュメント化しておけば、AIが「あなた/チームの基準」でレビューしてくれるようになります。

ChatGPTやClaude、Geminiなどのチャット系サービスの場合:
カスタム指示(Custom Instructions)にレビュー観点を設定しておくことで、毎回プロンプトに書かなくても自動的に適用されます。

導入方法としては、最初はAIに以下のようにレビュー基準を言語化させるのは良い方法です。

これからブログ記事のレビューをして欲しいです。その際のレビュー観点を言語化してください。

この結果をドキュメントやカスタム指示に保存しておいて、そこから育てていくとよいでしょう。
レビュー観点自体も継続的に改善していくことで、より効果的なレビューが可能になります。

まとめ

AIに「レビューと改善を3回繰り返して」と指示するだけで、アウトプットの品質が大きく向上します。

実践のポイント:

  • プロンプトに「レビューと改善を3回繰り返して」と追加するだけ
  • 繰り返しは2-3回が最適
  • シンプルな指示から始めても効果が出る。レビュー基準を育てていくことで、さらに品質が向上する

次にAIにコードや記事を生成させる時、ぜひ試してみてください。

設計品質改善に関する情報の紹介

本記事ではAIによるセルフレビュー反復について解説しましたが、設計やコードレビューの観点をより体系的に学びたい方向けに、筆者はドメイン駆動設計(DDD)に関する書籍も出版しています。

①基礎的な概念や考え方を学びたい方は

https://little-hands.booth.pm/items/1835632

初めてDDDを学ぶ方、もしくは実際に着手して難しさにぶつかっている方向けの書籍です。

特に第4章「設計の基本原則」では、「高凝集・低結合」な設計を具体的なコード例で解説 しており、AIに指示するレビュー観点の参考にしてもらえる と思います。

②実際のコードを見ながら実践したい方は

https://little-hands.booth.pm/items/3363104

実践にあたって頻出の疑問に対して、トピックごとに詳しく解説した書籍です。

特に第7章「テスト」では、DDDにおけるテスト方針とレイヤーごとの具体的なテストコードを解説 しており、AIが生成したコードのレビュー観点 として活用できます。

また、筆者は X(旧Twitter)でアジャイル・DDD・AI駆動開発に関する情報を発信しています。よろしければフォローいただけると嬉しいです。

https://x.com/little_hand_s

株式会社ログラス テックブログ

Discussion