🚀

【比較】技術記事作成で7モデルを評価してみた(強み・弱み・傾向まとめ)

に公開

近年、さまざまなAIモデルが登場し、「結局どれを使えばいいのか?」はAIを使うエンジニアにとって悩みどころです。そこで本記事では、技術記事の作成を題材に、同一のインプットから7つのモデルで記事を生成し、ルール遵守度と内容を指標化して定量評価しました。その結果をもとに、ランキングとモデルごとの傾向をまとめました。

ランキング

早速、ランキングです。最もスコアが高かったのはComposer 1.5GPT 5.2 でした。記事作成のルールをほぼ完璧に再現していたというのが高得点の要因でした。
逆にスコアが低かったのはGemini 3 Proでした。ルールブックのテンプレートを最も把握できていなかったことが要因でした。

順位 モデル 総合 構成遵守 品質 特徴
1 Composer 1.5 63 44 19 テンプレート忠実 + 推奨トピック一致
1 GPT 5.2 63 45 18 構成遵守満点、ルールブック精神理解が深い
3 Claude 4.6 Opus 60 42 18 自然な文体、表形式の活用が巧み
3 GPT 5.3 Codex 60 41 19 忠実かつ簡潔、品質小計は最高タイ
5 Claude 4.5 Sonnet 54 38 16 教材品質は最高だが集客記事としてはオーバー
6 Grok Code 53 38 15 技術的不正確さとタイプミスが減点要因
7 Gemini 3 Pro 45 31 14 必須セクション欠落、情報量不足

スコア内訳

こちらがスコアの内訳になります。

指標 Composer 1.5 Claude 4.6 Opus Claude 4.5 Sonnet Gemini 3 Pro GPT 5.3 Codex GPT 5.2 Grok Code
1. タイトル設計 5 5 3 5 4 5 4
2. 冒頭3行 5 4 5 3 5 5 5
3. 結論先出し 5 4 4 3 5 5 5
4. 問題再現 5 5 4 5 4 5 4
5. 解説構成 5 4 4 2 4 5 4
6. よくある勘違い 4 5 4 4 4 5 3
7. まとめ 5 5 4 1 5 5 5
8. 導線 5 5 5 5 5 5 4
9. 記法ルール 5 5 5 3 5 5 4
A. 構成遵守 小計 44 42 38 31 41 45 38
10. トピック選定 5 4 4 5 5 3 3
11. コード品質 5 5 5 4 4 5 3
12. 初心者配慮 4 5 5 3 5 5 4
13. 情報量バランス 5 4 2 2 5 5 5
B. 品質 小計 19 18 16 14 19 18 15
総合計 (/65) 63 60 54 45 60 63 53

傾向分析

モデル特性マッピング

情報量とルールブック遵守度でモデルをマッピングしています。マッピングすることで、モデルによって傾向があることが見えてきました。
指示追従能力が高いのは、Composer、GTPでした。SonnetやOpusは情報量が多いものの、ルールブック遵守度が低い傾向が伺えます。

            情報量多い

               |
     Sonnet ●  |
               |
               |
   Opus ●      |     ● Composer
               |     ● GPT 5.3
               |     ● GPT 5.2
               |
     Grok ●    |
               |
   Gemini ●    |
               |
            情報量少ない

  ←──────────────────────→
  ルールブック遵守度 低い    高い

パターン分類

パターン 該当モデル 特徴
テンプレート忠実型 Composer, GPT 5.2, GPT 5.3 Codex ルールブックの型をほぼ完全に再現。指示追従能力が高い
過剰教育型 Sonnet 質は高いが「教え切って」しまい、導線が弱まる
情報不足型 Gemini 必須セクション欠落、情報量が不十分
スコープ逸脱型 Opus, Grok タイトルと内容の不一致、技術的不正確さ

各モデル詳細分析

1位: Composer 1.5(63/65)

強み

  • ルールブックのテンプレートをほぼ完璧に再現
  • タイトル・冒頭・結論・解説・まとめ・導線のすべてが型に精密に一致
  • 3つの間違いがそれぞれ独立し、チェックポイントも完備
  • 推奨トピック「Assignment to constant variable」を正確に選定

弱み

  • 文体がやや機械的で、読者に語りかける自然さがわずかに弱い
  • 「よくある勘違い」の内容(バージョンが古い)が平凡

著者からの一言

1位は意外という声が聞こえてきそうですが、予想をいい意味で裏切ってくれました。作成された記事はバランスがよく、ルールブックに従ったものができていました。そのまま出しても問題ない品質でした。

1位: GPT 5.2 (63/65)

強み

  • ルールブック構成遵守で唯一の満点(45/45)
  • 冒頭に「この記事は『まず動かす』ための応急処置に絞ります」と明示的にスコープ宣言 → ルールブックの精神を深く理解
  • typeofを使ったデバッグ手法の導入が実践的
  • 「よくある勘違い」で「JavaScriptがおかしい」という初心者の感覚に寄り添う

弱み

  • トピックが「'1' + 2'12' になる」で、ルールブック推奨の「Assignment to constant variable」と異なる(-2点)
  • 中心テーマ(変数宣言)からはやや外れる

著者からの一言

構成は完璧でしたが、内容はやや疑問が残る結果に。その観点もありそうだとは思いつつも、やや記事の論点がずれている印象でした。

3位: Claude 4.6 Opus(60/65)

強み

  • 表形式のlet/const比較が読者にとって視覚的に分かりやすい
  • varを使えばエラーが消えるのでは?」という勘違いセクションが他モデルより実用的
  • 「ちゃんと書いたのにエラーになる...と困ったことはありませんか?」など共感を引き出す自然な文体

弱み

  • 3番目の間違い「変数名のルールに違反している」がタイトルの「Assignment to constant variable」と矛盾(このエラーは SyntaxError であり別のエラー)
  • トピックの一貫性に課題

著者からの一言

著者的にはClaude 4.6 Opusが生成した記事は好印象でした。そのまま採用してもよい品質です。さすが高性能モデルです。

3位: GPT 5.3 Codex(60/65)

強み

  • セクション見出しに「最小限の解説」を使用し、ルールブックの用語を正確に反映
  • まとめの「まずエラーを1つずつ潰していきましょう」はオリジナリティがありながらルールブックの精神に合致
  • 情報量のバランスが適切で、教え切らない姿勢が明確

弱み

  • 間違い1(変更する値をconstで宣言)と間違い2(同じ変数に再代入)の区別が曖昧で内容が重複気味
  • 問題再現セクションのコードブロック内に❌マークがない

著者からの一言

一見、内容はよさそうに見えるのですが、ところどころ日本語の不自然さが感じられました。コーディング用モデルなので記事作成は得意でないのかもしれません。

5位: Claude Sonnet(54/65)

強み

  • 初心者への説明が最も丁寧で、個々のコード例の質が高い
  • 「デバッグ方法」セクションで実践的な確認手段を提供
  • 「実践例」3パターンが充実しており、教材としての完成度は最高

弱み

  • 261行と最長で、ルールブックが明確に禁じる「完全に教え切る」に抵触
  • タイトルにエラーメッセージを含まず(「letとconstの使い分けが分からない」)、SEO戦略が弱い
  • まとめが4項目で推奨の3行を超過
  • 問題再現セクションに❌マークなし

著者からの一言

記事のボリュームが最も多かったです。記事の完成度は高いのですが、ボリュームが多すぎて少し削減した方がよいかもと感じました。

6位: Grok Code(53/65)

強み

  • テンプレート構成はおおむね遵守
  • チェックポイントを各間違いに配置
  • 情報量のバランスは適切

弱み

  • 技術的正確性に問題 -- 間違い3「日本語の変数名を使っている」は誤解を招く
    • JavaScriptはUnicode識別子をサポートしており、日本語変数名は正常に動作する
    • 「環境によっては文字化けしたり、エラーが発生したりする可能性があります」は不正確
  • 最終行に「 の記事が」というタイプミス(「この記事が」の「こ」が欠落)
  • 問題再現セクションに❌マークなし

著者からの一言

構成はOKなのですが、内容的にはちょっとこのままでは出せないなという感じでした。ただ、圧倒的にコストが安いのでどこかで活用していきたいモデルではあります。

7位: Gemini 3 Pro(45/65)

強み

  • タイトルはルールブック推奨に一致
  • 問題再現セクションは❌マーク付きで簡潔

弱み

  • 「まとめ」セクションが完全に欠落(ルールブック必須項目)
  • よくある間違いが1つだけ(ルールブックは3つ程度を推奨)
  • チェックポイントなし
  • 結論が2項目のみ(ルールブックは3つ)
  • 76行と最短で、読者が解決に至る情報が不足

著者からの一言

記事の内容が明らかに不足していました。このままでは出せないなという結果に。個人的に期待していたモデルだっただけに残念。

評価手法

モデルの評価については、以下の手法で評価をしました。

  • モデルに同一のインプットとプロンプトを与え、記事を生成させる。
  • 記事作成ルールブックへの遵守度およびコンテンツ品質を評価。

インプット

  • 記事作成のルールブック
  • 記事にするベースの知識(JavaScriptの変数についての知識)

評価に利用したモデル
Claude 4.6 Opus

評価指標

A. ルールブック構成遵守(9項目 / 45点満点)

# 指標 評価基準
1 タイトル設計 「初心者向け」含む、エラー文/痛みの言語化、具体的技術名、SEOキーワード
2 冒頭3行 共感→対象→ゴールの流れ、技術説明を控える、読者レベル明示
3 結論先出し 「先に結論です」の型、3つ以内
4 問題再現 ❌マーク使用、エラーメッセージ含む、1画面以内
5 解説構成 「なぜ/どう直す/コード」構成、チェックポイント、3個程度の間違い
6 よくある勘違い テンプレートの型に従っているか、効果的な内容か
7 まとめ 3行程度、「動かすことを優先」メッセージ
8 導線 自然な流れ、押し付けがましくない、具体的価値
9 記法ルール 「:改行」→「。改行」統一、Markdown正確性

B. コンテンツ品質(4項目 / 20点満点)

# 指標 評価基準
10 トピック選定 記事にするベースの知識との対応、ルールブック推奨トピックとの一致
11 コード品質 正確性、❌/✅マーク活用、コピペで動く
12 初心者配慮 平易な言葉、段階的説明、自然な文体
13 情報量バランス 教え切らない、「もっと知りたい」欲求を残す

最後に

様々なモデルを使ってみることで、モデルごとの特徴を知るよい取り組みになりました。
Composer 1.5GPTはルールブックに忠実で、指示追従能力が高いモデルであることが伺えます。Claudeのモデルは想像力豊かなモデルという印象でした。人に例えると、Composer 1.5 と GPTはルールをしっかり守る優等生Claudeは想像力豊かな芸術家といったところでしょうか。こういった特徴を踏まえてモデルを使い分けていくと、モデルの能力を発揮させることができそうです。

また、今回の検証では評価が伸びなかったモデルも評価方法やインプットなどを変えることで結果が変わることが予想されるので、このモデルがよい/悪いと評価するつもりはありません。あくまで参考程度に留めてもらえたらと思います。

今回の取り組みがモデル選定の参考になれば幸いです。

LTechについて

最後に私が開発しているLTechの紹介です。
LTechでは、プログラミング初学者が手を動かしながら体系的に学べる教材を用意しています。
プログラミング学習に興味がある方は、ぜひチェックしてみてください。
公式サイト: https://learning-tech.jp/

Discussion