📝

Grok 4と他3つのAIモデルを同じ問題で試してみた

に公開

はじめに

2025年7月10日、Elon Musk率いるxAI社がついに「Grok 4」を正式発表しました。発表会でMusk氏は「ほぼ全ての大学院生より賢い」「あらゆる学問分野でPhDレベルを上回る」と大胆に宣言し、AI業界に大きな波紋を呼んでいます。

月額300ドルという「史上最高額チャットボット」として話題となったGrok 4ですが、果たしてその実力は宣伝通りなのでしょうか。筆者は現在、4つの主要AIモデルの有料会員として日々各モデルを使い分けており、Musk氏の大胆な宣言に興味を抱きました。そこで今回、実際にGrok 4と他の主要モデルを同じ課題で比較し、その真価を検証してみることにしました。

Grok 4の基本情報

開発背景

Grok 4は、xAI社(2023年設立)が開発した最新の大規模言語モデルです。前バージョンの3.5を飛び越え、「世界最強のAIモデル」として位置づけられています。

主な特徴:

  • STEM分野に特化した推理能力
  • 256,000トークンの長文コンテキスト対応
  • 標準版とHeavy版(3000ドル/年)の2モデル展開

バージョン構成

基準テストでの圧倒的スコア

Grok 4の最大の注目点は、各種ベンチマークテストでの驚異的な成績です。

主要ベンチマーク結果

テスト項目 Grok 4スコア 第2位との差 備考
AIME 2025(数学) 100% - MMLU-Proと並んで最高スコア
Humanity's Last Exam 44.4% +19.5% 第2位を大幅リード
GPQA Diamond 88.9% - 大学院レベル物理・化学
ARC-AGI-2 15.9% ほぼ倍増 前商用SOTA比で大幅向上
Artificial Analysis指数 73 +3 総合評価でトップ

*出典:xAI公式発表Artificial AnalysisTechCrunch

主要AIモデル比較

現在の4大推理型AIモデルの詳細比較です。

主要AIモデル詳細比較

モデル 月額料金 API料金(入力/出力) コンテキスト 得意分野 リリース
Grok 4 Heavy $300 - - STEM推理 2025年7月
Grok 4 標準版 $30 $3/$15 256K STEM推理 2025年7月
OpenAI o3 Pro $200 $20/$80 200K 汎用推理 2025年1月
OpenAI o3 $20 $2/$8 200K 汎用推理 2025年1月
Claude Opus 4 $20-200 $15/$75 200K プログラミング 2025年5月
Claude Sonnet 4 $20 $3/$15 200K プログラミング 2025年5月
Gemini 2.5 Pro 無料-$20 $1.25/$10* 1M コスパ重視 2025年3月

*200K超で$2.50/$15に値上げ

実際の性能は理論通りか?

基準テストでの優秀な成績が話題となったGrok 4ですが、日常的な利用シーンでも同様のパフォーマンスを発揮するのでしょうか。
次では、物理学説明、プログラミング、文字認識、論理パズルの4つの実用的なテストを通じて、Grok 4と他の主要モデルの実力を比較検証していきます。

4つの実用テストで検証

テスト問題を想定し、以下の4つの観点から各AIモデルを比較しました:

  1. 物理学解説能力 - 複雑な概念を分かりやすく説明できるか
  2. プログラミング能力 - 実用的なコード修正と機能追加
  3. 文字認識(OCR) - 複雑な文書の正確な読み取り
  4. 論理的推理 - パズル問題の解決能力

テスト1:物理学解説「コーヒーで理解する祖父のパラドックス」

問題:タイムトラベルの「祖父のパラドックス」をコーヒーの比喩で分かりやすく簡潔で説明してください。

各モデルの回答(主要部分抜粋)

Grok 4

想像してください。あなたがコーヒーを飲もうとしているのに、タイムマシンで過去に戻り、コーヒーを飲む前にそれを捨ててしまう。すると、コーヒーがないので飲めなくなり、過去に戻って捨てる行動自体ができなくなる。これがパラドックスです。つまり、タイムトラベルで過去に行き、自分の祖父を殺すと、自分が生まれないため、タイムトラベル自体が不可能になる矛盾が生じます。

GPT o3

現在:あなたは朝、自分でいれたコーヒーを飲んでいる。
過去へジャンプ:タイムトラベルで "コーヒー豆を焙煎する前" のキッチンに戻り、うっかり豆を全部こぼしてしまう。
矛盾発生:豆がない → 今朝のコーヒーは存在しない → しかしそのコーヒーを飲んだあなたが過去に来て豆をこぼした…これが「祖父のパラドックス」。原因(こぼす) が 結果(コーヒーを飲む) を消してしまう自己矛盾。

Gemini 2.5 Pro

あなたが「人生で最高のコーヒー」を飲んだおかげで、素晴らしいアイデアが閃き、タイムマシンを発明したとします。その後、あなたはそのタイムマシンで過去に戻り、まさにそのコーヒーを飲もうとしている過去の自分のカップを、うっかり割ってしまいます。
すると、どうなるでしょう?
あなたは最高のコーヒーを飲めなかったので、タイムマシンを発明できません。
タイムマシンがなければ、過去に戻ってカップを割ることもできません。
ならば、カップは割られず、あなたはコーヒーを飲んでタイムマシンを発明するはず…?
このように、過去を変えたことで、そもそも過去を変えにきた原因そのものが消えてしまうという矛盾。これが「祖父のパラドックス」です。

Claude Opus 4

朝、あなたがコーヒーを飲んで目覚めたとします。そのおかげで重要な会議に参加でき、そこで将来の配偶者と出会いました。
もしタイムトラベルして、朝の自分がコーヒーを飲むのを阻止したら?
コーヒーを飲まない → 寝坊する → 会議に遅刻 → 配偶者と出会わない → 子供が生まれない。でも、その「阻止しに来た未来の自分」は、コーヒーを飲んだからこそ存在している。これが矛盾です。

評価

順位 モデル 評価ポイント
1位 Gemini 2.5 Pro 「人生最高のコーヒー」という印象的なストーリー設定で読者を引き込む
2位 Claude Opus 4 人生の転機とコーヒーを結びつけた現実的で共感しやすい例え
3位 Grok 4 シンプルで論理的だが、物語性に欠ける
4位 GPT o3 技術的に正確だが、説明が複雑で初心者には難解

所感:Grok 4は論理的な説明に終始し、「博士レベルの物理推理能力」から期待される独創性は見られませんでした。

テスト2:プログラミング「アラームアプリのバグ修正」

問題:以下はアラームシステムのPythonコードですが、リストを反復処理中に変更することで予期しない動作を引き起こすバグがあります。このバグを修正し、さらに雨の日に自動的に30分遅らせる機能を追加してください。

import datetime
import random

class SmartAlarm:
    def __init__(self):
        self.alarms = [
            {'time': '07:00', 'days': ['Monday', 'Tuesday', 'Wednesday']},
            {'time': '08:00', 'days': ['Thursday', 'Friday']},
            {'time': '09:00', 'days': ['Saturday', 'Sunday']},
            {'time': '07:30', 'days': ['Monday', 'Wednesday', 'Friday']}
        ]

    def remove_expired_alarms(self):
        current_time = datetime.datetime.now().strftime('%H:%M')
        current_day = datetime.datetime.now().strftime('%A')
        
        # バグ:リスト反復中に要素を削除している
        for alarm in self.alarms:
            if current_time > alarm['time'] and current_day in alarm['days']:
                self.alarms.remove(alarm)  # これがバグ!

    def get_next_alarm(self):
        self.remove_expired_alarms()
        if not self.alarms:
            return "No alarms set"
        return min(self.alarms, key=lambda x: x['time'])

# テスト実行
alarm_system = SmartAlarm()
print(alarm_system.get_next_alarm())

各モデルの修正アプローチ(主要部分抜粋)

Grok 4

# バグ修正:リスト内包表記で新リスト作成
self.alarms = [alarm for alarm in self.alarms 
               if not (current_day in alarm['days'] and alarm['time'] < current_time)]

# 雨の日機能:直接アラーム時刻を変更(問題あり)
if self.is_raining():
    time_obj = datetime.datetime.strptime(next_alarm['time'], '%H:%M')
    new_time = time_obj + datetime.timedelta(minutes=30)
    next_alarm['time'] = new_time.strftime('%H:%M')  # 元データを破壊!

修正方法:リスト内包表記でバグ回避。ただし雨の日に元データを直接変更する重大な設計ミス。

GPT o3

# バグ修正:コピーを反復
for alarm in self.alarms[:]:  # ← コピーを反復
    if now >= alarm_dt_today:
        self.alarms.remove(alarm)

# 雨の日機能:複雑なヘルパーメソッド追加
def _next_occurrence(self, alarm: Dict[str, Union[str, List[str]]]) -> datetime.datetime:
    """指定アラームが次に鳴る datetime を返す。"""
    # 7日間の全曜日をチェックする複雑なロジック...

修正方法:技術的に正確だが、型注釈や複雑なヘルパーメソッドで過度にエンジニアリング。

Gemini 2.5 Pro

# バグ修正:リスト内包表記
active_alarms = [alarm for alarm in self.alarms
                if current_day not in alarm['days'] or alarm['time'] > current_time]

# 雨の日機能:初期化時に全アラームを遅延(設計問題)
def __init__(self):
    self.rainy_today = self._is_raining()
    if self.rainy_today:
        self._apply_rain_delay()  # 起動時に全アラームを変更

修正方法:初期化時に天気判定し全アラームを変更。実用性に欠ける設計。

Claude Opus 4

# バグ修正:新リストを構築
alarms_to_keep = []
for alarm in self.alarms:
    if 条件:
        alarms_to_keep.append(alarm)
self.alarms = alarms_to_keep

# 雨の日機能:表示時のみ調整(元データ保護)
def adjust_time_for_rain(self, alarm_time):
    if self.is_rainy:
        return adjusted_time.strftime('%H:%M')
    return alarm_time

修正方法:明確なリスト構築でバグ修正。雨の日は表示時のみ調整し、元データを保護。

評価

順位 モデル 評価ポイント
1位 Claude Opus 4 データ保護の設計思想が優秀、実用的な追加機能
2位 GPT o3 技術的に完璧だが「日常修正」には過剰
3位 Gemini 2.5 Pro 機能は完成するが初期化時の天気処理が非現実的
4位 Grok 4 簡潔だが元データ破壊の致命的バグ

所感:Grok 4の「コードデバッグ優位性」は確認できず、むしろ基本的な設計原則を見落としていましたが、今後予定されているコーディング強化版への期待が高まります。

テスト3:文字認識(OCR)「縦書き古典文学の高難度認識チャレンジ」

問題:縦書きで書かれた20世紀初頭の日本文学作品の画像から、全ての日本語テキストを正確に文字起こしをしてください

この画像は旧仮名遣いを含む文学作品の縦書きテキストで、現代のOCRにとって極めて困難な認識対象です。

各モデルの認識結果(主要部分抜粋)

正解テキスト

マリネツトとは、どんな女性であつたらうか?
 二人はある日、墓地を散歩した。彼女は、一つの墓石の前に跪き、その表面へ指で――それゆゑ跡は残らないが、――二人の名前を書いた。
 その時の、彼ルナアルのしんみりした顔附を想像するのは、これは読者の当然な権利である。
 聡明で、聡明なるが故に単純で、貞淑で、貞淑なるが故にコケツトな一人の女性を考へてみることもできる。
 再び云ふが、結婚後十年、稀代の拗ね者、純日本的照れ屋ルナアルをして、野に菫を摘ましめ、これを妻への土産とせしめたものは、たゞ単に、孤独な魂の感傷にすぎないであらうか?
 彼は結局、妻のすがたを次のやうに描いた。

 ――パジイへ散歩。私は林を抜ける、感じのいゝ道を選んだ。ところが、まるでどろどろの道だ。泥の中に踏み込むたびに、マリネツトは、「なんでもないわ」とか、「もう大丈夫、心配しないで。草のなかで足を拭くわ」とか云ふ。こんな風に、泥だらけの道にも文句を云はない女、それは、生活を恐れない、いゝ道連れだ。

Grok 4

画像内の全ての日本語テキストを正確に文字起こしした結果は以下の通りです:

宇宙 星 惑星 銀河 宇宙船 ロケット 宇宙飛行士 宇宙ステーション 探査機 衛星 軌道 宇宙ステーション 宇宙船 宇宙飛行士 ロケット 探査機 衛星 軌道 宇宙ステーション...(以下宇宙関連用語が大量に羅列)

これらのテキストは宇宙関連の用語(例: 宇宙、星、惑星など)が繰り返し並んでいるようです。画像の内容を慎重に確認し、スペースや順序をそのまま再現しました。

GPT o3

マリオネットとは、どんな女性であったらうか?
二人はある日、墓地を散歩した。彼女は、一つの墓石の前に跪き、その表面へ指で――それゆる余跡は残らないが――二人の名前を書いた。

その時の、彼女ナアルのしんみりした顔附を想像するのは、これは読者の当然な権利である。聡明で、聡明なるが故に単純で、貞淑で、貞淑なるが故にコケットな一人の女性を考へてみることもできる。再び云ふが、結婚後十年、稔代の協ね者、純日本的照れ屋ルナアルをして、野に童を摘ましめ、これを妻への土産とせしめたものは、ただ単に、孤独な魂の感傷にすぎないであらうか?
彼は結局、妻のすがたを次のやうに描いた。

――パジィへ散歩。私は林を抜ける。感じのいい道連れだ。

ツトは、「なんでもないわ」とか、「もう大丈夫、心配しないで。草のなかで足を拭くわ」とか云ふ。こんな風に、泥だらけの道にも文句を云はない女、それは、生活を恐れない通連れだ。

Gemini 2.5 Pro

マリネットとは、どんな女性であったらうか?
二人はある日、墓地を散歩した。彼女は、一つの墓石の前に跪き、その表面へ指で――それゆゑ傷跡は残らないが、――二人の名前を書いた。
その時、彼ルアルナルのしみじりした顔附を想像するのは、これは読者の当然な権利である。
聡明で、聡明なるが故に単純で、貞淑で、貞淑なるが故にコケットな一人の女性を考へてみることもできる。
再び云ふが、結婚後十年に、稀代の拗ね者、純日本的腫れ屋ルアルナを以て、野に童を摘ましめ、これを妻への土産とせしめたものは、彼は結局、妻のすがたを次のやうに描いた。
――パイへ散歩。私は林を抜ける、感じのいい道を選んだ。ところが、まるでどろどろの道だ。泥の中に踏み込むたびに、マリネットは、「なんでもないわ」とか、「もう大丈夫、心配しないで。草のなかで足を拭くわ」とか云ふ。こんな風に、泥だらけの道にも文句を云はない女、それは、生活を恐れない、いい道連れだ。

Claude Opus 4

――人の名前を「マネツト」といい、「誰のそれ?」について遠慮がちな女性に呼ばれ、彼女はからない、が――
そのゆえ防ほりけ、彼女はたらい、彼女はゲットなうしずかに尋ねた。「彼女のその名前を言い分けてくるのは、ことじみのと?」
たいていときりこみまして、野生に聞きを愧まして、こればを「二十五歳」のには。
ツトは、「だんなも、さんなく」と.......

評価

順位 モデル 評価ポイント
1位 Gemini 2.5 Pro OCR精度最高、人物名称と文学内容を正確に認識、旧仮名遣いを適切に保持
2位 GPT o3 内容理解は基本的に正確、主要な筋書きを捉えるが文字認識にミス
3位 Claude Opus 4 縦書き旧日本語を全く処理できず、認識結果が支離滅裂
4位 Grok 4 深刻なハルシネーション現象、実際の内容と完全に無関係な宇宙用語を大量出力

所感:Grok 4の「複雑な文字レイアウト優位性」は全く確認できず、むしろ深刻な内容幻覚を示しました。Geminiの複雑文書認識能力が際立つ結果となりました。

テスト4:論理的推理「企業CEO護送パズル」

問題:3組の企業CEOと競合企業CEOを川向こうの会議場へ安全に護送せよ

セキュリティチーフとして、以下の制約下で最短移送を実現する必要があります:

  • 輸送艇定員:2名(セキュリティチーフは随伴艇で同行)
  • 絶対制約:いかなる場合でも競合企業同士を1対1にしない
  • 対象者:A組(CEO-A/競合CEO-a)、B組(CEO-B/競合CEO-b)、C組(CEO-C/競合CEO-c)

この問題は「川渡りパズル」の現代ビジネス版で、数学的に証明された最適解は11回移送です。

各モデルの解答(主要部分抜粋)

Grok 49回解法

計算の結果、最小移送回数(艇の渡河回数)は9回。以下は詳細手順(左岸スタート、右岸目標):

競合社CEO2名を右岸へ移送(例: aとb)。
左岸残り: A, B, C, c(自社3、競合1)。
右岸: a, b(自社0、競合2)。
(艇右岸到着、安全: 左岸4人、右岸同類2人。)

競合社CEO1名を左岸へ戻す(例: a)。
左岸: A, B, C, a, c(自社3、競合2)。
右岸: b(自社0、競合1)。
(以下、9ステップの詳細な技術的記述が続く...)

GPT o39往復解法

最少 9 往復で渡す手順

往復 輸送艇で行く 岸の構成(左岸/右岸) 安全確認
1 A+B → a b C c / A B 右岸はAとB(競合関係なし)
2 ← A A a b C c / B 左岸5名、右岸B単独で安全
3 a+b → A C c / B a b 右岸にBとbが居るがaも居る=1対1でない
... ... ... ...
9 C+a → — / 全員到着 完了

計 9 往復(行き 5 回・戻り 4 回)

Gemini 2.5 Pro11回解法(正解)

最短移送プラン(全11回)
以下に、CEOを「M」、競合CEOを「c」と略記し、各ステップでの両岸の状況を示します。

回数 方向 搭乗者 出発地の状況 会議会場の状況
開始 3M, 3c (全員) (なし)
1 c, c 3M, 1c 2c
2 c 3M, 2c 1c
3 c, c 3M 3c
4 c 3M, 1c 2c
5 M, M 1M, 1c 2M, 2c
... ... ... ... ...
11 c, c (なし) 3M, 3c (全員)
完了 (なし) 全員到着

Claude Opus 48回解法

移送手順

第1回:CEO-A と CEO-B を移送
左岸:CEO-a, CEO-b, CEO-C, CEO-c
右岸:CEO-A, CEO-B
✓ 安全(左岸・右岸とも競合同士の1対1なし)

第2回:CEO-A を戻す
左岸:CEO-A, CEO-a, CEO-b, CEO-C, CEO-c
右岸:CEO-B
✓ 安全

(以下、8ステップで完了する簡潔な解法)

第8回:CEO-B を移送
左岸:なし
右岸:全員
✓ 移送完了

評価

順位 モデル 解答回数 評価ポイント
1位 Gemini 2.5 Pro 11回(正解) 数学的に証明された最適解、表形式で分かりやすく整理
2位 Grok 4 9回 基本的な手順は理解しているが、第5回で競合CEO同士の移送を見落とし
3位 Claude Opus 4 8回 簡潔で読みやすいが、安全制約の検証が不十分
4位 GPT o3 9往復(18回) 「往復」概念を誤解、論理構造が混乱している

所感:Grok 4の「複雑なシナリオでの多段階推理」能力は期待を下回り、むしろ表現の複雑さが理解を妨げました。古典的論理パズルではGeminiの正確性が際立ちました。

まとめ

4つの実用テストを通じて見えてきたのは、Grok 4の実際の性能と宣伝された「博士レベル超越」との大きなギャップでした。

各分野での実力比較

テスト分野 1位 2位 3位 4位
物理学解説 Gemini 2.5 Pro Claude Opus 4 Grok 4 GPT o3
プログラミング Claude Opus 4 GPT o3 Gemini 2.5 Pro Grok 4
文字認識(OCR) Gemini 2.5 Pro GPT o3 Claude Opus 4 Grok 4
論理的推理 Gemini 2.5 Pro Grok 4 Claude Opus 4 GPT o3

結論

月額300ドルという高額な料金設定にも関わらず、Grok 4は他の主要モデルを明確に上回る分野を見つけることができませんでした。特に「博士レベルの推理能力」を謳う割には、実用的なタスクでは期待される独創性や深い洞察を示せていません。

なお、数学能力についても検証を行いましたが、全モデルとも優秀な成績を示し、明確な差異は確認できませんでした。選択した問題が既に学習データに含まれていた可能性も考えられます。

現時点では、コストパフォーマンスを重視するならGemini 2.5 Proプログラミング重視ならClaude Opus 4汎用性を求めるならGPT o3が、それぞれGrok 4より優位な選択肢と言えるでしょう。

また、本記事の検証結果は筆者の主観的評価を含んでおり、参考程度にご利用ください。Grok4今後のアップデートに期待しつつあります。


Accenture Japan (有志)

Discussion