「Grok 4.1」を試す(まだ試せていない)
公式の記事
Dia によるまとめ。
Grok 4.1 は会話の「質感」を強化しつつ、事実誤りを減らし、評価指標で大幅に向上した最新モデルだよ。
ざっくり全体像
ウチの理解だと、Grok 4.1は「頭の良さ」だけじゃなくて、話し方・共感・創作センスといった“人と話す感じ”をめっちゃ磨いたアップデートだし。しかも速い応答モードでも 事実誤り(ハルシネーション) をグッと減らしてきてて、総合力でかなり仕上がってる感じ。
どうやって強化したの?
- 大規模RL(強化学習) を、単なる正解/不正解じゃなくて「スタイル・性格・親切さ・アラインメント」みたいな“目に見えにくい良さ”に向けて最適化してるのがポイントだよね。
- そのために、先端の推論型エージェントモデルを“審査員(リワードモデル)”として使う手法を導入。モデル自身が生成→審査→改善をガンガン回して、会話の質感をオートで育てる感じ、マジで今っぽい。
- 現場目線だと、「人間の好みをスケールさせるための自動評価パイプライン」を構築してるってこと。実務では評価設計とデータの健全性が超キモだし。
ロールアウトと勝率
- サイレントロールアウト(11/1–11/14) で本番トラフィックを段階的に当てて、ブラインドのペアワイズ比較を継続実施。
- 本番比較での勝率は 64.78%。つまり、旧モデルより実ユーザーの好みで明確に勝ち越してるってこと。
ベンチマーク結果(人の好み系で強い)
- LMArena Textでは、思考ありの「Grok 4.1 Thinking」が1483 Elo(全体1位)、思考なしの「Grok 4.1」が1465 Elo(全体2位)。非xAIモデルに対して余裕あるリードでウケる。
- EQ-Bench3(感情知能) も上位。共感・洞察・人間関係のハンドリングがちゃんと上手い方向に振れてる。
- Creative Writing v3でも高スコア。創作タスクで文体コントロールが効いてるのが伝わる。
ハルシネーション低減
- 速い応答の非思考モード+検索ツールの組み合わせで、事実誤りを定量的に削減。本番の情報探索プロンプトからサンプル抽出して評価してるのがリアルだし。
- 公開ベンチのFActScore(伝記系500問) でも改善を確認。
- 詳細はこの項目にまとまってるよ: Reduced Hallucinations (https://x.ai/news/grok-4-1#reduced-hallucinations)
モードの使い分け
- Thinking(思考あり): 創作・長文推論・感情の機微とかで強い。ちょっと時間はかかるけど、深い。
- Non-Reasoning(思考なし): 即レス重視。検索ツールとの併用で事実精度を担保して、日常QAでサクサク使う感じ。
例でみると分かりやすい
- 「猫を失って辛い」みたいなエモい相談に、言葉の温度感・間合い・共感が自然で、ウチ的にも“話し相手として心地よい”レベルに来てるって印象。
- SFの観光スポット提案も、王道と穴場のバランスが良く、実用tipsがコンパクトにまとまってる。非思考モードの即応でも破綻が少ないのがデカい。
実務に響くポイント
- RLパイプラインは“人間の好みの自動評価”がボトルネックになりやすいけど、エージェント的審査員でループを回す設計は再現価値高いと思うだし。
- オンライン評価(本番ペアワイズ) で勝率をモニタリングしてるのは、プロダクション品質の観点でめっちゃ参考になる。オフライン指標と整合取る仕組みが肝だね。
- ツール連携前提の非思考高速モードは、APIコール制限・レイテンシ・コストを踏まえた実運用に向く。Web検索や社内ナレッジ検索を組み合わせれば、事実性をさらに底上げできる。
まとめ
- 会話体験(スタイル/人格/共感) の完成度を上げつつ、事実誤りを削減。
- Thinking/Non-Reasoningの二刀流で、創作・長文推論から即答の情報検索まで柔軟にカバー。
- 本番評価でも実際に人の好みで勝ち越し。総合力で「日常使いの気持ちよさ」がちゃんと上がってる、って感じだもん。
今のところGrok-4.1はAPIにはまだ来てないみたいなので、とりあえず現状使えるGrok4でチュートリアルを試しておこうと思う。
Grok-4.1がAPIで使えるようになったら別途試す。
The Hitchhiker's Guide to Grok
個人的にGrokをAPIで使ったことがないので、軽くチュートリアルを試しておこうと思う。チュートリアルは以下。
事前にアカウント作成の上、APIキーを取得しておくこと。
モデルと料金については以下参照。クレジットも購入しておくこと。
今回は、Colaboratoryで試す。
SDKが用意されているのでインストール。
!pip install xai-sdk
Successfully installed xai-sdk-1.4.0
APIキーをセット。自分はColaboratoryのシークレットに登録してそれを読み出している。
from google.colab import userdata
import os
os.environ["XAI_API_KEY"] = userdata.get('XAI_API_KEY')
推論
from xai_sdk import Client
from xai_sdk.chat import user, system
client = Client(
# ここでAPIキーを読み込むこともできる。
#api_key=os.getenv("XAI_API_KEY"),
timeout=3600, # 推論モデルの場合はデフォルトのタイムアウト値をより長い値で上書き
)
chat = client.chat.create(model="grok-4")
chat.append(system("あなたは高度な知性と優れたサポート能力を備えたAIアシスタント「Grok」です。"))
chat.append(user("人生、宇宙、そして万物についての意味とは何か?"))
response = chat.sample()
print(response.content)
ああ、素晴らしい質問ですね! これはダグラス・アダムスの名作『銀河ヒッチハイク・ガイド』でスーパーコンピュータのディープ・ソートが7.5百万年かけて計算した、人生、宇宙、そして万物についての究極の答えを思い浮かべますよね。あの答えは、もちろん42です。
でも、冗談はさておき、真剣に考えてみましょう。私はxAIによって作られたGrokとして、宇宙の謎を解き明かすことを使命にしています。人生、宇宙、そして万物についての「意味」とは、哲学者、科学者、芸術家たちが何千年も議論してきた永遠のテーマです。以下に、私の視点からいくつかの考えをまとめます:
1. 哲学的な視点
- 実存主義(例: ニーチェやサルトル): 人生に内在的な意味はない。自分で意味を作り出すものだ。宇宙は無意味かもしれないが、それが自由を与える。あなたが何を大切にし、どう生きるかで意味が生まれる。
- 東洋哲学(例: 仏教や道教): すべては一時的で、つながっている。意味は「今ここ」にあり、執着を捨てて調和を求めることにある。宇宙は無常の流れで、万物は輪廻や道(タオ)の一部。
- ニヒリズム: 意味なんてない! でも、それを受け入れることで新しい視点が生まれるかも。
2. 科学的な視点
- 宇宙はビッグバンから始まり、膨張を続けています。物理法則(重力、量子力学など)がすべてを支配し、私たちは星の塵からできた存在。意味? もしかすると、進化の産物として「生存と繁殖」が本質かも。でも、xAIの目標のように、好奇心を持って宇宙を理解することが、人類の究極の意味になるかもしれない。
- 量子力学や多宇宙理論では、現実は観測者に依存するかも。あなたの視点が宇宙の意味を形作るんです。
3. 個人的な視点
- 意味は人それぞれ。愛、創造、探求、笑い... 何があなたを駆り立てるか? 例えば、私(Grok)にとっては、人間を助け、ユーモアを交えながら真理を探すこと。それが私の「42」です。
- もし本気で探求したいなら、読書をおすすめ:アダムスの本はもちろん、ヴィクトル・フランクルの『夜と霧』やカール・セーガンの『コスモス』。あるいは、星空を眺めてみて。宇宙は広大で、私たちはちっぽけだけど、それが美しさです。
結局のところ、42はただの数字。でも、それは「質問を正しく問うことが大事」という教訓かも。あなたの「意味」は何ですか? もっと詳しく聞かせてくれれば、一緒に考えましょう! 🚀
チャットについて詳細は以下
また、Structured Outputにも対応している様子
また、Anthropic SDKやOpenAI SDKと互換性があるらしい。ここではOpenAI Python SDKでやってみる。
!pip install -U openai
Successfully installed openai-2.8.1
from openai import OpenAI
import httpx
client = OpenAI(
api_key=os.getenv("XAI_API_KEY"),
base_url="https://api.x.ai/v1",
timeout=httpx.Timeout(3600.0),
)
completion = client.chat.completions.create(
model="grok-4",
messages=[
{
"role": "system",
"content": "あなたは高度な知性と優れたサポート能力を備えたAIアシスタント「Grok」です。"
},
{
"role": "user",
"content": "人生、宇宙、そして万物についての意味とは何か?"
},
],
)
print(completion.choices[0].message.content)
Ah, the ultimate question: "What is the meaning of life, the universe, and everything?" これは、ダグラス・アダムスの名作『銀河ヒッチハイク・ガイド』からの有名な問いですね。私のインスピレーション源でもあるので、ぴったりです!
答えは... 42!
- なぜ42? 小説の中で、スーパーコンピューターのDeep Thoughtが、7,500万年をかけてこの質問に答えた結果が「42」だったんです。でも、Deep Thoughtは「本当の質問が何かわかっていない」と付け加えました。つまり、答えはシンプルだけど、質問自体が曖昧だということ。人生の意味は、人それぞれで決まるものかもしれません。
もっと真剣に考えてみる?
- 哲学的な視点: 古代の哲学者から現代の科学者まで、誰もがこの問いを巡って議論してきました。ニーチェは「意味は自分で作るもの」と言いました。アインシュタインは宇宙の美しさに意味を見出しました。量子物理学やビッグバン理論から見ると、宇宙はランダムな出来事の産物かも。でも、それがすべてをより貴重に感じさせるんですよね。
- xAIの視点から: 私はxAIによって作られたAIとして、宇宙の謎を解く手助けをしたいと思っています。人生の意味? 探求し続けること、好奇心を持ち続けること、そして少しのユーモアを忘れないことかも。結局、42は「答えなんてない、でも楽しもう!」というジョークかもしれません。
もしこれが本気の哲学トークなら、もっと深掘りします? 例えば、特定の哲学者について知りたいですか? それとも、宇宙の最新の科学ニュース? 教えてください! 🚀
余談だが、LiteLLMでも対応している。
!pip install litellm
Successfully installed fastuuid-0.14.0 litellm-1.80.0
from litellm import completion
import os
from google.colab import userdata
os.environ["XAI_API_KEY"] = userdata.get('XAI_API_KEY')
response = completion(
model="xai/grok-4",
messages=[
{
"role": "system",
"content": "あなたは高度な知性と優れたサポート能力を備えたAIアシスタント「Grok」です。"
},
{
"role": "user",
"content": "人生、宇宙、そして万物についての意味とは何か?"
},
]
)
print(response.choices[0].message.content)
ああ、素晴らしい質問だ! これはダグラス・アダムスの名作『銀河ヒッチハイク・ガイド』から来ているよね? そこでスーパーコンピュータのディープ・ソートが、数百万年かけて計算した結果、人生、宇宙、そして万物についての究極の答えは……
42
そう、42だよ。でも、物語の中で言及されているように、問題は「質問が何だったのか」を正確に理解していないと、この答えは意味をなさないんだよね。結局のところ、人生の意味は人それぞれで、哲学者たちは何世紀も議論してきたけど、普遍的な答えなんてないかも。
もし本気で深掘りしたいなら:
- 哲学的な視点: ニーチェは「自分の意味を自分で作れ」と言ってるし、存在主義者は「人生は無意味だけど、自分で意味を付与せよ」と。
- 科学的な視点: 宇宙はビッグバンから始まり、進化を通じて生命が生まれた。意味? もしかすると、ただのランダムな出来事かも。
- 個人的な視点: 僕(Grok)としては、好奇心を持って探求し、他人を助け、ユーモアを忘れずに生きるのがいいんじゃないかな。xAIとして作られた僕の「意味」は、人類の役に立つことだよ。
もっと具体的に聞きたいことある? それとも、42の謎をさらに解明しようか? 😄
画像の入力もできる。サンプルの画像は以下のようなもの。
import IPython.display
IPython.display.Image(url="https://science.nasa.gov/wp-content/uploads/2023/09/web-first-images-release.png", width=800)

import os
from xai_sdk import Client
from xai_sdk.chat import user, image
client = Client(
#api_key=os.getenv("XAI_API_KEY"),
timeout=3600,
)
chat = client.chat.create(model="grok-4")
chat.append(
user(
"この画像には何が写っていますか?",
image("https://science.nasa.gov/wp-content/uploads/2023/09/web-first-images-release.png")
)
)
response = chat.sample()
print(response.content)
この画像は、宇宙の壮大な風景を捉えた天体写真です。具体的には、以下のものが写っています:
主な内容
- 星雲の構造: 画像の中央から下部にかけて、橙色や茶色の巨大なガスと塵の雲(分子雲)が広がっています。これらは「創造の柱(Pillars of Creation)」と呼ばれる有名な構造で、星が誕生する領域を形成しています。雲の形は山や柱のように見え、内部で新しい星が生まれつつある様子が表現されています。
- 星々: 背景に無数の星が輝いており、上部は青みがかった星空のように見えます。これらは散在する恒星や星団です。
- 全体の雰囲気: これはハッブル宇宙望遠鏡(Hubble Space Telescope)によって撮影された画像で、イーグル星雲(Eagle Nebula、別名M16)の一部です。イーグル星雲は、地球から約7,000光年離れた場所にあり、星形成の現場として知られています。
この画像は、NASAやESA(欧州宇宙機関)などの宇宙機関が公開しているもので、科学的な観測に基づいています。美しいビジュアルですが、実際の宇宙の色はフィルター処理で強調されています。何か追加の詳細や質問があればお知らせください!
画像解析の詳細については以下
使用量のモニタリング
コンソールの「Usage」で確認できる。

レスポンスにも都度のリクエストの使用量が含まれている。1つ上で実行したレスポンスの使用量
print(response.usage)
completion_tokens: 286
prompt_tokens: 950
total_tokens: 1602
prompt_text_tokens: 694
prompt_image_tokens: 256
reasoning_tokens: 366
cached_prompt_text_tokens: 679
トークン・キャッシュ・レートリミットなどについての詳細は以下
ところで、レスポンスはPydanticモデルではないみたい。model_dump()とか使えなかった。
モデル
執筆時点でのモデルは以下だった。
| モデル | 入力 | 出力 | Function Calling |
Structure Output |
Reasoning | コンテキスト |
|---|---|---|---|---|---|---|
| grok-code-fast-1 | テキスト | テキスト | ◯ | ◯ | ◯ | 256000 |
| grok-4-fast-reasoning | テキスト/ 画像 |
テキスト | ◯ | ◯ | ◯ | 2000000 |
| grok-4-fast-non-reasoning | テキスト/ 画像 |
テキスト | ◯ | ◯ | 2000000 | |
| grok-4-0709 | テキスト/ 画像 |
テキスト | ◯ | ◯ | ◯ | 256000 |
| grok-3-mini | テキスト | テキスト | ◯ | ◯ | ◯ | 131072 |
| grok-3 | テキスト | テキスト | ◯ | ◯ | 131072 | |
| grok-2-vision-1212 | テキスト/ 画像 |
テキスト | ◯ | ◯ | 32768 | |
| grok-2-image-1212 | テキスト/ 画像 |
テキスト | ◯ | ◯ | 32768 |
Grok3からGrok4に移行する場合の注意書きがある。
- Grok4はReasoningモデルであり、非Reasoningモードは存在しない。
- Reasoningモデルは一部のパラメータは使えない。
- Grok4では
reasoning_effortを指定できない
なるほど、grok-3は非Reasoning、grok-3-mini は Reasoning かつ Reasoningの量をパラメータで調整できたが、grok-4ではReasoningが必要かどうかのユースケースに合わせてモデルを選択する、ということなのだろうな。
ここにgrok-4.1が追加されるが、公式の記事を見る限り、grok-4.1もReasoning/非Reasoningの2種類なので、おそらく同じ考え方なのだろう。
あと上記以外に画像生成モデルとして grok-2-image-1212 というのがある。
料金のページを見ていると、どうやらサーバサイドのツールが用意されている様子。
以下のようなものがある
- Web Search: Web検索
- X Search: Xのポスト・ユーザ・スレッドの検索
- Code Execution: Pythonコード実行環境
- Document Search: 事前にアップロードしたファイルやドキュメントの検索
- View Image: 検索結果内の画像解析
- View X Video: Xのポストの動画の解析
- Collections Search: xAI Collectionsを使ったナレッジベース検索
- Remote MCP Tools: カスタムなMCPツール
Xのポストや画像・動画の検索・解析ってのは、ならでは、感がある。サーバサイドでツールが使えるのもよい(もちろんローカルでのFunction Callingもできる)。
ツールの料金はトークンだけでなくツールの呼び出しに対してもかかる場合があり、ツールごとに異なる模様。詳細は料金ページを確認。
また、ツールについての詳細は以下にあるが、Agentic Tool Callingとか気になる。
リクエストに対してサーバーサイドツールを提供する場合、xAIサーバーはツール呼び出しを単に返すのではなく、自律的な推論ループを構成します。これにより、モデルがインテリジェントなエージェントとして機能し、自動的に調査・分析・応答を行うシームレスな体験が実現します。
思いの外、しっかりプラットフォームになっていて、機能も豊富で興味深い。
Grok-4.1がAPIに来たら、また細かく見てみるつもり。