[2025年7月11日] Grok4は今度こそ本当に賢いのかも? (週刊AI)
こんにちは、Kaiです。
Grok4が来ましたね。正直私は使っていないので何とも言えませんが、ベンチマークでは優秀なようです。ただ、既にベンチマークは飽和しており、AIの実用性を測るには相応しくないと考えています。ペーパーテストのみで仕事が出来るかどうかを測れないのと同じですね。
ただ、前回のGrok3と違い、今回は割と色々な方が検証して「本当に賢いかもしれない」という感触が出ているようです。ただ、純粋な論理的思考力ではIQ130を超え始めているとされるフロンティアモデルの賢さは、もはや私たちでは測れず単に「触ってみて手に馴染むか、気に入るか」の差でしかないようにも思います。
また、Gemini3.0がCLIのコミットに登場しており、近日中に公開されるのではという話題もありましたが、確実な話でもありませんのでご紹介は控えています。とはいえ、いずれにせよ近日中にGemini、GPT、Claudeの新モデルが発表される熱い夏になりそうです。
そんな中、OpenAIの動きは最近ちょっと迷走しているようにも見えます。先日は高級AIコンサルティングへの参入を発表し、今回はブラウザへの参入を発表しています。シンプルに考えると、マネタイズ圧力に屈して比較的容易に小銭が稼げる領域に手を出しているように感じてしまいます。モデル開発競争がなければGoogleが全てを支配して終わってしまいそうな勢いなので、先駆者として真のフロンティアモデルをまた発表してほしいものです。
さて、エンジニア界隈に目を移すと、変わらずClaude Codeを中心としたAIエージェントコーディングへのシフトが続いています。非エンジニアの間でも利用が広がっていて、前にも書いた通りWORDやEXCELなどプロプライエタリなファイルフォーマットから、AIリーダブルなMarkdownやYAMLなどのドキュメントフォーマットへ移行が進みつつあるように感じます。Microsoftもこの課題は認識しているはずで、どう取り組んでいくのか注視したいと思います。
では冒頭ポエムはこの辺にして、トピックスに参りましょう。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
Grok4
来ました。ベンチマークはいいようですが、業務で使うのにはちょっと砕けすぎていますし、ガードレールが甘い気がするので躊躇します。
(公式ライブストリーム)
(ぬこぬこさんまとめ)
(感想ポストなど)
OpenAI: ブラウザ参入
確かにChromeの広告収入はGoogleの中心ですが、そこで今から勝負して勝算はあるんでしょうか。どこに向かおうとしているのかちょっと分からない……。
Claude Code系
人間が休んでる時こそClaude Code Actionの出番ですね
寝てる間に定期的にIssueを処理させる手法。とても良いですが、朝一で大量のレビューをしなければいけないのでちょっとメンタルに来そう……。
どうして開発チームはClaude Codeをうまく活用できないのか
チーム成熟度とコードベース品質の掛け算というのは納得感があります。それぞれ筆者の方の特徴リストもあるので、参考にしてみては。
日常的にClaude Codeを使うようになって便利だと思ったTips集
よきノウハウ。こういうのは人によって味付けが違ったりするので、いくらあってもいいです。
実務で使っているClaude Codeの開発環境の紹介
こちらもよきノウハウ。mdの中身も公開。
Claude Codeの指示忘れ問題を解決!HooksでPython環境をpip禁止&uv統一にする
あ、これはめちゃくちゃ良いかも。コマンド実行時に何かを強制する、という文脈であれば、他にも応用が利くノウハウですね。Hooksスクリプトも全公開してくれて素敵!
Claude Codeを常にultrathinkさせる方法とMAX_THINKING_TOKENSの仕様
常にultrathinkさせるのはベストプラクティスなのでしょうか……という疑問はありますが。
速習 Claude Code
「とりあえず使い始める」のに絞った最低限の情報。
Claude向け人名+テクニック一覧(t_wadaさんのTDDなど)
t_wadaさんのTDDは結構バズりました。後半のリストはちょっと「ん?」と思うものもありますが、ご参考まで。
その他AI系話題
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
先日「変化に強いテーブル設計の勘所」というスライドを紹介しましたが、その発展版という感じ。要はちゃんとドメイン知識を活かして未来を見据えた設計をしましょうね、というお話で、DBのみならず全てに通じると思われます。
AIのプロトコル「MCP」経由でSQLデータベース全体を漏洩させる可能性がある手法が発見される
MCPの脆弱性は各所で指摘されてきました。今回はSupabaseのMCPを例にした攻撃手法が公開され、恐らく類似の手法は様々なケースで実行可能でしょう。LLM側のガードレールと、サービス側での対策双方が求められます。
AIともっと楽するE2Eテスト
確かに楽するためにコード自体をAIフレンドリーに作っておく、というのも重要な視点だと思います。
LLMを本番品質に育てる PromptOps:”100回の試行錯誤”を支えた仕組みと文化
確かにプロンプトの管理・改善は個人レベルの取り組みのケースが多いかも。TOMLで書くのは良さそうですね。
Chrome MCP Server
めちゃくちゃ便利だけどめちゃくちゃ悪用できそう……。個人ユースに留めたい。
Gemini CLIをVertex AIで安全に利用する
法人の業務利用ならこれ一択かもですね。
その他一般テック話題
ある日IT企業社長が自治会会長になったときにやった10のこと
クラスメソッド社長さんの体験。読み物としてとても面白いです。IT業界でエンジニア職やってるとつい忘れてしまう気付きがたくさんありました。
タイミーのデータモデリング事例と今後のチャレンジ
基盤設計とデータの流れも紹介されていますので、参考に。
We are hiring!
私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
Discussion