💡

[2025年7月11日] Grok4は今度こそ本当に賢いのかも? (週刊AI)

に公開

こんにちは、Kaiです。
Grok4が来ましたね。正直私は使っていないので何とも言えませんが、ベンチマークでは優秀なようです。ただ、既にベンチマークは飽和しており、AIの実用性を測るには相応しくないと考えています。ペーパーテストのみで仕事が出来るかどうかを測れないのと同じですね。

ただ、前回のGrok3と違い、今回は割と色々な方が検証して「本当に賢いかもしれない」という感触が出ているようです。ただ、純粋な論理的思考力ではIQ130を超え始めているとされるフロンティアモデルの賢さは、もはや私たちでは測れず単に「触ってみて手に馴染むか、気に入るか」の差でしかないようにも思います。

また、Gemini3.0がCLIのコミットに登場しており、近日中に公開されるのではという話題もありましたが、確実な話でもありませんのでご紹介は控えています。とはいえ、いずれにせよ近日中にGemini、GPT、Claudeの新モデルが発表される熱い夏になりそうです。

そんな中、OpenAIの動きは最近ちょっと迷走しているようにも見えます。先日は高級AIコンサルティングへの参入を発表し、今回はブラウザへの参入を発表しています。シンプルに考えると、マネタイズ圧力に屈して比較的容易に小銭が稼げる領域に手を出しているように感じてしまいます。モデル開発競争がなければGoogleが全てを支配して終わってしまいそうな勢いなので、先駆者として真のフロンティアモデルをまた発表してほしいものです。

さて、エンジニア界隈に目を移すと、変わらずClaude Codeを中心としたAIエージェントコーディングへのシフトが続いています。非エンジニアの間でも利用が広がっていて、前にも書いた通りWORDやEXCELなどプロプライエタリなファイルフォーマットから、AIリーダブルなMarkdownやYAMLなどのドキュメントフォーマットへ移行が進みつつあるように感じます。Microsoftもこの課題は認識しているはずで、どう取り組んでいくのか注視したいと思います。

では冒頭ポエムはこの辺にして、トピックスに参りましょう。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

AI新着モデル、サービス、アップデート

Grok4

来ました。ベンチマークはいいようですが、業務で使うのにはちょっと砕けすぎていますし、ガードレールが甘い気がするので躊躇します。
(公式ライブストリーム)
https://x.com/i/broadcasts/1lDGLzplWnyxm
(ぬこぬこさんまとめ)
https://zenn.dev/schroneko/articles/grok-4-overview-and-review
(感想ポストなど)
https://x.com/ytiskw/status/1943317893112041711
https://x.com/otsukaman/status/1943476305045131464

OpenAI: ブラウザ参入

確かにChromeの広告収入はGoogleの中心ですが、そこで今から勝負して勝算はあるんでしょうか。どこに向かおうとしているのかちょっと分からない……。
https://www.itmedia.co.jp/news/articles/2507/10/news070.html

Claude Code系

人間が休んでる時こそClaude Code Actionの出番ですね

寝てる間に定期的にIssueを処理させる手法。とても良いですが、朝一で大量のレビューをしなければいけないのでちょっとメンタルに来そう……。
https://zenn.dev/r_kaga/articles/731fe4636289dc

どうして開発チームはClaude Codeをうまく活用できないのか

チーム成熟度とコードベース品質の掛け算というのは納得感があります。それぞれ筆者の方の特徴リストもあるので、参考にしてみては。
https://note.com/suthio/n/nb0c1d5cb1aea

日常的にClaude Codeを使うようになって便利だと思ったTips集

よきノウハウ。こういうのは人によって味付けが違ったりするので、いくらあってもいいです。
https://zenn.dev/yareyare/articles/99f176a8b1c3a9

実務で使っているClaude Codeの開発環境の紹介

こちらもよきノウハウ。mdの中身も公開。
https://zenn.dev/gatechnologies/articles/5780de81709e97

Claude Codeの指示忘れ問題を解決!HooksでPython環境をpip禁止&uv統一にする

あ、これはめちゃくちゃ良いかも。コマンド実行時に何かを強制する、という文脈であれば、他にも応用が利くノウハウですね。Hooksスクリプトも全公開してくれて素敵!
https://zenn.dev/gotalab/articles/2fe8d7a15409c8

Claude Codeを常にultrathinkさせる方法とMAX_THINKING_TOKENSの仕様

常にultrathinkさせるのはベストプラクティスなのでしょうか……という疑問はありますが。
https://zenn.dev/oikon/articles/0281640eae5aed

速習 Claude Code

「とりあえず使い始める」のに絞った最低限の情報。
https://zenn.dev/mizchi/articles/claude-code-cheatsheet

Claude向け人名+テクニック一覧(t_wadaさんのTDDなど)

t_wadaさんのTDDは結構バズりました。後半のリストはちょっと「ん?」と思うものもありますが、ご参考まで。
https://www.memory-lovers.blog/entry/2025/06/27/102550

その他AI系話題

DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所

先日「変化に強いテーブル設計の勘所」というスライドを紹介しましたが、その発展版という感じ。要はちゃんとドメイン知識を活かして未来を見据えた設計をしましょうね、というお話で、DBのみならず全てに通じると思われます。
https://speakerdeck.com/soudai/survival-db-skill

AIのプロトコル「MCP」経由でSQLデータベース全体を漏洩させる可能性がある手法が発見される

MCPの脆弱性は各所で指摘されてきました。今回はSupabaseのMCPを例にした攻撃手法が公開され、恐らく類似の手法は様々なケースで実行可能でしょう。LLM側のガードレールと、サービス側での対策双方が求められます。
https://gigazine.net/news/20250709-mcp-sql-leak/
https://www.generalanalysis.com/blog/supabase-mcp-blog

AIともっと楽するE2Eテスト

確かに楽するためにコード自体をAIフレンドリーに作っておく、というのも重要な視点だと思います。
https://speakerdeck.com/myohei/aitomotutole-surue2etesuto

LLMを本番品質に育てる PromptOps:”100回の試行錯誤”を支えた仕組みと文化

確かにプロンプトの管理・改善は個人レベルの取り組みのケースが多いかも。TOMLで書くのは良さそうですね。
https://zenn.dev/elyza/articles/3b25b8e44fc280

Chrome MCP Server

めちゃくちゃ便利だけどめちゃくちゃ悪用できそう……。個人ユースに留めたい。
https://github.com/hangwin/mcp-chrome

Gemini CLIをVertex AIで安全に利用する

法人の業務利用ならこれ一択かもですね。
https://iret.media/158534

その他一般テック話題

ある日IT企業社長が自治会会長になったときにやった10のこと

クラスメソッド社長さんの体験。読み物としてとても面白いです。IT業界でエンジニア職やってるとつい忘れてしまう気付きがたくさんありました。
https://dev.classmethod.jp/articles/10-actions-community-chair/

タイミーのデータモデリング事例と今後のチャレンジ

基盤設計とデータの流れも紹介されていますので、参考に。
https://speakerdeck.com/ttccddtoki/data-modeling-night-jin-dakaradekiruli-lun-noshi-jian-shi-li

We are hiring!

私の所属するAI技術開発室では、AIを応用した医療系サービスを手掛けています。先日は以下の「CareNet Academia」をリリースしました。
https://zenn.dev/carenet/articles/4c0dadd193c6b6

積極採用中ですので、こういった医療xAIの領域に興味のある方は、是非以下からご応募ください!
https://hrmos.co/pages/carenet5800/jobs/0000020

CareNet Engineers

Discussion