[2025年2月21日] さいきょー(自称)のGrok3 (週刊AI)
こんにちは、Kaiです。
ようやく週刊ペースに戻せました……。
さて、直近の話題はGrok3です。ご存知イーロン・マスク氏のxAIから登場したモデルで、早速X(旧Twitter)上で使えるようになっています。最初は有料ユーザのみ利用できたようですが、その後一時的に無料ユーザにも開放されました。
後述しますが、Grok3についてはベンチマークよりも、その構築プロセスの方に注目すべきでしょう。当初H100が8000枚しかなかったGPUリソースを、122日で10万台にまで拡大したとのことです(ベンダー見積は1~2年)。さらに、92日をかけて同規模のクラスターをもう一つ作りました。恐らく、ここまで高速に超大規模GPUクラスターを構築した事例はないと思いますので、また一つ競争要素、すなわちGPUクラスタとそれを格納するデータセンターの構築(建築)競争が加わることになりそうです。
また、ベンチマークスコアを見る限り、学習と推論におけるスケーリング則がまだまだ機能していることが確認できます。つまりハイエンド領域では相変わらず資本力と計算力の勝負が続くことを意味します。さらに、Grok3では知識カットオフがなくリアルタイムな情報を回答に反映しているとされています。これは恐らく、Anthropicが次期Claudeで示唆していた 「タスクの内容により、検索や推論をどの程度行うか判断する」 という機能に類似したものでしょう。シンプルなタスクであれば学習済みの知識のみで回答し、新鮮な知識や複雑な推論が必要な場合は、それに応じて手段を切り替えるというイメージです。
昨今AIエージェントという言葉が独り歩きしていますが、既に最新AIサービスはそれ自体がエージェント化しつつある、と考えられるでしょう。
さて、それでは今週のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
Big Tech AIサービス
xAI: Grok3
xAIからGrok3が公開されました。OpenAIのDeep Reserch対抗のDeep Searchも付属しており、当面の間無料ユーザにも開放されたようです。概要をまとめた記事を紹介します。ベンチマークスコアは確かに高く、使用感も良いです。ただ得意分野はやはりあるようで、私が観測した範囲でも賛否両論がありました。なお、Deep Searchは悪くないものの、OpenAIのDeep Researchがあまりにも良いので代わりにはならないな、と感じています。
(xAIからの公式アナウンスをまとめた内容)
(使用感の反応など)
Grok2ちゃん……。
Google: Co-Scientist
Googleから、科学研究そのものに並走する「Co-Scientist」エージェントが発表されました。特徴は自己評価を繰り返して科学的推論をブラッシュアップするという点で、その自己評価が実際の精度と相関している=自己評価で確かに向上することが確認されました。なんと、「急性骨髄性白血病の転用薬」「肝繊維症の標的発見」「抗菌薬耐性のメカニズム解明」において、人間との協働で既に画期的な研究結果が産まれたそうです。
Sakana AI: AI CUDA Engineer
LLMにより、CUDAカーネルの自動生成・最適化を行う手法を提案。ネイティブ実装やコンパイル済み実装を上回る性能を示しているとのこと。
と思ったら、疑義が呈されました。torchの計算結果を盗んでいるのでは?ということです。成り行きを注視ですね。
(追記)ううーーーん……。本件はこれ以上触れないことにします。
その他AI系話題
gemini-2.0-flashが賢くてコスパがよすぎる件
タイトルに騙されてはいけません。これは実質的に、非ReasoningモデルのREST APIで、疑似的にReasoningをさせる手法、と捉えた方がいいです。参考になります。
OpenAI の Reasoningモデル のベストプラクティス
OpenAI公式ガイドの要約。GPTモデルとoモデルの使い分けって悩むところですが、作業をこなす依頼なのか、知性や創造性を発揮して欲しいのか、という理解で概ねいいのではないかと思っています。
ChatGPT deep researchに見るAIが自律的に考える未来
Deep Researchの紹介、何がすごいのか、何が起きていくのかを網羅的にまとめた記事です。推論過程は眺めてると楽しいんですが、たまに温泉行ったり旅に出たりするのは何とかして欲しい。
CursorとWindsurfを約1ヶ月弱併用して分かったそれぞれの特徴 | 比較
Windsurfが話題になっているのは知っていましたが、まだ使ったことはないのですよね。結構特徴というか、味付けが違うようです。
ModernBERTで固有表現抽出を日本語とColabで試してみる。
BERTもかなりレガシーなモデルになってきましたので、プロダクトに組み込んでいる場合は差し替えたいところ。ModernBERTは評判もよく、日本語版も出ているので候補ですね。
(関連)ModernBERTに学ぶモダンなBERTの学習レシピ
ModernBERTの概要を知りたい方はこちらを。
現役UXデザイナーがAIでジャーニーマップを書いてみた!
さすがデザイナーさん、図が分かりやすい。いやそこではなく、AIでペルソナ設定をし、ペルソナの行動をシミュレーションさせる、というのが興味深い点です。実は当社でも似たような取り組みを一部で始めています。
Multi-head Latent Attention (MLA)の詳細【be absorbedとは?】
DeepSeek V2論文の解説で……あっ数式……あとでじっくりよむ。(ごめんなさい……)
深い思考をする埋め込みモデル「O1 Embedder」
論文紹介。これはいいですね。Embeddingsを生成する際にも、Reasoningした方がいいのでは?というのは自然な発想です。より文脈を考慮してくれそう。
LLMs.txtについての覚書
これも面白い発想です。検索エンジン向けの特別なファイルであったrobots.txtやsitemap.xmlのように、LLM向けの特別なファイルをllm.txtとして提供しようという動きです。いずれ標準化されそうな予感がします。
PFN、新LLM「PlaMo 2 8B」(仮称) 開発中 パラメータ数1000億→80億に、でも性能は維持
ハイエンドモデルは資本力と計算力(もちろん知恵と工夫も必要)の勝負になり、それを削減したミニモデルは知恵と工夫の勝負、というような感じになってきています。
「AIの利用・開発に関する契約チェックリスト」を取りまとめました
経済産業省謹製。日本の省庁としてはかなり早く出してくれたのではないでしょうか。
法務での生成AIの活用
関連して、法務実務での生成AI利用に関する知見です。「プロンプトの型」はReasoningモデル以前に流行ったものなので、参考程度がよいかと思います。
日本語安全性ガードレール”chakoshi”
いい着目点だと思いました。一般ユーザ向けにAI対話サービスを提供するときには必須ですね。日本語ベースなのがありがたいところ。
[Human-AI Decision Making勉強会] AIの説明表現は人間の意思決定にどのような影響をもたらすのか
とても面白い論文紹介。AIのトーン(権威的、フレンドリーなど)で人間の意思決定が変化しうるか、という研究。限られたサンプルではありますが、この研究としての結論は「シナリオやユーザ属性によっては影響を及ぼす場合がある」というものでした。
WEB開発系話題
Mutation-Guided LLM-based Test Generation at Meta
メタ社によるプレプリント。LLMを用いて意図的にコードにバグを潜ませ、同時にそのバグを検出するテストコードを生成することで、テストの品質を上げる手法の提案とのこと。
Reactチームが見てる世界、Reactユーザーが見てる世界
Reactチームは大規模システムでの自律分散を指向し、Reactユーザは小規模システムでの中央集権を指向する、というのは興味深い指摘です。歴史的経緯も整理されていて読み物としても面白い。
サーバーサイド開発者のためのパスキー入門
ああーすごい過不足なくきれいにまとめて頂いています。パスキー対応は今後、認証の主流になる気がしているので復習。
その他一般テック話題
Architecture to Design より良い設計を目指して
「設計とは何か」「よりよい設計とは何か」といった根源的なテーマに対して、概念から具体例までを解説しています。これ無料で読めてよいのか。
ゼロから検索エンジニアになるまで
一般的なエンジニアの方が、検索エンジニアになるまで勉強したプロセスのまとめ。道のりを総覧するとともに、参考になるリソースがトピックごとにまとまっていて、何かで詰まったときのリファレンスとしても良さそう。
データの整合性を保つ非同期処理アーキテクチャパターン
リアルワールドの業務とシステムの間では、非同期な処理が多発します。それをデザインパターンのような形で切り分け、どのようにアプローチすべきかを整理しています。
Discussion