💡

[2025年2月21日] さいきょー(自称)のGrok3 (週刊AI)

2025/02/21に公開

こんにちは、Kaiです。
ようやく週刊ペースに戻せました……。

さて、直近の話題はGrok3です。ご存知イーロン・マスク氏のxAIから登場したモデルで、早速X(旧Twitter)上で使えるようになっています。最初は有料ユーザのみ利用できたようですが、その後一時的に無料ユーザにも開放されました。

後述しますが、Grok3についてはベンチマークよりも、その構築プロセスの方に注目すべきでしょう。当初H100が8000枚しかなかったGPUリソースを、122日で10万台にまで拡大したとのことです(ベンダー見積は1~2年)。さらに、92日をかけて同規模のクラスターをもう一つ作りました。恐らく、ここまで高速に超大規模GPUクラスターを構築した事例はないと思いますので、また一つ競争要素、すなわちGPUクラスタとそれを格納するデータセンターの構築(建築)競争が加わることになりそうです。

また、ベンチマークスコアを見る限り、学習と推論におけるスケーリング則がまだまだ機能していることが確認できます。つまりハイエンド領域では相変わらず資本力と計算力の勝負が続くことを意味します。さらに、Grok3では知識カットオフがなくリアルタイムな情報を回答に反映しているとされています。これは恐らく、Anthropicが次期Claudeで示唆していた 「タスクの内容により、検索や推論をどの程度行うか判断する」 という機能に類似したものでしょう。シンプルなタスクであれば学習済みの知識のみで回答し、新鮮な知識や複雑な推論が必要な場合は、それに応じて手段を切り替えるというイメージです。

昨今AIエージェントという言葉が独り歩きしていますが、既に最新AIサービスはそれ自体がエージェント化しつつある、と考えられるでしょう。

さて、それでは今週のトピックスです。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

Big Tech AIサービス

xAI: Grok3

xAIからGrok3が公開されました。OpenAIのDeep Reserch対抗のDeep Searchも付属しており、当面の間無料ユーザにも開放されたようです。概要をまとめた記事を紹介します。ベンチマークスコアは確かに高く、使用感も良いです。ただ得意分野はやはりあるようで、私が観測した範囲でも賛否両論がありました。なお、Deep Searchは悪くないものの、OpenAIのDeep Researchがあまりにも良いので代わりにはならないな、と感じています。
https://chatgpt-lab.com/n/n6f80398982ee

(xAIからの公式アナウンスをまとめた内容)
https://x.com/d_1d2d/status/1892304288128651686

(使用感の反応など)
https://x.com/theo/status/1891736803796832298
https://x.com/KettlebellDan/status/1892619614858760626
https://x.com/Suzacque/status/1891804350411853888

Grok2ちゃん……。
https://x.com/tejaja_teja/status/1892355246669594969

Google: Co-Scientist

Googleから、科学研究そのものに並走する「Co-Scientist」エージェントが発表されました。特徴は自己評価を繰り返して科学的推論をブラッシュアップするという点で、その自己評価が実際の精度と相関している=自己評価で確かに向上することが確認されました。なんと、「急性骨髄性白血病の転用薬」「肝繊維症の標的発見」「抗菌薬耐性のメカニズム解明」において、人間との協働で既に画期的な研究結果が産まれたそうです。
https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/

Sakana AI: AI CUDA Engineer

LLMにより、CUDAカーネルの自動生成・最適化を行う手法を提案。ネイティブ実装やコンパイル済み実装を上回る性能を示しているとのこと。
https://x.com/SakanaAILabs/status/1892433535400890734

と思ったら、疑義が呈されました。torchの計算結果を盗んでいるのでは?ということです。成り行きを注視ですね。
https://x.com/main_horse/status/1892446384910987718

(追記)ううーーーん……。本件はこれ以上触れないことにします。
https://wirelesswire.jp/2025/02/88134/

その他AI系話題

gemini-2.0-flashが賢くてコスパがよすぎる件

タイトルに騙されてはいけません。これは実質的に、非ReasoningモデルのREST APIで、疑似的にReasoningをさせる手法、と捉えた方がいいです。参考になります。
https://zenn.dev/erukiti/articles/2502-gemini-20-flash

OpenAI の Reasoningモデル のベストプラクティス

OpenAI公式ガイドの要約。GPTモデルとoモデルの使い分けって悩むところですが、作業をこなす依頼なのか、知性や創造性を発揮して欲しいのか、という理解で概ねいいのではないかと思っています。
https://note.com/npaka/n/nb6b5f3b308a4

ChatGPT deep researchに見る⁨⁩AIが自律的に考える未来

Deep Researchの紹介、何がすごいのか、何が起きていくのかを網羅的にまとめた記事です。推論過程は眺めてると楽しいんですが、たまに温泉行ったり旅に出たりするのは何とかして欲しい。
https://tech.layerx.co.jp/entry/2025/02/13/175317

CursorとWindsurfを約1ヶ月弱併用して分かったそれぞれの特徴 | 比較

Windsurfが話題になっているのは知っていましたが、まだ使ったことはないのですよね。結構特徴というか、味付けが違うようです。
https://zenn.dev/ks0318/articles/6023a5b729cb7a

ModernBERTで固有表現抽出を日本語とColabで試してみる。

BERTもかなりレガシーなモデルになってきましたので、プロダクトに組み込んでいる場合は差し替えたいところ。ModernBERTは評判もよく、日本語版も出ているので候補ですね。
https://bwgift.hatenadiary.jp/entry/2025/02/15/231013

(関連)ModernBERTに学ぶモダンなBERTの学習レシピ
ModernBERTの概要を知りたい方はこちらを。
https://zenn.dev/bilzard/articles/modern-techniques-in-modern-bert

現役UXデザイナーがAIでジャーニーマップを書いてみた!

さすがデザイナーさん、図が分かりやすい。いやそこではなく、AIでペルソナ設定をし、ペルソナの行動をシミュレーションさせる、というのが興味深い点です。実は当社でも似たような取り組みを一部で始めています。
https://note.com/nijibox_jp/n/na5e923fc16e8

Multi-head Latent Attention (MLA)の詳細【be absorbedとは?】

DeepSeek V2論文の解説で……あっ数式……あとでじっくりよむ。(ごめんなさい……)
https://zenn.dev/asap/articles/be3d4b60d8ac92

深い思考をする埋め込みモデル「O1 Embedder」

論文紹介。これはいいですね。Embeddingsを生成する際にも、Reasoningした方がいいのでは?というのは自然な発想です。より文脈を考慮してくれそう。
https://zenn.dev/knowledgesense/articles/3ecad11999fea3

LLMs.txtについての覚書

これも面白い発想です。検索エンジン向けの特別なファイルであったrobots.txtやsitemap.xmlのように、LLM向けの特別なファイルをllm.txtとして提供しようという動きです。いずれ標準化されそうな予感がします。
https://zenn.dev/watany/articles/0b28a68a2dffc3

PFN、新LLM「PlaMo 2 8B」(仮称) 開発中 パラメータ数1000億→80億に、でも性能は維持

ハイエンドモデルは資本力と計算力(もちろん知恵と工夫も必要)の勝負になり、それを削減したミニモデルは知恵と工夫の勝負、というような感じになってきています。
https://www.itmedia.co.jp/aiplus/articles/2502/18/news125.html

「AIの利用・開発に関する契約チェックリスト」を取りまとめました

経済産業省謹製。日本の省庁としてはかなり早く出してくれたのではないでしょうか。
https://www.meti.go.jp/press/2024/02/20250218003/20250218003.html

法務での生成AIの活用

関連して、法務実務での生成AI利用に関する知見です。「プロンプトの型」はReasoningモデル以前に流行ったものなので、参考程度がよいかと思います。
https://note.com/shigeki3811/n/nd9b5ab948394

日本語安全性ガードレール”chakoshi”

いい着目点だと思いました。一般ユーザ向けにAI対話サービスを提供するときには必須ですね。日本語ベースなのがありがたいところ。
https://chakoshi.ntt.com/

[Human-AI Decision Making勉強会] AIの説明表現は人間の意思決定にどのような影響をもたらすのか

とても面白い論文紹介。AIのトーン(権威的、フレンドリーなど)で人間の意思決定が変化しうるか、という研究。限られたサンプルではありますが、この研究としての結論は「シナリオやユーザ属性によっては影響を及ぼす場合がある」というものでした。
https://speakerdeck.com/okoso/human-ai-decision-makingmian-qiang-hui-ainoshuo-ming-biao-xian-haren-jian-noyi-si-jue-ding-nidonoyounaying-xiang-womotarasunoka

WEB開発系話題

Mutation-Guided LLM-based Test Generation at Meta

メタ社によるプレプリント。LLMを用いて意図的にコードにバグを潜ませ、同時にそのバグを検出するテストコードを生成することで、テストの品質を上げる手法の提案とのこと。
https://arxiv.org/abs/2501.12862

Reactチームが見てる世界、Reactユーザーが見てる世界

Reactチームは大規模システムでの自律分散を指向し、Reactユーザは小規模システムでの中央集権を指向する、というのは興味深い指摘です。歴史的経緯も整理されていて読み物としても面白い。
https://zenn.dev/akfm/articles/react-team-vision

サーバーサイド開発者のためのパスキー入門

ああーすごい過不足なくきれいにまとめて頂いています。パスキー対応は今後、認証の主流になる気がしているので復習。
https://speakerdeck.com/ynojima/sabasaidokai-fa-zhe-notamenopasukiru-men

その他一般テック話題

Architecture to Design より良い設計を目指して

「設計とは何か」「よりよい設計とは何か」といった根源的なテーマに対して、概念から具体例までを解説しています。これ無料で読めてよいのか。
https://www.docswell.com/s/tyonekubo/5R2Y4E-architecture2design

ゼロから検索エンジニアになるまで

一般的なエンジニアの方が、検索エンジニアになるまで勉強したプロセスのまとめ。道のりを総覧するとともに、参考になるリソースがトピックごとにまとまっていて、何かで詰まったときのリファレンスとしても良さそう。
https://zenn.dev/togatoga/articles/ff066e9e949e71

データの整合性を保つ非同期処理アーキテクチャパターン

リアルワールドの業務とシステムの間では、非同期な処理が多発します。それをデザインパターンのような形で切り分け、どのようにアプローチすべきかを整理しています。
https://speakerdeck.com/mokuo/async-architecture-patterns

CareNet Engineers

Discussion