[2025年3月28日] シンギュラリティ、始まってません? (週刊AI)
こんにちは、Kaiです。
先週は投稿をお休みしておりましたが、もう新着だけで追いきれないレベルになってきています。
昨年の半年分くらいのアップデートが、1か月間に起きているような感覚ですし、これはさらに加速していくのでしょう。
直近での一番の話題は、やはりChatGPT-4oの新しい画像生成機能と、Gemini2.5Proですね。前者はDeep Research以来久しぶりに(久しぶり???)、魔法レベルの驚きを感じました。著作権への配慮などユーザ側が慎重に使用すべきではありますが、普段必要な画像は全てこれで賄えるのではないかと思います。
それにしても本当に年が明けてからあまりにも進化が速く、追いついて試してみるだけでギリギリの状態が続いています。以前も書いたことですが、この速さ、特にどんどん「加速」しているという感覚は、もはや私たちがシンギュラリティの中にいるという確信をより強固にしています。
AIはちょうどハイプサイクルの頂上にいる、とは2年ほど前からずっと言われており、いつ期待値バブルが崩壊するかという話題も定番ですが、失望フェーズに至る前に次のイノベーションが起きてしまっている印象です。
後述する研究機関の予測(現在のAI投資と性能スケーリングが持続する前提)では、弱気バージョンでも10年後に人類が約450億人分の追加労働力を獲得するとしています。これは別にAGIが達成されて450億体の人類等価AIが活動するということを意味しているわけではなく、AIと協働することで人類の生み出せる総労働力がそのレベルに至るという予測です。
産業革命の際、機械が提供するパワーを表現するために「馬力」という新しい単位が生み出されたように、恐らくAIが提供するパワーを表現する新しい単位も必要なのでしょう。
見方によって楽しくも恐ろしくもなるこの現実。少しでも追いつく手助けができますようトピックスまとめをお送りします。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
AI新着モデル、サービス、アップデート
GPT-4o ネイティブ画像生成
いやマジでこれは魔法レベルですよ。これが世界モデルですと言われたら信じてしまいそうなくらい、世界への解像度が高い。どうやってるんだろう、と思ったら解説記事も出ていたので合わせてご紹介。
(公式)
(npaka氏によるまとめ)
(解説記事)
(使用感とか)
Gemini2.5 Pro Experimental
リーダーボード1位更新の推論モデル。評判を見る限り、「確かにこれまでで最高」といった印象です。私も試してみましたが……うーん、実行環境を持ってないせいか、全AIの中で唯一Claude3.7 Sonnet Thinkingのみが成功したデータ解析・可視化のタスクがうまくいきませんね。となるとやはり得意分野の差がありそう。コーディング目的(特にCursor等)では随一と考えられているようです。
(公式)
(記事)
DeepSeek-V3-0324
GPT-4.5やClaude3.7 Sonnetに匹敵し、非推論モデルとしては最高レベルとのこと。日本でのビジネスユースはかなり厳しいですが、MITライセンスでの提供に切り替わったため、特に中国でのAI利用が爆発的に広がりそう。
(公式)
(記事)
Claude: Web search
やっときた!と思ったらまだ米国のみでした……。
OpenAI: 新文字起こしモデルと話し方を変えられる新TTSモデル
アップデートされた新Advanced Voice Modeの裏側で動いてるモデルなんですかね?
(まとめ)OpenAI: OpenAI Responses API と Agents SDK リリースのまとめ
なんとOpenAI公式の日本語記事。参照先としては最適でしょう。
Gemini: Canvas機能の追加
まぁ、来るでしょうねというものが来ました。でも可視化力だとやっぱりClaudeの信頼性が高いんですよねぇ。
OpenManus
早速ManusのOSSクローンが出ました。
(使用レポ)Mistral Small 3.1
先日OCRを出したMistralから24Bの小規模モデルが。ベンチではGPT-4o MiniやGemma-3を超えるとのこと。
Mastra
ここ2週間ほどググっと話題に上がってきました。
(関連)MastraはMCPに全賭けするとのこと
グーグル、「Gemini」の「Deep Research」と「Gems」を無料提供へ
またしても資本こそパワーなムーブ。ChatGPT Pro契約どうしようかな……最近Deep Research以外はClaude3.7 Sonnet Thinking使うこと多いんですよね。
Figmaで作ったデザインが自動的に生成AIでWebアプリに。「Bolt.new」がFigmaインポートに対応
これは大きな差別化要因。ただ、フロントエンドデザイン生成も洗練されてきていることから、Figmaの立ち位置自体が今後難しくなるかもしれません。
その他AI系話題
20250326_生成AIによる_レビュー承認システムの実現
生成AIを実世界、実業務に実装して運用するという観点でめちゃくちゃ参考になる内容です。しかもボリュームたっぷりでここまで書いていいの?というくらい詳細。
ベクトル検索システムの気持ち
基本的な内容ではありますが、ベクトルまわりはこれ読めばとりあえずOK!的なレベルに至っているのでとてもよいです。
CloudflareがAIクローラーを無限生成迷路に閉じ込める「AI Labyrinth」を発表
めちゃくちゃSFみのある話。論理迷路とか昔のサイバーパンクでよくありましたよね。
Cursor / Clineを使う上でもっとも重要なことの一つ: コンテキストウインドウについて
AIツールを使っていて頭を悩ませる大きな問題。結局のところ、一度にまとめて全部やらせようとせず、きちんとテストで検証できる最小単位に分割して一つずつ進めましょう、というめちゃくちゃ真っ当な結論に至るんですよね。
言語モデルの物理学
言語モデルに通底する物理学のような不変法則を見出そう、というコンセプトでの論文解説。すごいボリュームです。自由エネルギー原理のように、知能や思考は自己組織化の法則の一つとして定式化できると私は思っているので、とても面白い。
Text-to-Imageモデルの変遷: DALL·EからStable Diffusionまで
これはよいまとめ。画像生成系はあまり詳しくないので、一覧出来てありがたいです。
AI向け学習データ提供、同意不要に 相手先公表など条件
これは現実的なラインに落とし込まれれば国としてかなり強いカードになるかも。
Vibe Codingの限界
「プログラミングのドメインエキスパート」としての価値を見出す、というような文脈に思えます。確かに現状、シンプルなコーディング技術はAIが人間を凌駕しつつある一方、ふわっとしたイメージをシステムとして言語化する部分には、まだ最適なアプローチが存在していないように思います。ただ、これも役割分担の話で、いずれ登場AIコンサルがイメージを要求定義化し、AIアーキテクトが要求定義を要件定義化し、AIプロマネがAIコーダーを使役してものをつくり、AIテスターがテストする世界はそう遠くない未来だとも感じています。
MCP関連
MCPはどんどん事例が増えていっています。話題になったものを少しご紹介。私は趣味で3Dモデリングをしているので、Blenderの事例はちょっと複雑ですね……。
OpenAIがMCPを採用
これはかなり驚きました。独自路線よりも、合理的であれば競合の仕様でもデファクトとして受け入れるってことなんですかね。
MCP + Blender
MCP + GIS
プロダクト開発に必要なもの全部繋げたらCursorが最強のプロダクトマネージャーになった
こちらはCursorですが、知識集約のためにMCPサーバを介しているケース。それにしても、全ての知識やノウハウをLLMフレンドリーな形でアウトプットする、ということが今後決定的な差別化になるかも。
MCPサーバーを利用することはセキュリティ的に安全か?
こういう注意喚起も大事。
ユーモアの生成におけるLLMと人間の共同創造性の評価
プレプリント。いわゆる「ユーモアに富んだミーム」を作るに際し、人間のみ、人間とLLMの共創、LLM単独の3パターンを評価。「平均的にはLLM単独の方が面白いものを作るが、突き抜けて面白いものは人間のみから生まれる」という結果は大変興味深いです。
言語モデルの内部機序:解析と解釈
いやーこれは面白いです。LLMの中で何が起きているのかをざっくり知ることができるわけですが、知性の本質とは何なのだろう、と考え込んでしまいます。
(Cline) お前とペアプロをする前に 言っておきたいことがある
結構色々な.clinerulesのノウハウが公開されてますが、皆さんがパートナーにこう仕事して欲しいんだよねという人間的な部分が出ていて面白いです。「私は君よりプログラミングがうまいから余計なことはするな」的なことを書いている方もいらっしゃいました。
AWS設計プロンプト
これはすごい。この膨大な量のプロンプト自体が、AWSの設計において押さえるべきポイントを網羅しておりノウハウの塊ですね。これこそが「適切な問い」であり、現時点でエンジニアの仕事はこのプロンプトを作ることと整理できるかもしれません。
Manus、OpenAI、GoogleのDeep Research比較:研究者視点でのファーストインプレッション
医師が研究目的で利用する際のインプレッション。総合評価はManus>OpenAI>Googleですが、コストを含めると一長一短ですね、しかし他のAIサーチ系サービスがかなりキビシイ。
LLM Confabulation (Hallucination) Leaderboard for RAG
RAGにおいて、意図的に誤解を招くような質問をした際のハルシネーションを比較した内容。ハルシネーションの確率と、無回答の確率を双方評価しています。例えば、Claude3.7 Soonet Thinkingは、圧倒的にハルシネーション率が低いですが、難しい質問(正答は可能)への無回答率が比較的高く、「ハルシネーションを可能な限り起こさないように、確信度が高い場合のみ回答する」というような味付けがされているように見受けられます。
「UIも自動化も後回し」: AIエージェント開発の実践的アプローチ
「AIエージェント開発は技術不確実性が高いので何ができて何ができないかの検証のみを高速に行う」という考え方はめちゃくちゃ同意です。私も簡易なPoCはスプシとGASからAPI叩いて回すことがほとんどです。
全ビジネスマンが使えるClaude3.7 sonnet と draw.ioで始める図の作成。
Claude3.7 SonnetはHTMLでスライド出力させる手法をよく使っていますが、確かに編集が困難なところが課題でした。これなら可視化力を生かしたまま編集可能になりますね。
AIによる自動化と経済影響を評価するモデル「GATE」
AI研究機関であるEpoch AIから、経済予測モデルGATEが発表されました。投資とスケーリングが継続する前提での予測のようです。驚くべきことに、「弱気の予想」でも、2034年に人類は約500億人分の有効労働力を獲得するとのこと。つまり、日本人が慣れている人月・人年の概念で言えば、10年後には450億人年ぶんのAI労働力が人類に追加されるということです。
ほぼ100%の診断性能を持つ新しい医療AI
子宮内膜がんの病理診断画像を99.26%の精度でがんと診断可能とのこと。大腸がん、乳がん、口腔がんも97%以上の精度を出している模様。
WEB開発系話題
ログラスにおけるSREの現状と未来
昔はインフラエンジニアとか色々名前が付いていましたが、目的ベース(システム、サービス、製品全体の信頼性支援)になったのは、役割分担的にもキャリア的にも分かりやすいと思っています。
その他一般テック話題
Windows 10/11に「Noto」フォントが標準搭載へ ~日中韓のWebブラウジングが改善
これでストレスともおさらば!
GitHub Actions を静的検査するツールの紹介 (actionlint/ghalint/zizmor)
寡聞にして存じませんでした。考慮点が多い……。
時間対価値の高いコードレビュー
心理的安全性を担保しつつ、品質を上げるために留意する事項。概ね同意ですが、環境によってバランスは変わりそう。
Discussion