💡

[2025年2月28日] GPT-4.5は「人格基盤モデル」なのでは (週刊AI)

Kai

2025/02/28に公開

こんにちは、Kaiです。
年が明けてからのAI加速、ヤバくないですか？

前にも書いた通り、私は既に人類がシンギュラリティの渦中にいると思っていますが、まさにそれを実感するような速度で進化が起きています。

恐らくですが、OpenAI、Google、Anthropicといった企業の中の人は、GPT-5とかGemini2.5とかClaude4.0とともに仕事をしているはずで、既に人間の能力は相当にブーストされていると思います。
直近の動きとしては、Claude3.7 Sonnet、そしてGPT-4.5の発表がありました。どちらも使っていますが、今のところ劇的な向上という印象はありません。恐らく、非Reasoning（Claude3.7はReasoningも出来ますが）モデルとしての、単純な頭の良さという面では限界に達しつつあるのかもしれません。
私見ですが、縦方向の進化（思考力や、頭の良さ、問題解決能力）は各社Reasoningを始めとする学習後の推論・思考手法で解決し、基盤モデルにはAGIを見据えて別の路線を取りつつあるのかもしれない、と感じています。
というのも、GPT-4.5は「EQが高い」というような表現がされており、これは思考力ではなく 「性格のよさ」 を実装する試みなのではないでしょうか。今後、推論・思考手法がさらに進化し、人類を超える知能をAIが獲得したら、「性格のよい」AIであって欲しいですよね。
つまり、確かにGPT-4.5は課題解決、タスク処理上の大きな飛躍ではないものの、今後超知能を搭載する「人格基盤モデル」 なのではないかと思います。
OpenAI Deep Researchは「Preparedness Scorecard」（リスク評価スコア、High以上は公開されない）で、初めて全ての項目が「Medium」となり、非公開一歩手前となっています。また、スコアカードのドキュメントを読むと、「私たちのモデルが、初心者が既知の生物学的脅威を作り出すのを有意義に手助けできるようになる一歩手前にあることを示している (3.4.4)」 とあります。つまり、今後さらに性能が向上したモデルは、「論理的思考力としての知能」 のみならず、「その手綱を握る知性＝人格」 との両輪で進化しなければならない、ということを示唆しています。
私たちが生み出すものがターミネーターになるのか、鉄腕アトムになるのか。ひょっとしたらその分かれ目への挑戦が、GPT-4.5なのかもしれません。
さて、では今週のトピックスです。
注意事項
直近収集したAIおよびWeb系の記事やポストが中心になります
私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
業務状況次第でお休みしたり、掲載タイミングが変わったりします

 Big Tech AIサービス
 OpenAI: GPT-4.5つい先ほど、OpenAIから最新の非ReasoningモデルであるGPT-4.5が発表されました。発表のテイストも、界隈の受け止め方も、ちょっと測りかねているように思います。まだまだ情報は少ないですが、「理系的タスク（IQ）ではなく文系的タスク（EQ）に強い」「SVGに強い」「マルチモーダル性が高い」などという反応が出ています。私の感触は冒頭に記載した通りです。

https://zenn.dev/schroneko/articles/introducing-gpt-4-5

https://note.com/shi3zblog/n/n5551473a7121

 Anthropic: Claude3.7 Sonnet & Claude Codeこちらも注目。GPT-4.5同様、「すごい！めちゃくちゃ頭がいい！」というような反応は薄いように思いました。私も同感です。あまりEQのような話は出ませんが、こちらもGPT-4.5同様「性格基盤モデル」を指向したものかもしれません。

https://note.com/npaka/n/nde500a0458fd

https://chatgpt-lab.com/n/nf1727e3c207c

https://zenn.dev/schroneko/articles/a4496472b76477

https://www.publickey1.jp/blog/25/anthropicclaude_codeclaude_37_sonnet.html
https://x.com/bioshok3/status/1894129639033028721

 OpenAI: Deep Research先日のProユーザ開放から、ついにPlusユーザにも開放されました。こちらは素直に「すごい！」と思う性能です。

https://www.itmedia.co.jp/aiplus/articles/2502/26/news118.html
また、内部的な仕組みについても様々な情報が出てきました。

https://x.com/d_1d2d/status/1894485715549143194
システムカードも公開され、高い精度を維持しつつハルシネーションを抑制していることが明らかになっています。また、読み込むと開発者たちが非常にリスクを気にする段階に入っていることも見て取れます。

https://openai.com/index/deep-research-system-card/

 Google: 「Gemini Code Assist」を無料公開これはすごい。資本こそパワー！なムーブ。VSCodeというインタフェースはMSに取られましたが、アシスタントレベルで覇権を取れるか。

https://www.itmedia.co.jp/aiplus/articles/2502/26/news125.html

 Amazon: Alexa+AlexaはClaude（Novaもありますが）を採用するのですね。確かに、ご家庭内にChatGPTはちょっと冷淡すぎるかも。これは使ってみたい気がします。

https://x.com/d_1d2d/status/1894836669649690952

 その他AI系話題
 RAGのビジネス適用に向けたパフォーマンス改善ガイドRAGをリアルワールドで実装する上で課題になりそうなポイントと改善点。参考になりますが、個人的にはRAGという技術そのものが、過渡期的な印象を持っています。

https://note.com/wandb_jp/n/n8ea88483a96c

 Gemini 2.0 Flashで実現する高コスパAI開発Gemini2.0 Flashは確かにコスト面での優位性が高いです。APIとしては第一選択肢になるのではないでしょうか。実際に使う上でのノウハウなどを紹介。

https://speakerdeck.com/erukiti/gemini-2-dot-0-flash-prompt-engineering

 LLMを活用するためのデータのテキストへの変換方法これほんとに課題。というか、PDFってまったくLLMフレンドリーではないので、別の規格生まれませんかね？エンジニア観点だとyamlでいいとかMarkdownでいいとかになってしまいますが、ありとあらゆるビジネス上の文書を取り扱えないといかんです。

https://zenn.dev/karaage0703/articles/617c6c4225335a

 Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか？上の記事ではPDF→MarkdownにPythonライブラリを使っていますが、こちらはLLMを使うパターン。文書の意図はこちらの方が組めていそう。ただハルシネーションは怖い。

https://hironsan.hatenablog.com/entry/ocr-with-gemini-2-flash

 o3-mini-high 2025東大理系数学 5完半達成この方の試行によると10分弱。さすがにいかなる人類の天才であろうと、東大理系数学を10分で5完半は不可能なのでは？それとも可能なのでしょうか？

https://x.com/kaitou_ryaku/status/1894453591735505353

 数十名規模で Devin を1ヶ月トライして見えてきた点後述のCLINE記事もそうですが、「エンジニアは運転席を明け渡してナビゲーターに徹することを学べるか」というのが、今後私たちにとって大きな課題になりそうだと感じています。

https://zenn.dev/globis/articles/7733191f62d1e7

 エンジニアは Deep Research をどう活かせるか全人類使った方がいいと思いますのでエンジニアも課金しましょう。

https://creators.bengo4.com/entry/2025/02/26/123000

 CLINEに全部賭けろこれまた挑戦的なタイトル。そして様々な反応記事が出てきています。以下の画像は記事中で特に納得感があった部分を抜粋したものですが、人間がボトルネックになる、というのはDeep Researchを使っていても強く感じる部分。

https://zenn.dev/mizchi/articles/all-in-on-cline

 Cline 試してみた最初は否定的でしたが、人間側が徐々にClineに適応していきます。これこれをやるのにかかった価格を具体的に示しているのがとても参考になります。以下の画像は記事抜粋ですが、「安すぎる」というのは経営者目線ならではですね。

https://voluntas.ghost.io/try-cline/

 Webアプリケーション・アーキテクトの自分は何に全部賭けるのかCLINE反応記事の一つ。こちらの方は、「運転席を明け渡す」ことに直感的な嫌悪感を感じているように思います。

https://zenn.dev/okunokentaro/articles/01jn2d3he61wy2cw5ceexy4nh2

 誰もがAIエージェントを"操作"したがる〜AIエージェントに求められるUX〜これは反応記事ではありませんが、「タスクを投げたら結果が返る、過程は無視する」というユーザ体験に、まだほとんどの人が慣れていないとのこと。このサービスでは、顧客リストを投げるとアポが返って来る（その過程の調査やアポ取りプロセスは隠ぺいされる）というUXになっていますが、まだ人類はそこまで任せるメンタルになっていないのでしょう。

https://speakerdeck.com/ikeyatsu/shui-mogaaiezientowo-cao-zuo-sitagaru-aiezientoniqiu-merareruux

 ユーザー体験の再定義 〜行動変容のための生成AI活用〜こちらもAIによるユーザ体験のお話です。ただ、「分析者」がユーザであるため、全てお任せにするわけにはいかない。LLMの役割は「納得感」を提供することで行動変容を起こすこと、という、前記事のプロダクト像とは全く異なるスタンスに至っているのが面白いところです。

https://speakerdeck.com/_kojikako/yuzati-yan-nozai-ding-yi-xing-dong-bian-rong-notamenosheng-cheng-aihuo-yong

 LLM比較このサービスはいい！以下の画像のように、2つのモデルを様々な情報で比較できます。コンテクスト長や価格がまとめて見られるのはありがたい。

https://docsbot.ai/models/compare/claude-3-7-sonnet/gpt-4

 WEB開発系話題
 スケールアウトはもう要らない？DuckDBが描くシステム設計の新時代ずいぶん挑戦的なタイトルと思ったら「データ解析」の文脈ですね。スケールアウトは、毎秒数万トランザクションが発生するような高負荷オンラインユースの文脈では、I/Oの限界から必須だと思っています。

https://qiita.com/ogi-iii/items/db631f04e71f112c85b4

 AWS で必要最小限の権限、を求められた時作ってから使った権限だけ付与する、という発想。

https://qiita.com/kazuneet/items/af9e30895585bd005f6e

 AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみたたぶん、SEOの時代は終わって、LLMOの時代が来る、ということなのでしょうね。llms.txtにこの辺りの概念も包括的に組み込んで欲しい。RFCはよ出て。

https://dev.classmethod.jp/articles/aws-waf-bot-control-claudebot-spike/

 IAMポリシーのAllow/Denyについて、改めて理解するIAM復習にどうぞ。

https://speakerdeck.com/smt7174/denynituite-gai-meteli-jie-suru

 データエンジニアリング領域におけるDuckDBのユースケースこちらもDuckDB。がっつり試したいと思いつつ触れてない……。

https://speakerdeck.com/chanyou0311/tetaensiniarinkuling-yu-niokeruduckdbnoyusukesu

 その他一般テック話題
 エンジニアリングマネージャーのロードマップマネジメント、エンジニアリングマネジメントとは何かを整理した上で、AI時代への示唆も含む内容。これからEMを目指す方やEMになって悩んでいる方によさそう。スライド自体もMarp製とのこと。

https://hirokidaichi.github.io/presentation/emconf.html

 おまけテックブログとは全く関係ないですが、私この作品が大好きなので、ものづくりに関わる人はタイトルや作画に惑わされず全員ご覧頂きたいです。いやむしろ全人類見てほしい。ものを作るということの苦悩と快楽、そして人を巻き込むことの大事さが強烈に味わえます。アマプラ見放題にくるそうです。

https://x.com/pompothecinema/status/1894209480482599348

※リンク切れにつき差し替え

CareNet EngineersPublication

株式会社ケアネットのエンジニアブログです。CareNetサービスの技術情報を中心に記事を投稿しております。各記事の内容は個人の意見であり、企業を代表するものではございません。

[2025年2月28日] GPT-4.5は「人格基盤モデル」なのでは (週刊AI)

Big Tech AIサービス

OpenAI: GPT-4.5

Anthropic: Claude3.7 Sonnet & Claude Code

OpenAI: Deep Research

Google: 「Gemini Code Assist」を無料公開

Amazon: Alexa+

その他AI系話題

RAGのビジネス適用に向けたパフォーマンス改善ガイド

Gemini 2.0 Flashで実現する高コスパAI開発

LLMを活用するためのデータのテキストへの変換方法

Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか？

o3-mini-high 2025東大理系数学 5完半達成

数十名規模で Devin を1ヶ月トライして見えてきた点

エンジニアは Deep Research をどう活かせるか

CLINEに全部賭けろ

Cline 試してみた

Webアプリケーション・アーキテクトの自分は何に全部賭けるのか

誰もがAIエージェントを"操作"したがる〜AIエージェントに求められるUX〜

ユーザー体験の再定義〜行動変容のための生成AI活用〜

LLM比較

WEB開発系話題

スケールアウトはもう要らない？DuckDBが描くシステム設計の新時代

AWS で必要最小限の権限、を求められた時

AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた

IAMポリシーのAllow/Denyについて、改めて理解する

データエンジニアリング領域におけるDuckDBのユースケース

その他一般テック話題

エンジニアリングマネージャーのロードマップ

おまけ

Discussion

Big Tech AIサービス

OpenAI: GPT-4.5

Anthropic: Claude3.7 Sonnet & Claude Code

OpenAI: Deep Research

Google: 「Gemini Code Assist」を無料公開

Amazon: Alexa+

その他AI系話題

RAGのビジネス適用に向けたパフォーマンス改善ガイド

Gemini 2.0 Flashで実現する高コスパAI開発

LLMを活用するためのデータのテキストへの変換方法

Geminiを使うと本当に1ドルで6000ページ分のPDFをMarkdown化できるのか？

o3-mini-high 2025東大理系数学 5完半達成

数十名規模で Devin を1ヶ月トライして見えてきた点

エンジニアは Deep Research をどう活かせるか

CLINEに全部賭けろ

Cline 試してみた

Webアプリケーション・アーキテクトの自分は何に全部賭けるのか

誰もがAIエージェントを"操作"したがる〜AIエージェントに求められるUX〜

ユーザー体験の再定義 〜行動変容のための生成AI活用〜

LLM比較

WEB開発系話題

スケールアウトはもう要らない？DuckDBが描くシステム設計の新時代

AWS で必要最小限の権限、を求められた時

AIによるスパイクアクセスを受けたので、 robots.txtの調整など極力AIを排除しない対策を試みてみた

IAMポリシーのAllow/Denyについて、改めて理解する

データエンジニアリング領域におけるDuckDBのユースケース

その他一般テック話題

エンジニアリングマネージャーのロードマップ

おまけ

Discussion

ユーザー体験の再定義〜行動変容のための生成AI活用〜