[2024年12月25日] o3はAGIの夢を見るか (週刊AI)
こんにちは、Kaiです。
タイトルがSF小説みたいになっていますが、Googleの固めた発表ですっかり影の薄くなっていたOpenAIの12日間連続発表、最後にとんでもない弾がありました。o1の時点で正直自分よりも賢いと感じていたので、o3の能力が本当にベンチマークが示す通りなら、それはもうAGIなのでしょう。
後述しますが、AIが人類とは異なる新しい知性だとすれば、別に「人間と同じバランスの知性」を目指す必要はないわけです。o3は、まだ人間が簡単に解けるいくつかのタスクで失敗するためAGIではないとされていますが、既にいくつかの領域で人間を超えつつあるなら、「超知性」と表現しても差し支えないのではないかと思います。人間は、その知性の得意分野を理解した上で、どう使うかがポイントになるのでしょう。
手負いの獣のように既存ビジネスとコンフリクトしつつAIに全振りしているGoogleや、静観しているAnthropicがどう出てくるか、来年も注目です。
今回も、情報の流れが速すぎるのでXでのポストをそのまま貼り付けている部分がありますが、ご了承ください。
なお、今年の投稿はとんでもないニュースが入らない限り今回で終わりになります。来年もどうぞよろしくお願いいたします。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
Big Tech AIサービス
OpenAI: 12Daysまとめとo3
12日間の発表、最終日までは割とGoogleの陰に隠れてしまった印象ですが、o3のインパクトがとにかく強烈でしたね。12日間のまとめ記事と、o3に関する発表へのリアクションをご紹介します。
12Days まとめ
o3への反応
o3はCodeforcesという競技プログラミングの課題で2727点を取り、これは人類全体で175位、OpenAIのo3開発責任者よりも高い点になります。つまり、OpenAIは人類の上位0.1%のようなプログラマーを24時間365日不眠不休で何百人も同時に稼働させられることを意味します。(汎用性はさておき)
FrontierMathという、最近発表されたAIベンチマークがあります。これは、60人以上の世界中の一流数学者が作成した、「全く新しく作成された未公開の数学問題群」であり、その分野の専門家が本気で取り組んでようやく解けるというレベル(世界中のほぼ全ての人類はスコアゼロ)のものです。これまでの最新AI(Gemini1.5ProやClaude3.5、o1-preview)は、このベンチマークで2%未満のスコアしか獲得できませんでした。しかし、o3は25%のスコアを獲得。
ARC-AGIは、「人間には簡単だがAIには難しい」タスク群であり、これまで人間の平均スコアが84%程度だったのに対し、o1-previewでも13%しか獲得できませんでした。しかし、o3は最大で85%以上(人間以上)のスコアを出しており、最も注目すべきは「この進化がわずか数ヶ月で達成された」という点です。グラフを見て分かる通り、性能の進化が垂直に近くなっています。
ARC-AGIについては、興味深い記事が投稿されています。「o3は、人間とは全く異なる知性体なのではないか」という問題提起です。人間にとって簡単なタスクで失敗する一方、人間では困難なタスクで成功する。これは、そもそも人間がいま向き合っている知性そのものが、汎用的ではあるがエイリアンのように異質なものだからではないかという話です。
最近OpenAIを去ったBrundage氏は、ブログで「ほぼすべての認知領域において人間のパフォーマンスを超える AI が、今後数年以内に構築され導入されることはほぼ確実」と述べ、そのために行動を起こす必要があると主張。
Google: 追加発表もろもろ
多すぎるのでまとめてざざっと紹介します。総じて、Googleは「すぐ使える、速く動く」ものにフォーカスしており、既存市場を囲い込む一手として捉えているように思われます。
Project IDX
WebベースのGemini統合IDE。自然言語でIDE自体の操作も可能なもよう。
自律的にプログラミングをするAIエージェント「Jules」
基本的な動作はIDXと同じような仕組みを使っているように思います。デリバリー先としてのフロントエンドをたくさん持っているのがGoogleの強みですね。
NotebookLM Plus と NotebookLMのアップデート
少し使ってみましたが、確かに機能や参照精度が向上している印象です。
動画生成AI、Veo2
Sora超えと言っている通り、かなり凄いですね。特に物理現象の正確なシミュレーションに強みがあるようですが、まだまだ100%ではなさそう。
確かによく見ると破綻してる。
Microsoft: いくつか
Phi-4
Microsoftのオープンモデルですね。大規模モデルの競争とともに、小規模低価格モデルの競争も激しくなっています。
Github Copilotに無料版が登場
Cursorを業務使用するのは難しいケースもありますが、VSCodeにCopilotなら気軽に試せる環境もあるかも。
その他AI系話題
GeminiとSpeech-to-Textで実現する高精度な文字起こし
2つの手法を統合して、最終文字起こし結果を得るというアプローチ。異なるアルゴリズムで処理した結果を突き合せるのは他の領域でも行われていますが、文字起こしでも有効そう。
請求書から漫画まで!OCR+LLMで進化する文書データ構造化技術
こちらも2つの手法を統合するアプローチ。マルチモーダルLLMとOCRの組み合わせです。最近のマルチモーダル性能は非常に向上しているので、成功とはいきませんでしたがドキュメントによっては効きそうです。
LLMを味方につけた文章執筆術 - 執筆から校正までの実践的アプローチ
これや他の記事を見ていて感じますが、AIを実際に日々使っている人は、「ソフトウェア」として使うのではなく「アシスタント」として使っているように思います。一発でよい出力を得るのではなく、人間のアシスタントと対話してブラッシュアップするようにモノづくりをするというイメージです。
孫氏が米国に15兆円の投資
AIでは完全に出遅れていますが、投資しておけばデジタル小作人からいくぶん逃れられる、という側面もありそうです。
LLMモデルに考える時間を与えると性能が向上
考える時間といっても、結局モデル内での批判的入出力を繰り返しているようなものだと思うのですよね。でも計量モデルにまだまだ潜在性があるというのは面白い。
AI Safety の必要性と具体的な攻撃、その対策について
AIの入出力におけるセキュリティは、黎明期です。Webシステムも、SQLインジェクションやXSSのようにその仕組みを利用した様々な攻撃と対策のいたちごっこであったことを考えると、これからアツい分野になりそうです。
否定文を理解できないAIたち
うーん?ちょっとこれは問題設定が悪いような。特に賢いモデルについては。
個人的にはこっちの立場の方がしっくりきます。ModernBERT
BERTの新しいアルゴリズムが提案され、性能が大幅に向上したようです。こういったレベルでの革新もまだ続いています。
(解説)WEB開発系話題
システム障害を素早く解決するための考え方・工夫について
Web系の人であれば無意識にやっていると思われることが整理されています。
AWSのコストを30万円/月 削減した話
「お掃除」系と「見直し」系ですね。一つ一つは割と小さい額ですが、全体では大きな効果を上げています。
クレジットカードの不正検知システムを3日で設計し、3週間で本番リリースした話 - LLMで加速するソフトウェア開発
LLMアシステッドで超高速開発をした事例。これも、AIをソフトウェアではなくアシスタントして使っているような印象です。
テストコードのガイドライン 〜作成から運用まで〜
作る苦労、使われない苦労と、実際に直面した課題がそのまま記載されています。
その他一般テック話題
ロードバランサーを設置してネットワークをまるごと吹っ飛ばした
胃が痛くなる系のやつ。オンプレですが、設定変更はクラウドでも慎重に。
関数とかクラスとかを切り出すときに考えていること
頭の中を言語化してくれています。思考のトレースを突き合せられますし、なかった視点に気づかされます。ありがたい。
終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024
草の根のエンジニアたちが集まって頭ひねりながら何とかした、って感じがしてとても好きです。Togetterお世話になってます。
Discussion