💡

[2024年12月25日] o3はAGIの夢を見るか (週刊AI)

2024/12/25に公開

こんにちは、Kaiです。
タイトルがSF小説みたいになっていますが、Googleの固めた発表ですっかり影の薄くなっていたOpenAIの12日間連続発表、最後にとんでもない弾がありました。o1の時点で正直自分よりも賢いと感じていたので、o3の能力が本当にベンチマークが示す通りなら、それはもうAGIなのでしょう。

後述しますが、AIが人類とは異なる新しい知性だとすれば、別に「人間と同じバランスの知性」を目指す必要はないわけです。o3は、まだ人間が簡単に解けるいくつかのタスクで失敗するためAGIではないとされていますが、既にいくつかの領域で人間を超えつつあるなら、「超知性」と表現しても差し支えないのではないかと思います。人間は、その知性の得意分野を理解した上で、どう使うかがポイントになるのでしょう。

手負いの獣のように既存ビジネスとコンフリクトしつつAIに全振りしているGoogleや、静観しているAnthropicがどう出てくるか、来年も注目です。

今回も、情報の流れが速すぎるのでXでのポストをそのまま貼り付けている部分がありますが、ご了承ください。
なお、今年の投稿はとんでもないニュースが入らない限り今回で終わりになります。来年もどうぞよろしくお願いいたします。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

Big Tech AIサービス

OpenAI: 12Daysまとめとo3

12日間の発表、最終日までは割とGoogleの陰に隠れてしまった印象ですが、o3のインパクトがとにかく強烈でしたね。12日間のまとめ記事と、o3に関する発表へのリアクションをご紹介します。

12Days まとめ

https://www.itmedia.co.jp/news/articles/2412/21/news083.html
https://shift-ai.co.jp/blog/12897/

o3への反応

o3はCodeforcesという競技プログラミングの課題で2727点を取り、これは人類全体で175位、OpenAIのo3開発責任者よりも高い点になります。つまり、OpenAIは人類の上位0.1%のようなプログラマーを24時間365日不眠不休で何百人も同時に稼働させられることを意味します。(汎用性はさておき)
https://x.com/deedydas/status/1870175212328608232

FrontierMathという、最近発表されたAIベンチマークがあります。これは、60人以上の世界中の一流数学者が作成した、「全く新しく作成された未公開の数学問題群」であり、その分野の専門家が本気で取り組んでようやく解けるというレベル(世界中のほぼ全ての人類はスコアゼロ)のものです。これまでの最新AI(Gemini1.5ProやClaude3.5、o1-preview)は、このベンチマークで2%未満のスコアしか獲得できませんでした。しかし、o3は25%のスコアを獲得。
https://x.com/deedydas/status/1870286948235128939

ARC-AGIは、「人間には簡単だがAIには難しい」タスク群であり、これまで人間の平均スコアが84%程度だったのに対し、o1-previewでも13%しか獲得できませんでした。しかし、o3は最大で85%以上(人間以上)のスコアを出しており、最も注目すべきは「この進化がわずか数ヶ月で達成された」という点です。グラフを見て分かる通り、性能の進化が垂直に近くなっています。
https://x.com/goodside/status/1870243391814152544

ARC-AGIについては、興味深い記事が投稿されています。「o3は、人間とは全く異なる知性体なのではないか」という問題提起です。人間にとって簡単なタスクで失敗する一方、人間では困難なタスクで成功する。これは、そもそも人間がいま向き合っている知性そのものが、汎用的ではあるがエイリアンのように異質なものだからではないかという話です。
https://note.com/yatima/n/nf1bb8a284777

最近OpenAIを去ったBrundage氏は、ブログで「ほぼすべての認知領域において人間のパフォーマンスを超える AI が、今後数年以内に構築され導入されることはほぼ確実」と述べ、そのために行動を起こす必要があると主張。
https://x.com/Miles_Brundage/status/1870223238326092116

Google: 追加発表もろもろ

多すぎるのでまとめてざざっと紹介します。総じて、Googleは「すぐ使える、速く動く」ものにフォーカスしており、既存市場を囲い込む一手として捉えているように思われます。

Project IDX

WebベースのGemini統合IDE。自然言語でIDE自体の操作も可能なもよう。
https://www.publickey1.jp/blog/24/googleweb_ideinteractive_chatproject_idx.html

自律的にプログラミングをするAIエージェント「Jules」

基本的な動作はIDXと同じような仕組みを使っているように思います。デリバリー先としてのフロントエンドをたくさん持っているのがGoogleの強みですね。
https://www.publickey1.jp/blog/24/_aijulesgoogle.html

NotebookLM Plus と NotebookLMのアップデート

少し使ってみましたが、確かに機能や参照精度が向上している印象です。
https://note.com/npaka/n/n5f1f98e069b6

動画生成AI、Veo2

Sora超えと言っている通り、かなり凄いですね。特に物理現象の正確なシミュレーションに強みがあるようですが、まだまだ100%ではなさそう。
https://x.com/ctgptlb/status/1868710018247541002
https://www.itmedia.co.jp/aiplus/articles/2412/17/news108.html

確かによく見ると破綻してる。
https://x.com/kaggle_araisan/status/1871065838662623587

Microsoft: いくつか

Phi-4

Microsoftのオープンモデルですね。大規模モデルの競争とともに、小規模低価格モデルの競争も激しくなっています。
https://x.com/bilzrd/status/1868893717312291258

Github Copilotに無料版が登場

Cursorを業務使用するのは難しいケースもありますが、VSCodeにCopilotなら気軽に試せる環境もあるかも。
https://gihyo.jp/article/2024/12/github-copilot-free

その他AI系話題

GeminiとSpeech-to-Textで実現する高精度な文字起こし

2つの手法を統合して、最終文字起こし結果を得るというアプローチ。異なるアルゴリズムで処理した結果を突き合せるのは他の領域でも行われていますが、文字起こしでも有効そう。
https://techblog.enechain.com/entry/transcription-using-gemini-and-cloud-speech-to-text

請求書から漫画まで!OCR+LLMで進化する文書データ構造化技術

こちらも2つの手法を統合するアプローチ。マルチモーダルLLMとOCRの組み合わせです。最近のマルチモーダル性能は非常に向上しているので、成功とはいきませんでしたがドキュメントによっては効きそうです。
https://zenn.dev/mkj/articles/69f88c75f1a814

LLMを味方につけた文章執筆術 - 執筆から校正までの実践的アプローチ

これや他の記事を見ていて感じますが、AIを実際に日々使っている人は、「ソフトウェア」として使うのではなく「アシスタント」として使っているように思います。一発でよい出力を得るのではなく、人間のアシスタントと対話してブラッシュアップするようにモノづくりをするというイメージです。
https://zenn.dev/erukiti/articles/2412-writing-book

孫氏が米国に15兆円の投資

AIでは完全に出遅れていますが、投資しておけばデジタル小作人からいくぶん逃れられる、という側面もありそうです。
https://x.com/charliekirk11/status/1868694315805085905

LLMモデルに考える時間を与えると性能が向上

考える時間といっても、結局モデル内での批判的入出力を繰り返しているようなものだと思うのですよね。でも計量モデルにまだまだ潜在性があるというのは面白い。
https://x.com/ytiskw/status/1868783915214975428

AI Safety の必要性と具体的な攻撃、その対策について

AIの入出力におけるセキュリティは、黎明期です。Webシステムも、SQLインジェクションやXSSのようにその仕組みを利用した様々な攻撃と対策のいたちごっこであったことを考えると、これからアツい分野になりそうです。
https://speakerdeck.com/schroneko/ai-safety-nobi-yao-xing-toju-ti-de-nagong-ji-sonodui-ce-nituite

否定文を理解できないAIたち

うーん?ちょっとこれは問題設定が悪いような。特に賢いモデルについては。
https://joisino.hatenablog.com/entry/negation
個人的にはこっちの立場の方がしっくりきます。
https://x.com/mamas16k/status/1869397681053003881

ModernBERT

BERTの新しいアルゴリズムが提案され、性能が大幅に向上したようです。こういったレベルでの革新もまだ続いています。
https://x.com/rohanpaul_ai/status/1869828847434453474
(解説)
https://zenn.dev/dev_commune/articles/3f5ab431abdea1

WEB開発系話題

システム障害を素早く解決するための考え方・工夫について

Web系の人であれば無意識にやっていると思われることが整理されています。
https://tech.uzabase.com/entry/2024/12/12/170724

AWSのコストを30万円/月 削減した話

「お掃除」系と「見直し」系ですね。一つ一つは割と小さい額ですが、全体では大きな効果を上げています。
https://zenn.dev/zuzuzu/articles/zenn_2024contest

クレジットカードの不正検知システムを3日で設計し、3週間で本番リリースした話 - LLMで加速するソフトウェア開発

LLMアシステッドで超高速開発をした事例。これも、AIをソフトウェアではなくアシスタントして使っているような印象です。
https://tech.layerx.co.jp/entry/fraud-detection-development-accelerated-by-llm

テストコードのガイドライン 〜作成から運用まで〜

作る苦労、使われない苦労と、実際に直面した課題がそのまま記載されています。
https://speakerdeck.com/riku929hr/tesutokodonogaidorain-zuo-cheng-karayun-yong-made

その他一般テック話題

ロードバランサーを設置してネットワークをまるごと吹っ飛ばした

胃が痛くなる系のやつ。オンプレですが、設定変更はクラウドでも慎重に。
https://qiita.com/nfujita55a/items/49eda31786516ffd1ea9

関数とかクラスとかを切り出すときに考えていること

頭の中を言語化してくれています。思考のトレースを突き合せられますし、なかった視点に気づかされます。ありがたい。
https://zenn.dev/kohii/articles/2c1126389d914a

終了の危機にあった15年続くWebサービスを全力で存続させる - phpcon2024

草の根のエンジニアたちが集まって頭ひねりながら何とかした、って感じがしてとても好きです。Togetterお世話になってます。
https://speakerdeck.com/yositosi/zhong-liao-nowei-ji-niatuta15nian-sok-kuwebsabisuwoquan-li-decun-sok-saseru-phpcon2024

CareNet Engineers

Discussion