[2025年1月29日] DeepSeek-R1の衝撃と可能性 (週刊AI)
こんにちは、Kaiです。
年明けから色々とバタバタしており、都合により少しお休みしておりました。
久しぶりの投稿となり申し訳ありません。週刊ペースに戻していきます。
米国ではトランプ大統領が就任し、スターゲイトプロジェクトが発表されました。
人類史上類を見ないほどの資金がAIに投入されており、想像ですが各国政府上層部はAIを「チャンス」というよりも、第二次世界大戦後の核開発競争のような「脅威」と見なしているのではないかと思います。つまり、先にブレイクスルーした国が、その後の世界の覇権を握りうるものであると。
それを裏付けるかのように、G7の専門家パネルが各国政府向けのレポートを公開しました。それによると、「AIはよきアシスタントとして進化するが人を置き換えるところまではいかない」「20年程度でAIが人間の頭脳労働をほぼ置き換える」「5年程度でAIが人間の頭脳労働をほぼ置き換える」という3つのシナリオを想定して政策決定者に準備するよう呼び掛けています。パネルの分析では、このいずれのシナリオも10%以上の実現性を持っているとしています。
そして、中国企業の躍進も凄まじいです。先日発表されたDeepSeek-R1を始め、Kimi k1.5など、o1クラスのモデルが次々に発表されています。DeepSeek-R1は、MITライセンスで自由に使用できるという点でも注目されました。これは、最新推論モデルの入出力や推論過程を利用することで、フォロワーが続々とブレイクスルーに追従しているという観点で画期的です。MITライセンス化された推論モデルを使って、恐らく世界中で「次の推論モデル」が作られ始めているでしょう。ある意味で、知能のインフレーションが起きつつあるのかもしれません。
一方で、リスクも見逃せません。モデルの安全性や安定性を客観的かつ統一的に計測する手法はまだ開発されていません。もし今後、さらに超優秀なモデルが無料公開され、その中にバックドアや特定の方向に思想を誘導する仕組みが組み込まれていたら……と考えると、AIそのものが安全保障問題であるという主張も素直に理解できます。
ますます混沌としてくるAIと世界の未来を想像しつつ、2週分のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
注目話題
スターゲイト
凄いメンツですが、この中に孫さんが食い込んでいるのがさすが。一方、当然ですがマスク氏は大きく反発しています。これが既にホワイトハウスで不協和音を生んでいるとの観測も。
75兆円の資金が本当に集まるとしたら、日本のAI投資など竹槍に過ぎませんが、後述のDeepSeekがとった手法はそれをひっくり返す希望の光になるかもしれません。
G7専門家パネル
G7の専門家パネルが、各国政府に対して数年以内の大きな労働市場変化シナリオを政策に取り入れるべきだと発表。頭脳労働に経済的価値があり、それが自己実現につながるという考え方は、近い将来なくなってしまう可能性があります。
DeepSeek-R1
年明けからこっち、界隈の話題はこれ一色ですね。単にベンチマーク上優れたモデルが出たというだけではなく、それが中国発であること、ビッグテックよりも遥かに規模の小さいチームから出たこと、API価格が極めて安価で、モデル自体もMITライセンスで公開されたことなどが相まっての効果です。
特に、彼らはCUDAよりも低レイヤーのコードを書いてGPUの動作を最適化しつつ、強化学習を精度向上の中心に置いていることから、CUDAエコシステムによる寡占状態が崩れるのではないかという懸念でNVIDIA株の暴落につながりました。DeepSeek-R1は無料で試せるので、是非試してみてください。
(論文解説)
DeepSeek: 画像生成に対応したマルチモーダルモデル「Janus-Pro」
とか言ってたら翌週にはこんなものが出てきました。ベンチでDALL-E3やStableDiffusion超えと主張。
Big Tech AIサービス
OpenAI: タスク
ChatGPTでタスクスケジューリングが可能に。
OpenAI: Operator
出ると言われていたAIによるPC操作機能が登場。今のところはよく間違えますし、時間もかかるし、実用性という観点では今一つ。しかしながら、GPT-3から5年もかからず部分的に人類を超える知性に至ったことを考えると、「これが出来たということは数年後には数百倍の性能になっている」と考えるのが自然です。
Google: Google WorkspaceにGemini統合
まぁ当然ですね、AIによる付加価値に値段をつけるには、既存サービスに統合して値上げする、というのが最も自然。特にGoogleのように巨大なユーザベースを持っている場合には。
Microsoft: Microsoft365にCopilot統合
ということでMSも直ちに追従。こちらも値上げ。
Genspark: ディープリサーチ
複数のAIが協働して調査タスクを完了するとのこと。使ってみましたが、ううーーーーん、正直DeepSeek-R1のWebサーチの方がずっと強い印象……。
その他AI系話題
CatBoost vs. XGBoost vs. LightGBM:最新ブースティングアルゴリズムの理論と比較
LLM全盛ですが、機械学習手法も当然使いたいシチュエーションがあります。とりあえずLightGBM的に使いがちですが、ちゃんと特徴とメリットを理解しておきたいところ。
人間には認知できない情報を活用するAIたち
これは面白い!画像に対して敵対的摂動とよばれる手法で生成したノイズを乗せると、人間には何も変わらないように見えるのにAIが画像識別できなくなるという事例はよく知られていました。実はこれは、「AIがショボい」のではなく、「人間の認知能力がショボい」のではないかというお話です。AIは人間の認知領域を超える情報を処理しており、人間にはノイズとしか見えない情報の中に、どうも人間の能力を超える情報量が含まれているのではないか?という観点。
2024年AI総まとめ
英語ですが、おおむねこれを読めば昨年AI界隈で起きたことは掴めるかと思います。
月500ドルから始まる“AIチームメイト”との開発生活 〜Devinとの理想の開発プロセスを求めて〜
AIエンジニア devinを使ってみる
まだまだDevinは導入してすぐにバリューが出る、という段階でないのは通説かと思います。ただ、Devinに分かるように体制を整える、AIと協働する体験をする、という意味では、価格以上の価値があるようにも思います。
共通テスト、AIの得点率91% 東大文1のボーダー超える
テストの写真を撮ってo1にポイっと投げただけ。数IAの点数が低いのは、図形問題が苦手のようです。東ロボくんとか言ってたのが懐かしく感じてしまう。
o1 pro + AIエンジニアにチャットで指示しながら、研究的なことをさせてみる
Devinにo1 Proを組み合わせて研究チックな難しめのタスクに取り組ませた事例。入門者なら1週間から1ヶ月くらいかかる内容を、1夜で完了できたとのこと。ざっと読んで頂ければ分かりますが、10回くらいの指示出しで自律的にここまでの結果が出るのは割と驚き。そして多分性能は加速します。
100倍速で実用的な文章ベクトルを作れる、日本語 StaticEmbedding モデルを公開
LLMを直接使うんじゃなくて、ベクトル化してコサイン類似度を計算したい夜もある。そんなときもある。ということで日本語特化の高速なモデルが出てくるのは大歓迎です。
機械学習を「社会実装」するということ 2025年版
昨年も発表されていた資料のアップデート版。高い視座で、エンジニアはどのように考え振舞うべきかという内容で、読みごたえがあります。それにしても1年でガラッと変わってしまった……。
「人類最後の試験」
50か国500を超える研究機関の科学者たちが、人類の極限の知性でようやく太刀打ちできるレベルの問題群を取りまとめたとのこと。これは「人類最後の試験」と名付けられました。今のところ、o1でも正解率10%未満(それでもすごい)のようです。
日本語リアルタイム音声対話モデルJ-Moshi
いやこれすごいですね、感情の起伏にちょっと違和感があるくらいで、ほとんど人間と会話している感覚。相槌や間投詞なんかも完璧。
R1 + Sonnet > o1
DeepSeek-R1とClaude3.5 Sonnetを組み合わせると、o1の性能を上回ったとのこと。Claude3.5 Sonnetのコーディング力は未だに最強レベルですが、R1の思考過程をSonnetに渡してコードを出力させたようです。つまり、優れたアーキテクトと優れたプログラマーの協働、というイメージでしょうか。今後こういう事例が増えてきそうです。なおこの組み合わせはo1より10倍以上安い。
DeepSeek-V3超えモデルQwen2.5-Max
こちらも中国発(アリババ)。DeepSeekが使った新しい手法を模倣することで、さらに良いものが出来たとのこと。DeepSeekがモデルも手法もオープンにしたことで、進化のスピードが数ヶ月単位から数週間単位に縮まっている印象。
WEB開発系話題
同接1500人耐える配信サーバーをCloudflareを使って構築した
こういう、やってみました(失敗を含む)系の記事はいくらでも欲しいですからね、ありがたいです。
あなたのブログのAWS技術レベルを判定するアプリ作りました!
おもしろい。技術ブログの記事を貼り付けると、LLMがAWS技術レベルを根拠と共に推定してくれるそうです。
ReactでUI構造が変わっても状態を保持したい - React-Reverse-Portal -
横向きと縦向きでUI構造が変わるケースなどで、入力中の情報が消失する問題にReactでどう対処するか、というお話。
令和7年版 あなたが使ってよいフロントエンド機能とは
挑戦的なタイトルだなと思いましたが、ブラウザ互換性とサポート対象のお話でした。Baselineという概念が提唱され、機能を3レベルに分けて対応状況が整理されているということです。共通言語として成立するのであれば素晴らしい。
大規模システムを知るために、まず監視を学んだ話
大手SIerなどで大規模システムを触る際、監視とスタッツ変化がどうなっているかから入ったというお話。概要を把握した後のステップとして確かに有効そう。
AWSにおける横断的なログ分析とコストの管理
サービスごとに発生するログの一元管理とアラート設計、コスト可視化のお話です。具体的なツール名が羅列されているので導入しやすそう。やはりFluentdか……。
コード化されていない稼働中のサーバを移設_再構築する技術
めちゃくちゃ具体的な話なのでここを見るべき、これを使うべきというリファレンス的にも使えそう。
その他一般テック話題
大手サイバーセキュリティベンダ各社の認証情報がダークウェブに流出
FortinetやCrowdStrikeなども含まれています。やはり二要素認証は各所で必要。
ドメイン駆動設計の実践により事業の成長スピードと保守性を両立するショッピングクーポン
DDDは理想像としてよく理解できるのですが、実務上どのように取り入れて実現したかという具体的な事例はあまり多くないように思います。かなり踏み込んだところまで紹介してくれているので、参考になります。
Discussion