[2024年10月25日] Claudeが続々新機能を発表 (週刊AI)
こんにちは、Kaiです。
Claudeが色々と弾を出してきました。
Computer useは見た目のインパクトは大きいですが、コンセプト自体はマルチモーダルが実現された時点で提案され、初期実装を提示している個人開発者・スタートアップもありました。
驚き屋さんたちは「これで人間は不要に!社会が変わる!」とか言っていますが、セキュリティ対策面でも実用面でも、まだまだ自動車でいうコンセプトモデルの域を出ないものと感じます。
個人的には、むしろその後発表されたAnalysis toolの方が注目ですね。ChatGPTの数少ない優位性であったCode Interpreterに類するものであり、Artifactsの表現力と組み合わさると、これまでよりも使い道の幅が広がると思われます。
では今週のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
Big Tech AIサービス
Anthropic: ClaudeにComputer use機能搭載
動画を含めてインパクトは強いです。PC画面を画像として入力し、適切な処理を判断してデバイスへの入力に変換している感じですね。ピクセル単位の制御が出来ているのは確かにすごい。
ただ、先述の通りまだ「コンセプトモデル」の域は出ないかなという印象ではあります。
(解説記事)
(検証記事)
Anthropic: Claudeにコード実行機能搭載
ChatGPTのCode Interpreter機能ですね。ChatGPTにもやらせたクラスター分析を実行してみましたが、まだまだ動作精度が低いかな?という印象です。
特に全ての処理を一度に実施しようとして、出力トークンを食いつぶしている気がします。分割処理を適切に指示した方が良さそう。
Google: Gemini for Google Workspaceが日本語対応
おっ!と思いましたが、実際に触っている方の検証を見るとまだ業務を劇的に改善するという段階ではなさそうですね……。
Perplexity: 社内ナレッジ検索機能が追加
最近Gensparkや後述のFeloに追い越されている感がありましたが、こちらに舵を切るならまぁ納得です。ただその戦場はGoogleやMicrosoftが聳え立っているのでどうなることやら……?
その他AI系話題
gradient accumulation stepsのバグを理解する
Hugging Faceに上がっていた、GPUメモリを節約するための基本的コードにバグがあったとのこと。Transformerそのものにもバグが紛れ込んでいたことになります。このレベルの基本コードにバグがあったというのはちょっと驚き。全てのモデルの性能が少し上がるかも。
2024年版機械学習・データ分析の必須10冊+ガチ90冊+Next5冊=105冊
学習ツリーが可視化されているのがとてもよいです。何冊かは私も読んでいますが、制覇するのはかなり大変そう……。
Felo: 日本語ベースのAI検索エンジン
Perplexity、Gensparkの対抗馬として突如名前が挙がってきました。日本の企業で、日本語ネイティブの検索が可能。少し使ってみましたが、非常に高速なのが特徴ですね。
Bitnetの実装が公開
以前記事でも取り上げた、1ビット量子化を行うBitnetのソースコードがMSによりオープン化。この領域の研究が加速しそうです。
Differential Transformer
Microsoftから、Transformer自体の新しいアーキテクチャ提案。差分に注目したAttentionを導入することで、ハルシネーションを大幅に減らせるようです。Transformerの次世代アーキテクチャは色々研究されていますがまだ決定版はないと思いますので、注目ですね。
LLMOps : ΔMLOps
すごくいいスライド。MLOpsの基本をおさらいしたあと、LLMOpsに拡張する際の差分、どう手を打つべきかの検討までを網羅した内容です。
LLMの重みでなんやかんや試してみる-①埋め込み層編-
embeddingsはあまり生データを触ることがないので、こうやって手を動かして検証してみると裏側で動いているロジックが直感的に理解しやすいですね。
Geminiを使ったらKaggle初挑戦、参加期間10日間でも5位入賞できたので手法をすべて書く
KaggleでもどんどんLLMが使われていて、昔ほどハードルが高くなくなっているようです。ただ何をしているかが分かる程度の素養は必要そうですが。
商品の補完関係に注目した推薦システムを考えてみませんか?
商品には代替関係(iOSのスマホとAndroidのスマホなど)と、補完関係(スマホとスマホケースなど)があり、それぞれレコメンドすべき文脈が異なるため、アルゴリズムに反映させるべきというお話。筆者自身の論文の解説も兼ねています。
生成AIの組織導入成功を阻む「4つの罠」とその対処法
実際に導入支援をしている梶谷さんの記事なので説得力があります。確かに、いずれの問題もハードルになりそう。
WEB開発系話題
10年続くサービスのデータを1日未満のメンテナンスウィンドウで安全に移管する
普通にやると数週間かかる膨大なデータのインフラ移行を、1日未満の停止でどう実現するかというお話。段階的移行なわけですが、createdやupdated、論理削除などが整合性を持って分割する際重要だったとのこと。いろいろ議論はありますが、私も付けたい派なんですよね。
長期運用を支えるみてねの継続的なコスト最適化の取り組み
主にAWSでコスト最適化を継続的に行うために実施していることのまとめ。
【第1回/初心者向け】初めての負荷テスト! Distributed Load Testing on AWS を使ってみた
初心者の方が書かれたということですが、しっかりまとまっていて復習にも分かりやすいかと思います。
KDD論文読み会2024: False Positive in A/B Tests
だいぶ難しい……。A/Bテストにおいて、p値の設定がポイントであることは何となく分かりました。
その他一般テック話題
ロジカルなUIデザイン 考え方と関わり方
UIデザインを論理で説明する、というお話。「左の情報は荒く、右の情報は細かい」「上の情報は荒く、下の情報は細かい」などは端的で非常に分かりやすいです。
Discussion