[2024年5月15日]週刊AI・WEB開発関連記事まとめ
こんにちは、Kaiです。
OpenAIから最新モデル、GPT-4oが登場しました。
正直、言語系の性能は頭打ちになっている印象ではありますので、「オムニモーダル」というコンセプトは正しい進化の形なのでしょう。
これまで難しかったタスクをいくつか手元で試してみましたが、正確さを要求されるような業務に組み込めるレベルのオムニモーダル性があるかというと、まだちょっと厳しい印象です。
とはいえ、GoogleもAnthropicも追従していくでしょうから今後が楽しみです。
また、OpenAIの発表を見ていて、「誰にでも使えるAI、社会に溶け込むAI」というコンセプトに従った内容だったなと感じました。GPT-4oの無料化もそうですし、オムニモーダル性もカメラやマイクやスピーカーと統合された万人向けのサービスを前提としているように思います。
OpenAIはClosedAIだと揶揄されていましたが、モデルそのもののオープン性ではなく、全ての人類が自然な生活の中で(無料の)AIの恩恵を受ける社会を目指す、ということなのでしょう。
一方、今朝がたのGoogle I/Oは、あまり印象的ではなかったように思います。
確かに個々のAI技術はOpenAIに匹敵、または肉薄するものでしたが、全体を統合するような力強いメッセージが伝わってこず、即日公開されるものも少ないことから受け手側の戸惑いも感じました。
では先週のトピックスです。
注意事項
- 先週収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
特定AIサービス
Gemini: Google I/Oの発表
npakaさんがAI関連を早速まとめてくださったのでこちらを。
200万トークン、APIの拡充、Gemma2など。
OpenAI: GPT-4o
もうこれですね今週は。発表をよくまとめてくださったツイートをご紹介。
オムニモーダルはまだまだ可能性を掘り切れていないと思いますので、今後出てくる応用例を楽しみにしたいと思います。
さっそく、動画のサマリー生成を試すコードとHuggingFace Spaceを公開している方もいました。
Llama3: What’s up with Llama 3? Arena data analysis
LLM比較のArenaが出した記事です。
Llama-3-70Bは、プロプライエタリモデルの最上位に匹敵する性能。
ただし、自由形式の文章問題や創造的な問題では他の上位モデルに勝るが、数学やコーディングの問題では劣り、プロンプトが難しくなるにつれて性能が著しく低下するとのこと。
GPT-4oが出ましたが、ローカルLLMとの使い分けは今後も重要でしょう。
Dify: Difyは使用して大丈夫?テンセント系企業?安全なの?
先日紹介したDify、テンセント出身のチームということで色々憶測が飛び交っていました。
現時点での情報を一旦整理してくださっている記事です。
その他AI系話題
推薦システムのためのベクトル量子化
推薦システムにおけるベクトル計算効率化のための量子化手法を検討した論文。
効率指向と品質指向それぞれについて応用を含め検討しています。
Geminiを活用したマルチモーダル医療能力
Geminiを医療向けに強化し、2D、3D、遺伝子データなどに対応したファミリーを開発。
毎朝10分 Zennの技術トレンドを音声で
毎朝、Zennの記事をラジオ風にAIが紹介するサービス。
どこまで自動化されているのかは不明ですが、全く違和感ないです。
LightGBMハイパーパラメータ
いちいちなんだっけ……とドキュメントに戻るより分かりやすくてありがたいです。
生体分子の構造と相互作用を予測するAlphaFold 3
2の時点で凄まじいと言われていたAlphaFoldに3が登場。
全世界の創薬研究者などに無料で公開される予定とのことです。
ArrowPro-7B-RobinHood
高校生の方が作ったと話題の7B日本語モデル。
ファインチューニングはハルシネーションを助長するか?
ファインチューニングで新しい知識を教えようとすると、事前学習よりも獲得が遅いうえにハルシネーションが助長されてしまうという論文。
ファインチューニングは、あくまで既存知識の活用の仕方を教えるべきとのことです。
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
書籍「Human-in-the-Loop 機械学習」の翻訳者が内容を紹介。
「データがないが機械学習をやりたい?やめてデータを作りなさい」ということで、人間を機械学習ループにどのように組み込むべきかというお話。
Fugaku-LLM-13B
富士通より、富岳を用いた13Bの日本語LLMモデルが公開。
アップル、iPhoneへのChatGPT搭載でオープンAIと合意に近づく
仮にSiriとGPT-4oが統合されるとしたら、Vision Proにも間違いなく乗るでしょう。ちょっとワクワクすることが起きそうです。
日本語テキストを文節の単位に分かち書きするpythonライブラリ
CabochaとかKNPをうまく使えばできますが、ライトに使えるのはありがたいです。
生成AIで外観検査をやってみた
良品・不良品の画像をベクトル化し、k近傍法でクラス分類。
生成AIというか基盤モデルを使ったベクトルクラスタリングって感じですね。
最近(2024年4月)公開された LLM を ELYZA-tasks-100 で性能評価してみた
最近のオープンLLM、Command-R-Plus・Llama-3・Phi-3 miniを評価した結果です。
Command-R-PlusとLlama-3-70Bが圧倒的性能のトップ2。
Embeddingモデルを使ったベクトル化のしくみ、fine-tuning手法を解説
基本的なところから総ざらいしてくれています。原論文に当たるよりずっと分かりやすいので、さっと復習がてら確認するのによいです。
WEB開発系話題
Aurora MySQLのメモリ不足の原因を特定する
DBインスタンスでメモリ不足が発生した場合、自動的に取るアクションを指定できるパラメータ。
printを使って原因クエリをエラーログに出力できます。
Amazon S3 will no longer charge for several HTTP error codes
先週話題になっていたS3非公開バケットへのエラーアタック破産、もう対応されました。さすがに仕事が早い。
Discussion