[2024年9月12日]週刊AI・WEB開発関連記事まとめ
こんにちは、Kaiです。
Big Techの動きがないですねぇ、恐らく今年の後半に向けて発表の準備をしつつタイミングを計っているのかと思います。
研究開発界隈ではやはりRAGとエージェントが活発。ただ、まだ銀の弾丸的な決定的な手法は出てきていない印象です。一方、Turingの資料からは、LLMや拡散モデルを統合して、単なる文章や画像ではなく、実世界そのものの解釈(まぁ世界モデルですね)に応用していくような動きが伺えます。
では今週のトピックスです。
注意事項
- 直近収集したAIおよびWeb系の記事やポストが中心になります
- 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
- 業務状況次第でお休みしたり、掲載タイミングが変わったりします
Big Tech AIサービス
Google: GoogleがAIメモ作成アプリ「NotebookLM」に長い文書を対話形式の音声に変換してくれる機能を追加、ソース資料を要約して説明できるように
こ、これはゆっくり霊夢とゆっくり魔理沙では……?
Mistral: Mistralが初のマルチモーダルAIモデル「Pixtral 12B」リリース、GitHub・Hugging Face・APIサービスプラットフォームLe Chat・Le Platforme経由で利用可能
これだけ大きいオープンモデルが正式にマルチモーダル対応というのは初かな?
その他AI系話題
In Defense of RAG in the Era of Long-Context Language Models
NvidiaよりプレプリントのRAG論文。元文書の順序を維持したRAG手法により、ロングコンテクストの直接投入よりも少ないトークンでよい成果が得られるとのこと。
A pathology foundation model for cancer diagnosis and prognosis prediction
ハーバードよりNature論文。新しい病理AIによって、19種類のがんを約94%の精度で診断可能とのこと。ただこの領域は、擬陽性偽陰性を慎重に取り扱う必要があるだけに、前向き臨床試験が必要でしょう。
生成AIの二大潮流と自動運転
TuringのYANS発表資料。LLMとDifusion Modelを自動運転にどう活用しているかというお話。物体検出、模倣学習ではカバーできない特殊状況が存在(工事中、落下物、事故など)するため、それを自動運転車に解釈させるのに活用しているという内容です。領域横断の最新知見が含まれていて大変面白かったです。
Tanuki-8BとOllamaとDifyを使って日本語ローカルRAG構築
松尾研ブログ。基本的なOllama、Difyの使い方から網羅しています。
AIエージェントのビジネスインパクトとLangChain、LangGraphを使った実装例
改めてエージェントシステムの概念を分かりやすく説明し、実装例を付けてくれています。これを読めば最近なぜ流行っているのかが大体わかります。サブタスクに分割して専門化したAIでタスクを改善し続けるのがポイントですね。
カスタマーサポートのRAGに関する発想の転換について
カスタマーサポートAIでRAGが効きづらいのは、ユーザ入力の精度、解像度、情報量が低いためというのは同意です。聞き返しをAIに行わせるのは確かに有効ですが、現実世界で何度も文字ベースのやり取りをしてくれるユーザがどれだけいるのか、はサービスの属性に依存しそうですね。
Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers
プレプリント。100人以上のNLP研究者(人間)と、LLMにそれぞれ斬新な研究テーマを書かせて、統計的に評価した内容。結果としては、LLMの方が新規性に優れるが実現性に弱いというものでした。これは面白い結果ですが、NLPというLLMが最も得意とする領域の一つであることに留意が必要かと思います。
LLMをガッツリ使いこなしている人だけが知っていること
増田なので噂レベルですが、確かに感じることはありますね……。
RAGの精度と速度を同時に向上「DIVA」による曖昧さ対策
RAGに問い合わせをする前にクエリをLLMで評価し、戻ってきた結果もLLMで評価するという手法。んーそりゃ精度は上がるでしょうが、これが正解なのかというとちょっと疑問な感じがします。
自社開発した大規模言語モデルをどうプロダクションに乗せて運用していくか〜インフラ編〜
PFN発表資料。「オートスケールすればええやろ」→「あまりにLLMは巨大すぎてインスタンス起動に10分かかるし、そもそもGPUインスタンス確保できない」はめちゃくちゃよく分かります。なんか通信分野の時分割多重みたいなことやっててすごい。
WEB開発系話題
エラーレスポンス設計から考える、0→1開発におけるGraphQLへの向き合い方
柔軟性が高いがゆえに、最初期の導入ではカオスにならないようしっかり設計する必要があるというお話。
eslint v8系 2024年10月EOL
当社も色々なところで使っているので要確認。
A/Bテストで必要なサンプル数を見積もる方法【帰無仮説、検出力、有意水準】
A/Bテストをどの規模でやるべきかはエイヤで決めがちですが、やはり理論的裏付けを持っておきたいところ。色々説明した後、「以上を踏まえた上で自前でやるのは大変なのでツールを紹介します」というのは大変ステキ。
その他一般テック話題
イベント運営をNotion x Slack x GASによって効率化する
公開イベントはいつかやってみたいので、こういったノウハウは参考になります。
Discussion