💡

[2024年9月12日]週刊AI・WEB開発関連記事まとめ

2024/09/12に公開

こんにちは、Kaiです。
Big Techの動きがないですねぇ、恐らく今年の後半に向けて発表の準備をしつつタイミングを計っているのかと思います。

研究開発界隈ではやはりRAGとエージェントが活発。ただ、まだ銀の弾丸的な決定的な手法は出てきていない印象です。一方、Turingの資料からは、LLMや拡散モデルを統合して、単なる文章や画像ではなく、実世界そのものの解釈(まぁ世界モデルですね)に応用していくような動きが伺えます。

では今週のトピックスです。

注意事項

  • 直近収集したAIおよびWeb系の記事やポストが中心になります
  • 私のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります
  • 業務状況次第でお休みしたり、掲載タイミングが変わったりします

Big Tech AIサービス

Google: GoogleがAIメモ作成アプリ「NotebookLM」に長い文書を対話形式の音声に変換してくれる機能を追加、ソース資料を要約して説明できるように

こ、これはゆっくり霊夢とゆっくり魔理沙では……?
https://gigazine.net/news/20240912-google-notebooklm-audio-overviews/

Mistral: Mistralが初のマルチモーダルAIモデル「Pixtral 12B」リリース、GitHub・Hugging Face・APIサービスプラットフォームLe Chat・Le Platforme経由で利用可能

これだけ大きいオープンモデルが正式にマルチモーダル対応というのは初かな?
https://gigazine.net/news/20240912-mistral-pixtral-12b/

その他AI系話題

In Defense of RAG in the Era of Long-Context Language Models

NvidiaよりプレプリントのRAG論文。元文書の順序を維持したRAG手法により、ロングコンテクストの直接投入よりも少ないトークンでよい成果が得られるとのこと。
https://arxiv.org/abs/2409.01666

A pathology foundation model for cancer diagnosis and prognosis prediction

ハーバードよりNature論文。新しい病理AIによって、19種類のがんを約94%の精度で診断可能とのこと。ただこの領域は、擬陽性偽陰性を慎重に取り扱う必要があるだけに、前向き臨床試験が必要でしょう。
https://www.nature.com/articles/s41586-024-07894-z

生成AIの二大潮流と自動運転

TuringのYANS発表資料。LLMとDifusion Modelを自動運転にどう活用しているかというお話。物体検出、模倣学習ではカバーできない特殊状況が存在(工事中、落下物、事故など)するため、それを自動運転車に解釈させるのに活用しているという内容です。領域横断の最新知見が含まれていて大変面白かったです。
https://speakerdeck.com/koukyo1994/sheng-cheng-ainoer-da-chao-liu-tozi-dong-yun-zhuan

Tanuki-8BとOllamaとDifyを使って日本語ローカルRAG構築

松尾研ブログ。基本的なOllama、Difyの使い方から網羅しています。
https://zenn.dev/mkj/articles/93dbd6c9d94c58

AIエージェントのビジネスインパクトとLangChain、LangGraphを使った実装例

改めてエージェントシステムの概念を分かりやすく説明し、実装例を付けてくれています。これを読めば最近なぜ流行っているのかが大体わかります。サブタスクに分割して専門化したAIでタスクを改善し続けるのがポイントですね。
https://zenn.dev/dev_commune/articles/b93a7296fbb354

カスタマーサポートのRAGに関する発想の転換について

カスタマーサポートAIでRAGが効きづらいのは、ユーザ入力の精度、解像度、情報量が低いためというのは同意です。聞き返しをAIに行わせるのは確かに有効ですが、現実世界で何度も文字ベースのやり取りをしてくれるユーザがどれだけいるのか、はサービスの属性に依存しそうですね。
https://note.com/shimonoda/n/ndfa51e3c208a

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

プレプリント。100人以上のNLP研究者(人間)と、LLMにそれぞれ斬新な研究テーマを書かせて、統計的に評価した内容。結果としては、LLMの方が新規性に優れるが実現性に弱いというものでした。これは面白い結果ですが、NLPというLLMが最も得意とする領域の一つであることに留意が必要かと思います。
https://arxiv.org/abs/2409.04109

LLMをガッツリ使いこなしている人だけが知っていること

増田なので噂レベルですが、確かに感じることはありますね……。
https://anond.hatelabo.jp/20240910092816

RAGの精度と速度を同時に向上「DIVA」による曖昧さ対策

RAGに問い合わせをする前にクエリをLLMで評価し、戻ってきた結果もLLMで評価するという手法。んーそりゃ精度は上がるでしょうが、これが正解なのかというとちょっと疑問な感じがします。
https://zenn.dev/knowledgesense/articles/abf34c417b079e

自社開発した大規模言語モデルをどうプロダクションに乗せて運用していくか〜インフラ編〜

PFN発表資料。「オートスケールすればええやろ」→「あまりにLLMは巨大すぎてインスタンス起動に10分かかるし、そもそもGPUインスタンス確保できない」はめちゃくちゃよく分かります。なんか通信分野の時分割多重みたいなことやっててすごい。
https://speakerdeck.com/pfn/20240906-cloud-operator-days-2024-pfn

WEB開発系話題

エラーレスポンス設計から考える、0→1開発におけるGraphQLへの向き合い方

柔軟性が高いがゆえに、最初期の導入ではカオスにならないようしっかり設計する必要があるというお話。
https://speakerdeck.com/bicstone/graphql-2024-approach

eslint v8系 2024年10月EOL

当社も色々なところで使っているので要確認。
https://eslint.org/version-support/

A/Bテストで必要なサンプル数を見積もる方法【帰無仮説、検出力、有意水準】

A/Bテストをどの規模でやるべきかはエイヤで決めがちですが、やはり理論的裏付けを持っておきたいところ。色々説明した後、「以上を踏まえた上で自前でやるのは大変なのでツールを紹介します」というのは大変ステキ。
https://qiita.com/tetsuro731/items/076f84608923ad28353c

その他一般テック話題

イベント運営をNotion x Slack x GASによって効率化する

公開イベントはいつかやってみたいので、こういったノウハウは参考になります。
https://tech.algomatic.jp/entry/2024/09/05/120611

CareNet Engineers

Discussion