🗞️

今週の生成AI情報まとめ(7/1~7/7)

2024/08/24に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
7/1~7/7で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

Microsoftが公開している「初心者向けの生成AIコース」

GitHub - microsoft/generative-ai-for-beginners: 18 Lessons, Get Started Building with Generative AI 🔗 https://microsoft.github.io/generative-ai-for-beginners/

AIの歴史から振り返って、LLMの比較、RAGの構築、AIエージェント、ファインチューニングまで幅広く学習することができる。ぱっと見かなり親切で良い資料。ビデオもあるのでみるだけでも相当詳しくなれると思う。

レッスンは18個あり、かなり親切にかつ網羅的に記載されているのでちゃんとやろうと思ったら初心者なら1週間はかかりそう。(生成AIの領域もここまで体系化されてきたということだな)。経験者なら3日

⁠必要なもの

  • OpenAIかAzureOpenAIのAPI Key
    • Hugging faceからOSSのLLMを使うことも可能
  • ⁠実行環境
    • docker の devcontainerが用意されているので実際の環境はなくてもいける
    • python / node.js / java / .NETを使うみたい

⁠各レッスンの内容

  • トピックの短いビデオ紹介
  • READMEにある書面によるレッスン
  • Azure OpenAI と OpenAI API をサポートする Python および TypeScript コード サンプル
  • 学習を継続するための追加リソースへのリンク

⁠レッスンの目次

  1. ジェネレーティブAIとLLM入門
  2. さまざまなLLMの調査と比較
  3. ジェネレーティブAIを責任を持って使用する
  4. プロンプトエンジニアリングの基礎を理解する
  5. 高度なプロンプトの作成
  6. テキスト生成アプリケーションの構築
  7. チャットアプリケーションの構築
  8. 検索アプリの構築 ベクターデータベース
  9. 画像生成アプリケーションの構築
    1. DALL-Eとかの画像生成
    2. マルチモーダルの文脈ではないことには注意
  10. ローコード AI アプリケーションの構築
    1. power apps上でcopilotを使ってアプリを作る感じ
    2. Azureのサービスをかなり使うので、飛ばしてもいいかも
  11. 関数呼び出しによる外部アプリケーションの統合
    1. function calling
  12. AIアプリケーション向けUXの設計
    1. ⁠デザインの話
    2. 新鮮で面白い、デザイナーとか山賀さんとかに刺さりそう
  13. 生成AIアプリケーションのセキュリティ保護
    1. データ保護やインジェクションとかの話
  14. 生成AIアプリケーションのライフサイクル
    1. Azure AI StudioやPrompt Flowの話
  15. 検索拡張生成(RAG)とベクターデータベース
  16. オープンソースモデルとHuggingFace
  17. AIエージェント
  18. LLMの微調整
    1. ざっくりと概念と概要だけ
    2. 実戦は別のgithubにとばされる

レッスンの範囲外

  • マルチモーダルの話
  • jsonモード
  • LangchainやllamaIndexなどのLLMライブラリの使い方

LLMを賢くする裏技キーワード

https://x.com/ai_depression/status/1808039306113831176

chatGPTでもClaudeでもGeminiでも使える、 出力が激変する裏技キーワード。

————————————— メタ認知を誘発して —————————————

このキラーワードを入力すると… AIが突如、哲学的思考をし始める。

AIが自己の思考プロセスを分析し より深い洞察と学習効果をもたらす出力に。

例えば…

  • ■なぜこの結論に至ったのか?
  • ■この考え方の長所と短所は?
  • ■他の視点からはどう見える?

といった問いかけが自然に含まれるように。

反対に

———————————— メタ認知を抑制して ————————————

と入れると、より直感的で 即時的な反応が得られます。

状況に応じて使い分けられる 汎用性の高いキラーワード。

メタ認知に関するプロンプトを入れるだけでLLMが賢くなるらしい(諸説あり)

普通に聞くと

メタ認知を促進させる文言を入れるとかなり詳しくなる

ChatGPT-4oを搭載するスマートグラス

https://www.gizmodo.jp/2024/07/airgo-vision_chat-gpt-4o.html

フロント(前枠)の左右にカメラが入っている...と思いきや、実際のカメラユニットはテンプル部分にビルトイン。このカメラで捉えた被写体の詳細をChatGPT-4oに教えてもらえるのがAirGo Visionのハイライト。

他にも写真や動画を撮ったり、メニューなどに書かれた外国語の文字を翻訳して読み上げてもらったり、道案内をお願いすることができますし、万歩計などヘルスケア関連のトラッカーとしても使えますよ。

Difyの歴史

https://dify.ai/blog/dify-rolls-out-new-architecture

Difyがどのように進化してきたのかがまとまっている

今年1月に書かれた記事だけどDifyチームが何を大事にしているのかの意思決定のプロセスも読み取れる。

開発の過程でLangChainやllamaIndexと決別しているらしい。LangChainが抱えている課題とその課題をDifyがどのように解決したのかについても触れている。

Google Gemma 2

軽量なオープンソースLLMのGemma 2の性能は、2倍以上大きなサイズのLlama 3に匹敵する

面白いのは論文で保証評価というものをこなっていて、サイバー攻撃に関する知識や危険な物質や武器に関する知識を持っているかなどのテストが行われています。その安全性評価ではGPT-4oと同等以上の結果も。

https://ai-data-base.com/archives/71982

彼らは「知識蒸留」と呼ばれる技術に注目しました。大規模モデルの「知識」を小規模モデルに効率的に転移する方法です。

そして開発された「Gemma 2」モデルは、同規模の他のオープンソースモデルを大きく上回る性能を示し、さらに2-3倍大きなモデルとも互角の結果を出しました。質問応答や常識推論、数学・科学的推論、プログラミングなど、幅広い分野でのベンチマークテストと人間による評価で実証されています。

知識蒸留という技術を使ってコンパクトながら性能が高いLLMを作ったということらしい

訓練データの概要

Gemma 2の訓練には、モデルサイズに応じて異なる量のデータが使用されました。

  • 2.6Bモデル: 2兆トークン
  • 9Bモデル: 8兆トークン
  • 27Bモデル: 13兆トークン

フィルタリング

Gemma 1と同様のデータフィルタリング技術が適用されました。以下の観点でフィルタリングされています。

  1. 望ましくない、または安全でない発言のリスク軽減
  2. 個人情報や機密データの除去
  3. 評価セットからの事前訓練データの除染
  4. 機密情報の出力を最小限に抑えることによる暗記リスクの低減

事前訓練モデルを評価した結果

Gen3

https://x.com/i/status/1808084056283963866

https://runwayml.com/ai-tools/gen-3-alpha/

https://aisodan.com/news/146

https://note.com/npaka/n/n4bae018d924f

Runwayというアメリカのスタートアップが開発しているのがGen-3

「prompt: ピンクの巨大なブタが中華街を走る様子」で作った動画らしい(下は画像ですが、上のサイトから見れます)

「prompt: 電車に揺られる女性」で作られた動画。画像では伝わらないですが、電車から見る外観の光の加減を動画内で全て表現できているのがかなりリアルですごい。

⁠使い方

その際には下記の手順でGen-3を試すことができます。

  1. Runwayにサインアップする。(アカウントをすでに持っている場合には、ログイン)
  2. 「Gen-3」を選択する。
  3. プロンプトを入力して、AI動画を生成する。

⁠料金

プラン 価格/月 1ヶ月に生成できる動画数
ベーシック 無料 1個
スタンダード 15ドル 5個
プロ 35ドル 18個
無制限 95ドル 無制限
エンタープライズ 要問い合わせ 要問い合わせ

⁠商用利用

Runwayで作られた全てのAI動画は商用利用が可能となっている。

クオリティがかなり高い上で商用利用ができるので、Xで投稿されているようにこれでCMとか映画を作れる日が近い。

Meta社が3D生成AI「Meta 3D Gen」を公開(7/2)

https://x.com/van_eng622/status/1808356295491346701

https://ai.meta.com/research/publications/meta-3d-gen/

https://miralab.co.jp/media/meta_research_meta3dgen_genai/

テキストからわずか1分で高品質な3Dモデルを作り出すらしい、すごすぎ

特徴としては、3Dのオブジェクトを作れるところ。従来は一視点からの動画がメインだったが、回り込んでも3Dの整合性を保ったまま動画を作成できる点が推しポイント。

Claude Artifacts

Xの投稿

GraphRAG

https://hamaruki.com/graphrag-microsoft-llm-for-enterprise-data/

Meta LLMコンパイラを公開 (7/2)

https://ai.meta.com/research/publications/meta-large-language-model-compiler-foundation-models-of-compiler-optimization/

https://thebridge.jp/2024/07/metas-llm-compiler-is-the-latest-ai-breakthrough-to-change-the-way-we-code

LLM Compiler を開発した研究者たちは、大規模言語モデル(LLM)をコードやコンパイラの最適化に適用する際に、これまで十分に検討されてこなかった重要なギャップに対処した。LLVM-IRアセンブリコードの5,460億トークンからなる膨大なコーパスでモデルをトレーニングすることで、コンパイラの中間表現、アセンブリ言語、最適化テクニックを理解できるようになった。

LLM コンパイラは、コードサイズの最適化において目覚ましい成果を上げた。このモデルはテストにおいて、オートチューニング探索の最適化ポテンシャルの77%に達した。この結果は、コンパイル時間を大幅に短縮し、さまざまなアプリケーションにおけるコード効率を改善する可能性がある。

コードサイズの最適化によってコンパイル時間を大幅に短縮できたらしい

論文:Searching for Best Practices in Retrieval-Augmented Generation

https://ai-data-base.com/archives/72121

RAGシステムの実装において、クエリ分類、ハイブリッド検索とHyDEを組み合わせた検索、monoT5による再ランキング、逆順のリパッキング、Recompによる要約が最高のパフォーマンスを示したとの実験報告。 https://ai-data-base.com/archives/72121 さらに余力があれば、 関連文書とランダムに選択された文書を混合してモデルを微調整するのが尚良いとのこと。

We are Hiring!

この件についてもっと詳しく知りたい、議論したい、はたまたナウキャストという会社に興味を持ったという方は、カジュアル面談フォームから連絡ください。その際に「今週の生成AI情報まとめ見た!」と書いていただければ幸いです!

https://herp.careers/v1/finatexthd/vZWzSlI_B-qk

https://herp.careers/v1/finatexthd/KhEf95X_TKvD

Discussion