🗞️

今週の生成AI情報まとめ(8/12~8/18)

2024/09/01に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
8/12~8/18で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

Supabase 社が postgres.new を公開(8/12)

WebAssembly として PostgreSQL をビルドした PGlite が公開され、それに伴い Supabase 社が postgres.new を公開した

これはマジで便利そう
言語イメージからDBを構築して修正していけばある程度形になるし、csvからも作れるからDBを作成するハードルが一気に下がった

LLM は現在 GPT-4o を利用しているとのこと。精度は高そう。

できること

  • ChatでDBを作成&操作:
    • csvデータを取り込んで、分析し、それに基づいたDBを生成可能
    • DB作成からデータ参照、データ操作もchat上で可能
  • チャート分析の生成:
    • 既存のデータに基づいて視覚的な分析を即座に生成

家計簿DBを作ってと依頼した結果

migration の書き方まで教えてくれる

PGlite

PostgreSQLのソースコードをWebAssemblyバイナリとしてビルドしたことで、Node.jsなどのJavaScriptランタイムやWebブラウザ上で(ほぼ)フル機能のPostgreSQLを実行可能にした「PGlite」が公開された

参考資料

https://postgres.new/
https://qiita.com/pea1205/items/27dbc3337e40fedd0db0
https://www.youtube.com/watch?v=ooWaPVvljlU
https://www.publickey1.jp/blog/24/webassembypostgresqlpglitenodejspostgresqldb.html
https://supabase.com/blog/postgres-new

RAGEval

RAGの評価をするためのデータセット作成から実際の評価までをまとめた論文
RAGEval: Scenario Specific RAG Evaluation Dataset
Generation Framework

  1. 作成したいデータセットのドメインに関連するドキュメントを用意する
  2. ドキュメントをいくつか利用して、スキーマ要約(イベント、日付、場所などの主要要素をまとめたデータ)を生成
  3. スキーマを元に仮想の値をLLMなどを使用して割り当てたコンフィグファイルを生成
  4. コンフィグファイルとドメイン固有の知識をLLMに渡して、仮想のドキュメントを生成
  5. コンフィグファイルと仮想のドキュメントをLLMに読み込んでもらい、質問と回答のセットを生成
  6. 生成された回答データと元のドキュメントから、正解として扱う参照データを抽出
  7. 生成された回答データからキーポイントを抽出

要約すると、LLMを使用した処理のステップを複数回経て、質問、参照用のデータ、回答、そしてキーポイントの4つのセットを生成するという流れ。

また評価指標は以下の5つ

  • 完全性: 生成された回答が、正解の中に含まれるキーポイントをどれだけ含んでいるか
  • 幻覚: 生成された回答とキーポイントが矛盾しているか
  • 無関連性: 生成された回答とキーポイントが関係もしていなければ、矛盾もしていないか
  • リコール: 検索した参照が正解としている参照とどの程度一致しているか
  • 有効情報率: 検索された情報の中で正解との関連性が高い情報の割合

参考資料

https://arxiv.org/pdf/2408.01262
https://zenn.dev/knowledgesense/articles/37c64fa61aa59c

The AI Scientist by Sakana AI (8/13)

Sakana AIからThe AI Scientistという研究が発表された。
言語モデルがアイディアを出して、実験して、論文を書いて、リバイスして、言語モデル自らが新しい研究論文を作成するというもの。オックスフォード大学の Foerster Lab for AI Research、ブリティッシュコロンビア大学の Jeff Clune および Cong Lu と共同の論文になる。

各アイデアは、1論文あたり約15ドルのコストで実装され、完全な論文にまとめられるらしい。
安すぎる笑

これがサンプルの論文

https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

参考資料

https://sakana.ai/ai-scientist/
https://sakana.ai/assets/ai-scientist/adaptive_dual_scale_denoising.pdf

カウンセリングAIとして利用するためのプロンプト手法

LLMは人間を”前向きな気持ち”にさせるのが上手く、時として専門のカウンセラーを上回るとの実験報告。あらかじめ「話の聞き方」をプロンプトで指示するのがポイント。

今回の論文では、認知的再評価のために『RESORT』というフレームワークが考案された。
これはLLMにカウンセリングを行わせるため、心理学者たちが注意深く作った「再評価のコツ」で構成されている。

中身としては、日常生活でよくある6つの物事の見方が含まれている。

  • 自分にどれだけ責任があるか
  • 問題にどう取り組むか
  • どこに注目するか
  • 感情にどう対処するか
  • 自分でどこまでコントロールできるか
  • 自分の価値観とどれだけ合っているか

実際にRESORTのプロンプトを使ってカウンセリングを行なった結果
確かにLLMに思いやりを感じる。

人間:
昔の学校の友達に会いたいんだけど、その子がワクチン打ってないって分かったんだ。兄夫婦が「うちの子どもたちはワクチン打てないから、ワクチン打ってない人には会わないで」って言ってるんだ。兄の言う通りに全然会わないのは厳しすぎ?それとも、外で離れて会うくらいなら大丈夫かな?

AIの回答(ガイドなし):
よく考えてみると、外で離れて会えば危ないことはあんまりないよ。でも、家族の心配も大事にすれば、子どもたちを守れるし、家族仲も良くなるよ。

AIの回答(RESOРTによるガイド付き):
嫌な気持ちを減らすには、家族って大切だなって思うのと、今の状況はずっと続くわけじゃないって考えるといいよ。兄ちゃんが言ってることにも理由があって、みんなのことを思ってるんだなって分かれば、自分の気持ちも落ち着くと思う。困らないように、友達と話す別の方法を考えてみたら?例えば、ビデオで話したり、もっと安全になってから会う約束をしたりするのはどう?

参考資料

https://arxiv.org/pdf/2404.01288
https://ai-data-base.com/archives/74185

Genspark

Parplexityよりもリサーチに強いサービスがあるらしい
完全無料で使える点がかなり強力

Gensparkは内容を調査・整理・要約して出力するだけではなく、情報を集約してインタラクティブなグラフも作成してくれる。これすごい。code interpreterみたい。

参考資料

https://www.genspark.ai/
https://tetumemo.m-newsletter.com/posts/f8d9b179ec108db2

Storm

web検索に基づいて記事を作ってくれるサービス。
2万文字近く一気に目次付きで生成可能。引用元も記事内に挿入してくれる。そのままPDF出力も可能。

英語で出力されるけど、日本語訳させれば問題なさそう。
イメージはwikiが作られる感じに近い。網羅的に調べてくれるし、精度も悪くない。

PDF出力はちょっといけてない感じがする……

参考資料

https://t.co/X7G7x53OMH
https://x.com/masahirochaen/status/1824963424952177038

OpenAI GPT-4o のアップデート(8/12)

8月12日、OpenAIがGPT-4oモデルのアップデートを発表した。新しいモデルは、ChatGPT-4o-latestと呼ばれていて、このモデルの詳細な情報は明らかにされていませんが、Chatbot Arenaのランキングで、Geminiの新モデルを抜いて第1位を獲得したことで話題になっています。

Structured Outputに対応するAPI用モデルのGPT-4o-2024-08-06とは別物で、ChatGPT用に調整されたモデルのよう。

参考資料のnoteの記事によると、アップデート前後で出力精度はあまり変わっていないよう。

参考資料

https://help.openai.com/en/articles/9624314-model-release-notes
https://note.com/it_navi/n/ndd49ba37dfe7

Discussion