🗞️

今週の生成AI情報まとめ(7/15~7/21)

2024/08/24に公開

こんにちは、ナウキャストでLLMエンジニアをしているRyotaroです。
7/15~7/21で収集した生成AIに関連する情報をまとめています。

※注意事項

内容としては自分が前の週に収集した生成AIの記事やXでの投稿・論文が中心になるのと、自分のアンテナに引っかかった順なので、多少古い日付のものを紹介する場合があります

それでは行きましょう

SpreadsheetLLM(7/16)

2024/7/12にMicrosoftが大規模言語モデル(LLM)を活用してスプレッドシートの処理と理解を革新的に改善するSpreadsheetLLMを開発。Microsoft 365 Copilotなどの製品に統合される予定だが、正式にリリースされるかどうかは不明。一般的にOSSとして使えない可能性あり。(論文を読み取って独自に開発することになる?)

特徴

  1. 効率的なデータ圧縮:
  • SheetCompressorと呼ばれる独自のエンコーディング手法を使用
  • スプレッドシートの複雑な構造を保持しながら、データを大幅に圧縮(約25倍の圧縮率)
  • LLMのトークン制限を克服し、より効率的な処理を実現
  1. 高性能:
  • スプレッドシートテーブル検出タスクでF1スコア約79%を達成(従来モデルを13%上回る)
  • スプレッドシートQAタスクで約74%の正解率(ベースラインモデルを37%上回る)
  • 特に大規模なスプレッドシートで顕著な性能向上(最大75%の改善)

参考資料:

ソフトウェア開発の自動化におけるAGENTLESSアプローチ

背景として、ソフトウェア開発において現状多くの研究者や企業がエージェントベースのアプローチを採用しているが、仕組み自体が複雑でLLMの意思決定プロセスの制御が難しいことが課題にあがっている。

そこでエージェントなしのアプローチでバグ修正を行う手法を開発したというのがこの論文。(手法にAgentlessという名前がついているが、普通にプロセスを細分化して、LLM使っただけのように思えるのは自分だけか…)

具体的には、AGENTLESSはまず問題のあるコードの位置を特定(ローカライズ)します。これは、ファイルレベル、クラスやメソッドレベル、さらには行レベルまで、階層的に行われます。次に、特定された位置に対して、LLMを用いて複数のパッチを生成(リペア)します。生成されたパッチは、シンタックスエラーや回帰テストの失敗をチェックし、最終的に多数決で最適なパッチを選択します。

⁠実験結果

実験の結果、AGENTLESSはオープンソースのアプローチの中で最高の性能を達成しました。

しかもその性能は一部の商用ツールにも匹敵し、AGENTLESSは計算コストの面でも非常に効率的であることが示されている。

参考資料:

長いコンテキストウィンドウで行う推論は性能が高くない

論文紹介:NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

LLM の長いコンテキストの検索と推論の能力を評価するために、段階的に難易度が上がるタスクのフレームワーク (NeedleBench) を提案。

また、現実世界の長いコンテキスト タスクで一般的な複雑な論理的推論の必要性が高まる Ancestral Trace Challenge も提示。(図で一般的なモデルのパフォーマンス低下傾向を参照)

論文の調査結果によると、現在の LLM は、2K トークンよりも短いテキストであっても、複雑な論理関係を持つ推論タスクの処理に苦労しているということがわかった。

NeedleBench

NeedleBenchというフレームワークは

  • 文中複数の事実を抽出する
  • 回答するのに多段の推論をする

という2つの観点から評価をしている。特に後者に焦点が当たっており、そのためのテストであるAncestral Trace Challengeが考案された。例えば、AはBの父であり、BはCの兄でありという関係を辿らせるようなクイズのことを指す。

参考資料:

ハルシネーション対策

論文紹介:The Art of Refusal: A Survey of Abstention in Large Language Models

LLMに嘘を言わせないように、回答を「棄権」させる方法の網羅的な調査が出た。

プロンプトの改善としては以下が有効:

  • 「分からない」の答え方を例示する(Few-Shot)
  • 答えられる場合にのみ質問に答えてください」と指示に加える
  • 回答候補に「上記のいずれでもない」を加える(選択式QAの場合)

銀の弾丸的なひとつの改善策はなく、有効な改善策がいくつか提示されたという感じ。

ただ、不確実性モデリング、適合予測、反復改良などのさまざまな手法を検討した結果、特に誤った出力の結果が深刻なものになる可能性がある機密性の高いアプリケーションにおいて、LLM の信頼性と信頼性を大幅に向上させる可能性が生まれたとのこと。

参考資料:

Discussion