ナレッジグラフとLLM
RAGはエンタープライズでLLMを活用するにあたっての最重要技術であるとともに、RAGはDynagonの中核技術でもあり、集中的に研究しているテーマです。
RAGは通常、情報をベクトル化してVectorDB(ベクターデータベース)に保存するのが一般的ですが、必ずしもLLMを接続するデータベースがVectorDBとは限りません。最先端のプロジェクトでは、より正しい情報を取得するために、VectorDBだけでなく最も一般的なデータベースであるRDB(リレーショナルデータベース)や、GraphDB(グラフデータベース)を用いたRAGシステムを見かけるようになりました。
本記事では、Dynagonが社として研究しているナレッジグラフを用いたRAGシステムを紹介して参ります。
ナレッジグラフとは
「ナレッジグラフ」は数学における「グラフ」をベースにした概念です。グラフは、ノードと、これらをつなぐエッジから成る構造であり、ソーシャルネットワークの関係性、都市間の交通網、インターネットの接続状態など、多岐にわたる現象をグラフ理論を用いてモデル化することができます。ナレッジグラフとは、知識としての情報をグラフのノード、知識と知識の関係例をグラフのエッジとするデータモデルです。例えばGoogleが関連記事を表示する際に用いるレコメンドエンジンはナレッジグラフの代表的な使用例です。
ナレッジグラフとLLMの組み合わせ方
先ほど紹介した、ナレッジグラフ(KGs)をRAGに用いるパターン以外にも、いくつかの活用例が考えられます。以下は “Unifying Large Language Models and Knowledge Graphs: A Roadmap” という論文における、ナレッジグラフとLLMを組み合わせた活用例のカテゴライズです。
画像: Pan, et al. “Unifying Large Language Models and Knowledge Graphs: A Roadmap” より (https://arxiv.org/abs/2306.08302)
a. ナレッジグラフで拡張したLLM
ナレッジグラフはLLMの事前学習段階で学習データの作成に役立ちます。また推論段階で最新の知識にアクセスするためにナレッジグラフを利用したり、LLMによって学習された知識や推論プロセスを解釈するためにナレッジグラフを使用する用途が考えられます。
b. LLMを埋め込んだナレッジグラフ
ナレッジグラフに関連するタスクを強化するためにLLMを適用するもので、非構造化データから情報を抽出して情報ノードを作成したり、そのノード同士の参照関係を明らかにしてよりナレッジグラフの完全性を高めたりするという、ナレッジグラフの構築における用途が考えられます。またナレッジグラフのデータを使ったテキスト生成も考えられます。
c. ナレッジグラフとLLMを組み合わせた相乗効果
LLMとナレッジグラフを組み合わせることで、各システムの短所を補い、より完全性が高く、情報が動的であり、推論が理解可能な知識表現システムが生まれます。ナレッジグラフの構造化された知識は、LLMsのブラックボックス性を減らし、またLLMの推論能力によってナレッジグラフに柔軟さを与えます。
VectorDBの課題を解決するナレッジグラフを用いたRAGシステム
現状のVectorDBを用いたRAGには、複数の関連する情報を参照することができない課題があります。例えばMicrosoftの決算情報を保存しているVectorDBを使ったRAGで「Microsoftの2023年の経営指標の変化」というプロンプトを入力したとします。「Microsoftの今年の経営指標の変化」の “今年の経営指標の変化” を “2022年対比の2023年の決算情報” と解釈した上で以下のようなファイルを参照することができれば正しい回答生成に繋がるでしょう。
- Microsoft 2022 決算.xlsx 2. Microsoft 2023 決算.xlsx
しかし現状のRAGシステムでは、 おおよそ “Microsoft 2023 決算.xlsx” だけがヒットし、必ずと言っていいほど “Microsoft 2022 決算.xlsx” はヒットしません。 VectorDBを用いたRAGシステムは、ユーザーのプロンプトと意味的に最も近い情報をヒットさせます。しかし “意味的に最も近い” とは、あくまで質問文をそのままベクトル化した値と近い情報がヒットするだけなので、2023年の情報を問う場合は2022年の情報は意味的に遠く、ヒットしないのです。
ここにナレッジグラフを組み合わせることで、“Microsoft 2023 決算.xlsx” をヒットさせることさえできれば、関連情報として2022年や2021年の決算資料を芋蔓式に参照することができるようになります。またMicrosoftに関連するビッグテックの決算資料の参照も容易になり、現状のRAGでは非常に難しい他社比較も可能になります。
ナレッジグラフが現状のVectorDBを用いたRAGの課題を解決する非常に重要なコンポーネントであることはお分かりいただけたかと思います。今後はより実践的なナレッジグラフを用いたRAGシステムについて紹介して参ります。
Discussion