Open1
WEBサイトを対象としてRAGの精度向上について
WEBサイトを対象としたRAG
・社内ポータルサイトを対象とした検索システムをRAGを用いて実装しようとしている。
・ポータルサイトはhtmlなので、見出し単位でチャンクを区切るのが良さそう。
・RAGの原理的に、1チャンクには1文章(意味が壊れない前提)が対応しているのがベスト。
・htmlではひとつの見出しの中に複数の情報が含まれているため、見出しを親チャンクとみなした場合に子チャンクを切り出すことで、回答精度が向上する可能性がある。
ネット記事を調べてると、親子チャンクの実現にはLamdaIndexなるものが使えそう。