<h1 id="%E3%83%81%E3%83%A3%E3%83%B3%E3%82%AF%E5%8C%96%E3%81%AE%E7%A8%AE%E9%A1%9E">
<a class="header-anchor-link" href="#%E3%83%81%E3%83%A3%E3%83%B3%E3%82%AF%E5%8C%96%E3%81%AE%E7%A8%AE%E9%A1%9E" aria-hidden="true"></a> チャンク化の種類</h1>
<ol>
<li>固定サイズのチャンク: 文字数で分ける</li>
<li>可変サイズのチャンク:<br>
特定の文字で区切る, マークダウン言語構造を使用した分割,</li>
<li>自然言語処理 (NLP) ライブラリを使用した分割<br>
正規表現に基づいたチャンキングなど</li>
<li>意味で分ける</li>
</ol>
<p>今回は意味で分けるセマンティックチャンキングについて</p>
<h1 id="%E6%84%8F%E5%91%B3%EF%BC%88%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%EF%BC%89%E3%81%AB%E5%88%86%E3%81%91%E3%82%8B%E3%81%A8%E4%BD%95%E3%81%8C%E3%81%84%E3%81%84%E3%81%AE%EF%BC%9F">
<a class="header-anchor-link" href="#%E6%84%8F%E5%91%B3%EF%BC%88%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%EF%BC%89%E3%81%AB%E5%88%86%E3%81%91%E3%82%8B%E3%81%A8%E4%BD%95%E3%81%8C%E3%81%84%E3%81%84%E3%81%AE%EF%BC%9F" aria-hidden="true"></a> 意味（セマンティック）に分けると何がいいの？</h1>
<p>LLMの精度向上につながる</p>
<p>意味の塊ごとに分けることで、検索の際にピンポイントでヒットし、LLMに必要な情報を渡せるようになる。<br>
無駄な情報を与えすぎると、精度が悪くなるし、APIの使用量が高くなる。</p>
<h1 id="%E6%84%8F%E5%91%B3%EF%BC%88%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%EF%BC%89%E3%81%AB%E5%88%86%E3%81%91%E3%82%8B%E6%96%B9%E6%B3%95">
<a class="header-anchor-link" href="#%E6%84%8F%E5%91%B3%EF%BC%88%E3%82%BB%E3%83%9E%E3%83%B3%E3%83%86%E3%82%A3%E3%83%83%E3%82%AF%EF%BC%89%E3%81%AB%E5%88%86%E3%81%91%E3%82%8B%E6%96%B9%E6%B3%95" aria-hidden="true"></a> 意味（セマンティック）に分ける方法</h1>
<ol>
<li>LLM chunking</li>
</ol>
<p>LLMにチャンクさせる<br>
これが一番精度が高そうなので今回はこちらでチャンキング</p>
<ol start="2">
<li>オープンソースライブラリのチャンキング</li>
</ol>
<p>（ソース見ればわかるんだろうけど）<br>
結局どうチャンク化されているのかがわかりずらく制御しずらい</p>
<p>例:<br>
・LLamaIndexのSemantic Chunker<br>
おそらく文の分割は正規表現で行われているようで、英語では機能する<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__068f35511239a" src="https://embed.zenn.studio/card#zenn-embedded__068f35511239a" data-content="https%3A%2F%2Fzenn.dev%2Fkun432%2Fscraps%2Facd202cc2a85b0" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://zenn.dev/kun432/scraps/acd202cc2a85b0" style="display:none" target="_blank">https://zenn.dev/kun432/scraps/acd202cc2a85b0</a></p>
<p>・LamngChainのSemantic Chunking</p>
<p>最初の文の分割。次に意味的に十分に類似している場合は、隣り合ったものを結合します<br>
恐らくAdjacent Sequence Clusteringと同様の手法</p>
<p><span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__00befedea2687" src="https://embed.zenn.studio/card#zenn-embedded__00befedea2687" data-content="https%3A%2F%2Fpython.langchain.com%2Fdocs%2Fmodules%2Fdata_connection%2Fdocument_transformers%2Fsemantic-chunker" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://python.langchain.com/docs/modules/data_connection/document_transformers/semantic-chunker" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://python.langchain.com/docs/modules/data_connection/document_transformers/semantic-chunker</a></p>
<ol start="3">
<li>パブリッククラウドのSemanticChunking</li>
</ol>
<p>Azure AI Searvice<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__394a1a7ef7a5d" src="https://embed.zenn.studio/card#zenn-embedded__394a1a7ef7a5d" data-content="https%3A%2F%2Flearn.microsoft.com%2Fen-us%2Fazure%2Fai-services%2Fdocument-intelligence%2Fconcept-retrieval-augumented-generation%3Fview%3Ddoc-intel-4.0.0%23semantic-chunking" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/concept-retrieval-augumented-generation?view=doc-intel-4.0.0#semantic-chunking" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/concept-retrieval-augumented-generation?view=doc-intel-4.0.0#semantic-chunking</a></p>
<p>（Amazon Kendra）<br>
文書のスマートチャンキング<br>
意味によってチャンキングしているかは不明<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__503c08d391e1" src="https://embed.zenn.studio/card#zenn-embedded__503c08d391e1" data-content="https%3A%2F%2Faws.amazon.com%2Fkendra%2Ffeatures%2F" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://aws.amazon.com/kendra/features/" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://aws.amazon.com/kendra/features/</a></p>
<ol start="4">
<li>Adjacent Sequence Clustering</li>
</ol>
<p>隣接したセンテンスの類似度からチャンキング<br>
spaCyを使用してコンテキストを含んでchunking<br>
spaCyとは自然言語処理 (NLP) ライブラリ</p>
<p>参考:<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__9d0985e8ff47d" src="https://embed.zenn.studio/card#zenn-embedded__9d0985e8ff47d" data-content="https%3A%2F%2Fzenn.dev%2Fhijikix%2Farticles%2Ff414b067e29a57" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://zenn.dev/hijikix/articles/f414b067e29a57" style="display:none" target="_blank">https://zenn.dev/hijikix/articles/f414b067e29a57</a></p>
<ol start="5">
<li>人力<br>
最終手段</li>
</ol>
<h1 id="%E7%B5%90%E5%B1%80%E4%BD%95%E3%81%8C%E3%81%84%E3%81%84%EF%BC%9F">
<a class="header-anchor-link" href="#%E7%B5%90%E5%B1%80%E4%BD%95%E3%81%8C%E3%81%84%E3%81%84%EF%BC%9F" aria-hidden="true"></a> 結局何がいい？</h1>
<p>意味で分割したいなら<br>
LLMを活用したチャンキングがよさそう</p>
<p>手順</p>
<ol>
<li>
<p>LLMにドキュメントを投げて意味のまとまりに分けてもらう<br>
タイトル、見出し、本文なところを抽出して返してもらう<br>
本文の場合は長文で生成するのに時間がかかってしまうので、抽出する文章の最初と最後のセンテンスのみ抽出してもらう。</p>
</li>
<li>
<p>本文の抽出<br>
抽出する文章の最初と最後のセンテンスをドキュメントの中で検索して取ってくる<br>
ただし、1. の過程でLLMが変な文字を混ぜてしまうことがあるので完全一致で検索するのではなく、部分一致でも引っ掛かるようにする。<br>
ここで引っ掛からなかった時のことも考慮<br>
その場合は、検索して本文を取ってくるのではなく、見出しに合う文章をLLMに生成してもらうように分岐しておく。</p>
</li>
<li>
<p>格納する<br>
見出しと本文だけでは、何に関することかわからないので見出しごとにタイトルも含めて、ベクトル化してIndexに格納しておく</p>
</li>
</ol>
<p>参考：<br style="display:none">
<span class="embed-block zenn-embedded zenn-embedded-card"><iframe id="zenn-embedded__3d41e9e0e804c" src="https://embed.zenn.studio/card#zenn-embedded__3d41e9e0e804c" data-content="https%3A%2F%2Fmedium.com%2F%40anuragmishra_27746%2Ffive-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d" frameborder="0" scrolling="no" loading="lazy"></iframe></span><a href="https://medium.com/@anuragmishra_27746/five-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d" style="display:none" target="_blank" rel="nofollow noopener noreferrer">https://medium.com/@anuragmishra_27746/five-levels-of-chunking-strategies-in-rag-notes-from-gregs-video-7b735895694d</a></p>


【RAG】セマンティックチャンキング手法

意味（セマンティック）に分けると何がいいの？

意味（セマンティック）に分ける方法

Discussion