これであなたもチャンキングのプロフェッショナル! RAGシステムにおける効果的なチャンキング戦略:プロフェッショナルガイド~中野哲平
はじめに
Retrieval-Augmented Generation (RAG) システムの成功は、その基盤となるナレッジベースがどれだけ効果的に構成されているかに大きく依存します。そのナレッジベースを構築する上で最も重要なステップの一つが「チャンキング」です。チャンキングとは、大量のテキストデータを意味のある単位に分割するプロセスであり、この分割方法が検索精度と生成品質を左右します。
本記事では、RAGシステムのパフォーマンスを最大化するための実践的なチャンキング戦略について詳細に解説します。単なる理論ではなく、実装可能な具体的なアプローチと、それらがなぜ効果的なのかを深く掘り下げていきます。
1. 適切なチャンクサイズの決定
チャンクサイズの選択は、単なる技術的パラメータの調整ではなく、情報の本質的な構造を理解した上での戦略的な意思決定です。
1.1 最適なチャンクサイズの基準
最適なチャンクサイズを決定する際に考慮すべき要素は複数あります:
- 意味的一貫性: チャンクは一つのトピックや概念を完全に含むべきです
- 検索効率: 大きすぎるチャンクは不要な情報を含み、小さすぎるチャンクは文脈を失います
- エンベディングモデルの特性: 使用するエンベディングモデルの最適なコンテキスト長を考慮する必要があります
- ドメイン特性: 法律文書と会話記録では最適なチャンクサイズが異なります
1.2 ドメイン別の推奨チャンクサイズ
ドメイン | 推奨チャンクサイズ | 理由 |
---|---|---|
技術マニュアル | 300-500単語 | 技術的概念は完全性を保つために十分な長さが必要 |
ニュース記事 | 200-300単語 | 記事は通常、段落で区切られた短い情報単位を持つ |
法律文書 | 400-600単語 | 法的概念は相互参照が多く、より大きなコンテキストが必要 |
会話ログ | 100-200単語または会話単位 | 会話は自然な区切りを持ち、短いチャンクでも文脈が保持される |
学術論文 | 500-700単語または論理的セクション | 複雑な議論のフローを維持するには大きなチャンクが必要 |
1.3 チャンクサイズ実験の実施方法
実際のデータセットでの最適なチャンクサイズを見つけるための実験的アプローチ:
# 異なるチャンクサイズでのパフォーマンス評価例
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_fscore_support
# 異なるチャンクサイズでの評価結果を格納する配列
chunk_sizes = [100, 200, 300, 400, 500, 600, 700]
precision_scores = []
recall_scores = []
f1_scores = []
for size in chunk_sizes:
# このサイズでチャンキングを実行
chunks = chunk_document(document, size=size)
# チャンキングされたデータでRAGシステムを評価
precision, recall, f1, _ = evaluate_rag_performance(chunks)
precision_scores.append(precision)
recall_scores.append(recall)
f1_scores.append(f1)
# 結果をプロット
plt.figure(figsize=(10, 6))
plt.plot(chunk_sizes, precision_scores, label='Precision')
plt.plot(chunk_sizes, recall_scores, label='Recall')
plt.plot(chunk_sizes, f1_scores, label='F1 Score')
plt.xlabel('Chunk Size (words)')
plt.ylabel('Score')
plt.title('RAG Performance vs Chunk Size')
plt.legend()
plt.grid(True)
plt.show()
この例では、異なるチャンクサイズでRAGシステムのパフォーマンスを評価し、精度、再現率、F1スコアの観点から最適なサイズを特定します。
1.4 適応的チャンクサイズの実装
固定サイズのチャンキングではなく、コンテンツの構造に適応するアプローチ:
def adaptive_chunking(document, min_size=200, max_size=600):
chunks = []
current_chunk = []
current_size = 0
# ドキュメントを段落に分割
paragraphs = document.split('\n\n')
for paragraph in paragraphs:
paragraph_size = len(paragraph.split())
# 段落が最大サイズを超える場合は文で分割
if paragraph_size > max_size:
sentences = split_into_sentences(paragraph)
for sentence in sentences:
sentence_size = len(sentence.split())
# 現在のチャンクに追加するとmax_sizeを超える場合
if current_size + sentence_size > max_size and current_size >= min_size:
chunks.append(' '.join(current_chunk))
current_chunk = [sentence]
current_size = sentence_size
else:
current_chunk.append(sentence)
current_size += sentence_size
else:
# 現在のチャンクに追加するとmax_sizeを超える場合
if current_size + paragraph_size > max_size and current_size >= min_size:
chunks.append(' '.join(current_chunk))
current_chunk = [paragraph]
current_size = paragraph_size
else:
current_chunk.append(paragraph)
current_size += paragraph_size
# 残りのチャンクを追加
if current_chunk:
chunks.append(' '.join(current_chunk))
return chunks
この実装では、コンテンツの自然な構造(段落や文)を尊重しながら、指定された最小・最大サイズの範囲内でチャンクを作成します。
2. オーバーラップの活用
チャンク間のオーバーラップ(重複)は、文脈の連続性を保証し、重要な情報が検索から漏れるリスクを低減する強力な技術です。
2.1 オーバーラップの理論的根拠
オーバーラップを導入する主な理由:
- 文脈の連続性: 文脈が分断されるリスクを減らし、関連情報の接続性を維持
- 検索の堅牢性: 検索クエリがチャンクの境界にまたがる場合でも検出可能に
- 重要情報の強化: 重要な情報が複数のチャンクに含まれることで検索される可能性が向上
2.2 オーバーラップの実装アプローチ
2.2.1 固定オーバーラップ
最もシンプルな実装方法は、固定サイズのオーバーラップを使用することです:
def chunk_with_fixed_overlap(text, chunk_size=500, overlap_size=100):
words = text.split()
total_words = len(words)
chunks = []
for i in range(0, total_words, chunk_size - overlap_size):
end = min(i + chunk_size, total_words)
chunk = ' '.join(words[i:end])
chunks.append(chunk)
# 残りの単語数がオーバーラップサイズより少ない場合は終了
if total_words - end <= overlap_size:
break
return chunks
このアプローチでは、各チャンクは前のチャンクとoverlap_size
単語分だけ重複します。
2.2.2 文脈認識型オーバーラップ
より高度な方法として、文章や段落の境界を尊重したオーバーラップを実装できます:
def context_aware_overlap(text, target_chunk_size=500, overlap_ratio=0.2):
# 段落に分割
paragraphs = text.split('\n\n')
chunks = []
current_chunk = []
current_size = 0
previous_paragraphs = [] # オーバーラップ用の段落を保持
for paragraph in paragraphs:
paragraph_size = len(paragraph.split())
# 現在のチャンクにパラグラフを追加するとtarget_sizeを超える場合
if current_size + paragraph_size > target_chunk_size and current_chunk:
# 現在のチャンクを保存
chunks.append(' '.join(current_chunk))
# オーバーラップを計算(最新の段落を優先)
overlap_size = int(target_chunk_size * overlap_ratio)
overlap_paragraphs = []
overlap_words = 0
# 現在のチャンクから後ろ向きにオーバーラップサイズになるまで段落を追加
for p in reversed(current_chunk):
p_size = len(p.split())
if overlap_words + p_size <= overlap_size:
overlap_paragraphs.insert(0, p)
overlap_words += p_size
else:
break
# 新しいチャンクを開始(オーバーラップ部分から)
current_chunk = overlap_paragraphs + [paragraph]
current_size = overlap_words + paragraph_size
else:
current_chunk.append(paragraph)
current_size += paragraph_size
# 最後のチャンクを追加
if current_chunk:
chunks.append(' '.join(current_chunk))
return chunks
このアプローチでは、段落の完全性を保ちながら、指定された比率でオーバーラップを作成します。
2.3 オーバーラップサイズの最適化
オーバーラップのサイズは、以下の要素を考慮して最適化できます:
- ドメイン特性: 技術文書では20-30%、物語文では10-15%など
- 検索パターン: ユーザーがどのような検索クエリを出すかを分析
- 計算コスト: オーバーラップが大きいほどストレージとインデックス作成のコストが増加
実験的に最適なオーバーラップを見つけるための方法:
# 異なるオーバーラップ率での検索精度を評価
overlap_ratios = [0.05, 0.1, 0.15, 0.2, 0.25, 0.3]
precision_at_k = []
for overlap in overlap_ratios:
chunks = chunk_with_overlap(documents, overlap_ratio=overlap)
index = create_vector_index(chunks)
precision = evaluate_search_precision(index, test_queries)
precision_at_k.append(precision)
# 最適なオーバーラップ率を特定
optimal_overlap = overlap_ratios[np.argmax(precision_at_k)]
print(f"最適なオーバーラップ率: {optimal_overlap}")
2.4 重みづけオーバーラップの実装
すべての部分が均等に重要というわけではない場合、重要度に基づいて重みづけされたオーバーラップを実装できます:
def weighted_overlap_chunking(text, importance_scorer, chunk_size=500):
sentences = split_into_sentences(text)
# 各文の重要度スコアを計算
sentence_scores = [importance_scorer(sentence) for sentence in sentences]
chunks = []
current_chunk = []
current_size = 0
for i, sentence in enumerate(sentences):
sentence_size = len(sentence.split())
# チャンクサイズを超える場合、新しいチャンクを開始
if current_size + sentence_size > chunk_size and current_chunk:
chunks.append(' '.join(current_chunk))
# 重要度の高い文をオーバーラップとして次のチャンクに含める
overlap_sentences = []
for s, score in sorted(zip(current_chunk, sentence_scores[i-len(current_chunk):i]),
key=lambda x: x[1], reverse=True)[:3]: # 上位3文を選択
overlap_sentences.append(s)
current_chunk = overlap_sentences + [sentence]
current_size = sum(len(s.split()) for s in current_chunk)
else:
current_chunk.append(sentence)
current_size += sentence_size
# 最後のチャンクを追加
if current_chunk:
chunks.append(' '.join(current_chunk))
return chunks
この方法では、文の重要度に基づいて選択的なオーバーラップを作成します。特に重要なセクションが確実にオーバーラップするように設計されています。
3. コンテキスト保持のためのチャンキング手法
チャンキングプロセスでは、単に文字数やトークン数だけでなく、テキストの意味的なまとまりを維持することが重要です。
3.1 意味論的チャンキング手法
3.1.1 主題に基づくチャンキング
テキスト内のトピックの変化を検出し、それに基づいてチャンクを作成します:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
def topic_based_chunking(document, min_chunk_size=200, max_chunk_size=600):
# 段落に分割
paragraphs = document.split('\n\n')
# TF-IDFベクトル化
vectorizer = TfidfVectorizer(stop_words='english')
tfidf_matrix = vectorizer.fit_transform(paragraphs)
# 段落間の類似度を計算
similarity_matrix = cosine_similarity(tfidf_matrix)
chunks = []
current_chunk = [paragraphs[0]]
current_size = len(paragraphs[0].split())
for i in range(1, len(paragraphs)):
# 前の段落との類似度
sim_score = similarity_matrix[i-1, i]
paragraph_size = len(paragraphs[i].split())
# 類似度が低い(トピックが変わった)または最大サイズを超える場合
if (sim_score < 0.3 and current_size >= min_chunk_size) or current_size + paragraph_size > max_chunk_size:
chunks.append('\n\n'.join(current_chunk))
current_chunk = [paragraphs[i]]
current_size = paragraph_size
else:
current_chunk.append(paragraphs[i])
current_size += paragraph_size
# 最後のチャンクを追加
if current_chunk:
chunks.append('\n\n'.join(current_chunk))
return chunks
このアプローチでは、TF-IDFと余弦類似度を使用して段落間のトピックの変化を検出し、意味的なまとまりを保持したチャンクを作成します。
3.1.2 埋め込みベースのチャンキング
より高度な手法として、言語モデルの埋め込みを使用して意味的な境界を検出できます:
from sentence_transformers import SentenceTransformer
import numpy as np
def embedding_based_chunking(document, threshold=0.7, min_size=200, max_size=600):
# 段落に分割
paragraphs = document.split('\n\n')
# 埋め込みモデルのロード
model = SentenceTransformer('all-MiniLM-L6-v2')
# 段落の埋め込みを計算
embeddings = model.encode(paragraphs)
chunks = []
current_chunk = [paragraphs[0]]
current_size = len(paragraphs[0].split())
current_embedding = embeddings[0].reshape(1, -1)
for i in range(1, len(paragraphs)):
paragraph_embedding = embeddings[i].reshape(1, -1)
paragraph_size = len(paragraphs[i].split())
# 累積埋め込みとの類似度を計算
similarity = cosine_similarity(current_embedding, paragraph_embedding)[0][0]
# 類似度が低いまたは最大サイズを超える場合
if (similarity < threshold and current_size >= min_size) or current_size + paragraph_size > max_size:
chunks.append('\n\n'.join(current_chunk))
current_chunk = [paragraphs[i]]
current_size = paragraph_size
current_embedding = paragraph_embedding
else:
current_chunk.append(paragraphs[i])
current_size += paragraph_size
# 累積埋め込みを更新(重み付き平均)
weight = current_size / (current_size + paragraph_size)
current_embedding = weight * current_embedding + (1 - weight) * paragraph_embedding
# 最後のチャンクを追加
if current_chunk:
chunks.append('\n\n'.join(current_chunk))
return chunks
この手法では、段落の埋め込みベクトルを計算し、意味的な類似性に基づいてチャンクを形成します。これにより、内容的に関連性の高い段落が同じチャンクに含まれるようになります。
3.2 構造認識型チャンキング
多くのドキュメントには、セクション、小見出し、箇条書きなどの構造があります。これらの構造を認識し、それに沿ってチャンクを作成することで、情報の意味的なまとまりを保持できます。
3.2.1 見出しベースのチャンキング(マークダウン/HTML文書向け)
import re
def heading_based_chunking(markdown_document, max_size=600):
# 見出しパターンを定義(Markdownの場合)
heading_pattern = re.compile(r'^(#{1,6})\s+(.+?)$', re.MULTILINE)
# 見出しの位置を特定
headings = [(m.start(), m.group(1), m.group(2)) for m in heading_pattern.finditer(markdown_document)]
chunks = []
# 見出しごとにチャンクを作成
for i in range(len(headings)):
start_pos = headings[i][0]
# 最後の見出しの場合は文書の最後まで
if i == len(headings) - 1:
end_pos = len(markdown_document)
else:
end_pos = headings[i+1][0]
section = markdown_document[start_pos:end_pos]
# セクションが大きすぎる場合は分割
if len(section.split()) > max_size:
# さらに小さな単位(段落など)に分割
subsections = split_large_section(section, max_size)
chunks.extend(subsections)
else:
chunks.append(section)
return chunks
このアプローチでは、見出し構造に基づいてチャンクを作成し、各セクションが意味的に一貫した単位になるようにします。
3.2.2 XML/JSONなど構造化文書向けチャンキング
構造化文書の場合、その構造を活用したチャンキングが効果的です:
import xml.etree.ElementTree as ET
def xml_aware_chunking(xml_document, max_size=600):
root = ET.fromstring(xml_document)
chunks = []
# 再帰的に要素を処理
def process_element(element, path=""):
# 現在の要素のパスを更新
current_path = f"{path}/{element.tag}" if path else element.tag
# 子要素のテキストを含めた合計サイズを計算
element_text = element.text or ""
element_size = len(element_text.split())
children_content = []
for child in element:
child_text = ET.tostring(child, encoding='unicode')
children_content.append(child_text)
element_size += len(child_text.split())
# 要素が大きすぎる場合は分割、そうでなければそのまま追加
if element_size > max_size and children_content:
# 各子要素を再帰的に処理
for child in element:
process_element(child, current_path)
else:
# 要素全体を1つのチャンクとして追加
full_element = ET.tostring(element, encoding='unicode')
chunks.append({
"content": full_element,
"path": current_path,
"tag": element.tag
})
# ルート要素から処理開始
process_element(root)
return chunks
この例では、XMLドキュメントの構造を認識し、意味的なまとまりを保持しながらチャンクを作成します。各チャンクには、コンテンツだけでなく、ドキュメント構造内の位置に関するメタデータも含まれます。
3.3 メタデータ強化チャンキング
チャンクに適切なメタデータを付与することで、検索精度とコンテキスト保持を向上させることができます:
def metadata_enhanced_chunking(document, section_headers=None, max_size=500):
# ドキュメントを段落に分割
paragraphs = document.split('\n\n')
chunks = []
current_chunk = []
current_size = 0
current_section = "default"
# セクションヘッダーが指定されていない場合は検出を試みる
if not section_headers:
section_headers = detect_section_headers(document)
for paragraph in paragraphs:
# セクションヘッダーかどうかチェック
is_header = any(header in paragraph for header in section_headers)
if is_header:
current_section = paragraph
paragraph_size = len(paragraph.split())
# 現在のチャンクがmax_sizeを超える場合、または新しいセクションヘッダーの場合
if (current_size + paragraph_size > max_size and current_chunk) or is_header:
if current_chunk:
chunk_text = ' '.join(current_chunk)
chunks.append({
"text": chunk_text,
"section": current_section,
"position": len(chunks),
"size": current_size,
"keywords": extract_keywords(chunk_text)
})
current_chunk = [paragraph]
current_size = paragraph_size
else:
current_chunk.append(paragraph)
current_size += paragraph_size
# 最後のチャンクを追加
if current_chunk:
chunk_text = ' '.join(current_chunk)
chunks.append({
"text": chunk_text,
"section": current_section,
"position": len(chunks),
"size": current_size,
"keywords": extract_keywords(chunk_text)
})
return chunks
このアプローチでは、各チャンクに以下のメタデータを追加します:
- セクション情報
- ドキュメント内の位置
- チャンクサイズ
- 抽出したキーワード
これらのメタデータは、検索時にコンテキストを復元するのに役立ち、より高度なランキングアルゴリズムにも活用できます。
4. チャンキング戦略の評価と最適化
チャンキング戦略の効果を評価し、継続的に最適化することが重要です。
4.1 評価メトリクス
チャンキング戦略を評価するための主要なメトリクス:
- 検索精度(Retrieval Precision): 正確なチャンクが検索結果に含まれる割合
- チャンク内情報完全性: 関連情報がチャンク内で分断されずに保持されている程度
- チャンクサイズの一貫性: チャンクサイズの標準偏差
- コンテキスト保持率: あるトピックに関連する情報がどれだけ同じチャンクに保持されているか
4.2 評価方法の実装例
def evaluate_chunking_strategy(documents, chunking_function, test_queries, ground_truth):
# 文書をチャンキング
chunked_docs = [chunking_function(doc) for doc in documents]
# インデックス作成(ベクトル検索を想定)
index = create_vector_index(chunked_docs)
# 各テストクエリで検索
results = []
for query, expected_info in zip(test_queries, ground_truth):
retrieved_chunks = search_index(index, query, top_k=5)
# 評価メトリクスを計算
precision = calculate_precision(retrieved_chunks, expected_info)
completeness = calculate_completeness(retrieved_chunks, expected_info)
context_retention = calculate_context_retention(retrieved_chunks)
results.append({
"query": query,
"precision": precision,
"completeness": completeness,
"context_retention": context_retention
})
# 全体の評価スコアを計算
avg_precision = sum(r["precision"] for r in results) / len(results)
avg_completeness = sum(r["completeness"] for r in results) / len(results)
avg_context = sum(r["context_retention"] for r in results) / len(results)
# チャンクサイズの一貫性を評価
chunk_sizes = [len(chunk.split()) for doc_chunks in chunked_docs for chunk in doc_chunks]
size_std_dev = np.std(chunk_sizes)
return {
"average_precision": avg_precision,
"average_completeness": avg_completeness,
"average_context_retention": avg_context,
"chunk_size_std_dev": size_std_dev,
"detailed_results": results
}
この関数は、特定のチャンキング戦略の効果を総合的に評価します。結果に基づいて、チャンキングパラメータを調整できます。
4.3 A/Bテストによる継続的最適化
実際のシステムでは、A/Bテストを通じてチャンキング戦略を継続的に最適化できます:
def ab_test_chunking_strategies(strategy_a, strategy_b, test_period_days=7):
# 各戦略でインデックスを作成
index_a = create_index_with_strategy(strategy_a)
index_b = create_index_with_strategy(strategy_b)
# ユーザーをランダムに2グループに分ける
# 各グループに異なる検索インデックスを提供
# テスト期間後、以下のメトリクスを比較
# - クリックスルー率
# - クエリ後の追加質問数(情報が不完全だと追加質問が増える)
# - ユーザー満足度スコア
# - タスク完了率
# 勝者戦略を特定して採用
if metrics_a > metrics_b:
return strategy_a
else:
return strategy_b
この概念的なコードは、実際のユーザー行動に基づいてチャンキング戦略を評価し、最も効果的な方法を特定します。
5. 高度なチャンキング技術と実践的なヒント
5.1 階層的チャンキング
単一レベルのチャンキングではなく、複数の粒度でチャンキングを行うアプローチ:
def hierarchical_chunking(document):
# レベル1: 大きなセクションレベルのチャンク
section_chunks = split_by_sections(document)
# レベル2: 各セクション内での段落レベルのチャンク
paragraph_chunks = []
for section in section_chunks:
section_paragraphs = chunk_by_paragraphs(section)
# セクション情報をメタデータとして各段落チャンクに追加
for para_chunk in section_paragraphs:
para_chunk["parent_section"] = section["title"]
para_chunk["parent_id"] = section["id"]
paragraph_chunks.extend(section_paragraphs)
# 階層関係を含む両方のレベルのチャンクを返す
return {
"section_level": section_chunks,
"paragraph_level": paragraph_chunks
}
階層的チャンキングの利点:
- 検索時に粒度を選択可能(広い文脈が必要な場合はセクションレベル、詳細な情報が必要な場合は段落レベル)
- 親子関係のメタデータにより、必要に応じて関連するより広いコンテキストにアクセス可能
- 複数レベルの検索を組み合わせたハイブリッド検索アプローチが可能
5.2 動的な再チャンキング
クエリに応じて動的にチャンクを再構成する高度なアプローチ:
def query_aware_rechunking(query, initial_chunks, max_context_size=2000):
# クエリの埋め込みを取得
query_embedding = get_embedding(query)
# 初期チャンクをクエリとの関連性でランク付け
ranked_chunks = rank_by_relevance(initial_chunks, query_embedding)
# 上位のチャンクを選択
top_chunks = ranked_chunks[:10]
# チャンク間の関係を分析
chunk_graph = build_chunk_relationship_graph(top_chunks)
# クエリに関連する最適なチャンクのサブセットを選択
# (最大コンテキストサイズ内で最も関連性の高いコンテンツをカバー)
optimal_chunks = select_optimal_chunk_subset(chunk_graph, max_context_size)
# 選択されたチャンクを再構成(必要に応じて結合または分割)
rechunked_content = restructure_chunks(optimal_chunks, query)
return rechunked_content
この手法は計算コストが高いですが、特に複雑なクエリや大規模なナレッジベースでは、検索精度を大幅に向上させることができます。
5.3 マルチモーダルコンテンツのチャンキング
テキストだけでなく、画像、表、コードなどを含むコンテンツのチャンキング:
def multimodal_chunking(document):
chunks = []
# ドキュメント内の異なる要素を特定
text_blocks = extract_text_blocks(document)
images = extract_images(document)
tables = extract_tables(document)
code_blocks = extract_code_blocks(document)
# テキストブロックをチャンキング
text_chunks = chunk_text(text_blocks)
# 各画像、表、コードブロックを関連するテキストと一緒にチャンキング
for image in images:
closest_text = find_closest_text(image, text_blocks)
chunks.append({
"type": "image_with_context",
"image": image,
"context_text": closest_text,
"position": image["position"]
})
# 同様に表とコードブロックを処理
# ...
# すべてのチャンクを文書内の位置順にソート
chunks = sorted(chunks, key=lambda x: x["position"])
return chunks
マルチモーダルチャンキングでは、以下の点が重要です:
- 非テキスト要素と関連テキストの関係を維持する
- 各モダリティに適した検索・インデックス化方法を使用する
- クロスモーダル参照(「以下の表を参照」など)を識別して保持する
5.4 日本語など特殊言語向けのチャンキング最適化
英語以外の言語、特に日本語のような分かち書きを使用しない言語には、特別な考慮が必要です:
def japanese_optimized_chunking(text, max_size=500):
import MeCab
# MeCabを使用して形態素解析
mecab = MeCab.Tagger("-Owakati")
# 文に分割(日本語の句点「。」で分割)
sentences = text.split('。')
chunks = []
current_chunk = []
current_size = 0
for sentence in sentences:
if not sentence:
continue
# 文末に句点を追加
sentence = sentence + '。'
# MeCabで分かち書きして単語数を計算
words = mecab.parse(sentence).split()
sentence_size = len(words)
# チャンクサイズを超える場合は新しいチャンクを開始
if current_size + sentence_size > max_size and current_chunk:
chunks.append(''.join(current_chunk))
current_chunk = [sentence]
current_size = sentence_size
else:
current_chunk.append(sentence)
current_size += sentence_size
# 最後のチャンクを追加
if current_chunk:
chunks.append(''.join(current_chunk))
return chunks
日本語などのアジア言語向けの最適化ポイント:
- 適切な形態素解析ツールを使用して単語境界を特定
- 文構造の違いを考慮したチャンクサイズの調整
- 言語固有の文脈マーカーを尊重(敬語表現、主題の省略など)
5.5 実装上の注意点とベストプラクティス
5.5.1 パフォーマンスの最適化
大規模なコーパスでチャンキングを実行する際の最適化:
def optimize_chunking_performance(large_corpus, chunking_function):
# 並列処理の活用
from multiprocessing import Pool
def process_document(doc):
return chunking_function(doc)
# 複数のCPUコアを使用して並列処理
with Pool(processes=os.cpu_count()) as pool:
chunked_corpus = pool.map(process_document, large_corpus)
return chunked_corpus
その他のパフォーマンス最適化テクニック:
- チャンキング前にドキュメントをフィルタリングして不要なコンテンツを除去
- インメモリキャッシュを使用して、同じまたは類似したコンテンツの再チャンキングを回避
- バッチ処理を実装して、I/Oボトルネックを削減
5.5.2 エラー処理とエッジケース
堅牢なチャンキングシステムには適切なエラー処理が不可欠です:
def robust_chunking(document, fallback_chunk_size=300):
try:
# 高度なチャンキング手法を試みる
chunks = semantic_aware_chunking(document)
# 結果の検証
if not validate_chunks(chunks):
raise ValueError("Semantic chunking produced invalid results")
return chunks
except Exception as e:
logger.warning(f"Advanced chunking failed: {e}. Falling back to simple chunking.")
# シンプルなフォールバックメソッドを使用
return simple_fixed_size_chunking(document, chunk_size=fallback_chunk_size)
考慮すべき主なエッジケース:
- 非常に長い/短いドキュメント
- 特殊文字や非標準フォーマットを含むテキスト
- 単一の論理単位が最大チャンクサイズを超える場合
- 複数言語が混在するドキュメント
5.5.3 チャンキングメタデータの標準化
効果的な検索とランキングのためのメタデータスキーマ:
def standardized_chunk_metadata(chunk, document_metadata, chunk_index):
return {
# チャンク識別情報
"chunk_id": f"{document_metadata['id']}_chunk_{chunk_index}",
"document_id": document_metadata["id"],
"position_in_document": chunk_index,
# コンテンツ特性
"chunk_size": len(chunk.split()),
"content_type": detect_content_type(chunk),
"language": detect_language(chunk),
# 構造情報
"section_path": extract_section_path(chunk, document_metadata),
"heading_hierarchy": extract_headings(chunk),
# セマンティック情報
"topics": extract_topics(chunk),
"entities": extract_entities(chunk),
"summary": generate_chunk_summary(chunk),
# 関係情報
"prev_chunk_id": f"{document_metadata['id']}_chunk_{chunk_index-1}" if chunk_index > 0 else None,
"next_chunk_id": f"{document_metadata['id']}_chunk_{chunk_index+1}",
"related_chunks": find_related_chunks(chunk, document_metadata["id"])
}
標準化されたメタデータは、チャンク間の関係を維持し、検索時のコンテキスト復元を容易にします。
6. チャンキング戦略の実際のユースケース
6.1 技術文書のチャンキング
APIドキュメント、技術マニュアル、コード関連ドキュメントなどの技術文書には、特別なチャンキング考慮事項があります:
def technical_documentation_chunking(document):
# コードブロックを特定
code_blocks = extract_code_blocks(document)
# セクション構造を解析
sections = parse_document_structure(document)
chunks = []
for section in sections:
# セクションに含まれるコードブロックを特定
section_code_blocks = [cb for cb in code_blocks if is_within_section(cb, section)]
# コードブロックを含むセクションは特別に処理
if section_code_blocks:
# 説明テキストとコードブロックを一緒に保持
for code_block in section_code_blocks:
surrounding_text = extract_text_around_code(code_block, section, context_size=300)
chunks.append({
"type": "code_with_context",
"code": code_block,
"explanation": surrounding_text,
"section": section["title"]
})
# コードブロック以外のテキストを通常のチャンキング
remaining_text = remove_code_blocks_from_text(section["content"])
if remaining_text:
text_chunks = chunk_text_content(remaining_text)
chunks.extend(text_chunks)
else:
# 通常のテキストチャンキングを適用
text_chunks = chunk_text_content(section["content"])
chunks.extend(text_chunks)
return chunks
技術文書チャンキングのベストプラクティス:
- コードと説明テキストを一緒に保持する
- 専門用語や変数名などが分断されないようにする
- コード例と実装詳細のセクションを区別する
- APIリファレンス情報の整合性を維持する
6.2 法律文書のチャンキング
法律文書には厳格な構造があり、相互参照が多いという特徴があります:
def legal_document_chunking(document):
# 法的構造(条項、項、号など)を解析
structure = parse_legal_structure(document)
# 参照マッピングを構築
reference_map = build_reference_map(document)
chunks = []
# 各構造単位をチャンクとして処理
for unit in structure:
# ユニットが大きすぎる場合は分割
if is_unit_too_large(unit):
sub_chunks = split_legal_unit(unit)
# 各サブチャンクに参照情報を付与
for sub in sub_chunks:
references = find_references_for_chunk(sub, reference_map)
sub["references"] = references
chunks.extend(sub_chunks)
else:
# 参照情報を付与
references = find_references_for_chunk(unit, reference_map)
unit["references"] = references
chunks.append(unit)
return chunks
法律文書チャンキングの重要なポイント:
- 法的条項の整合性を保持する
- 相互参照情報をメタデータとして含める
- 定義セクションと参照セクションの関係を維持する
- 階層構造(法律→章→条→項→号)を適切に反映する
6.3 長文コンテンツのチャンキング
本、論文、長いレポートなど、長文コンテンツには特別なアプローチが必要です:
def long_form_content_chunking(document, levels=["chapter", "section", "subsection"]):
# 文書構造を階層的に解析
hierarchy = parse_document_hierarchy(document, levels)
# 章レベルのサマリーを生成
chapter_summaries = {}
for chapter in hierarchy["chapter"]:
summary = generate_summary(chapter["content"])
chapter_summaries[chapter["id"]] = summary
chunks = []
# サブセクションレベルでチャンキング
for chapter in hierarchy["chapter"]:
for section in chapter["sections"]:
for subsection in section["subsections"]:
# 適切なサイズのチャンクに分割
subsection_chunks = chunk_by_paragraphs(subsection["content"])
# 各チャンクにコンテキスト情報を追加
for chunk in subsection_chunks:
chunk["chapter"] = chapter["title"]
chunk["chapter_summary"] = chapter_summaries[chapter["id"]]
chunk["section"] = section["title"]
chunk["subsection"] = subsection["title"]
chunk["hierarchy_path"] = f"{chapter['id']}/{section['id']}/{subsection['id']}"
chunks.extend(subsection_chunks)
return chunks
長文コンテンツのチャンキングで重視すべき点:
- 階層構造を活用してコンテキストを保持する
- 上位レベルの要約を下位チャンクのメタデータとして含める
- 章や節の中での相対的な位置情報を保持する
- 内部参照(「第3章で述べたように...」など)を解析して含める
7. チャンキング戦略の将来的展望
7.1 LLMベースのチャンキング最適化
最新の大規模言語モデルを活用したチャンキング最適化:
async def llm_optimized_chunking(document):
from openai import OpenAI
client = OpenAI()
# 文書を予備チャンキング
preliminary_chunks = simple_chunking(document)
optimized_chunks = []
for chunk in preliminary_chunks:
# LLMを使用してチャンクの最適な分割点を特定
response = await client.chat.completions.create(
model="gpt-4",
messages=[
{"role": "system", "content": "あなたはRAGシステムのためのチャンキング最適化アシスタントです。与えられたテキストを意味的なまとまりを保持しつつ、最も効果的な分割点を特定してください。"},
{"role": "user", "content": f"以下のテキストを検索と生成に最適な単位に分割してください。各チャンクは意味的に完結し、重要な文脈を失わないようにしてください。:\n\n{chunk}"}
]
)
# LLMの提案に基づいてチャンクを最適化
optimized_chunk_text = response.choices[0].message.content
# 提案された分割点でチャンクを分割
sub_chunks = parse_llm_chunking_suggestion(optimized_chunk_text)
optimized_chunks.extend(sub_chunks)
return optimized_chunks
LLMベースのチャンキングは計算コストが高いですが、特に複雑なドメイン固有の内容や構造的に特殊なドキュメントに対して優れた結果を提供できます。
7.2 自己最適化チャンキング
検索結果のフィードバックに基づいて自動的にチャンキング戦略を調整するシステム:
class SelfOptimizingChunker:
def __init__(self, initial_strategy_params):
self.strategy_params = initial_strategy_params
self.performance_history = []
def chunk_document(self, document):
# 現在のパラメータでチャンキング
return apply_chunking_strategy(document, self.strategy_params)
def record_search_performance(self, query, retrieved_chunks, user_feedback):
# 検索パフォーマンスを記録
performance = {
"query": query,
"chunks": retrieved_chunks,
"user_feedback": user_feedback,
"strategy_params": self.strategy_params.copy()
}
self.performance_history.append(performance)
# 一定数のデータが集まったら最適化を実行
if len(self.performance_history) >= 100:
self.optimize_strategy()
def optimize_strategy(self):
# パフォーマンス履歴に基づいてパラメータを最適化
optimal_params = analyze_performance_patterns(self.performance_history)
# パラメータを更新
self.strategy_params = optimal_params
# 更新されたパラメータでインデックスを再構築するシグナルを送信
trigger_reindexing_with_new_params(self.strategy_params)
自己最適化システムは、実際のユーザークエリと検索パターンに基づいてチャンキング戦略を継続的に改善します。
7.3 マルチステージチャンキングパイプライン
単一のチャンキング方法ではなく、複数のステージを組み合わせたパイプライン:
def multi_stage_chunking_pipeline(document):
# ステージ1: 構造認識(見出し、セクションなど)
structural_chunks = structural_chunking(document)
# ステージ2: セマンティックチャンキング(意味的まとまり)
semantic_chunks = []
for struct_chunk in structural_chunks:
sub_chunks = semantic_chunking(struct_chunk["content"])
# 構造情報を維持
for sub in sub_chunks:
sub["structural_metadata"] = struct_chunk["metadata"]
semantic_chunks.extend(sub_chunks)
# ステージ3: 拡張とオーバーラップの最適化
enhanced_chunks = []
for sem_chunk in semantic_chunks:
# コンテキストを拡張
context_enhanced = enhance_with_context(sem_chunk, semantic_chunks)
# エンティティ情報を追加
entity_enhanced = add_entity_metadata(context_enhanced)
enhanced_chunks.append(entity_enhanced)
# ステージ4: 検索最適化のためのインデックスヒント付与
for chunk in enhanced_chunks:
add_indexing_hints(chunk)
return enhanced_chunks
マルチステージアプローチの利点:
- 各ステージは特定のタスクに集中し、より高品質な結果を提供
- モジュラー設計により、個々のステージを独立して改善可能
- ドメインやドキュメントタイプに応じてパイプラインをカスタマイズ可能
結論
効果的なチャンキング戦略はRAGシステムの性能を大きく左右します。本記事で解説した以下のアプローチを組み合わせることで、より正確で文脈を保持した検索結果を実現できます:
- 適切なチャンクサイズの決定: ドメイン、コンテンツタイプ、使用するモデルに適したサイズを選択
- オーバーラップの戦略的活用: チャンク間の連続性を確保し、重要な情報の検索可能性を向上
- 意味論的・構造的一貫性の維持: 単なる文字数ではなく、内容の意味的まとまりを尊重
- 豊富なメタデータの付与: 検索とランキングを強化するためのコンテキスト情報を保持
- 継続的な評価と最適化: 実際の使用パターンに基づいてチャンキング戦略を調整
実装においては、パフォーマンスと精度のバランスを取りながら、ドメインやユースケースに特化したアプローチを採用することが重要です。最終的には、単一の「正解」はなく、特定のアプリケーションとコンテンツに最適な戦略を見つけるための継続的な実験と改善が成功への鍵となります。
Discussion