Q2.RAG向けのドキュメントチャンク(分割)は、どう設計すればよいですか?
回答
「検索でヒットさせたい粒度」と「LLMに渡したとき文脈が足りる粒度」のバランスで決めます。固定文字数だけで切らず、見出し・段落・表など文書構造を活かした分割が有効なことが多いです。
チャンクが小さすぎると、前提や結論が別チャンクに分離され、回答に必要な文脈が欠けます。大きすぎると、無関係な段落が混ざり検索ノイズが増えます。実務では、MarkdownやHTMLの見出し階層、PDFの章立て、FAQの1問1答単位など、意味的な境界で分割し、必要に応じてオーバーラップ(前後数文の重複)を入れます。表や手順書は、行単位ではなく「手順ブロック」単位にまとめると検索精度が上がることがあります。設計後は、代表クエリに対して正解チャンクが上位に来るかを評価セットで測り、サイズと分割ルールを反復調整します。
- ●構造ベース分割: 見出し、FAQ、手順ブロック
- ●サイズ目安: 数百〜千トークン程度から試し、評価で調整
- ●オーバーラップ: 境界で文脈が切れる場合に有効