Q6.ナレッジ検索(RAG)の設計で重要なポイントは?
回答
ドキュメントの分割方法、メタデータ、検索方式(ベクトル・キーワード・ハイブリッド)の選定が精度を左右します。ユーザーが実際に聞く言い回しに近い評価クエリで、検索結果の適合率を測ることが不可欠です。
RAGの品質はLLM以前に、検索パイプラインの設計で決まることが多いです。チャンクは小さすぎると文脈が欠け、大きすぎるとノイズが増えます。部門・版数・有効期限などのメタデータでフィルタリングできると、古い規程や無関係な資料の混入を防げます。ベクトル検索だけでは固有名詞やコード番号に弱いため、BM25などのキーワード検索と組み合わせたハイブリッド検索が実務では有効なことが多いです。さらに、取得したチャンクをそのまま渡すのではなく、リランキングモデルで再順位付けすると回答精度が上がるケースもあります。設計段階で「正解ドキュメントが上位K件に入るか」を測るリコール評価を必ず行いましょう。
- ●チャンク設計とメタデータ(版、部署、日付)
- ●ハイブリッド検索 + リランキングの検討
- ●Recall@K を評価セットで継続モニタリング