Q11.ナレッジ検索の品質は、どんな指標で測ればよいですか?
回答
検索段階ではRecall@K・MRR・nDCG、生成段階では正答率・根拠一致率・ハルシネーション率を分けて測ります。現場の代表クエリセットを定期更新することが、指標の信頼性を決めます。
品質評価でよくある誤りは、LLM回答の主観評価だけを見て、検索が外れている根本原因を見逃すことです。まず、各クエリに対し「正解ドキュメント(またはチャンク)ID」を人間が付けた評価セットを作り、検索パイプライン単体のRecall@5などを測ります。RAG全体では、回答が根拠段落と一致しているか(faithfulness)、ユーザーが業務上受け入れられるか(有用性)を別スコアにします。運用中は、クリック率、エスカレーション率、「役に立たない」フィードバックを収集し、週次で失敗クエリをレビューするループが定着の鍵です。A/Bテストでチャンクサイズやリランキングを比較すると、改善の優先順位が明確になります。
- ●検索: Recall@K、MRR、フィルタ後のヒット率
- ●生成: 根拠一致、完全性、有害/誤情報率
- ●運用: フィードバック、失敗クエリの定期レビュー