Q15.学習・参照データの品質をどう担保しますか?
回答
データの出所、更新日、権限、重複・矛盾の有無を整理し、定期的なクレンジングプロセスを設けます。RAGでは「検索に載せるべきでない文書」を明示的に除外するホワイトリスト/ブラックリスト管理も有効です。
データ品質問題はエージェントの誤回答の根源になります。社内WikiやPDFには古い版、誤記、部門間で矛盾する記述が混在しがちです。メタデータに版数・承認日・所有者を付与し、検索時に最新版のみを優先するルールを設けます。個人情報や機密区分のラベリングを徹底し、エージェントの権限とデータラベルの整合を取ります。品質担保の運用として、四半期ごとのドキュメント棚卸し、ユーザーからの「誤回答報告」→ナレッジ修正のチケットフロー、評価セットへの反映を回します。自動生成データをそのまま投入せず、サンプリング監査でファクトチェックするガバナンスも重要です。
- ●版管理・メタデータ・機密ラベルの整備
- ●古い・矛盾する文書の棚卸しと除外ルール
- ●誤回答報告からナレッジ修正までの運用フロー