Q10.ナレッジベースに個人情報(PII)が含まれる場合、どう扱うべきですか?
回答
原則はインデックス前の検出・マスキング・除外、ロールに応じた検索フィルタ、ログと生成物への再流出防止です。PIIをそのまま外部LLMに送らない設計が前提になります。
人事評価、顧客対応履歴、医療・金融データなどがナレッジ源に混ざると、検索結果として他部門に見える、プロンプトに載る、ログに残る、といったリスクがあります。対策は、取り込み時のPIIスキャンと自動マスキング、機密区分メタデータによるアクセス制御、部門別インデックスの分離、オンプレまたはVPC内推論です。マスキングしすぎると検索精度が落ちるため、業務上必要な識別子(案件IDなど)と除去すべき項目(氏名・住所)をデータ分類ポリシーで定義します。法務・個情法の観点では、利用目的、第三者提供、学習利用の有無も契約とポリシーで明確にしてください。
- ●取り込み: 検出・マスキング・除外ルール
- ●検索: ロール/部門フィルタ、テナント分離
- ●推論: データ residency、ログのマスキング
「とりあえず全部インデックス」は後から削除・再構築が困難になるため、最初から分類してから取り込む方が安全です。