Q3.プロンプトインジェクションとは何で、どう緩和しますか?
回答
ユーザー入力や外部文書に「以前の指示を無視せよ」などの命令が混ざり、システムの意図した動作を上書きする攻撃です。信頼境界の分離・入力検証・権限最小化・人の確認でリスクを下げます。
RAGやメール要約のように「信頼できないテキスト」をモデルに渡す業務では、システムプロンプトとユーザーコンテンツの境界が曖昧だと被害が広がります。対策は、外部データを「指示」ではなく「参照資料」としてラップする、ツール実行(メール送信・ファイル削除など)に別承認を挟む、高権限アクションはエージェントから切り離すことです。完全防御は難しいため、被害想定(情報漏えい・誤送信)ごとに検知ルールとインシデント手順を用意します。
- ●信頼できない入力は別チャネル・別ロールで処理
- ●ツール呼び出しは許可リストとパラメータ検証
- ●重要操作は人間の二段階確認
「モデルが賢いから大丈夫」は前提にしないでください。攻撃は業務データ経由で入ります。