Q15.生成結果の品質評価は、どの指標で行えばよいですか?
回答
正確性・完全性・トーン・安全性の業務別 rubric と、人間レビューのサンプリングが基本です。「便利そう」という主観だけでは本番判断できません。
評価セットは、実際の業務入力に近い匿名データで50〜200例程度から始め、正解(期待出力またはチェック項目)を人が用意します。自動指標(BLEU等)だけでは業務適合性は測れないため、担当者による5段階評価や、重大エラー(事実誤り、機密漏えい、禁止表現)の有無を記録します。本番では、利用ログから修正率(人がどれだけ直したか)、却下率、処理時間を追い、モデル・プロンプト・ナレッジ更新のたびに再評価します。A/Bテストは可能ですが、顧客向け本文では倫理・法務の承認を得てから行ってください。
- ●オフライン: 正解付きテストセット+重大エラー率
- ●オンライン: 修正率、承認リードタイム、エスカレーション件数
- ●改善: 失敗例のタグ付け(幻覚、トーン、漏洩)