Q16.AI機能のリリース品質ゲート(評価基準)は、何を閾値にしますか?
回答
ユースケースごとにオフライン指標(正答・完全性・有害出力)とオンライン指標(修正率・エスカレーション率)の下限を決め、プロンプト・モデル・索引のいずれかが変わったら必ず再実行します。
品質ゲートは一律の「90%正答」では機能しません。分類・抽出はF1、生成はルーブリック評価+人間サンプリング、エージェントはタスク成功率とツール誤呼び出し率を分けます。リリースブロッカーにするのは、ベースライン比の悪化、禁止カテゴリの出力、レイテンシ・コストの予算超過です。閾値はPdMとエンジニアで合意し、例外承認(リスク受容の記録)のプロセスを残します。本番投入後も、最初の72時間は監視を厚くし、自動ロールバック条件を事前に定義しておくと安全です。
- ●オフライン: タスク別指標、禁止出力、ベースライン比較
- ●オンライン: 修正率、エスカレーション、コスト・レイテンシ
- ●運用: 例外承認、リリース直後の厚い監視とロールバック条件