Q6.AI機能のA/Bテストは、従来のUIテストと何が違いますか?
回答
出力が確率的で、同じ入力でも結果がぶれます。指標はクリック率だけでなく、タスク完了率・修正率・レイテンシ・コストも見ます。サンプルサイズと倫理・公平性の確認が必要です。
UIの色変更と違い、LLMの変更は「品質の分布」が変わります。比較するには、同じ評価クエリセットでのオフライン評価と、本番でのオンライン指標を併用します。オンラインでは、業務成果(承認までの時間、チケット再オープン率)を一次指標にし、CTRだけに依存しない設計にします。統計的には、効果量が小さいことが多いので、期間を長めに取るか、クラスタ単位(チーム・店舗)で割り付ける方法も検討します。注意点として、個人情報を含むプロンプトを実験ログに残さない、弱いモデルを特定ユーザーに偏って割り当てない、実験終了後に負けた版のナレッジを残す、といった運用ルールが必要です。倫理面では、高リスク業務(医療・採用・与信)ではA/Bより人間レビュー必須の方が適切な場合があります。
- ●指標: 業務KPI、修正率、コスト、レイテンシをセットで
- ●方法: オフライン評価+オンライン、十分な期間・サンプル
- ●注意: ログのPII、割り付けの公平性、高リスク業務の扱い