Q14.エージェントの評価指標には何を設定すべきですか?
回答
タスク完了率、正確性、完全性、レイテンシ、コスト、有害出力率など、用途に応じた指標セットを定義します。自動評価(LLM-as-a-Judge)と人間評価を組み合わせるのが一般的です。
評価は単一スコアではなく、多次元で見る必要があります。情報検索型なら引用の正確性(Faithfulness)と回答の適切性(Answer Relevance)、業務処理型ならタスク成功率とAPI呼び出しの正しさ(Tool Accuracy)が重要です。エージェント特有の指標として、不要なループ回数、ツールの誤選択率、エスカレーション率も有用です。LLM-as-a-Judgeはスケールしやすい反面、バイアスがあるため、ゴールドデータに対する人間評価を定期的に挟みます。CI/CDパイプラインに評価セットを組み込み、プロンプトやナレッジ更新のたびに回帰テストを走らせると、本番品質の劣化を早期検知できます。
- ●正確性・完全性・Faithfulness・Tool Accuracy
- ●運用指標:レイテンシ、コスト、エスカレーション率
- ●回帰テストをリリースプロセスに組み込む