Q4.LLMアプリケーションのオブザーバビリティは、何を計測すべきですか?
回答
インフラメトリクスに加え、プロンプト版、トークン、レイテンシ、ツール呼び出し、ユーザー修正率、評価スコアをトレース単位で紐づけます。ログにPIIをそのまま載せない設計が前提です。
従来のAPMだけでは、なぜ回答が悪化したかが追えません。1リクエストをトレースIDで束ね、system/userプロンプトのハッシュ、使用モデル、入出力トークン数、各ステップのレイテンシ、RAGで引いたチャンクID、ツールの成功/失敗を記録します。品質面では、ユーザーの再生成・編集・低評価、エスカレーション発生をイベントとして取ります。ダッシュボードは、エラー率・p95レイテンシ・コスト/DAU・品質指標の4系統を並べ、モデルやプロンプト変更と時系列で突き合わせられるようにします。本番ログはマスキング・サンプリング・保持期間をポリシー化し、デバッグ用の詳細トレースはステージングや同意済みセッションに限定する運用が一般的です。
- ●技術: トレースID、トークン、ステップレイテンシ、ツール結果
- ●品質: 再試行、編集率、評価セット上のスコア
- ●ガバナンス: マスキング、保持期間、アクセス権