Q19.音声エージェント(Voice Agent)を業務に使う際の設計ポイントは?
回答
音声は「双方向・リアルタイム・割り込み」が前提になるため、テキストチャットより状態管理とエラー処理が重要です。用途はFAQ案内や予約受付など短いタスクに絞り、認識精度・方言・雑音・個人情報の読み上げリスクを先に評価します。
音声エージェントは、STT(音声認識)→ LLM推論 → TTS(音声合成)のパイプラインで構成され、各段階のレイテンシが体験品質を左右します。設計では、ユーザーが話し途中で訂正できる割り込み処理、聞き取れなかった場合の確認フロー、機微情報を音声で返さないマスキングルールを必須にします。コールセンター連携では、IVRとの役割分担(定型はIVR、曖昧な問い合わせはエージェント)を決め、通話録音・同意取得・ログ保存の法務要件もセットで確認します。評価は文字起こし精度だけでなく、タスク完了率と平均通話時間、人へのエスカレーション率で行うと実務に即します。
- ●STT→LLM→TTSのレイテンシと割り込み処理
- ●機微情報の読み上げ禁止・確認フロー
- ●評価: タスク完了率・通話時間・エスカレーション率