Q11.LLMアプリケーションの負荷試験は、何を重点的に見ますか?
回答
同時接続、トークン長、RAGの検索QPS、ツール連鎖の深さ、レート制限とキューイングを組み合わせたシナリオで、p95レイテンシとエラー率・コスト上限を測ります。
LLMは従来APIより遅く、コストも変動するため、平均応答時間だけでは足りません。シナリオは、短い質問、長文添付、エージェントの多段ツール呼び出し、ピーク時のバッチ処理を分けます。ボトルネックはモデルAPI、ベクトルDB、自社のワーカー、下流の基幹APIのいずれかに現れます。試験では、プロバイダのTPM/RPM制限に当たったときの挙動(リトライ、指数バックオフ、ユーザーへのメッセージ)を確認します。コスト試験では、1日あたりの最大トークンと予算アラートが機能するかを同時に検証します。本番前に、サーキットブレーカーと優先キュー(有料ユーザー優先など)のポリシーを決めておくと、障害時の被害が限定されます。
- ●シナリオ: 短文・長文・多段エージェント・バッチ
- ●指標: p95レイテンシ、エラー率、TPM枯渇時の挙動、コスト
- ●対策: キュー、サーキットブレーカー、優先度付き処理