Q17.コストとレイテンシのトレードオフは、プロダクトでどう決めますか?
回答
ジョブごとにSLO(応答時間)と1リクエスト予算を定義し、モデルサイズ・RAGの深さ・キャッシュ・要約の前処理で調整します。全機能に最上位モデルは不要です。
コスト最適化は後追いではなく、設計の一部です。リアルタイムチャットは小さいモデル+厳しいトークン上限、バッチ分析は大きいモデル、といった役割分担が有効です。RAGでは、検索件数K、リランキングの有無、チャンク長がトークンと品質の両方に効きます。キャッシュ(同一質問、埋め込み、検索結果)と、会話履歴の要約圧縮で変動費を抑えられます。PdMは「品質が落ちたときユーザーが困るか」を基準に、安い構成で足りる画面を選びます。経営向けには、DAUあたり推論コストと、機能別のマージン試算をダッシュボード化すると、投資判断がしやすくなります。
- ●設計: ジョブ別SLOと1リクエスト予算、モデルの役割分担
- ●技術: K値・リランク・キャッシュ・履歴圧縮
- ●意思決定: 品質影響の大きい画面だけ高コスト構成