Q11.AIサービスをスケールするとき、コストはどう増えていきますか?
回答
利用量に比例する部分(トークン、ストレージ)と、段階的にジャンプする部分(SLA向上、冗長化、専任SRE)に分かれます。ユーザー数2倍がコスト2倍とは限らず、キャッシュと効率化で伸びを鈍化させられます。
スケールカーブを描く際は、横軸に月間リクエスト数またはアクティブユーザー、縦軸に月額コストを取ります。初期は固定費(開発環境、最低限のインフラ)が支配的で、利用増に伴い従量課金が支配的になります。一定閾値を超えると、マルチリージョン、専有キャパシティ、24/7サポートなどのステップコストが発生します。コスト最適化は、アーキテクチャ段階(バッチ化、非同期、結果キャッシュ)と、ビジネス段階(利用上限、プレミアム tier)の両方で行います。CFOには「スケール単価(1リクエストあたり限界コスト)」の推移を示すと、粗利構造の議論に繋がります。
- ●比例費: API、ベクトル検索、ログ保管
- ●段階費: HA構成、専任運用、エンタープライズSLA
- ●対策: キャッシュ、キューイング、オフピークバッチ