Q8.データ整備コストは、AI予算にどう組み込むべきですか?
回答
「データは既にある」前提は危険です。クレンジング、ラベリング、マスキング、カタログ整備、パイプライン構築をユースケースの20〜50%相当の工数として見込むのが現実的な幅です。
データコストはAI以前の負債(サイロ化、重複マスタ、古いPDF)を表面化させます。RAGならチャンク設計、メタデータ付与、更新パイプライン、権限フィルタが必要です。教師あり学習ならラベリングと品質管理の継続費用がかかります。外部データ購入や匿名化処理、法務レビューも忘れがちです。データ投資は複数ユースケースで再利用できるため、共通データ基盤として別プロジェクト化し、按分ルール(利用部門へのチャージ)を決めると会計処理が明確になります。PoCでサンプルデータだけ整備し、本番データは未見積もり、というパターンが最も予算超過の原因になります。
- ●一回: 棚卸し、品質診断、PIIマスキング、ゴールドセット作成
- ●継続: 更新ジョブ、ドリフト検知、オーナー部門のレビュー工数
- ●共有: データ基盤コストを複数AI案件で按分