Q18.データ・ナレッジ基盤は、段階的にどの順で整備していくのが現実的ですか?
回答
1業務・1データセットに絞り、Data Readiness → チャンク/メタデータ → 評価セット → パイプライン自動化 → 権限・鮮度・監視の順で広げます。全社横断の完璧な基盤を待たずに、再利用可能な部品を積み上げる進め方が成功しやすいです。
いきなり全社Wikiと全ファイルサーバを対象にすると、品質とガバナンスで止まります。まず、問い合わせが多く正解例が揃っている領域(例: 情シスFAQ、製品マニュアル)を選び、ゴールドデータセットと評価クエリを20〜50件用意します。手動インデックスでリコールを確認した後、ETL自動化、PIIルール、RBAC、鮮度SLAを順に足します。第2フェーズで隣接ソースを追加し、タクソノミーとマスタ連携を標準化します。横断CoEは、共通スキーマ(メタデータ、document_id)、共通評価テンプレ、埋め込みモデル方針を決め、部門ごとの乱立を防ぎます。各段階で「検索品質」「運用工数」「セキュリティインシデント」をレビューし、拡大可否を判断するゲートを設けると、投資対効果が見えやすくなります。
- ●Phase1: 単一ユースケース、手動+評価セット
- ●Phase2: パイプライン、PII、RBAC、鮮度
- ●Phase3: 横展開、タクソノミー/マスタ標準化
基盤整備は「完成してからAI」ではなく、評価可能な小さなループを回しながら同時進行するのが現場では機能します。