Q9.AI向けデータパイプラインは、最低限どんな構成が必要ですか?
回答
取り込み(Extract)→ 変換・チャンク化(Transform)→ 埋め込みとインデックス(Load)→ 監視・再処理、のETL/ELTに加え、失敗時のリトライとデータ系譜(どの版から来たか)の記録が必要です。
パイプラインは一度作って終わりではなく、ソース追加・形式変更・モデル更新に耐える設計が求められます。取り込みは、ファイルストレージ、CMS、Confluence、SharePoint、チケットシステムなどコネクタを標準化します。変換段階で、PIIマスキング、文字コード統一、表のMarkdown化、メタデータ付与を行います。Load段階で埋め込み生成とベクトルDB upsert/deleteを行い、ドキュメントIDとソース版を紐づけます。監視では、処理遅延、失敗率、インデックス件数のドリフト、埋め込みモデルバージョンをアラート対象にします。本番では、ステージングインデックスで検証してからスワップするブルーグリーンデプロイも有効です。
- ●Extract: コネクタと増分取得(CDC/イベント)
- ●Transform: チャンク、メタデータ、PII処理
- ●Load: 埋め込み、インデックス、系譜・監視