Q14.AI向けETLで、従来のDW/BI向けETLと違う点は?
回答
出力が集計テーブルではなくチャンク・埋め込み・メタデータになり、テキスト化・PII処理・系譜管理が中心です。バッチだけでなく、イベント駆動の差分更新と、再インデックスのコスト見積もりが重要になります。
従来ETLは、スキーマ整合と集計性能が焦点でした。AI向けでは、非構造ソースのテキスト抽出品質(表・脚注・ヘッダー/footerの除去)がボトルネックになります。また、同じソースから複数チャンクが生まれるため、document_id・chunk_id・source_version といった系譜を残さないと、削除・更新時にゴーストデータが残ります。埋め込みモデル変更時は全量再計算が必要になるため、ETLジョブに「再埋め込みモード」とコスト上限を設計します。品質面では、BIのように単一真値を求めるのではなく、検索評価セットでのリコール改善を成功指標にする点が異なります。
- ●出力: チャンク、ベクトル、リッチメタデータ
- ●品質: テキスト抽出、PII、重複排除
- ●運用: 差分更新、再埋め込み、系譜・版管理