Q3.埋め込み(Embedding)モデルは、どう選べばよいですか?
回答
日本語・ドメイン語彙への適合、次元数とコスト、ベクトルDBとの互換性、更新頻度の4点で比較します。最初は汎用の多言語モデルでベースラインを取り、不足が出た領域だけ再検討するのが現実的です。
埋め込みモデルは、テキストを数値ベクトルに変換し、意味的な類似度検索の基盤になります。社内規程や医療・製造など専門用語が多い場合、汎用モデルでリコールが足りないことがあります。その場合、ドメイン適応モデルや、クエリ・文書用に別モデルを使う非対称埋め込みを検討します。一方、モデルを変えるたびに全インデックスの再計算が必要なため、選定後の変更コストは大きいです。評価では、同じ検索クエリセットでRecall@KやMRRを比較し、レイテンシとAPI/自前推論コストも含めて判断してください。
- ●評価軸: 日本語性能、専門語、次元数、推論コスト
- ●変更コスト: モデル変更=再インデックスが基本
- ●非対称埋め込み: クエリ用と文書用でモデルを分ける手法もある