Embedding

为什么 Embedding 选型很重要 RAG 系统的天花板在很大程度上由 Embedding 模型决定。Embedding 不准，后面的 Rerank 和生成再厉害也救不回来。中文场景比英文复杂：词的边界模糊、同义词多、行业术语差异大，对模型的理解力要求更高。下面整理目前（2026 年初）值得选用的中文 Embedding 模型，按使用场景分类。通用首选：BGE 系列智源（BAAI）出品，目前中文 Embedding 的事实标准。主力型号： bge-large-zh-v1.5：1024 维，1.3GB，通用场景最佳 bge-base-zh-v1.5：768 维，400MB，性能/速度平衡 bge-small-zh-v1.5：512 维，100MB，资源受限场景特点： C-MTEB 中文榜单长期前列训练数据覆盖广，开箱即用 HuggingFace、ModelScope 都有，部署友好典型用法： from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-large-zh-v1.5') embeddings = model.encode(texts, normalize_embeddings=True) 注意：BGE 在做相似度查询时，建议给 query 加前缀 "为这个句子生成表示以用于检索相关文章："，能提升 1-2 个点。多语言场景：BGE-M3 如果业务有跨语言需求（中英混合查询、跨语言检索），BGE-M3 是最强选择。核心特点：同时支持稠密向量、稀疏向量、ColBERT-style 多向量 100+ 语言原生支持单模型出三种检索信号，下游融合方便适合场景：跨境电商、出海业务中英文混合的技术文档检索需要多路召回的高级 RAG 系统高性能选择：GTE 系列阿里通义出品，性能在某些 benchmark 上反超 BGE。 ...