2026 年中文 Embedding 模型选型指南

为什么 Embedding 选型很重要 RAG 系统的天花板在很大程度上由 Embedding 模型决定。Embedding 不准,后面的 Rerank 和生成再厉害也救不回来。 中文场景比英文复杂:词的边界模糊、同义词多、行业术语差异大,对模型的理解力要求更高。 下面整理目前(2026 年初)值得选用的中文 Embedding 模型,按使用场景分类。 通用首选:BGE 系列 智源(BAAI)出品,目前中文 Embedding 的事实标准。 主力型号: bge-large-zh-v1.5:1024 维,1.3GB,通用场景最佳 bge-base-zh-v1.5:768 维,400MB,性能/速度平衡 bge-small-zh-v1.5:512 维,100MB,资源受限场景 特点: C-MTEB 中文榜单长期前列 训练数据覆盖广,开箱即用 HuggingFace、ModelScope 都有,部署友好 典型用法: from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-large-zh-v1.5') embeddings = model.encode(texts, normalize_embeddings=True) 注意:BGE 在做相似度查询时,建议给 query 加前缀 "为这个句子生成表示以用于检索相关文章:",能提升 1-2 个点。 多语言场景:BGE-M3 如果业务有跨语言需求(中英混合查询、跨语言检索),BGE-M3 是最强选择。 核心特点: 同时支持稠密向量、稀疏向量、ColBERT-style 多向量 100+ 语言原生支持 单模型出三种检索信号,下游融合方便 适合场景: 跨境电商、出海业务 中英文混合的技术文档检索 需要多路召回的高级 RAG 系统 高性能选择:GTE 系列 阿里通义出品,性能在某些 benchmark 上反超 BGE。 ...

March 12, 2026 · 2 min · Lengku