<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>AI 拾遗笔记</title><link>https://bloge.oya.moe/</link><description>Recent content on AI 拾遗笔记</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Wed, 15 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://bloge.oya.moe/index.xml" rel="self" type="application/rss+xml"/><item><title>大模型推理优化的几个关键技术点</title><link>https://bloge.oya.moe/posts/llm-inference-optimization/</link><pubDate>Wed, 15 Apr 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/llm-inference-optimization/</guid><description>&lt;h2 id="为什么推理优化越来越重要"&gt;为什么推理优化越来越重要&lt;/h2&gt;
&lt;p&gt;训练一次大模型成本高，但跑起来之后每天都要服务大量用户，长期来看推理成本远高于训练成本。一个 70B 模型如果用 FP16 直接跑，单卡 A100 80G 都装不下，更不用说提供低延迟服务。所以&lt;strong&gt;推理优化不是锦上添花，而是落地的前提&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;下面整理几个工程上最常用、收益最显著的优化方向。&lt;/p&gt;
&lt;h2 id="1-kv-cache-是性能的核心"&gt;1. KV Cache 是性能的核心&lt;/h2&gt;
&lt;p&gt;Transformer 自回归生成时每生成一个 token 都要重新计算所有历史 token 的 K 和 V，这是 O(n²) 的浪费。&lt;strong&gt;KV Cache&lt;/strong&gt; 把之前算过的 K/V 缓存下来，每步只算新 token 的 K/V，复杂度降到 O(n)。&lt;/p&gt;
&lt;p&gt;但 KV Cache 本身会吃巨量显存：一个 13B 模型、序列长度 4K、batch 16，KV Cache 就要十几 GB。所以衍生出一系列优化：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;PagedAttention&lt;/strong&gt;（vLLM 提出）：把 KV Cache 按&amp;quot;页&amp;quot;管理，避免连续显存碎片化，吞吐能提 2-4 倍&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;GQA / MQA&lt;/strong&gt;：让多个 Query Head 共享同一组 K/V Head，KV Cache 大小直接砍几倍，Llama 3 就用了 GQA&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;量化 KV Cache&lt;/strong&gt;：把 KV Cache 从 FP16 量化到 INT8 甚至 INT4，显存减半但精度损失很小&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="2-量化用精度换显存和速度"&gt;2. 量化：用精度换显存和速度&lt;/h2&gt;
&lt;p&gt;权重量化的核心思路是：模型权重是 FP16 (16 bit)，但实际有效信息可能只需要 4 bit 就能表达。常见方案：&lt;/p&gt;</description></item><item><title>做了一年 RAG 项目，总结的几条避坑经验</title><link>https://bloge.oya.moe/posts/rag-best-practices/</link><pubDate>Fri, 10 Apr 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/rag-best-practices/</guid><description>&lt;h2 id="写在前面"&gt;写在前面&lt;/h2&gt;
&lt;p&gt;过去一年深度参与了三个生产级 RAG 系统的搭建，从最初的 demo 到稳定服务百万级查询，踩过的坑足够写本书。这里挑几条最有共鸣的经验。&lt;/p&gt;
&lt;h2 id="1-文档切分策略远比你想的重要"&gt;1. 文档切分策略远比你想的重要&lt;/h2&gt;
&lt;p&gt;很多人直接 &lt;code&gt;RecursiveCharacterTextSplitter&lt;/code&gt; 切 500 字一段就完事了，效果当然不好。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;真正有效的切分原则&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;按语义边界切&lt;/strong&gt;：标题、段落、列表项是天然分割点。Markdown 文档优先按标题层级切（H1/H2/H3），保留上下文层级&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;保留元数据&lt;/strong&gt;：每个 chunk 至少要带：文档来源、章节标题路径、原始位置。检索时这些都是重要信号&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;重叠策略&lt;/strong&gt;：chunk 之间保留 10-20% 重叠，避免把关键信息切在边界&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;chunk 大小自适应&lt;/strong&gt;：FAQ 类用 200-400 token，技术文档用 500-800 token，叙述性文档用 1000+ token&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;实测：从&amp;quot;无脑切 500&amp;quot;换到&amp;quot;按 Markdown 标题切 + 携带 H1&amp;gt;H2&amp;gt;H3 路径&amp;quot;，准确率提升约 15%。&lt;/p&gt;
&lt;h2 id="2-单纯向量检索不够混合检索才是基线"&gt;2. 单纯向量检索不够，混合检索才是基线&lt;/h2&gt;
&lt;p&gt;Embedding 擅长&lt;strong&gt;语义相似&lt;/strong&gt;，但对&lt;strong&gt;精确匹配&lt;/strong&gt;（产品代号、人名、专有术语）非常弱。生产环境基本都是混合检索：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;最终得分 = α × 向量相似度 + (1-α) × BM25 得分
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;进阶玩法：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;多路召回 + RRF 合并&lt;/strong&gt;：BM25、向量、ColBERT、关键词扩展各召回一批，用 Reciprocal Rank Fusion 合并&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Query 重写&lt;/strong&gt;：用小模型把用户口语化提问改写成检索友好的形式&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;HyDE&lt;/strong&gt;：让 LLM 先针对问题&amp;quot;幻觉&amp;quot;出一个假设答案，用这个假设答案的 embedding 去检索（适合长尾问题）&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="3-rerank-是性价比最高的优化点"&gt;3. Rerank 是性价比最高的优化点&lt;/h2&gt;
&lt;p&gt;向量检索召回 50-100 条，再用 Cross-Encoder 模型对这些候选打分排序，只把 Top 5 喂给 LLM。&lt;/p&gt;</description></item><item><title>主流 Agent 框架横评：LangGraph、AutoGen、CrewAI 怎么选</title><link>https://bloge.oya.moe/posts/agent-frameworks-comparison/</link><pubDate>Sun, 05 Apr 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/agent-frameworks-comparison/</guid><description>&lt;h2 id="背景"&gt;背景&lt;/h2&gt;
&lt;p&gt;Agent 框架今年井喷，光开源的就十几个。最近为公司一个新项目调研选型，把主流的几个都跑了一遍，记录下来供参考。&lt;/p&gt;
&lt;p&gt;评测维度：核心抽象、上手难度、可控性、可观测性、多智能体支持、生产可用性。&lt;/p&gt;
&lt;h2 id="langgraph"&gt;LangGraph&lt;/h2&gt;
&lt;p&gt;LangChain 团队的下一代产品，基于&amp;quot;图&amp;quot;抽象。每个节点是一个函数（可以是 LLM 调用、工具执行、条件判断），边定义流转逻辑。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心抽象&lt;/strong&gt;：StateGraph（有状态有向图）、Node、Edge、Checkpoint。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;控制流极其清晰，可视化调试方便（LangSmith）&lt;/li&gt;
&lt;li&gt;内建 checkpoint 机制，天然支持人在回路（Human-in-the-loop）&lt;/li&gt;
&lt;li&gt;状态管理设计精良，能优雅处理长流程的中断与恢复&lt;/li&gt;
&lt;li&gt;和 LangChain 生态无缝衔接&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;概念多，学习曲线陡&lt;/li&gt;
&lt;li&gt;写起来比较繁琐，简单任务也得搞一堆样板代码&lt;/li&gt;
&lt;li&gt;性能一般，每次状态更新都有序列化开销&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;适合&lt;/strong&gt;：复杂工作流、需要中断恢复、对可观测性要求高的生产系统。&lt;/p&gt;
&lt;h2 id="autogen"&gt;AutoGen&lt;/h2&gt;
&lt;p&gt;微软出品，主打&lt;strong&gt;对话驱动&lt;/strong&gt;的多智能体协作。每个 Agent 都有自己的角色和系统提示，通过对话相互协作完成任务。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心抽象&lt;/strong&gt;：ConversableAgent、GroupChat、UserProxyAgent。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多智能体协作的范式最自然，符合直觉&lt;/li&gt;
&lt;li&gt;写代码几乎不需要新语法，就是配置 Agent 然后开始对话&lt;/li&gt;
&lt;li&gt;v0.4 重构后引入 Actor 模型，并发能力大幅增强&lt;/li&gt;
&lt;li&gt;微软背景，Studio 工具链完善&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;控制流隐式，调试困难，经常不知道为什么某个 Agent 突然不发言了&lt;/li&gt;
&lt;li&gt;上下文管理粗糙，长对话容易爆 context&lt;/li&gt;
&lt;li&gt;早期版本 API 变动大，v0.2 → v0.4 是破坏性升级&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;适合&lt;/strong&gt;：研究性质、原型探索、需要多角色协作的场景（如代码评审、辩论、头脑风暴）。&lt;/p&gt;
&lt;h2 id="crewai"&gt;CrewAI&lt;/h2&gt;
&lt;p&gt;后起之秀，强调&amp;quot;角色 + 任务&amp;quot;的工作分配模式。每个 Crew 包含多个 Agent，每个 Agent 有明确的 role/goal/backstory，按 Task 顺序执行。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心抽象&lt;/strong&gt;：Crew、Agent、Task、Process（顺序/层级）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;上手最快，10 行代码能跑起来一个多智能体团队&lt;/li&gt;
&lt;li&gt;角色定义直观，业务人员也能看懂&lt;/li&gt;
&lt;li&gt;文档清晰，社区增长快&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;</description></item><item><title>关于</title><link>https://bloge.oya.moe/about/</link><pubDate>Wed, 01 Apr 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/about/</guid><description>&lt;h2 id="关于本站"&gt;关于本站&lt;/h2&gt;
&lt;p&gt;&lt;strong&gt;AI 拾遗笔记&lt;/strong&gt;是一个记录大语言模型相关学习、思考与工程实践的个人博客。&lt;/p&gt;
&lt;p&gt;写在这里的内容大致分几类：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;大模型基础&lt;/strong&gt;：Transformer、注意力机制、推理优化、量化、蒸馏等技术解读&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Agent 工程&lt;/strong&gt;：从 ReAct 到多智能体协作，工具调用、记忆机制、规划能力&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;RAG 实战&lt;/strong&gt;：向量检索、混合检索、Rerank、文档切分策略与评估方法&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;AI 应用&lt;/strong&gt;：用 AI 做了什么有趣的事情，包含项目复盘和踩坑记录&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;行业观察&lt;/strong&gt;：值得读的论文、工具、项目和一点个人看法&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="关于作者"&gt;关于作者&lt;/h2&gt;
&lt;p&gt;一名后端工程师，2024 年开始系统性学习 AI 领域，从写第一行调用 OpenAI API 的 Python 代码开始，逐步深入到模型部署、推理优化和 Agent 应用搭建。&lt;/p&gt;
&lt;p&gt;业余时间在做几个开源 AI 工具，主要语言是 Python 和 Go。喜欢把复杂的概念用工程师能听懂的方式讲出来。&lt;/p&gt;
&lt;h2 id="联系方式"&gt;联系方式&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;Email: 见页脚&lt;/li&gt;
&lt;li&gt;GitHub: 见首页图标&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="友情提示"&gt;友情提示&lt;/h2&gt;
&lt;p&gt;本博客所有内容均为个人学习笔记，不构成任何技术决策建议。AI 领域发展极快，文中观点和代码可能很快过时，请结合发布时间和最新进展批判性阅读。&lt;/p&gt;
&lt;p&gt;转载请注明出处并附原文链接。&lt;/p&gt;</description></item><item><title>Prompt 工程的几种核心模式与实战示例</title><link>https://bloge.oya.moe/posts/prompt-engineering-patterns/</link><pubDate>Sat, 28 Mar 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/prompt-engineering-patterns/</guid><description>&lt;h2 id="引言"&gt;引言&lt;/h2&gt;
&lt;p&gt;Prompt 工程不是玄学。表面看是&amp;quot;会不会写话&amp;quot;，本质上是&lt;strong&gt;对模型能力边界的工程性利用&lt;/strong&gt;。下面整理我在生产项目中验证有效的几种核心模式。&lt;/p&gt;
&lt;h2 id="模式一角色--任务--约束--输出格式"&gt;模式一：角色 + 任务 + 约束 + 输出格式&lt;/h2&gt;
&lt;p&gt;最基础但被严重低估的模式。一个完整的 Prompt 至少要包含这四块：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;你是一名资深的 SQL 性能专家（角色）。
请审查以下 SQL 查询并指出可能的性能问题（任务）。
要求：
- 只关注会导致全表扫描或 N+1 问题的写法（约束）
- 不要建议添加索引（约束）
输出 JSON 格式（输出格式）：
{
&amp;#34;issues&amp;#34;: [
{&amp;#34;line&amp;#34;: 行号, &amp;#34;problem&amp;#34;: &amp;#34;...&amp;#34;, &amp;#34;fix&amp;#34;: &amp;#34;...&amp;#34;}
]
}
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;strong&gt;为什么有效&lt;/strong&gt;：每一块都在收窄模型的&amp;quot;概率云&amp;quot;。少了角色，模型不知道用什么专业度回答；少了输出格式，下游无法解析。&lt;/p&gt;
&lt;h2 id="模式二few-shot-示例"&gt;模式二：Few-shot 示例&lt;/h2&gt;
&lt;p&gt;模型从描述中学习有上限，但从示例中学得很快。一两个高质量示例往往胜过 500 字的描述。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;关键原则&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;示例要&lt;strong&gt;覆盖边界情况&lt;/strong&gt;，而不是只展示典型情况&lt;/li&gt;
&lt;li&gt;示例之间要有&lt;strong&gt;对比性&lt;/strong&gt;，让模型理解为什么这样而不是那样&lt;/li&gt;
&lt;li&gt;示例数量 1-5 个最佳，太多反而稀释主任务&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;实战例子：做情感分类时，光给&amp;quot;好评/差评&amp;quot;两个示例不够，加上&amp;quot;中性评论&amp;quot;&amp;ldquo;讽刺好评&amp;quot;&amp;ldquo;含吐槽的好评&amp;quot;等边界案例，效果显著提升。&lt;/p&gt;
&lt;h2 id="模式三chain-of-thought"&gt;模式三：Chain of Thought&lt;/h2&gt;
&lt;p&gt;让模型先&amp;quot;思考&amp;quot;再回答，复杂推理任务的标配。两种触发方式：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;显式触发&lt;/strong&gt;：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;请一步步思考，先分析问题再给出最终答案。
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;&lt;strong&gt;隐式触发&lt;/strong&gt;（更优）：&lt;/p&gt;
&lt;pre tabindex="0"&gt;&lt;code&gt;请按以下步骤完成：
1. 列出问题中的所有已知条件
2. 识别需要求解的目标
3. 选择合适的求解方法
4. 执行计算
5. 验证答案的合理性
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;第二种把&amp;quot;思考&amp;quot;结构化，模型不会跳步，且每一步都可以单独检查。&lt;/p&gt;
&lt;h2 id="模式四自我校验与反思"&gt;模式四：自我校验与反思&lt;/h2&gt;
&lt;p&gt;让模型质疑自己的输出。有两种实现：&lt;/p&gt;</description></item><item><title>本地部署大模型的几种姿势：从 llama.cpp 到 vLLM</title><link>https://bloge.oya.moe/posts/local-llm-deployment/</link><pubDate>Fri, 20 Mar 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/local-llm-deployment/</guid><description>&lt;h2 id="为什么要本地部署"&gt;为什么要本地部署&lt;/h2&gt;
&lt;p&gt;不是所有任务都适合调 API：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据敏感&lt;/strong&gt;：金融、医疗、法务领域不允许数据出本地网络&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：高频调用时本地推理成本远低于 API（哪怕算上电费和折旧）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延迟稳定&lt;/strong&gt;：不受外网波动影响&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可定制&lt;/strong&gt;：可以微调、量化、修改采样策略&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;下面按使用场景介绍几种主流方案。&lt;/p&gt;
&lt;h2 id="方案一ollama--个人开发首选"&gt;方案一：Ollama —— 个人开发首选&lt;/h2&gt;
&lt;p&gt;最适合&amp;quot;我想在 Mac 上跑个 Llama 玩玩&amp;quot;的场景。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;安装与使用&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;brew install ollama
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ollama run llama3.1:8b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;完事。一行命令拉模型，一行命令开始对话。还提供 OpenAI 兼容 API：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;curl http://localhost:11434/v1/chat/completions &lt;span style="color:#ae81ff"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#ae81ff"&gt;&lt;/span&gt; -H &lt;span style="color:#e6db74"&gt;&amp;#34;Content-Type: application/json&amp;#34;&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#ae81ff"&gt;&lt;/span&gt; -d &lt;span style="color:#e6db74"&gt;&amp;#39;{&amp;#34;model&amp;#34;: &amp;#34;llama3.1:8b&amp;#34;, &amp;#34;messages&amp;#34;: [...]}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;安装零摩擦，模型管理像 Docker&lt;/li&gt;
&lt;li&gt;自动选择最优后端（Metal / CUDA / CPU）&lt;/li&gt;
&lt;li&gt;支持 Modelfile 自定义系统提示词&lt;/li&gt;
&lt;li&gt;模型库丰富（Llama、Qwen、Mistral、DeepSeek 等都有）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;性能不是最优，吞吐一般&lt;/li&gt;
&lt;li&gt;不适合多用户并发场景&lt;/li&gt;
&lt;li&gt;对自定义模型格式支持有限&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="方案二llamacpp--cpu边缘设备之王"&gt;方案二：llama.cpp —— CPU/边缘设备之王&lt;/h2&gt;
&lt;p&gt;底层是 Ollama 用的引擎，但直接用 llama.cpp 能拿到更多控制权。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心优势是 GGUF 量化格式&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;量化等级&lt;/th&gt;
&lt;th&gt;模型大小（13B）&lt;/th&gt;
&lt;th&gt;质量损失&lt;/th&gt;
&lt;th&gt;推荐场景&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Q2_K&lt;/td&gt;
&lt;td&gt;5.4 GB&lt;/td&gt;
&lt;td&gt;明显&lt;/td&gt;
&lt;td&gt;极限场景&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q4_K_M&lt;/td&gt;
&lt;td&gt;7.9 GB&lt;/td&gt;
&lt;td&gt;很小&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;推荐默认&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q5_K_M&lt;/td&gt;
&lt;td&gt;9.2 GB&lt;/td&gt;
&lt;td&gt;几乎无&lt;/td&gt;
&lt;td&gt;高质量需求&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q8_0&lt;/td&gt;
&lt;td&gt;13.8 GB&lt;/td&gt;
&lt;td&gt;无&lt;/td&gt;
&lt;td&gt;接近 FP16&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;实测在 M2 MacBook 上，Q4 量化的 Llama 3 8B 能跑到 30+ tokens/s，Q4 量化的 70B 也能跑到 5-8 tokens/s，离线使用完全够用。&lt;/p&gt;</description></item><item><title>2026 年中文 Embedding 模型选型指南</title><link>https://bloge.oya.moe/posts/embedding-models-2026/</link><pubDate>Thu, 12 Mar 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/embedding-models-2026/</guid><description>&lt;h2 id="为什么-embedding-选型很重要"&gt;为什么 Embedding 选型很重要&lt;/h2&gt;
&lt;p&gt;RAG 系统的天花板在很大程度上由 Embedding 模型决定。Embedding 不准，后面的 Rerank 和生成再厉害也救不回来。&lt;/p&gt;
&lt;p&gt;中文场景比英文复杂：词的边界模糊、同义词多、行业术语差异大，对模型的理解力要求更高。&lt;/p&gt;
&lt;p&gt;下面整理目前（2026 年初）值得选用的中文 Embedding 模型，按使用场景分类。&lt;/p&gt;
&lt;h2 id="通用首选bge-系列"&gt;通用首选：BGE 系列&lt;/h2&gt;
&lt;p&gt;智源（BAAI）出品，目前中文 Embedding 的事实标准。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;主力型号&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;bge-large-zh-v1.5&lt;/code&gt;：1024 维，1.3GB，通用场景最佳&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-base-zh-v1.5&lt;/code&gt;：768 维，400MB，性能/速度平衡&lt;/li&gt;
&lt;li&gt;&lt;code&gt;bge-small-zh-v1.5&lt;/code&gt;：512 维，100MB，资源受限场景&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;特点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;C-MTEB 中文榜单长期前列&lt;/li&gt;
&lt;li&gt;训练数据覆盖广，开箱即用&lt;/li&gt;
&lt;li&gt;HuggingFace、ModelScope 都有，部署友好&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;典型用法&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#f92672"&gt;from&lt;/span&gt; sentence_transformers &lt;span style="color:#f92672"&gt;import&lt;/span&gt; SentenceTransformer
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;model &lt;span style="color:#f92672"&gt;=&lt;/span&gt; SentenceTransformer(&lt;span style="color:#e6db74"&gt;&amp;#39;BAAI/bge-large-zh-v1.5&amp;#39;&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;embeddings &lt;span style="color:#f92672"&gt;=&lt;/span&gt; model&lt;span style="color:#f92672"&gt;.&lt;/span&gt;encode(texts, normalize_embeddings&lt;span style="color:#f92672"&gt;=&lt;/span&gt;&lt;span style="color:#66d9ef"&gt;True&lt;/span&gt;)
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;注意：BGE 在做相似度查询时，建议给 query 加前缀 &lt;code&gt;&amp;quot;为这个句子生成表示以用于检索相关文章：&amp;quot;&lt;/code&gt;，能提升 1-2 个点。&lt;/p&gt;
&lt;h2 id="多语言场景bge-m3"&gt;多语言场景：BGE-M3&lt;/h2&gt;
&lt;p&gt;如果业务有跨语言需求（中英混合查询、跨语言检索），BGE-M3 是最强选择。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心特点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;同时支持稠密向量、稀疏向量、ColBERT-style 多向量&lt;/li&gt;
&lt;li&gt;100+ 语言原生支持&lt;/li&gt;
&lt;li&gt;单模型出三种检索信号，下游融合方便&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;适合场景&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;跨境电商、出海业务&lt;/li&gt;
&lt;li&gt;中英文混合的技术文档检索&lt;/li&gt;
&lt;li&gt;需要多路召回的高级 RAG 系统&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="高性能选择gte-系列"&gt;高性能选择：GTE 系列&lt;/h2&gt;
&lt;p&gt;阿里通义出品，性能在某些 benchmark 上反超 BGE。&lt;/p&gt;</description></item></channel></rss>