<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>本地部署 on AI 拾遗笔记</title><link>https://bloge.oya.moe/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/</link><description>Recent content in 本地部署 on AI 拾遗笔记</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Fri, 20 Mar 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://bloge.oya.moe/tags/%E6%9C%AC%E5%9C%B0%E9%83%A8%E7%BD%B2/index.xml" rel="self" type="application/rss+xml"/><item><title>本地部署大模型的几种姿势：从 llama.cpp 到 vLLM</title><link>https://bloge.oya.moe/posts/local-llm-deployment/</link><pubDate>Fri, 20 Mar 2026 00:00:00 +0000</pubDate><guid>https://bloge.oya.moe/posts/local-llm-deployment/</guid><description>&lt;h2 id="为什么要本地部署"&gt;为什么要本地部署&lt;/h2&gt;
&lt;p&gt;不是所有任务都适合调 API：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据敏感&lt;/strong&gt;：金融、医疗、法务领域不允许数据出本地网络&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;成本可控&lt;/strong&gt;：高频调用时本地推理成本远低于 API（哪怕算上电费和折旧）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;延迟稳定&lt;/strong&gt;：不受外网波动影响&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可定制&lt;/strong&gt;：可以微调、量化、修改采样策略&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;下面按使用场景介绍几种主流方案。&lt;/p&gt;
&lt;h2 id="方案一ollama--个人开发首选"&gt;方案一：Ollama —— 个人开发首选&lt;/h2&gt;
&lt;p&gt;最适合&amp;quot;我想在 Mac 上跑个 Llama 玩玩&amp;quot;的场景。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;安装与使用&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;brew install ollama
&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;ollama run llama3.1:8b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;完事。一行命令拉模型，一行命令开始对话。还提供 OpenAI 兼容 API：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;pre tabindex="0" style="color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;curl http://localhost:11434/v1/chat/completions &lt;span style="color:#ae81ff"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#ae81ff"&gt;&lt;/span&gt; -H &lt;span style="color:#e6db74"&gt;&amp;#34;Content-Type: application/json&amp;#34;&lt;/span&gt; &lt;span style="color:#ae81ff"&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span style="display:flex;"&gt;&lt;span&gt;&lt;span style="color:#ae81ff"&gt;&lt;/span&gt; -d &lt;span style="color:#e6db74"&gt;&amp;#39;{&amp;#34;model&amp;#34;: &amp;#34;llama3.1:8b&amp;#34;, &amp;#34;messages&amp;#34;: [...]}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;优点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;安装零摩擦，模型管理像 Docker&lt;/li&gt;
&lt;li&gt;自动选择最优后端（Metal / CUDA / CPU）&lt;/li&gt;
&lt;li&gt;支持 Modelfile 自定义系统提示词&lt;/li&gt;
&lt;li&gt;模型库丰富（Llama、Qwen、Mistral、DeepSeek 等都有）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;缺点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;性能不是最优，吞吐一般&lt;/li&gt;
&lt;li&gt;不适合多用户并发场景&lt;/li&gt;
&lt;li&gt;对自定义模型格式支持有限&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="方案二llamacpp--cpu边缘设备之王"&gt;方案二：llama.cpp —— CPU/边缘设备之王&lt;/h2&gt;
&lt;p&gt;底层是 Ollama 用的引擎，但直接用 llama.cpp 能拿到更多控制权。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心优势是 GGUF 量化格式&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;量化等级&lt;/th&gt;
&lt;th&gt;模型大小（13B）&lt;/th&gt;
&lt;th&gt;质量损失&lt;/th&gt;
&lt;th&gt;推荐场景&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;Q2_K&lt;/td&gt;
&lt;td&gt;5.4 GB&lt;/td&gt;
&lt;td&gt;明显&lt;/td&gt;
&lt;td&gt;极限场景&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q4_K_M&lt;/td&gt;
&lt;td&gt;7.9 GB&lt;/td&gt;
&lt;td&gt;很小&lt;/td&gt;
&lt;td&gt;&lt;strong&gt;推荐默认&lt;/strong&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q5_K_M&lt;/td&gt;
&lt;td&gt;9.2 GB&lt;/td&gt;
&lt;td&gt;几乎无&lt;/td&gt;
&lt;td&gt;高质量需求&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Q8_0&lt;/td&gt;
&lt;td&gt;13.8 GB&lt;/td&gt;
&lt;td&gt;无&lt;/td&gt;
&lt;td&gt;接近 FP16&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;实测在 M2 MacBook 上，Q4 量化的 Llama 3 8B 能跑到 30+ tokens/s，Q4 量化的 70B 也能跑到 5-8 tokens/s，离线使用完全够用。&lt;/p&gt;</description></item></channel></rss>