本地部署大模型的几种姿势：从 llama.cpp 到 vLLM

Fri, 20 Mar 2026 00:00:00 +0000

为什么要本地部署

不是所有任务都适合调 API：

下面按使用场景介绍几种主流方案。

最适合"我想在 Mac 上跑个 Llama 玩玩"的场景。

安装与使用：

brew install ollama
ollama run llama3.1:8b

完事。一行命令拉模型，一行命令开始对话。还提供 OpenAI 兼容 API：

curl http://localhost:11434/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{"model": "llama3.1:8b", "messages": [...]}'

优点：

缺点：

底层是 Ollama 用的引擎，但直接用 llama.cpp 能拿到更多控制权。

核心优势是 GGUF 量化格式：

量化等级	模型大小（13B）	质量损失	推荐场景
Q2_K	5.4 GB	明显	极限场景
Q4_K_M	7.9 GB	很小	推荐默认
Q5_K_M	9.2 GB	几乎无	高质量需求
Q8_0	13.8 GB	无	接近 FP16

实测在 M2 MacBook 上，Q4 量化的 Llama 3 8B 能跑到 30+ tokens/s，Q4 量化的 70B 也能跑到 5-8 tokens/s，离线使用完全够用。