本地部署大模型的几种姿势:从 llama.cpp 到 vLLM
为什么要本地部署 不是所有任务都适合调 API: 数据敏感:金融、医疗、法务领域不允许数据出本地网络 成本可控:高频调用时本地推理成本远低于 API(哪怕算上电费和折旧) 延迟稳定:不受外网波动影响 可定制:可以微调、量化、修改采样策略 下面按使用场景介绍几种主流方案。 方案一:Ollama —— 个人开发首选 最适合"我想在 Mac 上跑个 Llama 玩玩"的场景。 安装与使用: brew install ollama ollama run llama3.1:8b 完事。一行命令拉模型,一行命令开始对话。还提供 OpenAI 兼容 API: curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "llama3.1:8b", "messages": [...]}' 优点: 安装零摩擦,模型管理像 Docker 自动选择最优后端(Metal / CUDA / CPU) 支持 Modelfile 自定义系统提示词 模型库丰富(Llama、Qwen、Mistral、DeepSeek 等都有) 缺点: 性能不是最优,吞吐一般 不适合多用户并发场景 对自定义模型格式支持有限 方案二:llama.cpp —— CPU/边缘设备之王 底层是 Ollama 用的引擎,但直接用 llama.cpp 能拿到更多控制权。 核心优势是 GGUF 量化格式: 量化等级 模型大小(13B) 质量损失 推荐场景 Q2_K 5.4 GB 明显 极限场景 Q4_K_M 7.9 GB 很小 推荐默认 Q5_K_M 9.2 GB 几乎无 高质量需求 Q8_0 13.8 GB 无 接近 FP16 实测在 M2 MacBook 上,Q4 量化的 Llama 3 8B 能跑到 30+ tokens/s,Q4 量化的 70B 也能跑到 5-8 tokens/s,离线使用完全够用。 ...