本地部署 | AI 拾遗笔记

为什么要本地部署不是所有任务都适合调 API：数据敏感：金融、医疗、法务领域不允许数据出本地网络成本可控：高频调用时本地推理成本远低于 API（哪怕算上电费和折旧）延迟稳定：不受外网波动影响可定制：可以微调、量化、修改采样策略下面按使用场景介绍几种主流方案。方案一：Ollama —— 个人开发首选最适合"我想在 Mac 上跑个 Llama 玩玩"的场景。安装与使用： brew install ollama ollama run llama3.1:8b 完事。一行命令拉模型，一行命令开始对话。还提供 OpenAI 兼容 API： curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{"model": "llama3.1:8b", "messages": [...]}' 优点：安装零摩擦，模型管理像 Docker 自动选择最优后端（Metal / CUDA / CPU）支持 Modelfile 自定义系统提示词模型库丰富（Llama、Qwen、Mistral、DeepSeek 等都有）缺点：性能不是最优，吞吐一般不适合多用户并发场景对自定义模型格式支持有限方案二：llama.cpp —— CPU/边缘设备之王底层是 Ollama 用的引擎，但直接用 llama.cpp 能拿到更多控制权。核心优势是 GGUF 量化格式：量化等级模型大小（13B）质量损失推荐场景 Q2_K 5.4 GB 明显极限场景 Q4_K_M 7.9 GB 很小推荐默认 Q5_K_M 9.2 GB 几乎无高质量需求 Q8_0 13.8 GB 无接近 FP16 实测在 M2 MacBook 上，Q4 量化的 Llama 3 8B 能跑到 30+ tokens/s，Q4 量化的 70B 也能跑到 5-8 tokens/s，离线使用完全够用。 ...