大模型部署
大模型部署的全局流程、硬件层和推理引擎选择。
#status / growing
#type / concept
#tech / ai
大模型部署
为了让你对大模型部署有一个系统性的全局认知,我们可以将整个过程比作**“开一家餐厅”**。
大模型部署的知识图谱可以拆解为五个核心环节。这张图谱展示了从“拿到一个模型”到“最终能像 ChatGPT 一样对线”的完整逻辑。
🏗️ 大模型部署全局逻辑架构图
1. 模型层(原材料:选什么样的菜)
这是部署的起点,决定了上限。
- 模型来源: Hugging Face (国际), ModelScope (阿里魔搭)。
- 模型选型:
- 架构: Dense(稠密型,如 Llama 3)vs MoE(混合专家模型,如 DeepSeek-V3)。
- 参数量: 1.5B/7B (轻量) -> 14B/32B (中等) -> 70B+ (重量)。
- 权重格式:
Safetensors(主流安全格式),GGUF(适合本地/CPU),AWQ/GPTQ(量化格式)。
2. 压缩层(加工:食材瘦身,适应小厨房)
大模型太大了,直接跑对显存要求极高,必须进行“瘦身”。
- 量化 (Quantization): 将 16 位浮点数(FP16)降为 8 位、4 位甚至 1.5 位。
- 逻辑: 显存占用直接减半甚至减为 1/4,但会损失一点点智力。
- 蒸馏 (Distillation): 大模型教小模型(如 DeepSeek-R1 的蒸馏版)。
3. 硬件层(场地:厨房的灶台与排烟)
你的硬件决定了你能跑多大的模型。
- 算力核心: GPU (NVIDIA A10/A100) 是主力,但 NPU (国产算力) 和 CPU (极慢) 也能跑。
- 显存 (VRAM): 决定模型“装不装得下”的唯一硬指标。
- 显存带宽: 决定模型“出字快不快”的关键。
- 内存 (RAM): 当显存不够时,可以暂时借用内存(仅限 GGUF/llama.cpp 方案)。
4. 推理引擎层(发动机:如何高效烹饪)
这是部署的技术核心,决定了资源利用率。
- 轻量化派 (Ollama / llama.cpp): 逻辑是“简单好用”,自动帮你管驱动和量化,小白首选。
- 高性能派 (vLLM / TensorRT-LLM): 逻辑是“极致并发”。
- 核心技术: PagedAttention (内存管理)、Continuous Batching (连续批处理)。
- 兼容性: 是否提供 OpenAI API 格式 的接口。
5. 服务与应用层(上菜:餐厅的桌椅与服务员)
用户如何与模型交互。
- API 接口: 将模型能力暴露给程序调用(通常是端口 11434 或 8000)。
- WebUI (界面): Open WebUI (目前最强), Gradio, Streamlit。
- RAG (增强): 给模型喂本地文档(PDF/Word),让它回答私有知识。
🛠️ 部署逻辑全流程示意
如果你现在要动工,逻辑顺序如下:
- 确定需求: 我要模型帮我写代码(选 DeepSeek)还是通用对话(选 Qwen 2.5)?
- 对齐硬件: 我的阿里云服务器是 16G 显存(T4),那么我最高只能跑 14B 左右的量化版。
- 选定引擎:
- 想省事?用 Ollama。
- 想做多人在线服务?用 vLLM。
- 执行部署:
- 下载权重 启动推理服务 暴露端口。
- 前端接入:
- 安装 Open WebUI 连接服务器 IP 开始对话。
📝 核心知识点清单(你可以按需深入搜索)
| 模块 | 建议搜索的关键词(学习细节) |
|---|---|
| 显存估算 | ”LLM VRAM Calculator”, “KV Cache memory usage” |
| 量化细节 | ”4-bit quantization comparison”, “GGUF vs AWQ” |
| 网络优化 | ”ModelScope SDK 下载教程”, “Frp 内网穿透” |
| 推理加速 | ”vLLM PagedAttention 原理”, “Flash Attention” |
| 落地场景 | ”RAG 检索增强生成架构”, “LangChain 接入本地模型” |
下一步建议: 由于你手头有 300 元券,我建议你的第一个实操目标定为:“在阿里云 ECS 上,使用 Ollama 部署一个 DeepSeek-R1 (8B) 蒸馏版,并通过 Open WebUI 实现公网访问。”
需要我为你拆解这个目标的**第一步(如何通过 SSH 连接服务器并配置 CUDA 环境)**吗?