大模型部署

大模型部署的全局流程、硬件层和推理引擎选择。

#status / growing #type / concept #tech / ai

大模型部署

为了让你对大模型部署有一个系统性的全局认知,我们可以将整个过程比作**“开一家餐厅”**。

大模型部署的知识图谱可以拆解为五个核心环节。这张图谱展示了从“拿到一个模型”到“最终能像 ChatGPT 一样对线”的完整逻辑。


🏗️ 大模型部署全局逻辑架构图

1. 模型层(原材料:选什么样的菜)

这是部署的起点,决定了上限。

  • 模型来源: Hugging Face (国际), ModelScope (阿里魔搭)。
  • 模型选型:
  • 架构: Dense(稠密型,如 Llama 3)vs MoE(混合专家模型,如 DeepSeek-V3)。
  • 参数量: 1.5B/7B (轻量) -> 14B/32B (中等) -> 70B+ (重量)。
  • 权重格式: Safetensors (主流安全格式), GGUF (适合本地/CPU), AWQ/GPTQ (量化格式)。

2. 压缩层(加工:食材瘦身,适应小厨房)

大模型太大了,直接跑对显存要求极高,必须进行“瘦身”。

  • 量化 (Quantization): 将 16 位浮点数(FP16)降为 8 位、4 位甚至 1.5 位。
  • 逻辑: 显存占用直接减半甚至减为 1/4,但会损失一点点智力。
  • 蒸馏 (Distillation): 大模型教小模型(如 DeepSeek-R1 的蒸馏版)。

3. 硬件层(场地:厨房的灶台与排烟)

你的硬件决定了你能跑多大的模型。

  • 算力核心: GPU (NVIDIA A10/A100) 是主力,但 NPU (国产算力) 和 CPU (极慢) 也能跑。
  • 显存 (VRAM): 决定模型“装不装得下”的唯一硬指标。
  • 显存带宽: 决定模型“出字快不快”的关键。
  • 内存 (RAM): 当显存不够时,可以暂时借用内存(仅限 GGUF/llama.cpp 方案)。

4. 推理引擎层(发动机:如何高效烹饪)

这是部署的技术核心,决定了资源利用率。

  • 轻量化派 (Ollama / llama.cpp): 逻辑是“简单好用”,自动帮你管驱动和量化,小白首选。
  • 高性能派 (vLLM / TensorRT-LLM): 逻辑是“极致并发”。
  • 核心技术: PagedAttention (内存管理)、Continuous Batching (连续批处理)。
  • 兼容性: 是否提供 OpenAI API 格式 的接口。

5. 服务与应用层(上菜:餐厅的桌椅与服务员)

用户如何与模型交互。

  • API 接口: 将模型能力暴露给程序调用(通常是端口 11434 或 8000)。
  • WebUI (界面): Open WebUI (目前最强), Gradio, Streamlit。
  • RAG (增强): 给模型喂本地文档(PDF/Word),让它回答私有知识。

🛠️ 部署逻辑全流程示意

如果你现在要动工,逻辑顺序如下:

  1. 确定需求: 我要模型帮我写代码(选 DeepSeek)还是通用对话(选 Qwen 2.5)?
  2. 对齐硬件: 我的阿里云服务器是 16G 显存(T4),那么我最高只能跑 14B 左右的量化版。
  3. 选定引擎:
  • 想省事?用 Ollama
  • 想做多人在线服务?用 vLLM
  1. 执行部署:
  • 下载权重 启动推理服务 暴露端口。
  1. 前端接入:
  • 安装 Open WebUI 连接服务器 IP 开始对话。

📝 核心知识点清单(你可以按需深入搜索)

模块建议搜索的关键词(学习细节)
显存估算”LLM VRAM Calculator”, “KV Cache memory usage”
量化细节”4-bit quantization comparison”, “GGUF vs AWQ”
网络优化”ModelScope SDK 下载教程”, “Frp 内网穿透”
推理加速”vLLM PagedAttention 原理”, “Flash Attention”
落地场景”RAG 检索增强生成架构”, “LangChain 接入本地模型”

下一步建议: 由于你手头有 300 元券,我建议你的第一个实操目标定为:“在阿里云 ECS 上,使用 Ollama 部署一个 DeepSeek-R1 (8B) 蒸馏版,并通过 Open WebUI 实现公网访问。”

需要我为你拆解这个目标的**第一步(如何通过 SSH 连接服务器并配置 CUDA 环境)**吗?

创建于 2025/12/30 更新于 2026/5/27