00大模型训练、推理、微调与部署:主流框架与平台全解析

alex
17
2025-12-04

一、介绍

在大模型(Large Language Models, LLMs)的生命周期中,通常包括四个关键阶段:训练(Training)微调(Fine-tuning)推理(Inference)部署(Deployment)。每个阶段都有其特定的技术栈、工具链和平台支持。本文将对这四个阶段所涉及的主流框架与平台进行系统性分类与详细介绍,帮助开发者和研究人员高效构建大模型应用。


一、大模型训练(Training)

大模型训练是指从零开始或基于已有架构,利用海量数据和大规模计算资源完成模型参数学习的过程。该阶段对算力、分布式训练能力和数据处理能力要求极高。

主流训练框架与平台

类别

框架/平台

特点

支持硬件

开源状态

官网/仓库

通用深度学习框架

PyTorch

灵活、动态图、社区活跃,支持 Hugging Face 生态

GPU/TPU

✅ 开源

pytorch.org

TensorFlow

静态图优化好,适合生产级训练

GPU/TPU

✅ 开源

tensorflow.org

JAX

Google 推出,函数式编程 + 自动微分 + XLA 编译加速

TPU/GPU

✅ 开源

github.com/google/jax

专用大模型训练框架

DeepSpeed (Microsoft)

ZeRO 分片、3D 并行、混合精度、支持千亿参数

GPU

✅ 开源

github.com/microsoft/DeepSpeed

Megatron-LM (NVIDIA)

张量并行 + 流水线并行,专为 Transformer 优化

GPU

✅ 开源(部分)

github.com/NVIDIA/Megatron-LM

Colossal-AI

高效显存优化、自动并行、支持多种并行策略

GPU

✅ 开源

github.com/hpcaitech/ColossalAI

FairScale (Meta)

PyTorch 扩展,支持 FSDP(Fully Sharded Data Parallel)

GPU

✅ 开源

github.com/facebookresearch/fairscale

云平台训练服务

AWS SageMaker

托管训练、自动扩缩容、支持自定义容器

GPU/TPU 实例

❌ 商业

aws.amazon.com/sagemaker

Google Vertex AI

集成 JAX/TensorFlow,支持 TPU 训练

TPU/GPU

❌ 商业

cloud.google.com/vertex-ai

Azure ML

与 DeepSpeed 深度集成,支持大规模分布式训练

GPU

❌ 商业

azure.microsoft.com/en-us/products/machine-learning

Alibaba PAI

支持千卡训练、ModelScope 集成

GPU

❌ 商业(部分开源)

help.aliyun.com/product/43012.html

💡 提示:实际训练中常组合使用(如 PyTorch + DeepSpeed + Megatron-LM)以实现极致扩展性。


二、大模型微调(Fine-tuning)

微调是在预训练模型基础上,使用特定任务或领域的小规模数据进行参数调整,以提升模型在下游任务上的性能。近年来,参数高效微调(PEFT) 技术大幅降低了资源需求。

主流微调框架与平台

类别

框架/平台

特点

支持方法

开源状态

官网/仓库

通用微调库

Hugging Face Transformers + Trainer

与 datasets、accelerate 无缝集成,支持 LoRA、QLoRA 等

Full FT, LoRA, Prefix Tuning

✅ 开源

huggingface.co

🤗 PEFT (Parameter-Efficient Fine-Tuning)

统一接口支持多种 PEFT 方法

LoRA, AdaLoRA, Prompt Tuning, IA³

✅ 开源

github.com/huggingface/peft

Axolotl

专为 LLM 微调设计,支持多 GPU、QLoRA、DPO

QLoRA, DPO, SFT

✅ 开源

github.com/OpenAccess-AI-Collective/axolotl

Unsloth

极速微调(比标准 LoRA 快 2–5 倍),低显存

LoRA, QLoRA

✅ 开源

github.com/unslothai/unsloth

专用微调平台

LLaMA-Factory

支持 100+ 模型、多算法(SFT/DPO/ORPO)、Web UI

LoRA, GaLore, DoRA

✅ 开源

github.com/hiyouga/LLaMA-Factory

OpenChat

支持 DPO、CPO、KTO 等对齐算法

DPO, CPO, KTO

✅ 开源

github.com/imoneoi/openchat

云平台微调服务

Amazon Bedrock Model Customization

托管式微调,无需管理基础设施

Full/Lora-like

❌ 商业

aws.amazon.com/bedrock

Google Vertex AI Model Garden

支持 Gemma、Llama 等模型微调

Full FT

❌ 商业

cloud.google.com/vertex-ai

Alibaba ModelScope

提供“模型即服务”,支持在线微调

LoRA, Full FT

✅ 部分开源

modelscope.cn

🔧 常用 PEFT 方法

  • LoRA(Low-Rank Adaptation):冻结原权重,注入低秩矩阵。

  • QLoRA:4-bit 量化 + LoRA,可在 24GB 显存微调 70B 模型。

  • DPO(Direct Preference Optimization):替代 RLHF 的偏好对齐方法。


三、大模型推理(Inference)

推理是将训练/微调好的模型用于生成文本、回答问题等任务。核心挑战在于低延迟、高吞吐、低显存占用

主流推理框架与平台

类别

框架/平台

特点

优化技术

支持模型

开源状态

通用推理引擎

vLLM

PagedAttention + 连续批处理,吞吐提升 10–24x

PagedAttention, Continuous Batching

Llama, Mistral, Qwen 等

✅ 开源

Text Generation Inference (TGI)

Hugging Face 官方推理服务器,支持量化

FlashAttention, Tensor Parallelism

多数 HF 模型

✅ 开源

llama.cpp

CPU/GPU 推理,GGUF 量化格式,跨平台

GGUF 量化(4-bit/5-bit)

Llama, Mistral, Phi, Qwen 等

✅ 开源

Ollama

本地一键运行 LLM,支持 Mac/Linux/Windows

GGUF + 自动下载

主流开源模型

✅ 开源

高性能推理库

TensorRT-LLM (NVIDIA)

最大化 NVIDIA GPU 利用率,支持 FP8

TensorRT 优化、Kernel 融合

Llama, Falcon, GPT-J etc.

✅ 开源(需注册)

FasterTransformer (NVIDIA)

C++ 推理库,低延迟

Multi-GPU, INT8

BERT, GPT, T5

✅ 开源

DeepSpeed-Inference

模型并行 + 量化 + 算子融合

ZeRO-Inference, Quantization

支持自定义模型

✅ 开源

云推理服务

AWS SageMaker Endpoints

自动扩缩容、A/B 测试、监控

支持自定义容器

任意模型

❌ 商业

Google Cloud Vertex AI Prediction

与 Model Garden 集成,支持 TPU 推理

TPU 优化

PaLM, Gemma 等

❌ 商业

Azure AI Studio

一键部署 Llama、Mistral 等

托管推理

Meta、Mistral 模型

❌ 商业

Alibaba PAI-EAS

弹性扩缩、GPU 共享、支持 vLLM/TGI

多实例共享 GPU

Qwen, Baichuan 等

❌ 商业

推理优化关键技术

  • 量化(INT4/INT8/FP8)

  • 连续批处理(Continuous Batching)

  • 注意力优化(FlashAttention, PagedAttention)

  • KV Cache 管理


四、大模型部署(Deployment)

部署是将推理服务上线,提供 API 或 Web 界面供用户调用。需考虑可扩展性、监控、安全、成本等因素。

主流部署框架与平台

类别

框架/平台

特点

部署方式

开源状态

本地/私有化部署

vLLM + FastAPI

高吞吐 API 服务

Docker / Kubernetes

TGI + Docker

官方推荐部署方式

Docker Compose

Ollama + WebUI

本地 Web 界面(如 Open WebUI)

本地运行

LM Studio

图形化本地部署工具(Mac/Windows)

桌面应用

❌(免费)

云原生部署

KServe (Kubeflow)

Kubernetes 原生,支持 autoscaling

K8s CRD

Seldon Core

MLOps 平台,支持 A/B 测试、监控

K8s

BentoML

模型打包为 “Bento”,支持 serverless

Docker / Serverless

Ray Serve

分布式模型服务,与 Ray 生态集成

Python API

托管部署平台

Hugging Face Inference Endpoints

一键部署,自动扩缩,按秒计费

托管服务

❌(商业)

Replicate

支持自定义模型部署,简单 API

托管

Banana.dev / Modal / Fal.ai

Serverless GPU 推理

函数即服务

Alibaba PAI-EAS

支持 vLLM/TGI 镜像,国内低延迟

托管

🌐 典型部署架构

text

编辑

用户 → API Gateway → 负载均衡 → vLLM/TGI Pods (K8s) → 监控/日志 (Prometheus + Grafana)

五、综合对比与选型建议

阶段

推荐组合(开源)

推荐组合(云服务)

训练

PyTorch + DeepSpeed + Megatron-LM

AWS SageMaker / Azure ML + DeepSpeed

微调

LLaMA-Factory / Axolotl + QLoRA

Hugging Face Endpoints / Bedrock Customization

推理

vLLM(GPU) / llama.cpp(CPU)

Vertex AI Prediction / PAI-EAS

部署

vLLM + FastAPI + K8s

Hugging Face Endpoints / Replicate


六、结语

大模型技术栈日新月异,但核心逻辑不变:训练重规模,微调重效率,推理重速度,部署重稳定。选择合适的工具链,能显著降低开发成本与上线周期。

建议

  • 学术研究/小团队:优先使用 Hugging Face + vLLM + LLaMA-Factory 开源组合。

  • 企业生产:考虑 云平台托管服务(如 Bedrock、Vertex AI)以减少运维负担。

  • 本地私有化:Ollama + Open WebUIvLLM + Docker 是理想起点。

动物装饰