一、介绍

在大模型（Large Language Models, LLMs）的生命周期中，通常包括四个关键阶段：训练（Training）、微调（Fine-tuning）、推理（Inference） 和 部署（Deployment）。每个阶段都有其特定的技术栈、工具链和平台支持。本文将对这四个阶段所涉及的主流框架与平台进行系统性分类与详细介绍，帮助开发者和研究人员高效构建大模型应用。

一、大模型训练（Training）

大模型训练是指从零开始或基于已有架构，利用海量数据和大规模计算资源完成模型参数学习的过程。该阶段对算力、分布式训练能力和数据处理能力要求极高。

主流训练框架与平台

类别	框架/平台	特点	支持硬件	开源状态	官网/仓库
通用深度学习框架	PyTorch	灵活、动态图、社区活跃，支持 Hugging Face 生态	GPU/TPU	✅ 开源	pytorch.org
	TensorFlow	静态图优化好，适合生产级训练	GPU/TPU	✅ 开源	tensorflow.org
	JAX	Google 推出，函数式编程 + 自动微分 + XLA 编译加速	TPU/GPU	✅ 开源	github.com/google/jax
专用大模型训练框架	DeepSpeed (Microsoft)	ZeRO 分片、3D 并行、混合精度、支持千亿参数	GPU	✅ 开源	github.com/microsoft/DeepSpeed
	Megatron-LM (NVIDIA)	张量并行 + 流水线并行，专为 Transformer 优化	GPU	✅ 开源（部分）	github.com/NVIDIA/Megatron-LM
	Colossal-AI	高效显存优化、自动并行、支持多种并行策略	GPU	✅ 开源	github.com/hpcaitech/ColossalAI
	FairScale (Meta)	PyTorch 扩展，支持 FSDP（Fully Sharded Data Parallel）	GPU	✅ 开源	github.com/facebookresearch/fairscale
云平台训练服务	AWS SageMaker	托管训练、自动扩缩容、支持自定义容器	GPU/TPU 实例	❌ 商业	aws.amazon.com/sagemaker
	Google Vertex AI	集成 JAX/TensorFlow，支持 TPU 训练	TPU/GPU	❌ 商业	cloud.google.com/vertex-ai
	Azure ML	与 DeepSpeed 深度集成，支持大规模分布式训练	GPU	❌ 商业	azure.microsoft.com/en-us/products/machine-learning
	Alibaba PAI	支持千卡训练、ModelScope 集成	GPU	❌ 商业（部分开源）	help.aliyun.com/product/43012.html

💡 提示：实际训练中常组合使用（如 PyTorch + DeepSpeed + Megatron-LM）以实现极致扩展性。

二、大模型微调（Fine-tuning）

微调是在预训练模型基础上，使用特定任务或领域的小规模数据进行参数调整，以提升模型在下游任务上的性能。近年来，参数高效微调（PEFT） 技术大幅降低了资源需求。

主流微调框架与平台

类别	框架/平台	特点	支持方法	开源状态	官网/仓库
通用微调库	Hugging Face Transformers + Trainer	与 datasets、accelerate 无缝集成，支持 LoRA、QLoRA 等	Full FT, LoRA, Prefix Tuning	✅ 开源	huggingface.co
	🤗 PEFT (Parameter-Efficient Fine-Tuning)	统一接口支持多种 PEFT 方法	LoRA, AdaLoRA, Prompt Tuning, IA³	✅ 开源	github.com/huggingface/peft
	Axolotl	专为 LLM 微调设计，支持多 GPU、QLoRA、DPO	QLoRA, DPO, SFT	✅ 开源	github.com/OpenAccess-AI-Collective/axolotl
	Unsloth	极速微调（比标准 LoRA 快 2–5 倍），低显存	LoRA, QLoRA	✅ 开源	github.com/unslothai/unsloth
专用微调平台	LLaMA-Factory	支持 100+ 模型、多算法（SFT/DPO/ORPO）、Web UI	LoRA, GaLore, DoRA	✅ 开源	github.com/hiyouga/LLaMA-Factory
专用微调平台	OpenChat	支持 DPO、CPO、KTO 等对齐算法	DPO, CPO, KTO	✅ 开源	github.com/imoneoi/openchat
云平台微调服务	Amazon Bedrock Model Customization	托管式微调，无需管理基础设施	Full/Lora-like	❌ 商业	aws.amazon.com/bedrock
	Google Vertex AI Model Garden	支持 Gemma、Llama 等模型微调	Full FT	❌ 商业	cloud.google.com/vertex-ai
	Alibaba ModelScope	提供“模型即服务”，支持在线微调	LoRA, Full FT	✅ 部分开源	modelscope.cn

🔧 常用 PEFT 方法：
LoRA（Low-Rank Adaptation）：冻结原权重，注入低秩矩阵。
QLoRA：4-bit 量化 + LoRA，可在 24GB 显存微调 70B 模型。
DPO（Direct Preference Optimization）：替代 RLHF 的偏好对齐方法。

三、大模型推理（Inference）

推理是将训练/微调好的模型用于生成文本、回答问题等任务。核心挑战在于低延迟、高吞吐、低显存占用。

主流推理框架与平台

类别	框架/平台	特点	优化技术	支持模型	开源状态
通用推理引擎	vLLM	PagedAttention + 连续批处理，吞吐提升 10–24x	PagedAttention, Continuous Batching	Llama, Mistral, Qwen 等	✅ 开源
	Text Generation Inference (TGI)	Hugging Face 官方推理服务器，支持量化	FlashAttention, Tensor Parallelism	多数 HF 模型	✅ 开源
	llama.cpp	CPU/GPU 推理，GGUF 量化格式，跨平台	GGUF 量化（4-bit/5-bit）	Llama, Mistral, Phi, Qwen 等	✅ 开源
	Ollama	本地一键运行 LLM，支持 Mac/Linux/Windows	GGUF + 自动下载	主流开源模型	✅ 开源
高性能推理库	TensorRT-LLM (NVIDIA)	最大化 NVIDIA GPU 利用率，支持 FP8	TensorRT 优化、Kernel 融合	Llama, Falcon, GPT-J etc.	✅ 开源（需注册）
	FasterTransformer (NVIDIA)	C++ 推理库，低延迟	Multi-GPU, INT8	BERT, GPT, T5	✅ 开源
	DeepSpeed-Inference	模型并行 + 量化 + 算子融合	ZeRO-Inference, Quantization	支持自定义模型	✅ 开源
云推理服务	AWS SageMaker Endpoints	自动扩缩容、A/B 测试、监控	支持自定义容器	任意模型	❌ 商业
	Google Cloud Vertex AI Prediction	与 Model Garden 集成，支持 TPU 推理	TPU 优化	PaLM, Gemma 等	❌ 商业
	Azure AI Studio	一键部署 Llama、Mistral 等	托管推理	Meta、Mistral 模型	❌ 商业
	Alibaba PAI-EAS	弹性扩缩、GPU 共享、支持 vLLM/TGI	多实例共享 GPU	Qwen, Baichuan 等	❌ 商业

⚡ 推理优化关键技术：
量化（INT4/INT8/FP8）
连续批处理（Continuous Batching）
注意力优化（FlashAttention, PagedAttention）
KV Cache 管理

四、大模型部署（Deployment）

部署是将推理服务上线，提供 API 或 Web 界面供用户调用。需考虑可扩展性、监控、安全、成本等因素。

主流部署框架与平台

类别	框架/平台	特点	部署方式	开源状态
本地/私有化部署	vLLM + FastAPI	高吞吐 API 服务	Docker / Kubernetes	✅
	TGI + Docker	官方推荐部署方式	Docker Compose	✅
	Ollama + WebUI	本地 Web 界面（如 Open WebUI）	本地运行	✅
	LM Studio	图形化本地部署工具（Mac/Windows）	桌面应用	❌（免费）
云原生部署	KServe (Kubeflow)	Kubernetes 原生，支持 autoscaling	K8s CRD	✅
	Seldon Core	MLOps 平台，支持 A/B 测试、监控	K8s	✅
	BentoML	模型打包为 “Bento”，支持 serverless	Docker / Serverless	✅
	Ray Serve	分布式模型服务，与 Ray 生态集成	Python API	✅
托管部署平台	Hugging Face Inference Endpoints	一键部署，自动扩缩，按秒计费	托管服务	❌（商业）
	Replicate	支持自定义模型部署，简单 API	托管	❌
	Banana.dev / Modal / Fal.ai	Serverless GPU 推理	函数即服务	❌
	Alibaba PAI-EAS	支持 vLLM/TGI 镜像，国内低延迟	托管	❌

🌐 典型部署架构：

text

编辑

用户 → API Gateway → 负载均衡 → vLLM/TGI Pods (K8s) → 监控/日志 (Prometheus + Grafana)

五、综合对比与选型建议

阶段	推荐组合（开源）	推荐组合（云服务）
训练	PyTorch + DeepSpeed + Megatron-LM	AWS SageMaker / Azure ML + DeepSpeed
微调	LLaMA-Factory / Axolotl + QLoRA	Hugging Face Endpoints / Bedrock Customization
推理	vLLM（GPU） / llama.cpp（CPU）	Vertex AI Prediction / PAI-EAS
部署	vLLM + FastAPI + K8s	Hugging Face Endpoints / Replicate

六、结语

大模型技术栈日新月异，但核心逻辑不变：训练重规模，微调重效率，推理重速度，部署重稳定。选择合适的工具链，能显著降低开发成本与上线周期。

✅ 建议：
学术研究/小团队：优先使用 Hugging Face + vLLM + LLaMA-Factory 开源组合。
企业生产：考虑 云平台托管服务（如 Bedrock、Vertex AI）以减少运维负担。
本地私有化：Ollama + Open WebUI 或 vLLM + Docker 是理想起点。

00大模型训练、推理、微调与部署：主流框架与平台全解析