训练系统 (Training System)
2025年夏季InfiniTensor大模型与人工智能系统训练营
专业阶段
课程围绕大模型训练系统的关键技术展开,结合实际工程框架,系统介绍训练基础理论、并行加速技术、通信优化策略与框架编程实践,帮助学员掌握从单机训练到分布式多机多卡训练的完整体系。
讲师: 段晨婕、李映辉、张博伦、朱爽
课程内容简介
课程围绕大模型训练系统的关键技术展开,结合实际工程框架,系统介绍训练基础理论、并行加速技术、通信优化策略与框架编程实践,帮助学员掌握从单机训练到分布式多机多卡训练的完整体系。
课程预期目标
通过本课程,学员将能够:
- 理解神经网络训练的基本原理,掌握从单机单卡到多机多卡的训练范式演进路径;
- 系统掌握分布式训练的主流策略,包括数据并行、模型并行、混合并行等方法及其优化思路;
- 深入理解大模型训练中的集合通信机制,掌握 AllReduce、AllGather、ReduceScatter 等通信原语及其性能优化要点;
- 掌握从 PyTorch 编写基础训练代码到使用 Megatron 等框架实现大模型训练的完整流程,具备阅读、复用、调试大规模训练框架代码的能力;
- 掌握强化学习训练中的核心技术路线与系统设计,理解其在大规模训练系统中的特殊挑战与解决方案。
学时
共 5 小时
课程依赖
大模型推理服务系统
预备知识
C++,Python,微积分
授课方式
- 讲课
- 项目
课程详情
第一课时. “训练基础介绍”
课时:1小时
前置依赖:大模型推理服务系统 - 模型推理基础原理
第二课时. “分布式训练”
课时:1小时
前置依赖:无
第三课时. “大模型训练中的集合通信”
课时:1小时
前置依赖:无
第四课时. “训练框架编程基础”
课时:1小时
前置依赖:无
第五课时. “强化学习训练”
课时:1小时
前置依赖:无