训练系统 (Training System)
2025年夏季InfiniTensor大模型与人工智能系统训练营
专业阶段
课程围绕大模型训练系统的关键技术展开,结合实际工程框架,系统介绍训练基础理论、并行加速技术、通信优化策略与框架编程实践,帮助学员掌握从单机训练到分布式多机多卡训练的完整体系。
讲师: 段晨婕、李映辉、张博伦、朱爽

  课程内容简介

课程围绕大模型训练系统的关键技术展开,结合实际工程框架,系统介绍训练基础理论、并行加速技术、通信优化策略与框架编程实践,帮助学员掌握从单机训练到分布式多机多卡训练的完整体系。


  课程预期目标

通过本课程,学员将能够:

  • 理解神经网络训练的基本原理,掌握从单机单卡到多机多卡的训练范式演进路径;
  • 系统掌握分布式训练的主流策略,包括数据并行、模型并行、混合并行等方法及其优化思路;
  • 深入理解大模型训练中的集合通信机制,掌握 AllReduce、AllGather、ReduceScatter 等通信原语及其性能优化要点;
  • 掌握从 PyTorch 编写基础训练代码到使用 Megatron 等框架实现大模型训练的完整流程,具备阅读、复用、调试大规模训练框架代码的能力;
  • 掌握强化学习训练中的核心技术路线与系统设计,理解其在大规模训练系统中的特殊挑战与解决方案。


  学时

5 小时


  课程依赖

大模型推理服务系统


  预备知识

C++,Python,微积分


  授课方式

  • 讲课
  • 项目


  课程详情


第一课时. “训练基础介绍”

课时:1小时

前置依赖:大模型推理服务系统 - 模型推理基础原理


第二课时. “分布式训练”

课时:1小时

前置依赖:无


第三课时. “大模型训练中的集合通信”

课时:1小时

前置依赖:无


第四课时. “训练框架编程基础”

课时:1小时

前置依赖:无


第五课时. “强化学习训练”

课时:1小时

前置依赖:无