大模型推理服务系统 (LLM inference and Serving System)
2025年夏季InfiniTensor大模型与人工智能系统训练营
专业阶段
课程将讲解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务
讲师: 潘泽众、杨德睿
课程内容简介
课程将讲解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务。
课程预期目标
理解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务。
学时
共 6 小时
课程依赖
训练系统、CUDA 编程
预备知识
C++、Python、PyTorch、Git、CUDA
授课方式
- 讲课
- 项目
课程详情
第一课时. “模型推理基础原理”
课时:1小时
前置依赖:无
第二课时. “大模型原理与结构”
课时:1小时
前置依赖:无
第三课时. “从大模型推理到AI对话”
课时:1小时
前置依赖:无
第四课时. “大模型计算优化与分布式推理”
课时:1小时
前置依赖:训练系统 - 第二课时 “分布式训练”
第五课时. “InfiniCore-infer”
课时:1小时
前置依赖:无
第六课时. “InfiniLM”
课时:1小时
前置依赖:CUDA 编程 - 第六课时. “精益求精” —— 量化与工业级调优部署