大模型推理服务系统 (LLM inference and Serving System)
2025年夏季InfiniTensor大模型与人工智能系统训练营
专业阶段
课程将讲解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务
讲师: 潘泽众、杨德睿

  课程内容简介

课程将讲解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务。


  课程预期目标

理解大模型基本原理、学习大模型推理的相关知识,了解大模型推理系统的优化方式以及分布式推理方式,通过实践学习从零搭建大模型推理服务。


  学时

6 小时


  课程依赖

训练系统、CUDA 编程


  预备知识

C++、Python、PyTorch、Git、CUDA


  授课方式

  • 讲课
  • 项目


  课程详情


第一课时. “模型推理基础原理”

课时:1小时

前置依赖:无


第二课时. “大模型原理与结构”

课时:1小时

前置依赖:无


第三课时. “从大模型推理到AI对话”

课时:1小时

前置依赖:无


第四课时. “大模型计算优化与分布式推理”

课时:1小时

前置依赖:训练系统 - 第二课时 “分布式训练”


第五课时. “InfiniCore-infer”

课时:1小时

前置依赖:无


第六课时. “InfiniLM”

课时:1小时

前置依赖:CUDA 编程 - 第六课时. “精益求精” —— 量化与工业级调优部署