OpenCL端侧推理开发:从编程基础到性能优化(OpenCL Edge Inference Dev.: From Programming Fund. to Performance Optimization)
2025年夏季InfiniTensor大模型与人工智能系统训练营
专业阶段
本课程面向移动SoC与Intel平台,涵盖OpenCL运行时、OpenCL编程模型与语法、OpenCL算子内核开发、非量化及量化算子实现及性能优化策略。
讲师: 马宇航
课程内容简介
本课程面向移动SoC与Intel平台,涵盖OpenCL运行时、OpenCL编程模型与语法、OpenCL算子内核开发、非量化及量化算子实现及性能优化策略。通过示例与实战,掌握端侧GPU编程与算子性能调优方法。
课程预期目标
通过本课程,学员将能够:
- 学习使用OpenCL编写内核;
- 了解gguf量化知识;
- 能够开发大模型通用算子并能够根据硬件相关扩展支持对算子进行深度优化;
- 能够在端侧完成大模型推理部署。
学时
共 4 小时
课程依赖
CUDA 编程
预备知识
C/C++,大模型基础知识
授课方式
- 讲课
- 实验/实践
课程详情
第一课时. “OpenCL概述及运行时”
课时:1小时
前置依赖:CUDA 编程 - 第一课时. “众人拾柴火焰高” —— 并行编程导论与 CUDA 入门
第二课时. “OpenCL编程抽象和基础语法”
课时:1小时
前置依赖:无
第三课时. “非量化算子的实现与优化”
课时:1小时
前置依赖:无
第四课时. “量化算子的实现与优化”
课时:1小时
前置依赖:无