InfiniTensor 开源社区

启元人工智能大赛介绍

大赛相关单位

大赛主办：启元实验室
大赛承办：国家超级计算郑州中心
大赛赞助：河南湃孚信息科技有限公司

大赛时间

报名时间：2025年7月7日-7月21日
赛题发布 & 算力开放:2025 年7月14日
作品提交截止：2025年8月10日24:00
结果公示 & 颁奖时间:2025年8月22日(暂定)

大赛内容

启元人工智能大赛由启元实验室主办，其中系统赛道基于启元实验室九源软件栈的相关开源项目，通过拉动开源社区力量，一方面促进国产智能计算生态的发展，另一方面也为人工智能系统方向的学生及从业者提供一个实践平台。本期大赛设置两条赛道：

（1）九源统一智能计算架构(InfiniCore) 算子开发赛道：包含九源统一智能计算架构在国际算力和国产算力平台上的算子设计与开发。给定算子列表，接口定义，测试集，测试方法。选取出性能最优的参赛者给予奖励。

（2）九源大模型推理引擎(InfiniLM, InfiniCore-Infer) 开发赛道：包含三个方向，分别是命题模型推理适配，命题模型调优（End-to-End） 和 命题模型量化推理。由举办方给定模型及模型文件作为题目，在九源大模型推理引擎上进行开发，选取出端到端推理性能最优的参赛者给予奖励。

参赛对象

面向社会开放报名，同时定向邀请高校科研团队及往期大模型与人工智能系统训练营优秀学员。

赛道及赛题

赛道一：九源统一智能计算架构算子开发

赛题简介

本赛道聚焦 AI 底层算子开发能力，要求参赛者基于九源统一智能计算架构（InfiniCore）完成不同难度算子的设计、实现、测试与性能优化任务。通过实战提升开发者对算子接口设计、跨平台代码实现、精度与性能测试等核心技术的掌握，助力国产 AI 算力生态的技术沉淀与人才培养。

参赛要求

所有作品需基于九源统一智能计算架构的算子库（InfiniCore），严格遵循仓库 Readme 及开发者手册的规范，确保代码与文档的一致性。

赛道介绍

报名：参赛队伍可自主选择算子赛题，无需单独报名赛题，直接通过代码提交参与；
比赛内容：分为算子设计（含接口设计、文档编写）、代码实现（跨平台编译运行、计算结果正确）、测试开发（精度与性能测例覆盖）三个部分；
提交方式：选手 fork 相应仓库后，将开发的代码分支向主仓库提交 Pull Request（PR），文档与代码仓库需分别提交 PR；PR 命名格式为[{赛题号}] {队伍github id}，代码 PR 需附上测试通过截图及说明；
评审：完成赛题所有算子开发并通过测试后进入评审，评审从设计、代码、测试三个维度综合打分，以 PR 内容为评审依据。

评审项目

评审项目	评审要求
设计	基本要求：算子定义正确；文档格式正确；接口设计合理、覆盖主流使用场景；加分项：文档美观；解释清晰简洁；设计通用性强、覆盖更多场景。
代码	基本要求：代码在所有算力平台正确编译运行；计算结果正确；与设计文档一致；格式规范；加分项：代码风格良好、注释清晰；性能表现优异。
测试	基本要求：测例能正确验证算子精度和性能；覆盖代表性场景；加分项：测例丰富，覆盖多种输入输出形状、数据类型、数据排布。

赛题列表

简单算子赛题
- T1-1-1：包含 Exp、Sin、Cos、LeakyReLU、Tanh、Sigmoid Backward、HardSwish、Cast、Where 等单目 / 三目算子，要求实现输入输出类型一致（Cast 除外），支持 Inplace 操作（Cast 除外），参考 PyTorch 对应算子功能。
- T1-1-2：包含 Silu、Div、And、Or、Equal、ReLU Backward、GeLU、GeLU Backward、CrossEntropyLoss Backward 等单目 / 双目算子，需实现对应正向或反向计算逻辑，参考 PyTorch 对应算子功能。
中等算子赛题
- T1-2-1：包含 ReduceMax、ReduceMean、BatchNorm（及反向）、LayerNorm（及反向）、RMSNorm Backward 等算子，涉及张量维度规约、归一化及反向计算，需支持指定维度计算、3D 输入及连续张量要求。
- T1-2-2：包含 IndexCopyInplace、Gather、Scatter、tril、triu、Linear（及反向）等算子，涉及张量索引复制、聚集、散射、三角矩阵提取及线性变换，需支持任意步长、2D 连续张量及可选 bias 等场景。
- T1-2-3：包含 CrossEntropyLoss、AveragePool（及反向）、MaxPool（及反向）、InterpolateNearest、Conv Backward 等算子，覆盖损失计算、池化操作、插值及卷积反向计算，需支持 1D-3D 场景及精度验证。
困难算子赛题
- T1-3-1：包含 FlashAttention（及反向）算子，需支持无 mask、causal mask、自传 mask 三种场景，实现加速卡上性能优于标准 attention 的正向与反向计算。
- T1-3-2：包含 Latent Attention Multi-head、Top-K Router 算子，需参考 Deepseek V3 模型的注意力层及 MoE 层核心计算逻辑，实现正向计算，支持动态 cache 位置及指定参数格式。

奖励机制

每道赛题设 5 名获奖者，完成所有算子开发并通过测试且判定为优秀者可获基础奖金（简单算子 100 元 / 题，中等算子 200 元 / 题，困难算子 260 元 / 题）；
算子代码被主办方采纳者获一等奖，未被采纳者获二等奖；被采纳的算子按合并个数及所属赛题难度发放一等奖奖金（简单算子 100 元 / 算子，中等算子 400 元 / 算子，困难算子 800 元 / 算子）；
选手可参加多个赛题，奖励累加。

赛道二: 九源大模型推理引擎开发

赛题简介

本赛道聚焦大模型推理引擎的开发与优化能力，涵盖模型适配、推理系统性能优化及量化推理三大方向。要求参赛者基于指定框架实现大模型推理服务、优化推理性能或适配量化技术，提升大模型在不同硬件环境下的部署效率与实用性。

参赛要求

选手需从 InfiniCore-Infer或 InfiniLM中选择任一框架进行开发；
所有模型需实现推理服务功能，并适配 OpenAI 标准流式推理请求接口；
提交内容需包含代码仓库 PR（若修改 InfiniCore 需提交两份 PR），PR描述需附技术方案设计、结果验证分析报告及推理效果截图。

赛道介绍

报名：参赛队伍（或选手）可自主选择模型适配、推理优化或量化推理方向的赛题，直接通过代码提交参与；
比赛内容：分为模型适配（模型在指定框架的部署实现）、推理系统优化（端到端性能提升技术落地）、量化推理（量化技术适配与精度 / 性能平衡）三个方向；
提交方式：选手 fork 对应仓库（InfiniCore-Infer 或 InfiniLM）后，向主仓库提交 PR，PR 命名格式参考赛道一规范；比赛中期发放测试数据集，选手需基于数据集验证正确性；
评审：采用 “自动程序测试 + 代码与技术评审” 结合的方式，自动测试验证代码编译运行及性能正确性，评审组综合评估技术方案、代码质量及应用价值。

赛题列表

模型适配赛题
- T2-1-1：MoE 模型适配；
- T2-1-2：RWKV 模型适配；
- T2-1-3：Mamba 模型适配；
- T2-1-4：Qwen-3 模型适配。
推理系统优化赛题
- T2-2-1：九格 - 7B 单卡推理服务优化；
- T2-2-2：九格 - 70B 多卡推理服务优化；
- T2-2-3：DeepSeek-671B 适配 + 优化。
量化模型推理赛题
- T2-3-1：九格 - 4B 量化推理；
- T2-3-2：九格 - 70B 量化推理。

奖励机制

奖金分为性能最优奖金和合并奖金，比例为 4:6；每个赛题性能最优奖仅发放 1 份；
评审组选出技术新颖的代码合并至主仓库后，给予合并奖励，鼓励技术优秀但未达性能最优的作品；
各赛题总奖金额（含税）：T2-1-1 至 T2-1-3 各 6000 元，T2-1-4 为 2000 元，T2-2-1 为 5000 元，T2-2-2 为 10000 元，T2-2-3 为 15000 元，T2-3-1 至 T2-3-2 各 5000 元。

备注：更多详细内容请看大赛细则；大赛日期、规则、评审结果及奖金发放以官方发布为准，举办方拥有最终解释权，规则可能根据进程及反馈调整并及时通知。