众智FlagOS开源算子数量突破500！成为支持AI芯片最多的开源算子库

2026年4月，众智FlagOS技术栈的统一多芯片AI算子库迎来全新发展里程碑：算子总量正式突破500个，完成“1+6”多个领域覆盖，包括AI算子库FlagGems，FlagBLAS，FlagDNN，FlagFFT，FlagSparse，FlagTensor和FlagAudio。实现从大模型训练推理到科学计算全场景的能力延伸，成为全球规模领先、覆盖场景最全面的Triton开源算子库。

作为AI模型与底层硬件之间的核心“翻译官”，算子库是决定AI算力释放效率、开发门槛与跨硬件适配能力的关键基础设施。长期以来，算子开发始终面临手写编码门槛高、调优周期长、跨芯片适配需重复开发等行业痛点，而英伟达CUDA生态凭借十余年的技术与开发者积累，形成了难以逾越的生态壁垒。此次FlagOS技术栈的里程碑式突破，为全球多元异构算力时代的AI基础设施建设，提供了全新的开源解决方案。

500 算子、7 大领域，FlagOS 实现从“大模型专用”到“科学计算全域”能力跃迁

自项目启动以来，FlagOS始终以“打破硬件壁垒、普惠算子开发”为核心目标，完成了从大模型专用算子库到全场景通用算子库的跨越式发展。

此次里程碑升级中，FlagGems大模型算子库的算子总量超过400个，成为全球最大的Triton单一算子库。此外，在原有大模型核心算子能力基础上，FlagOS团队完成了FlagDNN（深度神经网络）、FlagBLAS（基础线性代数）、FlagFFT（快速傅里叶变换）、FlagSparse（稀疏矩阵）、FlagTensor（张量运算）及FlagAudio（语音处理）六大领域的覆盖。

截至目前，FlagGems 大模型算子库中，Triton算子性能哪怕在英伟达硬件上跟CUDA算子相比，中位数也已经达到0.998，意味着一半的算子数量达到或超过CUDA在英伟达上的性能；硬件适配层面，已完成对英伟达、华为、摩尔线程、海光、天数等28种主流AI芯片的适配支持，在40个主流AI模型上的推理任务算子覆盖度达到90%~100%，为开发者提供了“一次编写、多芯片运行、处处高性能”的极致开发体验。

行业最快增速！22 个月突破 500 算子，众智生态活力全面凸显

更值得关注的是，FlagOS创下了同类型算子库的最快规模化增长纪录。从2024年6月FlagGems项目首次开源，到2026年4月突破500个算子规模。

众智FlagOS社区吸引开发者持续贡献FlagGems项目

这一增速的背后，是FlagOS活跃的开源生态与技术创新的双向赋能。一方面，FlagOS依托Triton、及Triton-TLE开源语言，大幅降低了算子开发的技术门槛，智源研究院、中科院计算所、中科加禾、清程极致、中科院软件所、硅基流动、先进编译实验室等十多家机构、十多家AI芯片厂商、及全球数百开发者共同贡献，形成了“共建共享”的良性开源生态；另一方面， KernelGen 算子自动生成技术，实现了算子需求理解、代码生成、正确性验证到性能评测的全流程自动化，将单个算子的开发周期从周级压缩到分钟级，为算子库的规模化扩容提供了核心技术支撑。

KernelGen 2.0 算子自动生成平台（视频）：https://live.csdn.net/v/522643

从PyTorch生态官方认证，到全球AI基础设施的核心底座

2025年6月，在2025北京智源大会PyTorch Day China论坛上，PyTorch基金会执行董事Matt White正式宣布，FlagGems项目通过官方审批，正式加入PyTorch基金会生态项目体系，成为唯一支持多种AI芯片架构的入选算子库项目，PyTorch基金会官方同步完成了全球官宣。

2025北京智源大会 · PyTorch Day China 论坛，PyTorch 基金会执行董事 Matt White 发言

加入PyTorch生态以来，FlagGems完成了与PyTorch框架的深度融合，通过ATen后端无感注册的设计，让开发者无需修改一行模型代码，即可无缝切换到FlagGems算子库，享受跨芯片高性能算力加速，彻底解决了PyTorch模型在多元硬件上的部署难题。截至目前，FlagGems已成为全球最大的单一Triton算子库，其开源生态已覆盖芯片厂商、AI模型企业、科研院所、个人开发者等全产业链主体，成为推动全球AI基础设施开源化、普惠化的核心力量。

打破CUDA生态壁垒，重构AI时代的算力底层规则

长期以来，AI产业始终面临“硬件性能快速迭代，而软件生态严重滞后”的发展困境。国产AI芯片的理论算力持续追赶国际顶尖水平，但因算子生态的缺失，实际应用中算力释放效率不足10%，大量硬件因适配难题沦为“算力废铁”。

FlagOS的持续突破，正是对这一行业痛点的核心破局。通过Triton开源语言的中立性、跨芯片适配的通用性，以及自动生成技术的高效性，FlagOS彻底打破了“芯片-算子-框架”的深度绑定模式，让不同架构的AI芯片都能通过统一的算子库释放极致算力，让中小开发者无需掌握底层硬件架构知识，即可快速完成高性能算子开发与模型适配。

500个算子的里程碑，既是FlagOS技术栈发展的全新起点，也是中国开源AI生态走向全球引领的重要一步。未来，FlagOS技术社区将持续拓展算子覆盖场景、优化算子性能、完善跨芯片适配能力，持续深化与PyTorch等全球主流开源框架的生态融合，吸引更多开发者与机构参与开源共建，打造全球领先的中立、开放、高性能的AI算子基础设施，让每一颗AI芯片的算力都能被充分释放，推动全球AI产业从“单芯片垄断”走向“多元算力普惠”的全新发展阶段。

关于众智FlagOS社区

为解决不同 AI 芯片大规模落地应用，北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈，支持 AI 模型一次开发即可无缝移植至各类硬件平台，大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目，致力于构建「模型-系统-芯片」三层贯通的开放技术生态，通过“一次开发跨芯迁移”释放硬件计算潜力，打破不同芯片软件栈之间生态隔离。

官网：https://flagos.io

GitHub 项目地址：https://github.com/flagos-ai

GitCode 项目地址：https://gitcode.com/flagos-ai

SkillHub：https://skillhub.flagos.io