2026年4月,众智FlagOS技术栈的统一多芯片AI算子库迎来全新发展里程碑:算子总量正式突破500个,完成“1+6”多个领域覆盖,包括AI算子库FlagGems,FlagBLAS,FlagDNN,FlagFFT,FlagSparse,FlagTensor和FlagAudio。实现从大模型训练推理到科学计算全场景的能力延伸,成为全球规模领先、覆盖场景最全面的Triton开源算子库。

作为AI模型与底层硬件之间的核心“翻译官”,算子库是决定AI算力释放效率、开发门槛与跨硬件适配能力的关键基础设施。长期以来,算子开发始终面临手写编码门槛高、调优周期长、跨芯片适配需重复开发等行业痛点,而英伟达CUDA生态凭借十余年的技术与开发者积累,形成了难以逾越的生态壁垒。此次FlagOS技术栈的里程碑式突破,为全球多元异构算力时代的AI基础设施建设,提供了全新的开源解决方案。

500 算子、7 大领域,FlagOS 实现从“大模型专用”到“科学计算全域”能力跃迁

自项目启动以来,FlagOS始终以“打破硬件壁垒、普惠算子开发”为核心目标,完成了从大模型专用算子库到全场景通用算子库的跨越式发展。

此次里程碑升级中,FlagGems大模型算子库的算子总量超过400个,成为全球最大的Triton单一算子库。此外,在原有大模型核心算子能力基础上,FlagOS团队完成了FlagDNN(深度神经网络)、FlagBLAS(基础线性代数)、FlagFFT(快速傅里叶变换)、FlagSparse(稀疏矩阵)、FlagTensor(张量运算)及FlagAudio(语音处理)六大领域的覆盖。

截至目前,FlagGems 大模型算子库中,Triton算子性能哪怕在英伟达硬件上跟CUDA算子相比,中位数也已经达到0.998,意味着一半的算子数量达到或超过CUDA在英伟达上的性能;硬件适配层面,已完成对英伟达、华为、摩尔线程、海光、天数等28种主流AI芯片的适配支持,在40个主流AI模型上的推理任务算子覆盖度达到90%~100%,为开发者提供了“一次编写、多芯片运行、处处高性能”的极致开发体验。

行业最快增速!22 个月突破 500 算子,众智生态活力全面凸显

更值得关注的是,FlagOS创下了同类型算子库的最快规模化增长纪录。从2024年6月FlagGems项目首次开源,到2026年4月突破500个算子规模。

图片
众智FlagOS社区吸引开发者持续贡献FlagGems项目

这一增速的背后,是FlagOS活跃的开源生态与技术创新的双向赋能。一方面,FlagOS依托Triton、及Triton-TLE开源语言,大幅降低了算子开发的技术门槛,智源研究院、中科院计算所、中科加禾、清程极致、中科院软件所、硅基流动、先进编译实验室等十多家机构、十多家AI芯片厂商、及全球数百开发者共同贡献,形成了“共建共享”的良性开源生态;另一方面, KernelGen 算子自动生成技术,实现了算子需求理解、代码生成、正确性验证到性能评测的全流程自动化,将单个算子的开发周期从周级压缩到分钟级,为算子库的规模化扩容提供了核心技术支撑。

KernelGen 2.0 算子自动生成平台(视频):https://live.csdn.net/v/522643

从PyTorch生态官方认证,到全球AI基础设施的核心底座

2025年6月,在2025北京智源大会PyTorch Day China论坛上,PyTorch基金会执行董事Matt White正式宣布,FlagGems项目通过官方审批,正式加入PyTorch基金会生态项目体系,成为唯一支持多种AI芯片架构的入选算子库项目,PyTorch基金会官方同步完成了全球官宣。

图片

2025北京智源大会 · PyTorch Day China 论坛,PyTorch 基金会执行董事 Matt White 发言

图片

加入PyTorch生态以来,FlagGems完成了与PyTorch框架的深度融合,通过ATen后端无感注册的设计,让开发者无需修改一行模型代码,即可无缝切换到FlagGems算子库,享受跨芯片高性能算力加速,彻底解决了PyTorch模型在多元硬件上的部署难题。截至目前,FlagGems已成为全球最大的单一Triton算子库,其开源生态已覆盖芯片厂商、AI模型企业、科研院所、个人开发者等全产业链主体,成为推动全球AI基础设施开源化、普惠化的核心力量。

打破CUDA生态壁垒,重构AI时代的算力底层规则

长期以来,AI产业始终面临“硬件性能快速迭代,而软件生态严重滞后”的发展困境。国产AI芯片的理论算力持续追赶国际顶尖水平,但因算子生态的缺失,实际应用中算力释放效率不足10%,大量硬件因适配难题沦为“算力废铁”。

FlagOS的持续突破,正是对这一行业痛点的核心破局。通过Triton开源语言的中立性、跨芯片适配的通用性,以及自动生成技术的高效性,FlagOS彻底打破了“芯片-算子-框架”的深度绑定模式,让不同架构的AI芯片都能通过统一的算子库释放极致算力,让中小开发者无需掌握底层硬件架构知识,即可快速完成高性能算子开发与模型适配。

500个算子的里程碑,既是FlagOS技术栈发展的全新起点,也是中国开源AI生态走向全球引领的重要一步。未来,FlagOS技术社区将持续拓展算子覆盖场景、优化算子性能、完善跨芯片适配能力,持续深化与PyTorch等全球主流开源框架的生态融合,吸引更多开发者与机构参与开源共建,打造全球领先的中立、开放、高性能的AI算子基础设施,让每一颗AI芯片的算力都能被充分释放,推动全球AI产业从“单芯片垄断”走向“多元算力普惠”的全新发展阶段。

更多了解,请点击链接

GitHub地址:https://github.com/flagos-ai/FlagGems

关于众智FlagOS社区

为解决不同 AI 芯片大规模落地应用,北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈,支持 AI 模型一次开发即可无缝移植至各类硬件平台,大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目,致力于构建「模型-系统-芯片」三层贯通的开放技术生态,通过“一次开发跨芯迁移”释放硬件计算潜力,打破不同芯片软件栈之间生态隔离。

官网:https://flagos.io

GitHub 项目地址:https://github.com/flagos-ai

GitCode 项目地址:https://gitcode.com/flagos-ai

SkillHub:https://skillhub.flagos.io

标签: none

添加新评论