「第三届开放原子大赛」获奖队伍专访来啦!企业篇
【近些年,随着AI大模型的爆发式增长,千卡级AI集群成为常态,推动服务器功率密度持续攀升,服务器传统粗放式的功耗管理已无法满足能效要求,为解决数据中心的能耗管理问题,OurBMC社区及其理事单位飞腾信息技术有限公司在第三届开放原子大赛中设置"基于BMC的整机功耗智能管理"赛题,旨在探索BMC管理系统部署轻量级AI模型的技术路径,促进AI在OurBMC开源项目中的应用,为数据中心提供可落地的整机功耗智能管理方案。】 大赛自启动以来,汇聚了来自全国各地的78个队伍的130多位精英选手。选手们携数十份精彩作品,投身这场为期四个月的激烈实战竞技中。在此期间,各参赛队伍不仅积累了宝贵的实践经验,也深化了对比赛的理解与感悟。本期,社区特别邀请获奖企业团队分享 「走进OurBMC第三届开放原子大赛,共同践行开放包容、共创共赢的开源精神」,让更多人领略开源的魅力,感受技术的磅礴力量。 团队长期致力于OpenBMC架构与嵌入式开发,在服务器温控场景中发现传统PID控制存在功耗与散热的平衡难题。通过OurBMC社区赛事通知渠道了解到本次比赛,希望以赛事为契机,将AI算法与BMC硬件管控深度融合,验证智能温控方案的可行性,同时借助开源平台与行业伙伴交流技术思路,推动BMC技术栈的创新升级。 本项目聚焦于服务器智能温控系统中的单变量功耗智能管理,基于开源项目openbmc-OurBMC-24.12的phosphor-pid-control库基础上,引入AI驱动的动态预测与决策机制。项目基于BMC平台,深度集成了一套完全由C++实现、以梯度提升决策树(GBDT)为预测核心、以近端策略优化(PPO)为决策核心的自适应闭环控制系统。 数据采集采用双阶段策略:快速降温阶段与低功耗稳态调控阶段,实现从异常响应到节能运行的平滑过渡。通过温度预测模型对未来温度趋势进行高精度预测,并结合PPO强化学习生成节能导向的风扇转速建议,在保障设备安全运行的前提下,显著降低系统整体功耗。 控制策略采用安全优先的融合机制:最终风扇转速控制值指令取AI建议值与超温保障输出值中的较大者,实现“安全兜底+智能节能”的双重目标。该方案在保障设备可靠性的前提下显著降低风扇功耗,有助于提升数据中心能效比(PUE),助力绿色计算。 本次参赛面临组队分工与赛题技术融合的双重挑战,团队通过明确“真实环境搭建-相关传感器适配-算法开发-工程部署-测试验证”职责分工高效协作。在赛题解析中,攻克了AI模型轻量化适配BMC嵌入式环境的难题。同时,团队成员平衡工作与备赛时间,利用碎片化时段开展模型训练与代码调试,深刻体会到技术落地需兼顾创新与实用性,开源协作模式更能加速技术迭代与问题解决。 感谢OurBMC社区搭建的开源交流平台,让我们能够基于社区成熟的技术栈进行创新实践。开源生态是BMC技术发展的核心驱动力,它打破了技术壁垒,让开发者得以共享经验、协同攻坚。BMC技术栈正朝着智能化、轻量化方向演进,期待未来能与社区伙伴深化合作,在硬件管控、能效优化等场景探索更多技术方案,共同推动开源BMC生态的繁荣发展,为绿色数据中心建设贡献力量。 作为OurBMC社区成员单位,我们通过社区获知本次大赛的相关信息,组队参加本次大赛主要基于以下几点考虑:首先想通过参加本次大赛了解目前业界对于服务器智能功耗管理的最新研究成果,拓展自己专业能力;其次是分享移动云在这方面的成果,期待评审老师和同行能对我们的方案提出宝贵的意见,助力我们在服务器智能功耗管理领域不断前进,迈出新的高度。 本次获奖作品是“基于BMC的智能功耗管理-SFC调速方案”,其核心思想是通过BMC收集服务器的关键工况信息,离线训练工况识别模型和温度预测模型,然后将这两个模型内置到BMC系统中。在服务器工作时,首先BMC获取服务器的关键工况信息,通过工况识别模型识别当前服务器的运行工况;然后在通过温度预测模型,基于当前的服务器工况预测关键部件的温度变化;再基于预测的温度变化信息,提前响应风扇转速,在满足温度约束的条件下,通过BMC调节风扇转速达到整体功率最低。 本次大赛在接到赛题后,基于移动云在服务器功耗管理上的积累,我们迅速组建了一只技术实力互补、充满活力的团队,团队成员间展现出极高的协同性,通过紧密无间的合作,共同投入到赛题的深入解析之中。针对赛题要求,我们认为智能功耗管理不能影响BMC其他的核心功能,因此模型的轻量化,功耗管理的冗余措施必不可少。基于此,团队通过细致的分析和思维的碰撞,成功攻克了模型轻量化、预测准确度等多个技术难题,成功构建了基于BMC的智能功耗管理方案。同时,我们也看到了其他参赛队伍的优秀作品,这些优秀作品为我们后续在服务器智能功耗管理领域的研究提供了宝贵的参考与启示。 感谢OurBMC社区提供了一个如此卓越的平台,众多主流厂商纷纷投身于OpenBMC的开发浪潮中,让固件开发者得以在平台上深入探索BMC领域的奥秘。在这里,我们热切的期望与国内BMC相关领域的厂商携手合作,携手推进国产BMC技术的持续创新,共通促进国产BMC生态的繁荣发展。最后祝愿OurBMC社区蓬勃发展,越办越好! 通过OurBMC社区了解到本次比赛。本次竞赛课题聚焦前沿AI技术领域,极具创新性与前瞻性,激发了团队的浓厚兴趣。随着人工智能在各行业深度渗透,将AI能力融合进BMC软件,正成为推动系统智能化演进的重要方向。参赛不仅是对自身技术能力的一次锤炼,更是与行业同行交流互鉴、共同探索的宝贵机会。 本方案基于LSTM时序预测模型构建了一套智能化自适应温控决策机制。该模型通过持续采集分析温度数据与风扇转速的关系趋势,识别其内在模式与长期依赖关系,实现对未来温度变化趋势的前瞻性预测,并输出与之相匹配的风扇转速预测。同时,系统通过专门的融合决策模块,对LSTM的预测结果与PID的控制指令进行同步的比较与评估,动态地进行智能权衡与选择,最终下发风扇转速控制指令。 在确保设备散热需求完全满足、系统安全稳定运行的前提下,该系统实现了从“被动响应式控温”到“主动优化式控温”的转变,通过预测与反馈的闭环优化,有效平滑能耗曲线,减少不必要的功耗波动,达成散热效能与能源效率的最优平衡。 由于BMC软件”小而美”的特殊性,芯片计算能力有限,存储空间受限,如何持续更新智能预测模型并兼容现有控速方案是最大的困难。我们依靠明确的晚间协作时段与高效异步沟通,将项目经验转化为比赛优势。这段经历再次印证,清晰的技术权衡与坚定的工程落地能力,往往比单纯追求技术新颖更为重要。 OurBMC社区通过持续举办开源大赛,为行业搭建了宝贵的交流平台,也让我们能够更深入地洞察技术前沿、把握创新脉搏。对此我们深表感谢,并将一如既往支持社区发展,共同推动行业进步。 我们与OurBMC有不解之缘,从第一届比赛开始便持续关注相关赛事,但由于博士学业繁忙遗憾错过。本次第三届比赛以功耗管理为主题,与我们近期在服务器能效优化方面的研究高度契合,且相关成果已发表在计算机体系结构领域的顶级期刊。因此,我们非常希望借助本次比赛,向开源社区展示我们的研究方案与团队实践经验,促进互相交流与学习,为国产自主可控BMC固件的发展贡献力量。 我们的作品名称是HyperBMC,“Hyper”寓意超越传统服务器管理范式,强调BMC不再只是远程管理芯片,而是服务器智能管理引擎。通过在BMC芯片上部署深度学习模型,动态刻画计算需求与散热能力之间的平衡关系,进而触发调控决策;同时结合主机CPU与BMC之间的带内通信机制,协同管理风扇转速与CPU频率,从而实现服务器的精细化、智能化的功耗管理,在提升能效的同时保障性能与稳定性。 尽管我们在基于BMC的功耗管理方面有一定的积累,但是面向本次比赛仍然遇到了许多挑战。一方面是软件版本升级与适配问题。我们团队只有OpenBMC 2.8.0的开发经验,将OurBMC 24.12版本编译到现有的平台,并且将我们之前的成果迁移上来,面临着Linux内核升级和Yocto工具链变化等诸多问题。另一方面是在嵌入式上运行深度学习的挑战。我们之前的方案是在远程控制器上运行传统的机器学习模型,在此次比赛中,我们想要充分挖掘嵌入式设备的性能,不仅将智能决策卸载到BMC,并且在BMC上直接推理深度学习模型。 非常感谢OurBMC社区搭建了一个开放、公平且有影响力的技术交流平台,使得我们研究团队有机会将最新的研究成果与各位同行分享。希望OurBMC社区能继续推动BMC相关的开源实践与生态建设,让更多开发者、研究者参与进来,共同打造一个更智能、安全和绿色的算力基础设施技术体系。我们也期待未来能进一步与社区合作,共同探索BMC在更多场景下的应用与扩展。最后,感谢OurBMC社区长期以来在BMC自主可控道路上的贡献,祝愿OurBMC系列比赛越办越好。 管芯微是最早一批申请加入OurBMC社区的成员单位,长期活跃于社区活动。此次得知“基于BMC的整机功耗智能管理”赛题后,我们第一时间报名,参加比赛的初衷包括:一方面题目与我们联合团队正建设的广东赫曦原子智算中心高度契合;另一方面,我们希望通过比赛把社区的BMC轻量级AI部署经验应用到实际工作中,与同行一起探索降低PUE的新路径。 作品方案面向原子级科学计算高性能服务器(赫曦I架构),设计了一套基于BMC的温度控制与功耗管理系统。该系统包含两个核心模块:单变量功耗智能管理和整机功耗智能管理。单变量功耗智能管理通过采集主板、CPU、GPU、APU等区域的温度、负载数据,采用ANN、CNN、LSTM-FNN等AI模型动态调节风扇转速组合,实现快速降温与低功耗温控。整机功耗智能管理通过LSTM模型预测CPU、GPU、内存等设备的负载峰值与低谷,动态调整CPU/GPU频率和电压,实现按需功耗分配。系统还支持增量学习、强化学习优化及阈值控制兜底,在保障计算性能的同时有效降低运行成本、提升能效。 本次挑战赛自启动便锚定真实场景,涉及CPU、GPU及自研APU等多类硬件,需监测与调控的参数庞杂、手段各异;尤其是APU,必须经两级代理才能获取关键指标。如何把这些分散的监控手段熔于一炉,实现整机功耗的智能管理,成为最大难点。团队通过模块化设计与任务精细化分工,紧密协同,最终攻克了这一难题。由于采用联合组队,成员分处两地,大家积极配合、相互支持,克服时间紧、异地沟通难等障碍,确保在既定节点顺利完成赛题任务。 OurBMC社区把“开放”写进名字,更把“落地”刻进基因。比赛过程中,我们深度用到社区开源的框架和工具,真切体会到“代码面前无门槛”的魅力。希望社区继续围绕:一方面把功耗、安全、AI等前沿插件做成“积木”,让中小企业也能搭出高可靠方案;另一方面建立“赛题—社区—商业”正循环,让好的需求立刻变成可量产的主板固件。希望通过本次大赛,与大家一起把BMC从“远程开关”升级为“绿色算力中枢”。开源不是情怀,而是降低PUE的最短路径——让我们把这条路径越走越宽! 我们通过开放原子开源基金会、OurBMC社区公众号了解到本次比赛,参赛初衷是当前AI大模型的爆发式增长,AI服务器集群成为常态,相较于传统服务器,功耗密度陡然攀升,传统粗放式的功耗管理已无法满足能效要求。在BMC管理系统里,引进AI功耗智能管理模块,根据主板关键元器件的温度、服务器OS的负载,对服务器的整机功耗,提供精准化、智能化的调控决策。 获奖作品核心思想是通过轻量化AI技术,优化BMC风扇控制策略和功耗节能管理,实现高效散热与节能的平衡,采用如下关键机制: 由于本次参赛团队成员涉及到不同专业领域,赛事前期AI方面的工程师和BMC开发工程师就赛题讨论存在一定的分歧,后经带队老师统一协调讨论,敲定最终实施的方案架构,团队成员即按照方案架构进行任务分配,开始采集数据、训练模型、搭建智能管理软件架构、部署测试,期间就模型训练结果不理想、数据采集有偏差等一系列问题,多次集中讨论,攻关,逐一解决。由于要兼顾公司下发的项目任务,为此我们每个人都为比赛付出巨大的精力和努力,但成果出来后的成就感让我们疲态尽扫,收获颇丰。 OurBMC作为国内首个开源的BMC固件栈社区,其开源精神和技术创新是值得我们所有相关从业人员学习的。社区近年陆续举办相关的BMC赛事,其竞赛背景均是服务器行业里高度关注的技术点,吸引了众多选手一同角逐,积极推动开源社区的发展。希望OurBMC社区能够发展的越来越好,拥有更加美好的未来! OurBMC 社区是开发者交流和创新 BMC 开源技术的根社区,社区秉承 “开放、平等、协作、创新” 原则,坚持 “开源、共建” 的合作方式,旨在共同推进 BMC 技术快速发展,辐射上下游形成产业共振,加速构建繁荣的信息系统软硬件生态。PART.01

参赛背景
核心方案
参赛过程及心得
我对社区说
PART.02

参赛背景
核心方案
参赛过程及心得
我对社区说
PART.03

参赛背景
核心方案
参赛过程及心得
我对社区说
PART.04

参赛背景
核心方案
参赛过程及心得
我对社区说
PART.05

参赛背景
核心方案
参赛过程及心得
我对社区说
PART.06

参赛背景
核心方案
超温阶段:开发LSTM多输出预测模型,实现快速响应温度趋势
稳温阶段: 开发Q-Learning+能耗优化模型,实现稳态能效最优参赛过程及心得
我对社区说
关于OurBMC



