🔷 项目地址:

<u>https://</u><u>github.com/open-rdma/op</u><u>en-rdma</u>

欢迎感兴趣的读者Star及贡献代码。

在 AI 大模型时代,训练与推理性能的瓶颈,早已不只是算力芯片本身。当 GPU 数量越来越多,节点规模越来越大,真正决定系统效率的,往往是 GPU 与 GPU 之间的数据传输能力。而这背后的核心技术之一,就是 ​RDMA(Remote Direct Memory Access)​。长期以来,高性能 RDMA 方案几乎被少数商业厂商垄断,产品强大,但也存在一个共同问题:

闭源、黑盒、难以定制、难以学习、难以参与创新。

很多工程师会使用 RDMA,却无法真正理解 RDMA。

很多学生想进入 AI Infra 领域,却找不到一个完整可学习的真实项目。

很多研究者想验证新的网络协议或调度机制,却缺少开放实验平台。

所以,由 琶洲实验室(黄埔) 联合 达坦科技(DatenLord) 共同发起的 Open-RDMA 开源项目正式亮相!我们致力于打造一个从硬件 RTL 到软件驱动的全栈开源高性能 RDMA 实现,打破闭源垄断,助力 AI 基础设施的彻底进化。

为什么我们需要Open-RDMA?

目前的商业 RDMA 网卡就像一个“黑匣子”,对于追求极致性能的 AI 场景来说,存在诸多痛点:

  • 无法深度优化: ​闭源硬件让软件栈难以与之实现真正的“软硬协同”。
  • 迭代周期长: 商业芯片的更新速度难以跟上 AI 算法的演进。
  • 技术门槛高: 缺乏高质量的开源资料,让初学者和研究人员望而却步。

Open-RDMA 的出现,就是为了解决这些问题。

Open- RDMA是什么?

Open-RDMA 是一个​ 全栈开源 RDMA ​项目,覆盖:

  • RTL 硬件实现
  • 用户态协议栈
  • Linux Driver
  • libibverbs 兼容接口
  • 仿真验证环境
  • 面向 GPU 通信优化

它借鉴 RoCE v2 的思路,基于以太网,采用软硬件协同设计:硬件负责极致低延迟、高吞吐;软件负责灵活控制与可配置策略;同时,面向 AI 集群场景持续优化。我们选用了 Bluespec (硬件 RTL)、Rust (用户态驱动)、C (内核态驱动) 以及 CUDA (计算融合) ​等前沿技术栈,确保项目的现代性与高性能。一句话而言,Open-RDMA不只是再做一个RDMA,而是把RDMA 从黑盒产品,变成可编程基础设施。

为什么这个项目重要?

AI Infra的下一站场,是网络

过去大家关注GPU,未来大家会越来越关注:GPU 如何互联、多机训练如何扩展、数据如何低延迟搬运、通信如何避免成为瓶颈。谁掌握网络基础设施,谁就掌握下一代 AI 系统效率。

中国需要自己的开放AI Infra社区项目

我们已经有很多优秀开源模型、框架、Agent 项目。但在 高性能网络 / RDMA / GPU 通信基础设施 层面,公开项目仍然非常少。Open-RDMA 的价值不仅是代码本身,更是为了培养人才、降低门槛、聚集社区,从而推动国产 AI Infra 的生态发展。

<u>项目亮点</u>

  • ​完全开源:​从 RTL 到驱动,全链路透明可学习
  • ​高性能:​基于 RoCE v2 深度扩展,软硬件协同
  • ​深度可定制:​支持 FPGA,适合科研与产业创新
  • AI Native​:配套 UCAgent,用 AI 做硬件验证自动化
  • 学术科研友好​:适合论文实验、协议研究、系统创新
  • 初学者友好​:文档开放,欢迎新手参与,助力更多人成为RDMA专家

开源项目的生命力在于社区

无论你是:

  • 硬件大牛(FPGA/ASIC领域)
  • 底层架构师(驱动开发、通信协议)
  • AI算法工程师(GPU Kernel 优化、训练推理框架)
  • 在校学生或研究人员

你都能在Open-RDMA中找到属于你的位置,积攒经验,收获成长。欢迎关注和转发我们的项目:<u>https://</u><u>github.com/open-rdma/op</u><u>en-rdma</u>(或点击文末“​阅读原文”​),给项目点​Star​,让更多的人看到它。当然更重要的是参与贡献。无论你会什么,都能参与:文档整理、Issue反馈、RTL开发、Driver开发、Benchmark测试、AI Agent验证工具、社区传播等等。

Open- RDMA,等你一起把黑盒拆开!

如果你对 GPU 算子优化、推理框架优化、高性能网络、RTL 验证 ​充满热情,欢迎加入我们!

简历投递邮箱​:<u>info@datenlord.com</u>,或添加小助手微信: <u>DatenLord\_Tech</u>

让我们一起,用开源的力量重新定义 AI 网络!

达坦科技始终致力于打造高性能​AI+Cloud基础设施平台​,积极推动AI应用的落地。达坦科技通过软硬件深度融合的方式,提供​AI推理引擎和高性能网络​,为AI应用提供弹性、便利、经济的基础设施服务,以此满足不同行业客户对AI+Cloud的需求。

公众号​:达坦科技DatenLord

DatenLord官网​:https://datenlord.github.io/zh-cn/

​知乎账号:​https://www.zhihu.com/org/da-tan-ke-ji

B站​:https://space.bilibili.com/2017027518

​邮箱:​info@datenlord.com

如果您有兴趣加入达坦科技Rust前沿技术交流群、硬件敏捷开发和验证方法学讨论群或AI Infra ​交流群,请添加小助手微信:DatenLord\_Tech

标签: none

添加新评论