标签 BumbleCore 下的文章

分享一个开源项目:BumbleCore

佬友们大家好!

这是我加入 L 站第一次发帖子 hhhh,很开心很激动。发帖的目的是想给大家分享一个开源项目。

我是 25 届毕业生,毕业后在一家大模型公司任算法工程师一职。

在工作之余我自己写了这个项目 → BumbleCore

什么是 BumbleCore?

BumbleCore 是一个大模型训练框架,完整支持 Pretrain → SFT → DPO 三阶段训练流程。

它的底层基于 DeepSpeed 构建,但没有使用 Hugging Face Trainer 等高级封装接口。从数据加载、预处理、训练循环、损失计算,到模型推理,全部都是手动实现的。

特别之处:内置 BumbleBee 模型架构

项目里还实现了一个名为 BumbleBee 的模型架构,设计上参考了 Qwen 的源码。你可以直接用它进行完整的三阶段训练。

它的最大优势是:你可以自由初始化任意参数规模的模型

  • 想做小实验?配个 0.5B 的模型就行。
  • 想跑大规模训练?也能轻松扩展到几十 B。
  • 如果你有算法创新的想法,比如修改注意力机制、加新模块等,这个架构就是一个非常干净、灵活的模板。


为什么要做这样一个 “手搓” 框架?

我的初衷很简单:给想深入学习大模型训练的人,提供一个清晰、透明、可读的代码范本

在这个项目里,你可以直观地看到:

  • 输入数据的具体格式(Pretrain / SFT / DPO 各阶段都支持)
  • 损失函数是怎么一步步计算的
  • 推理时 top-ptemperatureKV Cache 等参数如何工作
  • 分布式训练中 DeepSpeed 的集成细节(ZeRO、混合精度、梯度累积等)

这其实就是我自己学习大模型技术的过程总结。项目的使用方式也尽量贴近主流开源框架(比如 LLaMA-Factory),所以你不需要从零适应,但又能真正 “看到背后发生了什么”。


我的学习理念

在学习过程中,我个人不太喜欢 Trainer 那种高度封装的接口,更倾向于灵活、可控的手动实现。这也是为什么在已有那么多优秀开源框架的情况下,我还是决定自己写一个。当然生产环境另说哈哈。

这可能也跟我自己的学习习惯有关:

如果给我一周时间学一项新技术,我会花一天用 AI 把功能跑通,剩下的六天,全部用来搞懂 “为什么这样实现”。

BumbleCore 就是基于这种理念打造的 —— 不止让你会用,更要让你真正理解
你不用再去啃晦涩难懂的 Trainer 源码,而是可以直接阅读这个项目里每一行清晰、注释充分的代码,掌握微调背后的每一个细节。


前端展示 & 推理体验

项目还包含一个简单的 Web 前端界面(BumbleChat),方便你本地测试模型效果:

训练好的模型支持 OpenAI 兼容 API,也可以通过命令行或 Web 界面进行交互式聊天。


最后

如果这个项目对你有帮助,或者你觉得它对社区有价值,欢迎点个 Star

非常欢迎佬友提 Issue、PR,一起把它做得更好!


📌 转载信息
转载时间:
2026/1/22 21:08:47