分享一个开源项目：BumbleCore

佬友们大家好！

这是我加入 L 站第一次发帖子 hhhh，很开心很激动。发帖的目的是想给大家分享一个开源项目。

我是 25 届毕业生，毕业后在一家大模型公司任算法工程师一职。

在工作之余我自己写了这个项目 → BumbleCore。

什么是 BumbleCore？

BumbleCore 是一个大模型训练框架，完整支持 Pretrain → SFT → DPO 三阶段训练流程。

它的底层基于 DeepSpeed 构建，但没有使用 Hugging Face Trainer 等高级封装接口。从数据加载、预处理、训练循环、损失计算，到模型推理，全部都是手动实现的。

项目里还实现了一个名为 BumbleBee 的模型架构，设计上参考了 Qwen 的源码。你可以直接用它进行完整的三阶段训练。

它的最大优势是：你可以自由初始化任意参数规模的模型。

我的初衷很简单：给想深入学习大模型训练的人，提供一个清晰、透明、可读的代码范本。

在这个项目里，你可以直观地看到：

这其实就是我自己学习大模型技术的过程总结。项目的使用方式也尽量贴近主流开源框架（比如 LLaMA-Factory），所以你不需要从零适应，但又能真正 “看到背后发生了什么”。

在学习过程中，我个人不太喜欢 Trainer 那种高度封装的接口，更倾向于灵活、可控的手动实现。这也是为什么在已有那么多优秀开源框架的情况下，我还是决定自己写一个。当然生产环境另说哈哈。

这可能也跟我自己的学习习惯有关：

如果给我一周时间学一项新技术，我会花一天用 AI 把功能跑通，剩下的六天，全部用来搞懂 “为什么这样实现”。

BumbleCore 就是基于这种理念打造的 —— 不止让你会用，更要让你真正理解。
你不用再去啃晦涩难懂的 Trainer 源码，而是可以直接阅读这个项目里每一行清晰、注释充分的代码，掌握微调背后的每一个细节。

项目还包含一个简单的 Web 前端界面（BumbleChat），方便你本地测试模型效果：

训练好的模型支持 OpenAI 兼容 API，也可以通过命令行或 Web 界面进行交互式聊天。

如果这个项目对你有帮助，或者你觉得它对社区有价值，欢迎点个 Star！

非常欢迎佬友提 Issue、PR，一起把它做得更好！

📌 转载信息

转载时间：
2026/1/22 21:08:47