搞了个新的神经网络架构 Fielix,比 Transformer 学得快,分享一下
闲着没事搞了个神经网络架构,开源出来水一下
简单说就是用 "场效应" 替代注意力机制,实验下来学习效率比 Transformer 高不少:
实验结果 (27M 参数)
- 初始 Loss:Fielix 3.0 vs Transformer 7.9
- 最终 Loss:Fielix 1.66 vs Transformer 2.59
- 训练速度:慢 2x
缺点是训练慢 2 倍
没精力继续优化了,感兴趣的大佬随便玩
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。
闲着没事搞了个神经网络架构,开源出来水一下
简单说就是用 "场效应" 替代注意力机制,实验下来学习效率比 Transformer 高不少:
实验结果 (27M 参数)
缺点是训练慢 2 倍
没精力继续优化了,感兴趣的大佬随便玩