简单使用了一周在本地 Mac 的 qwen3.6-35b-a3b 模型
感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点:
- 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。
- 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。
- 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。
- 36G 内存不够,开太大上下文会爆显存,只能重启。
第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。