感觉本地的模型有很大的潜力,但也有局限,主要是受限于硬件吧。以下几点:

  • 除了复杂架构调整分析工作外,日常的 CRUD 开发、项目总结、文档翻译、需求输入和模块的 Bug 修复上,几乎可以替代在线模型。
  • 复杂分析以及深度的问题查找、大上下文还受限于模型规模和内存。
  • 经过豆包和模型自身给出 llm 优化建议,使用 GGUF 模型能跑出 33 token/s 的速度,使用 MLX 能到 38 token/s 。
  • 36G 内存不够,开太大上下文会爆显存,只能重启。

第一次体会到 Mac 的性能居然这么不够用,搞得都想换 M5 Max 了,但感觉专门为 AI 也不是特别值得。

标签: none

添加新评论