标签 Kimi-Linear-48B 下的文章

刚刚在推上看到的
ymcki 给 Kimi-Linear-48B-A3B 加上了 MLA KV cache
实测下来 1M 上下文 F16 KV cache 显存占用从 140G 降到 15G。
如果显存少一点的用户可以选择(with KV Quant )

  • q8_0: 7.9GB
  • q5_1: 5.6GB
  • q4_0: 4.2GB
    有兴趣可以玩看看

Kimi-Linear-48B 的效果


📌 转载信息
原作者:
josenlou
转载时间:
2026/1/14 10:54:29