标签显存优化下的文章

xiaohack's Blog

xiaohack博客专注前沿科技动态与实用技术干货分享，涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容，提供开源项目教程、科技资讯日报、工具使用指南，助力开发者、AI 爱好者获取前沿技术与实战经验。

本地跑模型的福音 - Kimi-Linear-48B-A3B 最低只需要 4.2G 显存

刚刚在推上看到的
ymcki 给 Kimi-Linear-48B-A3B 加上了 MLA KV cache
实测下来 1M 上下文 F16 KV cache 显存占用从 140G 降到 15G。
如果显存少一点的用户可以选择（with KV Quant )

Kimi-Linear-48B 的效果

📌 转载信息

原作者：
josenlou

转载时间：
2026/1/14 10:54:29