美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化
传统 MoE 架构通常通过增加专家数量来提升模型能力,但随着专家数量增加,会面临边际收益递减和系统通信开销上升等问题。美团 LongCat 团队通过全面的分析与实验发现:嵌入扩展相比专家扩展能获得更优的帕累托前沿。这意味着嵌入扩展在特定条件下相比专家扩展能实现更优的效能边界。 基于这些洞见,我们正式推出 LongCat-Flash-Lite——一款拥有 685 亿参数,每次推理仅激活29亿~45亿参数的轻量化 MoE 模型。通过将超过 300 亿参数高效用于嵌入层,LongCat-Flash-Lite 不仅超越了参数量等效的 MoE 基线模型,还在与同规模现有模型的对比中展现出卓越的竞争力,尤其在智能体与代码领域表现突出,并依托 YARN 技术可支持最长 256 K上下文,能高效处理长文档、大规模代码分析等场景。同时,该模型基于嵌入扩展的应用与系统级优化,让模型推理效率大幅提升,在输入 4K,输出 1k 的典型负载下,LongCat API 可提供 500-700 token/s 的生成速度。 N-gram嵌入层的核心作用在于增强模型对局部上下文语义的捕获能力。它通过哈希函数,将当前token及其前序的N-1个token所构成的序列映射为一个整体的N-gram嵌入向量,并与该token的基础嵌入向量融合。举个例子,当模型看到 “打开终端输入命令”,就不会误解成日常的 “打开文件”,而是能精准锁定 “编程” 这个场景,显著提升了语义理解的精准度。 在生成N-gram嵌入向量的过程中,关键挑战在于避免哈希冲突,即不同的N-gram序列被映射到同一个向量。为此,LongCat团队采用了两个关键设计: N-gram 嵌入层不仅能提升模型能力,其结构特性还为推理加速提供了新方向。尽管模型总参数量达 685 亿,但通过动态激活机制,每次推理仅激活29亿~45亿参数。为进一步放大这一稀疏优势,我们在系统层面进行了三重核心优化: 总结而言,通过参数重分配奠定稀疏基础、专用缓存与内核优化消除系统开销、与推测解码策略深度协同,LongCat-Flash-Lite 实现了从模型结构到运行时系统的垂直优化,最终将 N-gram 嵌入带来的理论优势,有效转化为高吞吐、低延迟的实际推理性能。 LongCat-Flash-Lite 在智能体工具使用与编程任务上均展现出领先性能:τ²-Bench 三大行业场景高分领先,编程领域覆盖全链路能力,在代码修复、终端执行、多语言开发等任务上表现优异。 智能体任务表现 在评估复杂工具使用与工作流执行的基准上,模型表现突出: 代码任务表现 在衡量编程实用技能的基准上,模型展现出强劲的问题解决能力: 通用知识及推理能力 模型在综合评估中保持了与规模相匹配的均衡性能: LongCat-Flash-Lite 的实践,为大模型的高效扩展提供了一种新的可能性:通过 N-gram 嵌入与系统级优化的协同设计,我们得以用29亿~45亿的动态激活参数,在智能体与编码等关键任务上,实现与更大模型比肩的竞争力。 技术的生命力源于开放与协作。因此,我们已全面开源模型权重及技术细节,诚邀每一位开发者体验、研究与共建。 开源平台 LongCat 系列模型一直遵循的是 Model System Co-Design 的设计原则,因此对于训练和推理系统都提出了独特的挑战。为了让社区能够更好地使用 LongCat 模型,我们对推理引擎的部分功能(SGLang-FluentLLM)和部分算子也同步进行了开源,欢迎体验: 在线体验与调用 我们已向开发者开放 LongCat-Flash-Lite 版本 API 接口,可登录 LongCat API 开放平台申请,每日免费额度高达5000万tokens。(目前暂不限额,欢迎试用) 我们期待与社区一起,探索大模型高效落地的更多可能。欢迎 Star、Fork、反馈与合作。 | 关注「美团技术团队」微信公众号,阅读更多技术干货! | 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。01 更优的扩展效率:从“堆专家”到“扩嵌入”

02 卓越的推理效率:三重优化实现极致加速

03 性能表现:智能体工具使用与编程能力双领先

轻量,不“轻”性能:开源与体验,即刻开始
