【上海站】SGLang和ta的朋友们:共探大模型推理新范式
随着大模型(LLM)应用深入,长文档分析、多轮 Agent 交互等场景对上下文长度的需求爆发式增长。然而,有限的 GPU 和 HBM 显存资源已成为制约推理性能和扩展性的核心瓶颈。如何在保证极致推理速度的同时,显著降低 TCO 并支持无限延伸的上下文,是业界共同面临的挑战。 本次 Meetup 由 SGLang、阿里云数据库 Tair KVCache 、NVIDIA 开发者社区 和千问 APP 基础工程团队联合举办。活动将深度聚焦大模型推理的演进方向,公开 SGLang 的最新发展路线图,深度解密 Tair KVCache 如何通过分层存储和高速网络重构推理架构。同时,我们特邀来自千问 APP、 NVIDIA 的技术专家,分享在构建大规模、高性能推理服务的一线优化实战经验。 📅 3月7日14:00-18:00 1️⃣ SGLang 独家剧透 2️⃣ 千问 APP 业务实战 3️⃣ 阿里云存储重构 这是一场关于速度、规模与成本的技术深度交流,诚邀每一位关注 LLM 基础设施的开发者参与。除了技术干货,现场参与还可获得定制的开工礼包,快来提前预定席位吧!
📍上海 T·HOUSE 艺术空间(闵行区漕河泾开发区,古美路 1528 弄 7 号楼)
👉🏻报名链接:https://survey.aliyun.com/apps/zhiliao/rhkk7qcDX
👉加入钉钉交流群:109765011301精彩看点预告