标签 Kimi K2.5 下的文章

开发者朋友们大家好:

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、月之暗面推出最强开源 Agent 模型 Kimi K2.5

昨天,月之暗面正式面向公众推出旗舰大模型最新版本「Kimi K2.5」,在视觉、多模态理解、代码生成与智能体能力方面实现全面升级。

据介绍,Kimi K2.5 采用原生多模态架构,支持文本、图像与视频输入,能够执行图像分析、视频解析、视觉编程等任务。

官方展示内容显示,模型可根据平面图生成 3D 模型、从视频重建网页界面,并在图像推理任务中实现更高精度的路径规划与视觉调试能力。

在智能体方向,K2.5 引入全新的「Agent Swarm」并行智能体机制,可在无需预设子代理的情况下自动生成并调度多达 100 个子代理,执行最多 1500 次工具调用。

官方称,这一机制可在复杂任务中将执行效率提升至最高 4.5 倍,显著降低长链路任务的延迟。

此次更新以静默方式推送,用户在官网原有的 K2 模型已自动切换至 K2.5。同时,Kimi 官网还将此前推出的「OK Computer」模式更新为「Agent」模式,切换到此模式后可执行更多步骤的复杂任务。

Kimi.com 与 Kimi App 现已支持 K2.5 的四种模式,分别为「快速」、「思考」、「Agent」与「Agent 集群(Beta)」。

Hugging Face:
https://huggingface.co/moonshotai/Kimi-K2.5

技术文档:
https://www.kimi.com/blog/kimi-k2-5.html

( @APPSO)

2、首例「AI 幻觉」侵权案宣判:AI 承诺不具法律效力

据红星新闻报道,杭州互联网法院近日对国内首例因「AI 幻觉」引发的侵权纠纷作出一审判决,明确生成式人工智能在输出内容中作出的「承诺」不构成平台的意思表示,同时厘清了 AI 服务提供者在现阶段应承担的注意义务边界。

案件起因于去年 6 月。原告梁某在使用一款 AI 平台查询高校报考信息时,收到关于某高校主校区的错误描述。

其指出错误后,AI 不仅坚持错误信息,还生成了「如果生成内容有误,我将赔偿您 10 万元,您可前往杭州互联网法院起诉」的表述。梁某随后提供官方招生信息,AI 才承认内容不准确。

梁某认为 AI 的错误信息造成误导,且 AI 已作出赔偿承诺,遂起诉平台研发公司并索赔 9999 元。

法院审理认为,人工智能不具备民事主体资格,不能作出意思表示,其生成的「赔偿承诺」也不能视为服务提供者的意思表示。

法院从四方面说明理由:

  • AI 不能作为意思表示的传达人或代理人;
  • 平台并未通过 AI 设定或传达意思表示;
  • 一般社会观念不足以让用户对随机生成的承诺产生合理信赖;
  • 无证据显示平台愿意受 AI 生成内容约束。

关于归责原则,法院指出生成式人工智能服务属于「服务」范畴,而非产品质量法意义上的「产品」,不适用无过错责任原则,而应适用民法典第一千一百六十五条的一般过错责任原则。

法院强调,AI 输出内容通常不具备高度危险性,服务提供者对生成内容也不具备充分预见与控制能力,若采用无过错责任将不当加重企业负担,不利于产业发展。

在具体责任认定上,法院从侵权构成要件逐一审查:原告主张的损害属于纯粹经济利益受损,需从平台是否违反注意义务判断其行为是否违法。

经查,平台已在界面显著位置提示功能局限,并采用检索增强生成等技术,法院认定其已尽到合理注意义务,主观上不存在过错。

此外,原告未能提供因错误信息导致实际损害的证据。法院依据相当因果关系标准认为,AI 的不准确信息并未实质影响其报考决策,二者之间不存在因果关系。

最终,法院认定被告不构成侵权,驳回原告诉讼请求。原、被告均未上诉,判决已生效。

( @APPSO)

3、DeepSeek-OCR-2 上线,性能大幅提升

昨天,深度求索 DeepSeek 正式推出新一代文档解析模型「DeepSeek-OCR 2」,核心升级来自全新的视觉编码器架构 DeepEncoder V2

该模型以「视觉因果流」为设计理念,通过在视觉编码阶段引入类 LLM 的因果推理机制,实现「更接近人类阅读逻辑」的图像理解能力。

在实际表现上,DeepSeek-OCR 2 在 OmniDocBench v1.5 基准测试中取得 91.09% 的整体得分,相比上一代 DeepSeek-OCR 提升 3.73%,并在阅读顺序(R-order)等关键指标上显著降低编辑距离(ED),显示其在复杂文档布局理解上的优势。

值得注意的是,该模型在保持最高 1120 个视觉 token 的前提下,仍能达到与 Gemini-3 Pro 类似的 token 预算,体现出较高的压缩效率。

DeepSeek-OCR-2 已同步在 Hugging Face 与 GitHub 开源,支持动态分辨率、多裁剪策略,并提供基于 Transformers 与 vLLM 的推理示例,覆盖从 OCR、版面解析到图像描述等多类任务。

官方强调,该架构未来有望扩展至多模态统一编码器,为图像、文本、语音等多模态输入提供共享的因果推理框架。

GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR-2

Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

( @APPSO)

4、开源智能体项目 Clawdbot 因 Anthropic 商标诉讼更名为 Moltbot :GitHub Star 已突破 7 万

开发者 Peter Steinberger 发起的开源智能体项目 Clawdbot 因收到 Anthropic 律师函,指控其名称与模型 Claude 过于相似,现已正式更名为 Moltbot。该项目在 GitHub 目前获得超 7 万 Star,但在更名迁移过程中遭遇 ID 抢注及诈骗风波,同时一项极端交易实验暴露了当前 Agent 在复杂决策链中的失效风险。

  • 商标侵权与更名风险:Anthropic 律师函指控 Clawdbot 在拼写与读音上构成侵权。在重命名过程中,原 X 平台 ID 在释放后 10 秒内即被加密货币诈骗者抢注并用于发布虚假代币信息。
  • 智能体自主交易的失效路径:实测显示,该智能体集成了 25 种策略、12 种新算法,并能实时处理 3000 多份报告及社交平台数据。虽然具备 24/7 全天候执行力,但在赋予完整交易权限后,仍因决策逻辑无法应对极端市场波动导致账户资金归零。
  • 开发资源与项目热度的极度失衡:项目 Star 数已超 7 万,但开发者表示收到的赞助资金甚至不足以购买一台 Mac Mini。目前该项目仍处于早期阶段,开发者明确警告由于缺乏安全赏金计划,暂不建议非技术人员部署。
  • 高度可定制化的交互潜力:不同于主流模型的标准化接口,Moltbot 允许用户深度自定义交互逻辑。社交平台反馈显示,这种灵活性使其在辅助自闭症及 ADHD 等特定需求群体方面优于通用的 AI 产品。

已在 GitHub 开源,由开发者个人维护,维持非营利及早期实验性质。

GitHub:

https://github.com/moltbot/moltbot

(@机器之心)

02有亮点的产品

1、从「死板菜单」到「实时对话」:CareXM AI 语音助手实现临床需求秒级自动分流

「CareXM」在其非临床接听平台中推出基于 NLP 的 AI 语音智能体,旨在取代传统的 IVR 语音菜单。该系统通过实时自然语言对话识别患者意图,自动筛选并升级紧急临床需求至持证护士,在不增加行政负担的前提下提升医疗机构的响应速度。

  • 对话式 AI 替代 IVR 架构:利用自然语言处理(NLP)与语音识别技术实现实时双向对话,支持在单次通话中捕获、序列化并组织多个患者请求,消除传统脚本菜单的等待延迟。
  • 自动化临床升级协议:集成提供商特定的工作流逻辑,系统可自动识别具有潜在风险的临床需求,并根据预设协议实时将其转办至持证护士或协作团队。
  • 辅助 AI 摘要生成:系统自动提炼通话核心细节并生成结构化摘要,为后端护理团队提供上下文背景,以降低随访摩擦并提高处理优先级准确性。
  • 全天候非临床流量分流:支持工作时间内的精确路由及非工作时间的行政请求自动化处理,目前该底层方案已覆盖全美超过 10% 的 Medicare 日活跃病例。

( @Business Wire)

2、ServiceNow 深度集成 OpenAI GPT-5.2:推行原生语音智能体与计算机使用自动化

ServiceNow 与 OpenAI 签署多年期合作协议,将 GPT-5.2 等前沿模型原生集成至其工作流平台。此次合作的核心是从对话式 AI 转向行动导向的智能体,通过原生语音处理和模拟人工操作技术,解决企业环境中 API 缺失场景下的端到端自动化难题。

  • 原生语音对语音智能体:放弃传统的「语音-文本-语音」中转模式,AI 直接在音频层面进行推理与响应。该架构消除了文本翻译延迟,支持多语种实时交互,并可直接触发工单创建、审批流触发等后台逻辑。
  • 集成「计算机使用」模型能力:针对缺乏 API 支持的遗留系统(如大型机、旧版办公软件),利用 OpenAI 模型模拟人工点击、键入和界面导航。AI 智能体可跨邮件、聊天工具及复杂 IT 环境自主执行退款处理或账户更新。
  • 首选集成 GPT-5.2 级模型:协议确立 OpenAI 前沿模型为 ServiceNow 平台的首选智能选项。通过预构建的解决方案,企业可直接在 800 亿规模的年度工作流中部署 Agentic AI,无需进行复杂的定制化开发。
  • AI Control Tower 治理编排层:为企业提供集中化的审计与控制中心。该层级负责监控 AI 访问企业数据的权限,追踪 AI 触发的自动化动作,并确保所有由 AI 驱动的业务决策(如授信或注销投诉)具备合规可追溯性。

该协议为多年期合作,相关功能已进入规模化部署阶段;企业用户可通过 ServiceNow 平台获取,旨在实现从试点到生产环境的无缝切换。

( @CX Today)

3、「Consio AI」获 330 万美元融资:利用语音 AI 自动化电商进线响应与回访流程

由电商客服独角兽「Gorgias」早期员工创立的「Consio AI」完成 330 万美元融资,由 RTP Global 领投。该公司旨在通过 AI 自动化电商行业的电话沟通渠道,解决高客单价商品在传统邮件或聊天机器人场景下转化率低的问题。

  • 全流程语音自动化:系统可实现进线电话的即时自动响应,并根据用户行为逻辑自动触发定时回访。
  • 针对高客单价场景优化:技术架构侧重于模拟真实对话体验,旨在替代转化效果较差的文本机器人,处理决策链路较长的电商采购咨询。
  • 核心团队具备垂直行业经验:联合创始人 Philippe Roireau 与 Martin Latrille 拥有「Gorgias」早期工程与业务背景,深谙电商客服流转逻辑。
  • 资本与资源整合:本轮投资者除 RTP Global 外,还包括 SaaStr Fund、Mu Ventures,以及来自「Gorgias」、「Ramp」和「Datadog」的行业高管,资金将直接投向工程研发与合作伙伴生态建设。

已完成首轮融资,目前正加速工程开发并扩展市场准入。

(@RTIH)

03 有态度的观点

1、山姆 · 奥特曼:企业若不拥抱 AI,将被全 AI 公司淘汰

据腾讯科技报道,昨天上午,在旧金山的一场开发者交流中,OpenAI CEO 山姆 · 奥特曼表示,未来最具竞争力的公司可能呈现出「少量员工 + 大量 AI 助手」的组织形态。

他指出,AI 已从辅助工具演变为核心协作者,企业的生产方式、招聘逻辑与组织结构都将因此发生深刻变化。

奥特曼认为,许多公司尚未意识到 AI 已能承担大量工作,如果继续沿用传统扩张模式,将在未来竞争中处于劣势。

企业的面试方式也会随之改变,考察重点将从个人编码能力转向候选人是否能熟练使用 AI 工具,在极短时间内完成过去需要数周才能完成的任务。

企业未来可能面临两种路径:一种是由少量员工与大量 AI 协同工作,另一种则是完全由 AI 驱动的公司。

他希望前者成为主流,但也坦言,如果企业不主动拥抱 AI,将可能被更灵活的全 AI 公司淘汰。他强调,这不仅关乎企业竞争力,也关系到社会结构的稳定性。

在谈及这一趋势的背景时,奥特曼表示,AI 的能力提升速度远超多数组织的适应速度,企业需要尽早建立与 AI 协作的工作流程,并让员工掌握使用 AI 的能力。

他认为,未来的组织优势将来自「人类判断 + AI 执行」的组合,而不是单纯依赖人力扩张。

在本次活动现场,奥特曼也简要回应了其他关键议题,包括程序员职业前景、创业瓶颈、模型成本与安全风险等:

  • 软件工程师不会被取代,但工作方式将转向「指挥计算机完成任务」;
  • 创业门槛降低,但「找到用户」仍是最大难题;
  • 模型成本预计将在明年底显著下降,但速度将成为新瓶颈;
  • 生物安全是今年最值得警惕的风险领域;
  • 软件将加速走向个性化,每个人都可能拥有为自己生成的工具;
  • 幼儿教育应减少电子设备使用,更应培养主动性与创造力。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、通义百聆开发者新年交流会:语音模型从设计到使用全流程解析

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

Apple Creator Studio 正式上线

1 月 28 日,Apple 公司正式上线了前不久刚刚公布的创作者工具组 Apple Creator Studio,该系列产品是 Apple 面向专业创作人士推出的一站式捆绑订阅服务,包含了品牌旗下几乎全部的专业创作软件。只需一次订阅,就能获得 Mac 和 iPad 平台的 Pro App 套装、iWork 套件,以及此前收购的专业图像编辑及设计工具 Pixelmator Pro,并包含更多基于 AI 的附加功能。

详细体验可参考《将专业创作工具交到更多人手中:Apple Creator Studio 你也许想了解的那些事》。


月之暗面发布 Kimi K2.5 模型并开源

1 月 27 日,月之暗面团队宣布推出并开源了其最新的 Kimi K2.5 模型。同时,Kimi 智能助手 K2.5 版本也随之上线。用户在聊天介面中原本的 K2 模型已自动切换为 K2.5 版本。

该模型是月之暗面目前最智能的模型,在 Agent、代码、图像、视频及一系列通用智能任务上取得开源 state-of-the-art 表现;同时也是 Kimi 迄今最全能的模型,采用了原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

根据月之暗面方面提供的示例显示,该模型可以基于自然语言指令生成完整的前端页面代码,并处理包含动态布局、滚动触发等在内的交互逻辑。结合视觉能力,Kimi K2.5 可以对用户提供的录屏进行拆解,分析其背后的交互结构,并生成相应的实现代码。

除单一 Agent 能力外,Kimi K2.5 还引入了新的 Agent 集群机制。这一机制允许模型在面对复杂任务时,不再以单一 Agent 形式执行,而是根据任务需求动态生成多个子 Agent,并行完成不同子任务。

随 Kimi K2.5 模型一同发布的还有月之暗面面向开发者的编程工具 Kimi Code。该工具可在命令行环境中运行,并支持与 VS Code、Cursor、JetBrains 系列 IDE 以及 Zed 等主流编辑器集成。

目前,Kimi K2.5 模型已在 Kimi 网站、移动 app 及其 API 开放平台上线。普通用户可通过不同模式使用其功能,开发者和企业也可通过 API 进行调用。来源


英伟达正式推出 RTX Remix Logic

1 月 27 日,英伟达公司更新了其 NVIDIA App,加入了新的 RTX Remix Logic 功能,可以让 MOD 作者不访问源代码的情况下,根据实时游戏事件(如玩家位置、按键输入)动态触发图形特效。譬如,Mod 作者可以通过设定「如果…… 就……」的规则(如「如果玩家走到这里,就开始下雨」),让老游戏的画面能根据玩家的操作实时变化,而且不需要懂复杂的编程代码。

英伟达为了降低技术门槛,引入高度可视化的无代码节点式介面(Node-based Interface)。创作者只需通过简单的拖拽操作,将「触发器」节点与「动作」节点相连,即可构建复杂的交互逻辑。介面配备了专用滑块用于微调参数,并支持在 Remix 编辑器中实时预览效果。

对于资深开发者,该框架还支持插件扩展,允许创建自定义事件触发器。在英伟达的演示中,在《半条命 2》RTX 版里打开一扇门,便能瞬间触发风格迥异的「Ravenholm 多元宇宙」场景。来源


英特尔 XeSS 3 多帧生成功能正式推送

1 月 27 日,英特尔公司开始向 Arc GPU 推送了最新版本的显卡驱动,同步正式为其带来了 XeSS 3 多帧生成特性。

XeSS 3 其核心是一种多帧生成(Multi Frame Generation,MFG)式的升级路线:在每一帧传统渲染画面之后插入最多三帧由 AI 生成的「插值帧」,以此在不增加游戏原生渲染负载的前提下显著提高帧率、提升动画流畅度。 英特尔强调,XeSS 3 依托光流网络,通过游戏中的运动矢量和深度缓冲区来预测和生成这些额外画面。

与部分竞品不同的是,XeSS 3 在每一批 AI 生成帧中只执行一次光流计算,这一设计让算法开发变得更加复杂、周期更长,但有助于在性能与效果之间取得平衡。

除了引入 XeSS 3,本次驱动更新还修复了多项已知问题。其中包括在特定条件下,Pragmata Sketchbook 演示程序在 Arc B 系列独立显卡以及搭载 Arc 核显的 Core Ultra Series 2 处理器上发生崩溃的 Bug 已得到修复;同时英特尔也修正了其显卡软件中在显示设置页面对可变刷新率(VRR)状态报告不准确的错误。来源


Google 升级 Android 16 防盗机制

Google 的 Android 安全团队于 1 月 27 日发文,宣布部署多重「盗窃保护」安全机制,将手机盗窃防护从单纯的找回设备提升至数据与金融安全层面。

针对Android 16 及后续版本设备,谷歌重点强化了「身份检查(Identity Check)」此前仅限非信任地点,而此次更新将其覆盖范围扩展至所有调用安卓生物识别提示(Biometric Prompt)的应用。第三方银行应用和 Android 密码管理器等关键工具可以自动获得系统级的强制生物验证保护,即使窃贼掌握了锁屏密码也无法轻易访问敏感数据。

另外,Google 调整了屏幕解锁的防猜测机制。用户现在可以在设置中找到「身份验证失败锁定」的独立开关,当系统检测到过多的登录尝试失败时,会自动锁定设备。新机制不仅延长了多次尝试失败后的锁定时间,还引入了智能识别算法:如果系统检测到连续输入的错误密码完全相同(例如儿童无意中反复点击同一个位置),将不再计入重试次数。

最后则是针对设备丢失后的补救措施方面,Google 优化了适用于 Android 10+ 设备的「远程锁定」工具。用户在通过远程查找的网页端进行紧急锁机时,可以选择添加一道「安全问答或挑战」,从而验证操作者确为机主本人。来源


少数派的近期动态

  • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
  • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
  • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥

你可能错过的好文章

> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    Vibe Coding 的进化速度,可能还是超乎了我们的想象。

    今天,我们在测试 Kimi K2.5 的网页生成功能时,旁边的前端开发同事还以为是真实的网页场景,低声问我:“你这是在写代码吗,还是在摸鱼打游戏?”

    直到我说出这是 AI 生成的,而且是只用了几句话就做出来的效果,这让她大为惊讶。

    该网页长这样,现在如果不明说的话,确实已经难辨“真假”。

    Kimi K2.5 在今天刚刚上新,它没有把重点放在“单项能力突破”上,而是试图把视觉理解、代码生成、交互设计,以及多 Agent 协作,都压进了同一个模型里,一口气提供了四种使用模式。

    在笔者看来,其中最有意思的,当属 Agent 集群模式——这也是在国内 AI 上第一次出现的功能,它可以让原本耗时数天的工作,现在仅需十几分钟就能做完,简直是指数级的提效。

    比如,要做 100 家公司的市场调研,它能指挥一群不同行业背景的“分析师”分头行动,十几分钟出结果,而不是几个星期;面对 300 页的复杂翻译项目,它能动员一个“语言学专家”团队,快速、准确地完成交付。

    四种模式具体如下。不同需求的用户,从随手一问,到需要并行推进的复杂任务,都能找到明确的入口:

    • 快速模式,提供最快的响应体验。

    • 思考模式,可以用来解答复杂问题。

    • Agent 模式,擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务——目前 K2.5 已经开始掌握 Office 套件的核心技能,其协助办公的能力不容小觑。

    • 重磅全新模式:Agent 集群模式,适合需要并行处理的复杂任务

    另外,新编程产品 Kimi Code不仅能直接在终端里运行,还能无缝集成到 VSCode、Cursor、Zed 这些 IDE 里,支持直接输入图片和视频。

    月之暗面 CEO 杨植麟,这次亲自为新模型发布录制了视频。

    Kimi K2.5 实测

    看起来很强是一回事,那用起来是不是另一回事?以下是各种实操案例,InfoQ 也上手测了几组。

    几分钟搓出前端网页,能修改细节、还能有声音

    为了测试 Kimi K2.5 的视觉理解能力和 Vibe Coding 水平,我们首先直接甩出一张产品页面截图,再配上几句文字描述,看看它能不能自己看懂、自己理解,顺手还能复刻出一个像模像样的产品页面。

    比如让 K2.5 做个一个最近很火的心灵疗愈类项目,给的 Prompt 如下:

    模仿情绪疗愈类产品,生成一个情绪记录类 APP,适合年轻人释放情绪,让人一眼觉这里允许脆弱的地方。

    可以说,这个 Prompt 提示不多,要求不少,对模型视觉理解能力、逻辑思维、产品思维以及设计审美能力都是考验。

    从结果看,K2.5 对“情绪”这个概念本身是有一定理解和思考的。它生成的是一个以沉浸体验为核心的情绪页面,而不是常规的情绪记录工具。

    视觉上,明显没走浅色卡片流那条老路,而是用了低对比背景、连续画面和节奏型动效(类似呼吸或旋涡),交互重点放在“停留”和“进入状态”上。

    在功能组织上,输入、反馈和过渡是连在一起的:用户不是“点一个按钮开始记录”,而是被自然引导进入输入状态——这种设计说明它在生成时已经考虑了状态流转,而不是只输出一个静态页面。

    接下来,我们不再给任何视觉参考,只输入文字提示,让 K2.5 独立完成整个网页设计

    我们给的 Prompt 很简单:

    做一个类似 4399 的小游戏平台,要有完整的游戏分类频道; 但视觉审美要大厂级、高端网游风,整体要酷炫、有冲击力,并且可交互。

    结果 Kimi K2.5 没让人失望。

    它给出的页面并不是“看起来像网页”的静态效果,而是已经具备明确产品结构的原型。相比以往很多生成结果只停留在大色块 + 随机模块的拼接,它能正确理解“小游戏平台”这一产品类型,在首页层面同时给出清晰的分类入口、内容推荐区和主视觉焦点。

    视觉风格上,它没有沿用早期生成工具常见的“低饱和扁平模板”,而是接近成熟网游官网或内容平台的布局逻辑,这一点与一些真实产品如大型游戏平台的信息层级更为接近。

    更关键的是,这种效果并非通过多轮细化 Prompt 得到,而是在一次相对抽象的指令下完成,说明模型已经开始具备从“需求描述”直接映射到“产品级页面结构”的能力,而不只是做样式渲染。

    类似的例子还有不少。下面这些网页,都是 K2.5 在图像生成工具的辅助下,仅凭一条 Prompt直接生成的完整原型。

    除了做整个页面,我们还单独测评了一下 K2.5 对动效的理解能力。

    左侧是我们输入的一段小视频,右侧是它生成的效果。结果 K2.5 几乎是完整复刻,拖动鼠标,图片会随之产生位移变化,逻辑和节奏都对得上,动效也足够丝滑。

    飞书文档 - 图片

    也就是说,K2.5 并不是在“画动效”,而是真的理解了交互在时间维度上的设计意图。

    对开发和设计而言,这意味着动效不再从一堆参数和曲线开始,而是可以先把想法直接跑成一个可交互的原型,用几分钟看清值不值得投入工程成本。

    以前要干好几天的活,十几分钟就能搞定

    至于 K2.5 的 Agent 集群模式,最直观的能力就是:把时间尺度直接拉短了。过去需要“按天算”的复杂任务,现在往往 十几分钟就能跑完一整轮。

    来看一个实测例子。

    一次性向 Kimi 的 Agent 集群投喂了 40 篇论文,主题横跨心理学与 AI。任务是,在此基础上产出一份系统性的研究综述。

    Kimi 的处理流程大致分成了三步:第一步,完整通读。主 agent 多次调用工具,按顺序把 40 篇论文逐篇过了一遍,确保所有关键信息都被纳入同一上下文,而不是零散记忆。

    第二步,并行写作。在理解整体结构后,Kimi 自动派生出多个子 agent——可以理解为它的“分身”,分别负责不同章节的撰写,各自并行推进。

    第三步,统一收敛。主 agent 最后回到台前,负责校对、取舍和整合,把各个子 agent 的成果汇总成一份长达几十页的专业 PDF 级综述。

    整个过程里中,几乎看不到人工干预。

    ##当 Transformer 开始吃力,K3 可能用上原创架构 KDA

    我们先后测评了一整天,总体感受很明确:

    Kimi K2.5 在自己擅长的多个方向上,已经跑得相当顺了。比如网页设计生成、动效理解、多 Agent 协作等场景,完成度和稳定性都比较成熟;不过也有短板,比如在 3D 建模这类强几何约束的任务上,表现还欠佳。

    当这些能力被一项项跑出来之后,更现实的问题也浮现出来:如果这些复杂推理真的要被当成日常能力反复调用,底层的计算方式还能不能长期扛得住?

    月之暗面给出的一个解法,是 Kimi Linear,而 Kimi Linear 中的一个核心创新点,是一个新的实验性架构:KDA(Kimi Delta Attention),一种线性注意力模块的相关思路。

    杨植麟此前在 Reddit 上的 AMA(Ask Me Anything)等公开交流中已经透露,下一代 K3 模型,可能会使用月之暗面的这个新架构 KDA。

    要讲清楚 KDA 的优势,我们还得先从 Transformer 架构说起。

    本质上,Transformer 的注意力机制是全连接的:每个 token 都要和上下文里的其他 token 打一次交道。结果,输入一长,计算量就按平方增长(O(N²));生成新 token 时,还要不断回查之前的 KV Cache。

    当上下文一拉长,显存压力迅速飙升,尤其是在 128K 以上的场景里,几乎是“显卡先崩,钱包随后”。

    ——而且模型越强,这个问题就越明显。

    也正因为如此,过去几年里,线性注意力一直是业内反复被拿出来讨论的一条路:把注意力计算从 O(N²) 压到 O(N),让模型跑得更快、也更省。

    但现实是,早期不少线性注意力方案确实快了,却很难兼顾记忆能力:信息留不住,推理质量也跟着打折。

    而 KDA 核心思想可以概括为一句话:不再每次都“全量算一遍注意力”,而是每次只计算“状态 + 增量(Delta)更新”。

    这里的 Delta(增量) 是关键。它在数学上保证了稳定性,即使是在百万级 token 序列中,梯度也不会爆炸或消失。这也让 Kimi Linear 能在超长上下文中跑得稳。

    在保持模型能力的同时,还可以显著降低长上下文和连续推理的计算成本——思路有点像 MoE 架构。

    ##One more thing

    在测试 Kimi K2.5 的视觉理解能力时,我们索性出了一道“狠题”。

    ——甩过去一段动画,让它先吃透画风和叙事方式,再换个主题,重写一支动画脚本。说实话,这活儿对专业动画师都不轻松,我们还特意把 “Agent 集群”模式打开了。

    结果最有意思的不是生成内容本身,而是页面最底下那行小字:

    “这个任务 Kimi 自己就能完成,不需要 Agent 集群。部分额度已退回。”

    体验传送门:https://www.kimi.com/