标签 Kimi Code 下的文章

月之暗面正式发布了 Kimi 的官方编程工具 Kimi Code。这不仅仅是一个代码生成器,而是一个可以直接在终端运行、具备自主规划能力的 AI Agent。它基于 K2.5 模型,支持多模态输入(图片和视频),并能通过 ACP(Agent Client Protocol)协议无缝集成到 VSCode、Cursor、JetBrains 和 Zed 等主流编辑器中。

image.png

对于开发者而言,Kimi Code 实现了“阅读代码”到“执行命令”的闭环,覆盖了从构建、调试、重构到测试的端到端任务。

以下是关于 Kimi Code CLI 的核心功能、安装配置及高阶使用技巧。

Kimi Code CLI 是什么

Kimi Code CLI 是一个运行在终端中的智能代理。与传统的对话机器人不同,它具备操作系统的执行权限。它可以:

  • 阅读和编辑代码:直接修改源文件,而非仅仅给出建议。
  • 执行 Shell 命令:运行构建、测试脚本。
  • 自主规划:在遇到错误时,自动分析日志并尝试修复,形成“执行-反馈-修正”的循环。

它既是一个独立的终端工具,也可以作为后端服务接入 IDE。

安装与环境配置

Kimi Code CLI 依赖 Python 环境(建议版本 3.12-3.14)。

第一步:使用 ServBay 准备 Python 环境

打开 ServBay,在「软件包」中,找到并安装 Python 3.13(这是 Kimi Code 推荐的最佳兼容版本)。

image.png

ServBay 会自动配置好环境,确保终端调用的是这个独立的 Python 版本,拥有完整的 pip 包管理能力。

第二步:安装 uv 包管理器

有了 ServBay 提供的 Python 环境后,需要先安装 uvuv 是一个极速的 Python 包管理器,也是 Kimi Code 官方推荐的底层工具。在终端执行:

pip install uv

第三步:安装 Kimi Code CLI

现在 uv 命令已经可用了,直接使用它来安装 Kimi Code:

uv tool install --python 3.13 kimi-cli

image.png

安装完成后,验证是否成功:

kimi --version

image.png

初始化与配置

在项目目录下输入 kimi 即可启动交互界面。

首次使用推荐通过 /login 命令登录 Kimi 账号,系统会自动同步可用的模型配置。如果需要使用特定的 API Key,也可以通过 /setup 手动配置端点和密钥。

项目索引

进入一个新项目时,建议先运行 /init。这会让 Kimi 分析项目结构并生成 AGENTS.md 文件。这个文件相当于给 AI 看的“项目说明书”,能显著提升后续任务的准确率。

核心工作流

Kimi Code CLI 的交互采用了类似 Shell 的混合模式,按 Ctrl-X 可在 Agent 模式(对话)和 Shell 模式(执行原生命令)之间切换。

1. 功能开发与重构

在 Agent 模式下,直接用自然语言描述需求。Kimi 会遵循“阅读 → 修改 → 验证”的流程。

例如:

“给用户列表页面添加分页功能,每页显示 20 条记录,样式参考现有的 Button 组件。”

它会自动搜索相关文件,理解上下文,进行代码修改,并保持代码风格的一致性。

2. 排查与修复

遇到报错时,可以直接粘贴错误日志,或者让 Kimi 运行测试命令。

“运行 npm test,如果有失败的用例,请帮我分析原因并修复。”

在处理复杂逻辑时,可以通过 /model 切换到支持 Thinking 模式的模型(如 k2-thinking),让 AI 在输出方案前进行更深度的逻辑推演。

3. 自动化任务

对于繁琐的批量操作,CLI 优势其实挺多的,比如:

  • 把 src 目录下所有 .js 文件的 var 声明改成 const 或 let。
  • 分析 logs 目录下的日志,统计接口平均响应时间。
  • 把 images 目录下的 PNG 转换为 JPEG。

高阶技巧

  • @路径补全:在对话中输入 @ 可以快速引用项目中的文件,例如 帮我解释 @src/core/scheduler.py 的逻辑
  • 多模态输入:支持直接粘贴剪贴板中的图片。如果是 UI 调整任务,截图给 AI 往往比文字描述更高效。
  • YOLO 模式:默认情况下,AI 的每一个文件修改和命令执行都需要用户确认。如果你在 Docker 容器或测试环境中运行,可以使用 /yolo 命令开启“大胆模式”,跳过所有确认步骤,实现全自动执行(生产环境慎用)。

集成到编辑器

Kimi Code 支持 ACP 协议,这意味着它不仅活在终端里,也能集成到 JetBrains 系列 IDE(IntelliJ IDEA、PyCharm、WebStorm 等)中。

首先需要在终端获取 Kimi 的安装路径:

which kimi

复制输出的路径(例如 /Users/username/.local/bin/kimi)。

配置 AI 助手

打开 IDE 的 AI 聊天面板(通常需要安装 AI Assistant 插件),在菜单中点击 "Configure ACP agents" ,添加如下配置:

{
  "agent_servers": {
    "Kimi Code CLI": {
      "command": "/Users/你的用户名/.local/bin/kimi", 
      "args": ["acp"],
      "env": {}
    }
  }
}

注意: command 必须填入第一步获取的完整绝对路径。

开始使用

保存后,在 AI 聊天的 Agent 选择器中即可看到 Kimi Code CLI。

总结

Kimi Code 并没有花里胡哨的功能,但是它解决了开发者的问题,开发者不需要离开终端,就能让 AI 动手写代码。配合 ServBay 提供的稳定 Python 环境,不仅安装过程更顺畅,也能让 AI 工具在隔离的沙盒中高效运行,避免对系统造成干扰。

目前该工具处于技术预览阶段,建议在非生产关键路径上先行试用。

Apple Creator Studio 正式上线

1 月 28 日,Apple 公司正式上线了前不久刚刚公布的创作者工具组 Apple Creator Studio,该系列产品是 Apple 面向专业创作人士推出的一站式捆绑订阅服务,包含了品牌旗下几乎全部的专业创作软件。只需一次订阅,就能获得 Mac 和 iPad 平台的 Pro App 套装、iWork 套件,以及此前收购的专业图像编辑及设计工具 Pixelmator Pro,并包含更多基于 AI 的附加功能。

详细体验可参考《将专业创作工具交到更多人手中:Apple Creator Studio 你也许想了解的那些事》。


月之暗面发布 Kimi K2.5 模型并开源

1 月 27 日,月之暗面团队宣布推出并开源了其最新的 Kimi K2.5 模型。同时,Kimi 智能助手 K2.5 版本也随之上线。用户在聊天介面中原本的 K2 模型已自动切换为 K2.5 版本。

该模型是月之暗面目前最智能的模型,在 Agent、代码、图像、视频及一系列通用智能任务上取得开源 state-of-the-art 表现;同时也是 Kimi 迄今最全能的模型,采用了原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与 Agent 任务。

根据月之暗面方面提供的示例显示,该模型可以基于自然语言指令生成完整的前端页面代码,并处理包含动态布局、滚动触发等在内的交互逻辑。结合视觉能力,Kimi K2.5 可以对用户提供的录屏进行拆解,分析其背后的交互结构,并生成相应的实现代码。

除单一 Agent 能力外,Kimi K2.5 还引入了新的 Agent 集群机制。这一机制允许模型在面对复杂任务时,不再以单一 Agent 形式执行,而是根据任务需求动态生成多个子 Agent,并行完成不同子任务。

随 Kimi K2.5 模型一同发布的还有月之暗面面向开发者的编程工具 Kimi Code。该工具可在命令行环境中运行,并支持与 VS Code、Cursor、JetBrains 系列 IDE 以及 Zed 等主流编辑器集成。

目前,Kimi K2.5 模型已在 Kimi 网站、移动 app 及其 API 开放平台上线。普通用户可通过不同模式使用其功能,开发者和企业也可通过 API 进行调用。来源


英伟达正式推出 RTX Remix Logic

1 月 27 日,英伟达公司更新了其 NVIDIA App,加入了新的 RTX Remix Logic 功能,可以让 MOD 作者不访问源代码的情况下,根据实时游戏事件(如玩家位置、按键输入)动态触发图形特效。譬如,Mod 作者可以通过设定「如果…… 就……」的规则(如「如果玩家走到这里,就开始下雨」),让老游戏的画面能根据玩家的操作实时变化,而且不需要懂复杂的编程代码。

英伟达为了降低技术门槛,引入高度可视化的无代码节点式介面(Node-based Interface)。创作者只需通过简单的拖拽操作,将「触发器」节点与「动作」节点相连,即可构建复杂的交互逻辑。介面配备了专用滑块用于微调参数,并支持在 Remix 编辑器中实时预览效果。

对于资深开发者,该框架还支持插件扩展,允许创建自定义事件触发器。在英伟达的演示中,在《半条命 2》RTX 版里打开一扇门,便能瞬间触发风格迥异的「Ravenholm 多元宇宙」场景。来源


英特尔 XeSS 3 多帧生成功能正式推送

1 月 27 日,英特尔公司开始向 Arc GPU 推送了最新版本的显卡驱动,同步正式为其带来了 XeSS 3 多帧生成特性。

XeSS 3 其核心是一种多帧生成(Multi Frame Generation,MFG)式的升级路线:在每一帧传统渲染画面之后插入最多三帧由 AI 生成的「插值帧」,以此在不增加游戏原生渲染负载的前提下显著提高帧率、提升动画流畅度。 英特尔强调,XeSS 3 依托光流网络,通过游戏中的运动矢量和深度缓冲区来预测和生成这些额外画面。

与部分竞品不同的是,XeSS 3 在每一批 AI 生成帧中只执行一次光流计算,这一设计让算法开发变得更加复杂、周期更长,但有助于在性能与效果之间取得平衡。

除了引入 XeSS 3,本次驱动更新还修复了多项已知问题。其中包括在特定条件下,Pragmata Sketchbook 演示程序在 Arc B 系列独立显卡以及搭载 Arc 核显的 Core Ultra Series 2 处理器上发生崩溃的 Bug 已得到修复;同时英特尔也修正了其显卡软件中在显示设置页面对可变刷新率(VRR)状态报告不准确的错误。来源


Google 升级 Android 16 防盗机制

Google 的 Android 安全团队于 1 月 27 日发文,宣布部署多重「盗窃保护」安全机制,将手机盗窃防护从单纯的找回设备提升至数据与金融安全层面。

针对Android 16 及后续版本设备,谷歌重点强化了「身份检查(Identity Check)」此前仅限非信任地点,而此次更新将其覆盖范围扩展至所有调用安卓生物识别提示(Biometric Prompt)的应用。第三方银行应用和 Android 密码管理器等关键工具可以自动获得系统级的强制生物验证保护,即使窃贼掌握了锁屏密码也无法轻易访问敏感数据。

另外,Google 调整了屏幕解锁的防猜测机制。用户现在可以在设置中找到「身份验证失败锁定」的独立开关,当系统检测到过多的登录尝试失败时,会自动锁定设备。新机制不仅延长了多次尝试失败后的锁定时间,还引入了智能识别算法:如果系统检测到连续输入的错误密码完全相同(例如儿童无意中反复点击同一个位置),将不再计入重试次数。

最后则是针对设备丢失后的补救措施方面,Google 优化了适用于 Android 10+ 设备的「远程锁定」工具。用户在通过远程查找的网页端进行紧急锁机时,可以选择添加一道「安全问答或挑战」,从而验证操作者确为机主本人。来源


少数派的近期动态

  • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
  • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
  • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥

你可能错过的好文章

> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    Vibe Coding 的进化速度,可能还是超乎了我们的想象。

    今天,我们在测试 Kimi K2.5 的网页生成功能时,旁边的前端开发同事还以为是真实的网页场景,低声问我:“你这是在写代码吗,还是在摸鱼打游戏?”

    直到我说出这是 AI 生成的,而且是只用了几句话就做出来的效果,这让她大为惊讶。

    该网页长这样,现在如果不明说的话,确实已经难辨“真假”。

    Kimi K2.5 在今天刚刚上新,它没有把重点放在“单项能力突破”上,而是试图把视觉理解、代码生成、交互设计,以及多 Agent 协作,都压进了同一个模型里,一口气提供了四种使用模式。

    在笔者看来,其中最有意思的,当属 Agent 集群模式——这也是在国内 AI 上第一次出现的功能,它可以让原本耗时数天的工作,现在仅需十几分钟就能做完,简直是指数级的提效。

    比如,要做 100 家公司的市场调研,它能指挥一群不同行业背景的“分析师”分头行动,十几分钟出结果,而不是几个星期;面对 300 页的复杂翻译项目,它能动员一个“语言学专家”团队,快速、准确地完成交付。

    四种模式具体如下。不同需求的用户,从随手一问,到需要并行推进的复杂任务,都能找到明确的入口:

    • 快速模式,提供最快的响应体验。

    • 思考模式,可以用来解答复杂问题。

    • Agent 模式,擅长深度研究、PPT、Excel、Word、PDF 和网页生成等任务——目前 K2.5 已经开始掌握 Office 套件的核心技能,其协助办公的能力不容小觑。

    • 重磅全新模式:Agent 集群模式,适合需要并行处理的复杂任务

    另外,新编程产品 Kimi Code不仅能直接在终端里运行,还能无缝集成到 VSCode、Cursor、Zed 这些 IDE 里,支持直接输入图片和视频。

    月之暗面 CEO 杨植麟,这次亲自为新模型发布录制了视频。

    Kimi K2.5 实测

    看起来很强是一回事,那用起来是不是另一回事?以下是各种实操案例,InfoQ 也上手测了几组。

    几分钟搓出前端网页,能修改细节、还能有声音

    为了测试 Kimi K2.5 的视觉理解能力和 Vibe Coding 水平,我们首先直接甩出一张产品页面截图,再配上几句文字描述,看看它能不能自己看懂、自己理解,顺手还能复刻出一个像模像样的产品页面。

    比如让 K2.5 做个一个最近很火的心灵疗愈类项目,给的 Prompt 如下:

    模仿情绪疗愈类产品,生成一个情绪记录类 APP,适合年轻人释放情绪,让人一眼觉这里允许脆弱的地方。

    可以说,这个 Prompt 提示不多,要求不少,对模型视觉理解能力、逻辑思维、产品思维以及设计审美能力都是考验。

    从结果看,K2.5 对“情绪”这个概念本身是有一定理解和思考的。它生成的是一个以沉浸体验为核心的情绪页面,而不是常规的情绪记录工具。

    视觉上,明显没走浅色卡片流那条老路,而是用了低对比背景、连续画面和节奏型动效(类似呼吸或旋涡),交互重点放在“停留”和“进入状态”上。

    在功能组织上,输入、反馈和过渡是连在一起的:用户不是“点一个按钮开始记录”,而是被自然引导进入输入状态——这种设计说明它在生成时已经考虑了状态流转,而不是只输出一个静态页面。

    接下来,我们不再给任何视觉参考,只输入文字提示,让 K2.5 独立完成整个网页设计

    我们给的 Prompt 很简单:

    做一个类似 4399 的小游戏平台,要有完整的游戏分类频道; 但视觉审美要大厂级、高端网游风,整体要酷炫、有冲击力,并且可交互。

    结果 Kimi K2.5 没让人失望。

    它给出的页面并不是“看起来像网页”的静态效果,而是已经具备明确产品结构的原型。相比以往很多生成结果只停留在大色块 + 随机模块的拼接,它能正确理解“小游戏平台”这一产品类型,在首页层面同时给出清晰的分类入口、内容推荐区和主视觉焦点。

    视觉风格上,它没有沿用早期生成工具常见的“低饱和扁平模板”,而是接近成熟网游官网或内容平台的布局逻辑,这一点与一些真实产品如大型游戏平台的信息层级更为接近。

    更关键的是,这种效果并非通过多轮细化 Prompt 得到,而是在一次相对抽象的指令下完成,说明模型已经开始具备从“需求描述”直接映射到“产品级页面结构”的能力,而不只是做样式渲染。

    类似的例子还有不少。下面这些网页,都是 K2.5 在图像生成工具的辅助下,仅凭一条 Prompt直接生成的完整原型。

    除了做整个页面,我们还单独测评了一下 K2.5 对动效的理解能力。

    左侧是我们输入的一段小视频,右侧是它生成的效果。结果 K2.5 几乎是完整复刻,拖动鼠标,图片会随之产生位移变化,逻辑和节奏都对得上,动效也足够丝滑。

    飞书文档 - 图片

    也就是说,K2.5 并不是在“画动效”,而是真的理解了交互在时间维度上的设计意图。

    对开发和设计而言,这意味着动效不再从一堆参数和曲线开始,而是可以先把想法直接跑成一个可交互的原型,用几分钟看清值不值得投入工程成本。

    以前要干好几天的活,十几分钟就能搞定

    至于 K2.5 的 Agent 集群模式,最直观的能力就是:把时间尺度直接拉短了。过去需要“按天算”的复杂任务,现在往往 十几分钟就能跑完一整轮。

    来看一个实测例子。

    一次性向 Kimi 的 Agent 集群投喂了 40 篇论文,主题横跨心理学与 AI。任务是,在此基础上产出一份系统性的研究综述。

    Kimi 的处理流程大致分成了三步:第一步,完整通读。主 agent 多次调用工具,按顺序把 40 篇论文逐篇过了一遍,确保所有关键信息都被纳入同一上下文,而不是零散记忆。

    第二步,并行写作。在理解整体结构后,Kimi 自动派生出多个子 agent——可以理解为它的“分身”,分别负责不同章节的撰写,各自并行推进。

    第三步,统一收敛。主 agent 最后回到台前,负责校对、取舍和整合,把各个子 agent 的成果汇总成一份长达几十页的专业 PDF 级综述。

    整个过程里中,几乎看不到人工干预。

    ##当 Transformer 开始吃力,K3 可能用上原创架构 KDA

    我们先后测评了一整天,总体感受很明确:

    Kimi K2.5 在自己擅长的多个方向上,已经跑得相当顺了。比如网页设计生成、动效理解、多 Agent 协作等场景,完成度和稳定性都比较成熟;不过也有短板,比如在 3D 建模这类强几何约束的任务上,表现还欠佳。

    当这些能力被一项项跑出来之后,更现实的问题也浮现出来:如果这些复杂推理真的要被当成日常能力反复调用,底层的计算方式还能不能长期扛得住?

    月之暗面给出的一个解法,是 Kimi Linear,而 Kimi Linear 中的一个核心创新点,是一个新的实验性架构:KDA(Kimi Delta Attention),一种线性注意力模块的相关思路。

    杨植麟此前在 Reddit 上的 AMA(Ask Me Anything)等公开交流中已经透露,下一代 K3 模型,可能会使用月之暗面的这个新架构 KDA。

    要讲清楚 KDA 的优势,我们还得先从 Transformer 架构说起。

    本质上,Transformer 的注意力机制是全连接的:每个 token 都要和上下文里的其他 token 打一次交道。结果,输入一长,计算量就按平方增长(O(N²));生成新 token 时,还要不断回查之前的 KV Cache。

    当上下文一拉长,显存压力迅速飙升,尤其是在 128K 以上的场景里,几乎是“显卡先崩,钱包随后”。

    ——而且模型越强,这个问题就越明显。

    也正因为如此,过去几年里,线性注意力一直是业内反复被拿出来讨论的一条路:把注意力计算从 O(N²) 压到 O(N),让模型跑得更快、也更省。

    但现实是,早期不少线性注意力方案确实快了,却很难兼顾记忆能力:信息留不住,推理质量也跟着打折。

    而 KDA 核心思想可以概括为一句话:不再每次都“全量算一遍注意力”,而是每次只计算“状态 + 增量(Delta)更新”。

    这里的 Delta(增量) 是关键。它在数学上保证了稳定性,即使是在百万级 token 序列中,梯度也不会爆炸或消失。这也让 Kimi Linear 能在超长上下文中跑得稳。

    在保持模型能力的同时,还可以显著降低长上下文和连续推理的计算成本——思路有点像 MoE 架构。

    ##One more thing

    在测试 Kimi K2.5 的视觉理解能力时,我们索性出了一道“狠题”。

    ——甩过去一段动画,让它先吃透画风和叙事方式,再换个主题,重写一支动画脚本。说实话,这活儿对专业动画师都不轻松,我们还特意把 “Agent 集群”模式打开了。

    结果最有意思的不是生成内容本身,而是页面最底下那行小字:

    “这个任务 Kimi 自己就能完成,不需要 Agent 集群。部分额度已退回。”

    体验传送门:https://www.kimi.com/