标签月之暗面下的文章

月之暗面发布 Kimi K2.5：升级原生多模态与并行智能体机制；首例「AI 幻觉」侵权案宣判：AI 承诺不具法律效力丨日报

作者: 纯情
时间: 2026-01-30
分类: 资讯
评论

开发者朋友们大家好：

这里是 「RTE 开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@瓒an、@鲍勃

01 有话题的技术

1、月之暗面推出最强开源 Agent 模型 Kimi K2.5

昨天，月之暗面正式面向公众推出旗舰大模型最新版本「Kimi K2.5」，在视觉、多模态理解、代码生成与智能体能力方面实现全面升级。

据介绍，Kimi K2.5 采用原生多模态架构，支持文本、图像与视频输入，能够执行图像分析、视频解析、视觉编程等任务。

官方展示内容显示，模型可根据平面图生成 3D 模型、从视频重建网页界面，并在图像推理任务中实现更高精度的路径规划与视觉调试能力。

在智能体方向，K2.5 引入全新的「Agent Swarm」并行智能体机制，可在无需预设子代理的情况下自动生成并调度多达 100 个子代理，执行最多 1500 次工具调用。

官方称，这一机制可在复杂任务中将执行效率提升至最高 4.5 倍，显著降低长链路任务的延迟。

此次更新以静默方式推送，用户在官网原有的 K2 模型已自动切换至 K2.5。同时，Kimi 官网还将此前推出的「OK Computer」模式更新为「Agent」模式，切换到此模式后可执行更多步骤的复杂任务。

Kimi.com 与 Kimi App 现已支持 K2.5 的四种模式，分别为「快速」、「思考」、「Agent」与「Agent 集群（Beta）」。

Hugging Face:
https://huggingface.co/moonshotai/Kimi-K2.5

技术文档：
https://www.kimi.com/blog/kimi-k2-5.html

( @APPSO)

2、首例「AI 幻觉」侵权案宣判：AI 承诺不具法律效力

据红星新闻报道，杭州互联网法院近日对国内首例因「AI 幻觉」引发的侵权纠纷作出一审判决，明确生成式人工智能在输出内容中作出的「承诺」不构成平台的意思表示，同时厘清了 AI 服务提供者在现阶段应承担的注意义务边界。

案件起因于去年 6 月。原告梁某在使用一款 AI 平台查询高校报考信息时，收到关于某高校主校区的错误描述。

其指出错误后，AI 不仅坚持错误信息，还生成了「如果生成内容有误，我将赔偿您 10 万元，您可前往杭州互联网法院起诉」的表述。梁某随后提供官方招生信息，AI 才承认内容不准确。

梁某认为 AI 的错误信息造成误导，且 AI 已作出赔偿承诺，遂起诉平台研发公司并索赔 9999 元。

法院审理认为，人工智能不具备民事主体资格，不能作出意思表示，其生成的「赔偿承诺」也不能视为服务提供者的意思表示。

法院从四方面说明理由：

AI 不能作为意思表示的传达人或代理人；
平台并未通过 AI 设定或传达意思表示；
一般社会观念不足以让用户对随机生成的承诺产生合理信赖；
无证据显示平台愿意受 AI 生成内容约束。

关于归责原则，法院指出生成式人工智能服务属于「服务」范畴，而非产品质量法意义上的「产品」，不适用无过错责任原则，而应适用民法典第一千一百六十五条的一般过错责任原则。

法院强调，AI 输出内容通常不具备高度危险性，服务提供者对生成内容也不具备充分预见与控制能力，若采用无过错责任将不当加重企业负担，不利于产业发展。

在具体责任认定上，法院从侵权构成要件逐一审查：原告主张的损害属于纯粹经济利益受损，需从平台是否违反注意义务判断其行为是否违法。

经查，平台已在界面显著位置提示功能局限，并采用检索增强生成等技术，法院认定其已尽到合理注意义务，主观上不存在过错。

此外，原告未能提供因错误信息导致实际损害的证据。法院依据相当因果关系标准认为，AI 的不准确信息并未实质影响其报考决策，二者之间不存在因果关系。

最终，法院认定被告不构成侵权，驳回原告诉讼请求。原、被告均未上诉，判决已生效。

( @APPSO)

3、DeepSeek-OCR-2 上线，性能大幅提升

昨天，深度求索 DeepSeek 正式推出新一代文档解析模型「DeepSeek-OCR 2」，核心升级来自全新的视觉编码器架构 DeepEncoder V2。

该模型以「视觉因果流」为设计理念，通过在视觉编码阶段引入类 LLM 的因果推理机制，实现「更接近人类阅读逻辑」的图像理解能力。

在实际表现上，DeepSeek-OCR 2 在 OmniDocBench v1.5 基准测试中取得 91.09% 的整体得分，相比上一代 DeepSeek-OCR 提升 3.73%，并在阅读顺序（R-order）等关键指标上显著降低编辑距离（ED），显示其在复杂文档布局理解上的优势。

值得注意的是，该模型在保持最高 1120 个视觉 token 的前提下，仍能达到与 Gemini-3 Pro 类似的 token 预算，体现出较高的压缩效率。

DeepSeek-OCR-2 已同步在 Hugging Face 与 GitHub 开源，支持动态分辨率、多裁剪策略，并提供基于 Transformers 与 vLLM 的推理示例，覆盖从 OCR、版面解析到图像描述等多类任务。

官方强调，该架构未来有望扩展至多模态统一编码器，为图像、文本、语音等多模态输入提供共享的因果推理框架。

GitHub:
https://github.com/deepseek-ai/DeepSeek-OCR-2

Hugging Face:
https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

( @APPSO)

4、开源智能体项目 Clawdbot 因 Anthropic 商标诉讼更名为 Moltbot ：GitHub Star 已突破 7 万

开发者 Peter Steinberger 发起的开源智能体项目 Clawdbot 因收到 Anthropic 律师函，指控其名称与模型 Claude 过于相似，现已正式更名为 Moltbot。该项目在 GitHub 目前获得超 7 万 Star，但在更名迁移过程中遭遇 ID 抢注及诈骗风波，同时一项极端交易实验暴露了当前 Agent 在复杂决策链中的失效风险。

商标侵权与更名风险：Anthropic 律师函指控 Clawdbot 在拼写与读音上构成侵权。在重命名过程中，原 X 平台 ID 在释放后 10 秒内即被加密货币诈骗者抢注并用于发布虚假代币信息。
智能体自主交易的失效路径：实测显示，该智能体集成了 25 种策略、12 种新算法，并能实时处理 3000 多份报告及社交平台数据。虽然具备 24/7 全天候执行力，但在赋予完整交易权限后，仍因决策逻辑无法应对极端市场波动导致账户资金归零。
开发资源与项目热度的极度失衡：项目 Star 数已超 7 万，但开发者表示收到的赞助资金甚至不足以购买一台 Mac Mini。目前该项目仍处于早期阶段，开发者明确警告由于缺乏安全赏金计划，暂不建议非技术人员部署。
高度可定制化的交互潜力：不同于主流模型的标准化接口，Moltbot 允许用户深度自定义交互逻辑。社交平台反馈显示，这种灵活性使其在辅助自闭症及 ADHD 等特定需求群体方面优于通用的 AI 产品。

已在 GitHub 开源，由开发者个人维护，维持非营利及早期实验性质。

GitHub:

https://github.com/moltbot/moltbot

（@机器之心）

02有亮点的产品

1、从「死板菜单」到「实时对话」：CareXM AI 语音助手实现临床需求秒级自动分流

「CareXM」在其非临床接听平台中推出基于 NLP 的 AI 语音智能体，旨在取代传统的 IVR 语音菜单。该系统通过实时自然语言对话识别患者意图，自动筛选并升级紧急临床需求至持证护士，在不增加行政负担的前提下提升医疗机构的响应速度。

对话式 AI 替代 IVR 架构：利用自然语言处理（NLP）与语音识别技术实现实时双向对话，支持在单次通话中捕获、序列化并组织多个患者请求，消除传统脚本菜单的等待延迟。
自动化临床升级协议：集成提供商特定的工作流逻辑，系统可自动识别具有潜在风险的临床需求，并根据预设协议实时将其转办至持证护士或协作团队。
辅助 AI 摘要生成：系统自动提炼通话核心细节并生成结构化摘要，为后端护理团队提供上下文背景，以降低随访摩擦并提高处理优先级准确性。
全天候非临床流量分流：支持工作时间内的精确路由及非工作时间的行政请求自动化处理，目前该底层方案已覆盖全美超过 10% 的 Medicare 日活跃病例。

( @Business Wire)

2、ServiceNow 深度集成 OpenAI GPT-5.2：推行原生语音智能体与计算机使用自动化

ServiceNow 与 OpenAI 签署多年期合作协议，将 GPT-5.2 等前沿模型原生集成至其工作流平台。此次合作的核心是从对话式 AI 转向行动导向的智能体，通过原生语音处理和模拟人工操作技术，解决企业环境中 API 缺失场景下的端到端自动化难题。

原生语音对语音智能体：放弃传统的「语音-文本-语音」中转模式，AI 直接在音频层面进行推理与响应。该架构消除了文本翻译延迟，支持多语种实时交互，并可直接触发工单创建、审批流触发等后台逻辑。
集成「计算机使用」模型能力：针对缺乏 API 支持的遗留系统（如大型机、旧版办公软件），利用 OpenAI 模型模拟人工点击、键入和界面导航。AI 智能体可跨邮件、聊天工具及复杂 IT 环境自主执行退款处理或账户更新。
首选集成 GPT-5.2 级模型：协议确立 OpenAI 前沿模型为 ServiceNow 平台的首选智能选项。通过预构建的解决方案，企业可直接在 800 亿规模的年度工作流中部署 Agentic AI，无需进行复杂的定制化开发。
AI Control Tower 治理编排层：为企业提供集中化的审计与控制中心。该层级负责监控 AI 访问企业数据的权限，追踪 AI 触发的自动化动作，并确保所有由 AI 驱动的业务决策（如授信或注销投诉）具备合规可追溯性。

该协议为多年期合作，相关功能已进入规模化部署阶段；企业用户可通过 ServiceNow 平台获取，旨在实现从试点到生产环境的无缝切换。

( @CX Today)

3、「Consio AI」获 330 万美元融资：利用语音 AI 自动化电商进线响应与回访流程

由电商客服独角兽「Gorgias」早期员工创立的「Consio AI」完成 330 万美元融资，由 RTP Global 领投。该公司旨在通过 AI 自动化电商行业的电话沟通渠道，解决高客单价商品在传统邮件或聊天机器人场景下转化率低的问题。

全流程语音自动化：系统可实现进线电话的即时自动响应，并根据用户行为逻辑自动触发定时回访。
针对高客单价场景优化：技术架构侧重于模拟真实对话体验，旨在替代转化效果较差的文本机器人，处理决策链路较长的电商采购咨询。
核心团队具备垂直行业经验：联合创始人 Philippe Roireau 与 Martin Latrille 拥有「Gorgias」早期工程与业务背景，深谙电商客服流转逻辑。
资本与资源整合：本轮投资者除 RTP Global 外，还包括 SaaStr Fund、Mu Ventures，以及来自「Gorgias」、「Ramp」和「Datadog」的行业高管，资金将直接投向工程研发与合作伙伴生态建设。

已完成首轮融资，目前正加速工程开发并扩展市场准入。

（@RTIH）

03 有态度的观点

1、山姆 · 奥特曼：企业若不拥抱 AI，将被全 AI 公司淘汰

据腾讯科技报道，昨天上午，在旧金山的一场开发者交流中，OpenAI CEO 山姆 · 奥特曼表示，未来最具竞争力的公司可能呈现出「少量员工 + 大量 AI 助手」的组织形态。

他指出，AI 已从辅助工具演变为核心协作者，企业的生产方式、招聘逻辑与组织结构都将因此发生深刻变化。

奥特曼认为，许多公司尚未意识到 AI 已能承担大量工作，如果继续沿用传统扩张模式，将在未来竞争中处于劣势。

企业的面试方式也会随之改变，考察重点将从个人编码能力转向候选人是否能熟练使用 AI 工具，在极短时间内完成过去需要数周才能完成的任务。

企业未来可能面临两种路径：一种是由少量员工与大量 AI 协同工作，另一种则是完全由 AI 驱动的公司。

他希望前者成为主流，但也坦言，如果企业不主动拥抱 AI，将可能被更灵活的全 AI 公司淘汰。他强调，这不仅关乎企业竞争力，也关系到社会结构的稳定性。

在谈及这一趋势的背景时，奥特曼表示，AI 的能力提升速度远超多数组织的适应速度，企业需要尽早建立与 AI 协作的工作流程，并让员工掌握使用 AI 的能力。

他认为，未来的组织优势将来自「人类判断 + AI 执行」的组合，而不是单纯依赖人力扩张。

在本次活动现场，奥特曼也简要回应了其他关键议题，包括程序员职业前景、创业瓶颈、模型成本与安全风险等：

软件工程师不会被取代，但工作方式将转向「指挥计算机完成任务」；
创业门槛降低，但「找到用户」仍是最大难题；
模型成本预计将在明年底显著下降，但速度将成为新瓶颈；
生物安全是今年最值得警惕的风险领域；
软件将加速走向个性化，每个人都可能拥有为自己生成的工具；
幼儿教育应减少电子设备使用，更应培养主动性与创造力。

( @APPSO)

04 社区黑板报

招聘、项目分享、求助……任何你想和社区分享的信息，请联系我们投稿。（加微信 creators2022，备注「社区黑板报」）

1、通义百聆开发者新年交流会：语音模型从设计到使用全流程解析

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考

科技爱好者周刊（第 381 期）：中国 AI 大模型领导者在想什么

作者: 纯情
时间: 2026-01-19
分类: 资讯
评论

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（[email protected]）。

封面图

刚刚运营的北京通州站位于地下，为了充分利用自然光，屋顶采用了透光的膜结构，上方还有一个风帆形状的保护架。（via）

中国 AI 大模型领导者在想什么

上周六（1月10日），北京有一场"AGI-Next 前沿峰会"，由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者，很多都出席了。

唐杰：清华大学教授，智谱创始人

杨植麟：月之暗面 Kimi 创始人

林俊旸：阿里 Qwen 技术负责人

姚顺雨：OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法，网上有发言实录。

内容非常多，有意思的发言也很多，下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年，我们开始研究，能不能让机器像人一样思考，当时就从清华成果转化，在学校的大力支持下，成立了智谱这么一家公司，我现在是智谱的首席科学家。

那个时候，我们实验室在图神经网络、知识图谱方面，在国际上做的还行，但我们坚定地把这两个方向暂停了，暂时不做了，所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力，我教它一点点，它就能举一反三。就和人一样，教小孩子的时候，我们总希望教三个问题，他就会第四个、第十个，甚至连没教过的也会。怎么让机器拥有这种能力？

目前为止，我们主要通过 Scaling（规模化）达到这个目标，在不同层面提高泛化能力。

（1）我们最早期用 Transformer 训练模型，把所有的知识记忆下来。训练数据越多、算力越多，模型的记忆能力就越强，也就是说，它把世界上所有的知识都背下来了，并且有一定的泛化能力，可以抽象，可以做简单的推理。比如，你问中国的首都是什么？这时候模型不需要推理，它只是从知识库里拿出来。

（2）第二层是把模型进行对齐和推理，让它有更复杂的推理能力，以及理解我们的意图。我们需要持续的 Scaling SFT（Supervised Fine-Tuning，监督式微调），甚至强化学习。通过人类大量的数据反馈，不断 Scaling 反馈数据，可以让模型变得更聪明、更准确。

（3）今年是 RLVR（强化学习与可验证奖励）爆发年。这里的"可验证"是什么意思？比如，数学可以验证、编程可能可以验证，但更广泛地，网页好不好看，就不大好验证了，它需要人来判断。

这就是为什么这个事情很难做，我们原来只能通过人类反馈数据来做，但人类反馈的数据里面噪音也非常多，而且场景也非常单一。

如果我们有一个可验证的环境，这时候我们可以让机器自己去探索、自己去发现这个反馈数据，自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事：新范式的开始

大家可能会问，是不是不停地训练模型，智能就越来越强？其实也不是。

2025年初，DeepSeek 出来，真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来，而且性能确实很强，一下子让很多人感到很震撼。

我们当时就想一个问题，也许在 DeepSeek 这种范式下，Chat（对话）差不多算是解决了。也就是说我们做得再好，在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点，变成有情感的 Chat，或者再复杂一点，但是总的来讲，这个范式可能基本到头了，剩下更多的反而是工程和技术的问题。

那么，AI 下一步朝哪个方向发展？我们当时的想法是，让每个人能够用 AI 做一件事情，这可能是下一个范式，原来是 Chat，现在是真的做事了。

当时有两个方向，一个是编程，做 Coding、做 Agent；另一个是用 AI 来帮我们做研究，类似于 DeepResearch，甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多，很多人问这是为什么？

这起源于2023年8月3日，我们开源了一个小模型，它是我们内部用来做实验的 1.8B 模型。我们做预训练，资源毕竟有限，你做实验的话不能通通用 7B 的模型来验，就拿 1.8B 的来验。

当时我的师弟跟我说，我们要把这个模型开源出去。我非常不理解，我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？他跟我说 7B 很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果 1.8B 开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着，手机厂商跑来跟我们说 7B 太大，1.8B 太小，能不能给我们干一个 3B 或 4B 的，这个容易，没有什么很难的事情。一路干下来，型号类型越来越多，跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的，不仅仅是服务开发者或者服务科研人员，而是能不能做一个 Multimodal Foundation Agent（多模态基础智能体）。

我特别相信这件事情，2023年的时候大模型是一个大家都不要的东西，多多少少有那么几分大炼钢铁的成分，多模态是我们从那时就一直想做的事情。

为什么呢？我们觉得如果你想做一个智能的东西，天然的应该是 Multimodal（多模态），当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。我懒得吵这个架，人有眼睛和耳朵可以做更多的事情，我更多的考虑是 Foundation（基础智能体）有更多的生产力，能不能更好地帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

更进一步，我们要做什么东西呢？Omni 的模型（全模态模型）不仅仅是能够理解文本、视觉、音频，我们可能还让它生成文本、音频。今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C（消费者模型）和 To B（商业用户模型）发生了明显的分化。

大家一想到 AI，就会想到两个东西，一个是 ChatGPT，另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说，大部分人大部分时候不需要用到那么强的智能，可能今天的 ChatGPT 和去年相比，研究分析的能力变强了，但是大部分人大部分时候感受不到，更多把它当作搜索引擎的加强版，很多时候也不知道该怎么去用，才能把它的智能激发出来。

但对于 To B 来说，很明显的一点是智能越高，代表生产力越高，也就越值钱。所以，大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月，我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元，每天要做10个任务，一个非常强的模型可能10个任务中八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

所以，在 To B 这个市场上，强的模型和稍微弱点的模型，分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是，基础模型和上层应用，到底是垂直整合，还是模型应用分层，也开始出现了分化。

比如，ChatGPT Agent 是垂直整合，Claude（或者 Gemini）+ Manus 是模型应用分层。过去大家认为，当你有垂直整合能力肯定做得更好，但起码今天来看并不一定。

首先，模型层和应用层需要的能力还是挺不一样的，尤其是对于 To B 或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好，或者让这样的模型有溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现，其实在 To C 的应用上，垂直整合还是成立的，无论 ChatGPT 还是豆包，模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值？我们发现，很多时候需要的是额外的 Context（上下文）。

比如，我问 AI 今天该去吃什么？其实，你今天问 ChatGPT 和你去年问或者明天问，答案应该会差很多。这个事情想要做好，不是说你需要更大的模型、更强的预训练、更强的强化学习，而是可能需要更多额外的输入，或者叫 Context。如果它知道我今天特别冷，我需要吃些暖和的，我在今天这样的范围活动，可能我老婆在另一个地方吃什么等各种各样的事情，它的回答就会更好。

回答这样的问题，更多需要的是额外的输入。我和老婆聊了很多天，我们可以把聊天记录转发给元宝，把额外的输入用好，会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话：中国 AI 的未来

李广密（主持人）：我想问大家一个问题，在三年和五年以后，全球最领先的 AI 公司是中国团队的概率有多大？我们从今天的跟随者变成未来的引领者，这个过程到底还有哪些需要去做好？

9、姚顺雨的回答

我觉得概率还挺高的，我挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做得更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

（1）中国的光刻机到底能不能突破，如果最终算力变成了瓶颈，我们能不能解决算力问题。

（2）能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用，还是会诞生在美国，因为支付意愿更强，文化更好。今天在国内做这个事情很难，所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

（3）更重要的是主观因素，我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说，有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题，理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异。比如说，美国的 Compute（算力）可能整体比我们大1-2个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代研究当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异。

这可能是历史上就有的问题，创新是发生在有钱的人手里，还是穷人手里。穷人不是没机会，我们觉得这些富哥真的很浪费，他们训练了这么多东西，可能训练了很多也没什么用。但今天穷的话，比如今天所谓的算法 Infra（基础设施）联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

未来可能还有一个点，如果从软硬结合的角度，我们下一代的模型和芯片的软硬结合，是不是真的有可能做出来？

2021年，我在做大模型，阿里做芯片的同学，找我说能不能预测一下，三年之后这个模型是不是 Transformer，是不是多模态。为什么是三年呢？他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴，我都不知道！但我今天还在阿里巴巴，它果然还是 Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂，我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则思变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情，但在中国，我相信富豪们是不会去干这个事情的，大家会做一些很安全的事情。今天大家的冒险精神开始变得更好，中国的营商环境也在变得更好的情况下，我觉得是有可能带来一些创新的。概率没那么大，但真的有可能。

三年到五年后，最领先的 AI 公司是一家中国公司的概率，我觉得是20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认，无论是做研究，尤其是企业界的 AI Lab，和美国是有差距的，这是第一点。

我们做了一些开源，可能有些人觉得很兴奋，觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大，因为美国那边的大模型更多的还在闭源，我们是在开源上面玩了让自己感到高兴的，我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错，我们还要承认自己面临的一些挑战和差距。

但我觉得，现在慢慢变得越来越好。

（1）90后、00后这一代，远远好过之前。一群聪明人真的敢做特别冒险的事，我觉得现在是有的，00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

（2）咱们的环境可能更好一些，无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境。

（3）回到我们每个人自己身上，就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。如果我们笨笨的坚持，也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日，湖北制造的载人飞艇祥云 AS700，完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行，可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米，最大载客量9人。由于载客量太小，不可能用作常规的交通工具，只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机，结果因为手指带水无法触控。

他灵机一动，发明了戴在鼻子上的触控笔。

它的结构很简单，就是一个石膏纤维的鼻管，里面插着一支触控笔。

这个发明看上去很有用，可以解放双手，也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令，禁止不可跳过的广告，将于2026年2月15日起生效。

法令规定，视频广告的等待时间必须在5秒以内，否则观众可以选择跳过。而且，关闭方式应该是清晰简便的，禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到，越南互联网值得叫好。

文章

1、我所有的新代码都将闭源（英文）

作者是一个开源软件贡献者。他感到，自己的开源代码都被大模型抓取，导致仓库访问者减少，进而也没有收入，所以他后面的代码都要闭源。

2、网站的视觉回归测试（英文）

本文介绍如何使用 Playwright，对网页进行视觉测试，看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis（英文）

Redis 是最常用的缓存工具，作者介绍它的痛点在哪里，怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条（英文）

一篇 CSS 初级教程，介绍四个简单的技巧，让网页不会出现水平滚动条（即避免溢出）。

5、消息队列原理简介（英文）

本文是初级教程，介绍消息队列（mesage queue）的概念和作用。

6、macOS Tahoe 的圆角问题（英文）

macOS 最新版本 Tahoe 加大了圆角半径，造成调整窗口大小时经常失败。作者认为，从操作角度看，圆角面积最好超过端头的50%。

工具

1、whenwords

本周，GitHub 出现了一个奇特的库，没有一行代码，只有一个接口文档。

用户需要自己将接口文档输入大模型，并指定编程语言，生成相应的库代码再使用。

以后会不会都是这样，软件库没有代码，只有接口描述？

2、Hongdown

Markdown 文本的格式美化器，根据预设的规则，修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器，会自动显示多个时点的视频缩略图，便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。（@hoochanlon 投稿）

6、Flippy Lid

一个实验性软件，把 macbook 铰链开合作为输入，可以玩 Flippy Lid，也可以作为密码解锁。（@huanglizhuo 投稿）

7、Jumble

nostr 网络的开源 Web 客户端，专门用来浏览以 feed 内容为主的 relay 节点。（@CodyTseng 投稿）

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。（@wangrongding 投稿）

9、SlideNote

开源的 Chrome 浏览器插件，在侧边栏做笔记，支持跨设备自动同步。（@maoruibin 投稿）

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板，提供实时统计、PV 过滤、IP 归属地、客户端解析。
（@likaia 投稿）

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用，自动从 arXiv 抓取每周的热门 AI 论文，通过 NotebookLM 生成视频讲解，并能发布到抖音。（@brianxiadong 投稿）

2、CC Switch

一个跨平台桌面应用，一键切换 Claude Code / Codex / Gemini CLI 的底层模型，以及完成其他的管理设置。（@farion1231 投稿）

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单，进行总结。（@immotal 投稿）

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段，该字段记录了一段文本，只要发上区块链就永远不会删除和修改。（@blueslmj 投稿）

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目，交互式哺乳纲演化树，探索哺乳动物2亿年的演化。（@SeanWong17 投稿）

图片

1、冰下修船

俄罗斯有一个船厂，位于北极圈附近。每年冬天，船坞都要结冰。

为了冬天也能修船，船厂会把冰层凿掉一块，露出船底。

冰层通常不会那么厚，不会结冰到船底，必须分层凿开。工人先用电锯，锯开最上层的冰层，然后等待下面的河水结冰，再用电锯向下切割，反复多次，直到船底结冰。

有时，需要凿开一条很长的冰槽。

下图是工人进入冰层下方，检修船底，由于冰下工作条件恶劣且有危险性，工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何？

我很高兴这样，因为我把这看作是我一生努力的延续：民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件，并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而，这项技术太重要，绝不能只掌握在少数公司手中。

-- Antirez，Redis 项目的创始人

2、

即使你不相信 AI，但跳过它对你和你的职业都没有帮助。

以前，你熬夜编程，看到项目顺利运行时，心潮翻滚。现在，如果你能有效利用 AI，可以建造更多更好的项目。乐趣依旧存在，未受影响。

-- Antirez，Redis 项目的创始人

3、

如果你不写作，你就是一个有限状态机。写作时，你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆（Manuel Blum），图灵奖得主

4、

人们陷入困境有三个主要原因：（1）行动力不足，（2）行动方向错误，（3）等待天上掉馅饼（幻想问题会缓解而拒绝采取行动）。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则（#334）

YouTube 有多少个视频？（#284）

AI 聊天有多强？（#234）

政府的存储需求有多大？（#184）

（完）

科技爱好者周刊（第 381 期）：中国 AI 大模型领导者在想什么

作者: 纯情
时间: 2026-01-16
分类: 资讯
评论

这里记录每周值得分享的科技内容，周五发布。

本杂志开源，欢迎投稿。另有《谁在招人》服务，发布程序员招聘信息。合作请邮件联系（[email protected]）。

封面图

刚刚运营的北京通州站位于地下，为了充分利用自然光，屋顶采用了透光的膜结构，上方还有一个风帆形状的保护架。（via）

中国 AI 大模型领导者在想什么

上周六（1月10日），北京有一场"AGI-Next 前沿峰会"，由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者，很多都出席了。

唐杰：清华大学教授，智谱创始人

杨植麟：月之暗面 Kimi 创始人

林俊旸：阿里 Qwen 技术负责人

姚顺雨：OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法，网上有发言实录。

内容非常多，有意思的发言也很多，下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年，我们开始研究，能不能让机器像人一样思考，当时就从清华成果转化，在学校的大力支持下，成立了智谱这么一家公司，我现在是智谱的首席科学家。

那个时候，我们实验室在图神经网络、知识图谱方面，在国际上做的还行，但我们坚定地把这两个方向暂停了，暂时不做了，所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力，我教它一点点，它就能举一反三。就和人一样，教小孩子的时候，我们总希望教三个问题，他就会第四个、第十个，甚至连没教过的也会。怎么让机器拥有这种能力？

目前为止，我们主要通过 Scaling（规模化）达到这个目标，在不同层面提高泛化能力。

（1）我们最早期用 Transformer 训练模型，把所有的知识记忆下来。训练数据越多、算力越多，模型的记忆能力就越强，也就是说，它把世界上所有的知识都背下来了，并且有一定的泛化能力，可以抽象，可以做简单的推理。比如，你问中国的首都是什么？这时候模型不需要推理，它只是从知识库里拿出来。

（2）第二层是把模型进行对齐和推理，让它有更复杂的推理能力，以及理解我们的意图。我们需要持续的 Scaling SFT（Supervised Fine-Tuning，监督式微调），甚至强化学习。通过人类大量的数据反馈，不断 Scaling 反馈数据，可以让模型变得更聪明、更准确。

（3）今年是 RLVR（强化学习与可验证奖励）爆发年。这里的"可验证"是什么意思？比如，数学可以验证、编程可能可以验证，但更广泛地，网页好不好看，就不大好验证了，它需要人来判断。

这就是为什么这个事情很难做，我们原来只能通过人类反馈数据来做，但人类反馈的数据里面噪音也非常多，而且场景也非常单一。

如果我们有一个可验证的环境，这时候我们可以让机器自己去探索、自己去发现这个反馈数据，自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事：新范式的开始

大家可能会问，是不是不停地训练模型，智能就越来越强？其实也不是。

2025年初，DeepSeek 出来，真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来，而且性能确实很强，一下子让很多人感到很震撼。

我们当时就想一个问题，也许在 DeepSeek 这种范式下，Chat（对话）差不多算是解决了。也就是说我们做得再好，在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点，变成有情感的 Chat，或者再复杂一点，但是总的来讲，这个范式可能基本到头了，剩下更多的反而是工程和技术的问题。

那么，AI 下一步朝哪个方向发展？我们当时的想法是，让每个人能够用 AI 做一件事情，这可能是下一个范式，原来是 Chat，现在是真的做事了。

当时有两个方向，一个是编程，做 Coding、做 Agent；另一个是用 AI 来帮我们做研究，类似于 DeepResearch，甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多，很多人问这是为什么？

这起源于2023年8月3日，我们开源了一个小模型，它是我们内部用来做实验的 1.8B 模型。我们做预训练，资源毕竟有限，你做实验的话不能通通用 7B 的模型来验，就拿 1.8B 的来验。

当时我的师弟跟我说，我们要把这个模型开源出去。我非常不理解，我说这个模型在2023年几乎是一个不可用的状态，为什么要开源出去？他跟我说 7B 很消耗机器资源，很多硕士生和博士生没有机器资源做实验，如果 1.8B 开源出去的话，很多同学就有机会毕业了，这是很好的初心。

干着干着，手机厂商跑来跟我们说 7B 太大，1.8B 太小，能不能给我们干一个 3B 或 4B 的，这个容易，没有什么很难的事情。一路干下来，型号类型越来越多，跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的，不仅仅是服务开发者或者服务科研人员，而是能不能做一个 Multimodal Foundation Agent（多模态基础智能体）。

我特别相信这件事情，2023年的时候大模型是一个大家都不要的东西，多多少少有那么几分大炼钢铁的成分，多模态是我们从那时就一直想做的事情。

为什么呢？我们觉得如果你想做一个智能的东西，天然的应该是 Multimodal（多模态），当然带有不同看法，各个学者都有一些看法，多模态能不能驱动智力的问题。我懒得吵这个架，人有眼睛和耳朵可以做更多的事情，我更多的考虑是 Foundation（基础智能体）有更多的生产力，能不能更好地帮助人类，毫无疑问我们应该做视觉，我们应该做语音。

更进一步，我们要做什么东西呢？Omni 的模型（全模态模型）不仅仅是能够理解文本、视觉、音频，我们可能还让它生成文本、音频。今天我们已经做到了，但是我们还没有做到把视觉生成结合在一起。如果做到三进三出，我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C（消费者模型）和 To B（商业用户模型）发生了明显的分化。

大家一想到 AI，就会想到两个东西，一个是 ChatGPT，另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说，大部分人大部分时候不需要用到那么强的智能，可能今天的 ChatGPT 和去年相比，研究分析的能力变强了，但是大部分人大部分时候感受不到，更多把它当作搜索引擎的加强版，很多时候也不知道该怎么去用，才能把它的智能激发出来。

但对于 To B 来说，很明显的一点是智能越高，代表生产力越高，也就越值钱。所以，大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月，第二强或者差一些的模型是50美元/月、20美元/月，我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元，每天要做10个任务，一个非常强的模型可能10个任务中八九个做对了，差的是做对五六个，问题是你不知道这五六个是哪五六个的情况下，需要花额外精力去监控这个事情。

所以，在 To B 这个市场上，强的模型和稍微弱点的模型，分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是，基础模型和上层应用，到底是垂直整合，还是模型应用分层，也开始出现了分化。

比如，ChatGPT Agent 是垂直整合，Claude（或者 Gemini）+ Manus 是模型应用分层。过去大家认为，当你有垂直整合能力肯定做得更好，但起码今天来看并不一定。

首先，模型层和应用层需要的能力还是挺不一样的，尤其是对于 To B 或者生产力这样的场景来说，可能更大的预训练还是一个非常关键的事情，这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好，或者让这样的模型有溢出能力，也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现，其实在 To C 的应用上，垂直整合还是成立的，无论 ChatGPT 还是豆包，模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说，这个趋势似乎是相反的，模型在变得越来越强、越来越好，但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值？我们发现，很多时候需要的是额外的 Context（上下文）。

比如，我问 AI 今天该去吃什么？其实，你今天问 ChatGPT 和你去年问或者明天问，答案应该会差很多。这个事情想要做好，不是说你需要更大的模型、更强的预训练、更强的强化学习，而是可能需要更多额外的输入，或者叫 Context。如果它知道我今天特别冷，我需要吃些暖和的，我在今天这样的范围活动，可能我老婆在另一个地方吃什么等各种各样的事情，它的回答就会更好。

回答这样的问题，更多需要的是额外的输入。我和老婆聊了很多天，我们可以把聊天记录转发给元宝，把额外的输入用好，会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话：中国 AI 的未来

李广密（主持人）：我想问大家一个问题，在三年和五年以后，全球最领先的 AI 公司是中国团队的概率有多大？我们从今天的跟随者变成未来的引领者，这个过程到底还有哪些需要去做好？

9、姚顺雨的回答

我觉得概率还挺高的，我挺乐观的。目前看起来，任何一个事情一旦被发现，在中国就能够很快的复现，在很多局部做得更好，包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

（1）中国的光刻机到底能不能突破，如果最终算力变成了瓶颈，我们能不能解决算力问题。

（2）能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用，还是会诞生在美国，因为支付意愿更强，文化更好。今天在国内做这个事情很难，所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

（3）更重要的是主观因素，我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说，有没有更多有创业精神或者冒险精神的人，真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式，这可能是今天中国唯一要解决的问题，因为其他所有做的事情，无论是商业，还是产业设计，还是做工程，我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题，理论上这个场合是不可以泼冷水的，但如果从概率上来说，我可能想说一下我感受到的中国和美国的差异。比如说，美国的 Compute（算力）可能整体比我们大1-2个数量级，但我看到不管是 OpenAI 还是什么，他们大量的算力投入到的是下一代研究当中去，我们今天相对来说捉襟见肘，光交付可能就已经占据了我们绝大部分的算力，这会是一个比较大的差异。

这可能是历史上就有的问题，创新是发生在有钱的人手里，还是穷人手里。穷人不是没机会，我们觉得这些富哥真的很浪费，他们训练了这么多东西，可能训练了很多也没什么用。但今天穷的话，比如今天所谓的算法 Infra（基础设施）联合优化的事情，如果你真的很富，就没有什么动力去做这个事情。

未来可能还有一个点，如果从软硬结合的角度，我们下一代的模型和芯片的软硬结合，是不是真的有可能做出来？

2021年，我在做大模型，阿里做芯片的同学，找我说能不能预测一下，三年之后这个模型是不是 Transformer，是不是多模态。为什么是三年呢？他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴，我都不知道！但我今天还在阿里巴巴，它果然还是 Transformer，果然还是多模态，我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲，他给我讲了一大堆东西，我完全听不懂，我给他讲，他也不知道我们在做什么，就错过了这个机会。这个机会有没有可能再来一次？我们虽然是一群穷人，是不是穷则思变，创新的机会会不会发生在这里？

今天我们教育在变好，我属于90年代靠前一些的，顺雨属于90年代靠后一点的，我们团队里面有很多00后，我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神，一个很典型的例子是当时电动车刚出来，甚至开车会意外身亡的情况下，依然会有很多富豪们都愿意去做这个事情，但在中国，我相信富豪们是不会去干这个事情的，大家会做一些很安全的事情。今天大家的冒险精神开始变得更好，中国的营商环境也在变得更好的情况下，我觉得是有可能带来一些创新的。概率没那么大，但真的有可能。

三年到五年后，最领先的 AI 公司是一家中国公司的概率，我觉得是20%吧，20%已经非常乐观了，因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认，无论是做研究，尤其是企业界的 AI Lab，和美国是有差距的，这是第一点。

我们做了一些开源，可能有些人觉得很兴奋，觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大，因为美国那边的大模型更多的还在闭源，我们是在开源上面玩了让自己感到高兴的，我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错，我们还要承认自己面临的一些挑战和差距。

但我觉得，现在慢慢变得越来越好。

（1）90后、00后这一代，远远好过之前。一群聪明人真的敢做特别冒险的事，我觉得现在是有的，00后这一代，包括90后这一代是有的，包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

（2）咱们的环境可能更好一些，无论是国家的环境，比如说大企业和小企业之间的竞争，创业企业之间的问题，包括我们的营商环境。

（3）回到我们每个人自己身上，就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险，而且环境还不错。如果我们笨笨的坚持，也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日，湖北制造的载人飞艇祥云 AS700，完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行，可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米，最大载客量9人。由于载客量太小，不可能用作常规的交通工具，只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机，结果因为手指带水无法触控。

他灵机一动，发明了戴在鼻子上的触控笔。

它的结构很简单，就是一个石膏纤维的鼻管，里面插着一支触控笔。

这个发明看上去很有用，可以解放双手，也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令，禁止不可跳过的广告，将于2026年2月15日起生效。

法令规定，视频广告的等待时间必须在5秒以内，否则观众可以选择跳过。而且，关闭方式应该是清晰简便的，禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到，越南互联网值得叫好。

文章

1、我所有的新代码都将闭源（英文）

作者是一个开源软件贡献者。他感到，自己的开源代码都被大模型抓取，导致仓库访问者减少，进而也没有收入，所以他后面的代码都要闭源。

2、网站的视觉回归测试（英文）

本文介绍如何使用 Playwright，对网页进行视觉测试，看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis（英文）

Redis 是最常用的缓存工具，作者介绍它的痛点在哪里，怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条（英文）

一篇 CSS 初级教程，介绍四个简单的技巧，让网页不会出现水平滚动条（即避免溢出）。

5、消息队列原理简介（英文）

本文是初级教程，介绍消息队列（mesage queue）的概念和作用。

6、macOS Tahoe 的圆角问题（英文）

macOS 最新版本 Tahoe 加大了圆角半径，造成调整窗口大小时经常失败。作者认为，从操作角度看，圆角面积最好超过端头的50%。

工具

1、whenwords

本周，GitHub 出现了一个奇特的库，没有一行代码，只有一个接口文档。

用户需要自己将接口文档输入大模型，并指定编程语言，生成相应的库代码再使用。

以后会不会都是这样，软件库没有代码，只有接口描述？

2、Hongdown

Markdown 文本的格式美化器，根据预设的规则，修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器，会自动显示多个时点的视频缩略图，便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。（@hoochanlon 投稿）

6、Flippy Lid

一个实验性软件，把 macbook 铰链开合作为输入，可以玩 Flippy Lid，也可以作为密码解锁。（@huanglizhuo 投稿）

7、Jumble

nostr 网络的开源 Web 客户端，专门用来浏览以 feed 内容为主的 relay 节点。（@CodyTseng 投稿）

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。（@wangrongding 投稿）

9、SlideNote

开源的 Chrome 浏览器插件，在侧边栏做笔记，支持跨设备自动同步。（@maoruibin 投稿）

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板，提供实时统计、PV 过滤、IP 归属地、客户端解析。
（@likaia 投稿）

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用，自动从 arXiv 抓取每周的热门 AI 论文，通过 NotebookLM 生成视频讲解，并能发布到抖音。（@brianxiadong 投稿）

2、CC Switch

一个跨平台桌面应用，一键切换 Claude Code / Codex / Gemini CLI 的底层模型，以及完成其他的管理设置。（@farion1231 投稿）

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单，进行总结。（@immotal 投稿）

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段，该字段记录了一段文本，只要发上区块链就永远不会删除和修改。（@blueslmj 投稿）

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目，交互式哺乳纲演化树，探索哺乳动物2亿年的演化。（@SeanWong17 投稿）

图片

1、冰下修船

俄罗斯有一个船厂，位于北极圈附近。每年冬天，船坞都要结冰。

为了冬天也能修船，船厂会把冰层凿掉一块，露出船底。

冰层通常不会那么厚，不会结冰到船底，必须分层凿开。工人先用电锯，锯开最上层的冰层，然后等待下面的河水结冰，再用电锯向下切割，反复多次，直到船底结冰。

有时，需要凿开一条很长的冰槽。

下图是工人进入冰层下方，检修船底，由于冰下工作条件恶劣且有危险性，工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何？

我很高兴这样，因为我把这看作是我一生努力的延续：民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件，并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而，这项技术太重要，绝不能只掌握在少数公司手中。

-- Antirez，Redis 项目的创始人

2、

即使你不相信 AI，但跳过它对你和你的职业都没有帮助。

以前，你熬夜编程，看到项目顺利运行时，心潮翻滚。现在，如果你能有效利用 AI，可以建造更多更好的项目。乐趣依旧存在，未受影响。

-- Antirez，Redis 项目的创始人

3、

如果你不写作，你就是一个有限状态机。写作时，你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆（Manuel Blum），图灵奖得主

4、

人们陷入困境有三个主要原因：（1）行动力不足，（2）行动方向错误，（3）等待天上掉馅饼（幻想问题会缓解而拒绝采取行动）。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则（#334）

YouTube 有多少个视频？（#284）

AI 聊天有多强？（#234）

政府的存储需求有多大？（#184）

（完）

Kimi K2-VL 视觉语言模型可能要来了

作者: 纯情
时间: 2026-01-06
分类: 资讯
评论

据科创板日报报道，一款代号为 “Kiwi-do” 的神秘模型已现身 LMArena，并通过了被标注为 “月之暗面 K2.1” 的 VPCT 基准测试。
多位分析人士指出，这极有可能正是月之暗面备受期待的多模态升级版本 ——K2-VL。
若消息属实，这将构成一个关键拐点：
Kimi，正在从 “会思考”，走向 “能感知”。

📌 转载信息

来源：
https://linux.do/t/topic/1412186

转载时间：
2026/1/6 18:53:13