包含关键字 typecho 的文章

整理 | 华卫

 

近日,支撑数百万生产部署、默默承载代码与用户之间底层连接的云平台 Vercel 遭到入侵,有威胁行为者宣称攻击了其系统,并试图出售窃取的数据。作为面向开发者提供托管与部署基础设施的云平台,Vercel 尤其专注于 JavaScript 框架生态,因开发广泛使用的 React 框架 Next.js 而知名,同时还提供无服务器函数、边缘计算、CI/CD 流水线等服务,帮助开发者构建、预览和部署应用程序。

 

Vercel 在社交平台 X 上发布声明,确认了这起 “安全事件”,称“有未经授权的人员访问了 Vercel 部分内部系统”。该公司表示,攻击者是通过一个被入侵的第三方 AI 工具实施入侵,与 Google Workspace OAuth 应用相关联。

 

在此之前,一名自称是近期入侵 Rockstar Games 幕后组织 ShinyHunters 成员的人士在一个黑客论坛上发帖,称从 Vercel 窃取了访问密钥、源代码、数据库数据以及内部部署环境访问权限和 API 密钥。他在帖子中写道:“这只是来自 Linear(Vercel 内部的项目管理工具)的证明材料,但我即将给你的访问权限包括多个员工账户,可访问多个内部部署系统、API 密钥(包括部分 NPM 令牌和 GitHub 令牌)。”

 

该威胁行为者还公开了一份包含 Vercel 员工信息的文本文件,共计 580 条数据记录,包括姓名、Vercel 邮箱、账号状态及操作时间戳。此外,他还发布了一张疑似 Vercel 企业版内部管理后台的截图。有报道称,与 ShinyHunters 核心团伙有关联的人员已否认参与此事。

入侵源头是 Context.ai,谷歌 Mandiant 团队正协助调查

在安全公告中,Vercel 表示,此次事件源于一款第三方 AI 工具,该工具的 Google Workspace OAuth 应用被攻破,可能影响数百个机构的大量用户。并且,Vercel 公布了相关威胁指标(IOC),以协助业界排查环境中可能存在的恶意行为,如下:

OAuth 应用:110671459871-30f1spbu0hptbs60cb4vsmv79i7bbvqj.apps.googleusercontent.com

 

随后,Vercel 首席执行官 Guillermo Rauch 在 X 上披露了更多细节,详细说明了攻击者的入侵路径。据称,攻击者最初的突破口是一名 Vercel 员工的 Google Workspace 账号,该员工所使用的 AI 平台 Context.ai 遭到入侵,导致其账号被攻陷。攻击者在获取该员工账号权限后,进一步提升权限渗透进入了 Vercel 自身的系统环境,访问了未被标记为敏感、因此未进行静态加密的环境变量。

 

通常,环境变量中存放着 API 密钥、私有 RPC 端点、部署凭证等机密信息。Rauch 表示,“Vercel 对所有客户环境变量均采用完整静态加密存储,我们拥有多层纵深防御机制保护核心系统与客户数据。但我们确实提供将环境变量标记为‘非敏感’的功能,不幸的是,攻击者正是通过枚举这些非敏感变量,获得了更高权限的访问。”

 

“我们认为该攻击组织技术水平极高,并且我高度怀疑,AI 极大地提升了他们的攻击效率。Rauch 补充道,攻击者行动 “速度惊人,且对 Vercel 有着深入的了解”。据了解,Context.ai 由前谷歌高管创办,专注于 AI 模型评估与分析,其核心产品为模型数据洞察仪表板。

 

但 Vercel 称,其服务未受影响,仅有少量客户受到此次数据泄露影响,目前正与受影响客户协同处理。同时,该公司已对其供应链进行排查,确认 Next.js、Turbopack 及其他开源项目均未受影响,保持安全。Vercel 已对管理后台推送更新,包括新增环境变量总览页面,以及优化敏感环境变量的管理界面。

 

“我们正在展开积极调查,并已聘请事件响应专家协助调查与修复工作。我们已通报执法部门,并将随着调查进展更新本页面信息。”据悉,谷歌 Mandiant 团队正协助调查,Vercel 也已联系 Context.ai,以确定此次事件的完整影响范围。

 

Vercel 正采取措施保护用户,并强烈建议开发者检查环境变量中是否包含敏感信息,并启用平台敏感环境变量功能,在必要时轮换密钥等敏感凭证,确保相关数据实现静态加密。同时,Vercel 提醒所有 Google Workspace 管理员及谷歌账号用户,立即检查该应用的使用情况,排查可疑行为。

影响范围太广,可能引发连锁式暴露

针对此次事件,软件开发社区知名开发者 Theo Browne 在 X 上表示,据其消息源透露,Vercel 内部集成的 Linear 和 GitHub 系统是受影响最严重的部分。他指出,Vercel 中标注为敏感的环境变量均受到安全保护;未被标记的其他变量则必须进行轮换,以防遭遇相同风险。该建议也与 Vercel 官方给出的指引一致,即建议客户检查环境变量并启用平台的敏感变量功能。

 

“这种方式很可能被用来打击除 Vercel 以外的多家公司。”Browne 称。

 

从数据规模也能看出这次事故带来的影响之大。Vercel 为数千家企业托管应用,涵盖个人开发者、初创公司和世界 500 强企业,他们利用该平台在全球边缘网络部署 Next.js 应用、静态站点和无服务器功能。这类基础设施一旦被攻破,就会引发连锁式的安全暴露。根据发表在 IEEE Xplore 上的研究,开发者基础设施的安全漏洞会在多个系统中对消费者数据造成连锁风险。研究强调,平台层面的泄露可能导致敏感信息在初始目标之外的广泛暴露。

 

使用 Vercel Pro 和 Enterprise 套餐的企业客户可能面临最高风险,因为这些账户通常包含更敏感的项目数据、自定义域配置以及第三方服务的集成凭证。那些将 GitHub、GitLab 或 Bitbucket 仓库连接到 Vercel 进行自动化部署的组织,如果攻击者获得了存储的认证令牌,其源代码仓库可能会被暴露。

 

在 Vercel 平台上存储环境变量、API 密钥和数据库连接字符串的开发团队尤其值得关注。对许多开发团队来说,这些数据代表了他们生产系统的关键。如果这些凭证被泄露,攻击者可能获得远超 Vercel 平台的后端系统、数据库和外部服务访问权限,篡改构建流程、注入恶意代码,进而实施更广泛的攻击。

 

使用 Vercel 免费套餐的个人开发者虽然可能目标更少,但仍面临个人项目暴露和账号被接管的风险。该平台与流行的开发工具和服务的集成意味着被攻破的账户可能成为针对开发者生态系统更广泛攻击的跳板。

 

但更深远的影响不止于 Vercel 本身,所有使用第三方 AI 工具进行代码生成、数据分析或自动化运营的公司,现在都必须面对同一个问题:哪些服务商可以访问哪些系统,对应的安全验证机制又是什么?

 

目前尚不清楚此次入侵的渗透深度,也不确定是否有客户部署的应用遭到篡改。Vercel 表示调查仍在持续,将在获取更多信息后向相关方通报,并会直接联系受影响客户。

IPO 前夕被攻击,200 万美元赎金谈判未果?

值得一提的是,这次入侵发生在 Vercel 的关键时刻。据外媒报道,在营收激增 240% 后,该公司正准备进行首次公开募股 (IPO)。

 

Vercel 一直将自身定位为面向开发者的 “AI 云平台”,大力推广深度 AI 集成能力。而或许正是这一定位,让它沦为了攻击目标。这起事件在云开发领域引发高度担忧,因为 Vercel 凭借其广受欢迎的前端部署平台,服务着全球数百万开发者。Vercel 在开发流程中处于特殊位置,是许多初创公司和成熟公司用来构建、测试和部署应用的基础设施层。这种级别的泄露不仅暴露了 Vercel 自己的数据,这可能会暴露成千上万信任该平台部署流程的开发团队的下游应用和服务。

 

更重要的是,此次泄露事件也引发了对 Vercel 安全措施和监控能力的质疑。在安全研究人员发现黑客在试图兜售据称窃取的数据、并出现可疑活动后,Vercel 才意识到系统可能已遭入侵。并且,从该公司最初披露的消息来看,攻击者在被发现前维持访问权限的时间尚不明确。入侵发生与被发现之间的间隔至关重要:攻击者访问时间越长,能泄露的数据越多,对下游系统造成的损害也越大。网络安全事件响应研究表明,消除安全漏洞的长期后果需要立即采取行动,以防止连锁反应在连接系统中蔓延。

 

不过需要说明的是,攻击者并未直接攻击 Vercel,而是利用了关联 Google Workspace 的 OAuth 访问权限。这类供应链漏洞的确更难被察觉,因为它依托的是受信任的集成服务,而非明显的系统漏洞。近期也有多起域名劫持事件导致用户被跳转至仿冒恶意网站,造成钱包资产被盗。但这类攻击通常发生在 DNS 或域名注册商层面,一般可通过监控工具快速发现异常。托管层入侵则截然不同。攻击者不会将用户导向钓鱼网站,而是直接修改真实的前端代码。用户访问的是合法域名,却加载了恶意代码,对此毫无察觉。

 

在 Telegram 上分享的信息中,威胁行为者声称已就此事与 Vercel 方接触,双方曾就 200 万美元赎金进行过谈判。无论之后此事如何发展,该公司当前都迫切需要转入防御姿态向投资者展示其稳定性。据传,Netlify 和 Render 等竞争对手正在联系 Vercel 的客户,将其平台定位为更安全的选择。

 

参考链接:

https://vercel.com/kb/bulletin/vercel-april-2026-security-incident

整理 | 华卫

近日,工业具身智能领域的新锐力量星工聚将(XGSynBot)正式宣布完成数千万元天使轮融资,本轮融资由天空工场创投基金独家投资。星工聚将总经理李梓正表示:"这轮融资不仅是对我们技术路线的认可,更是对'工业场景优先'战略的肯定。我们始终相信,能在工业场景走通的具身智能,才具备真正走向全场景通用化的资格。"

 

作为一支融合清华和产业基因的创业团队,星工聚将从成立之初就选择了一条"更远"的路。2025 年深入产线、扎根车间,用工程能力而非 Demo 能力定义具身智能并持续迭代到今年 3 月二代 XG Z1 上线。团队核心成员来自清华大学、上海交通大学、麻省理工、卡内基梅隆等全球知名学府,并拥有丰富的工业机器人研发与落地经验。

天空工场创投基金表示:"具身智能的商业化落地需要的不是参数的堆砌,而是对真实场景的深刻理解和系统级的工程能力。星工聚将团队展现出的全栈自研能力、场景洞察力以及快速迭代能力,让我们看到了工业具身智能规模化落地的确定性。"

据悉,星工聚将本轮融资将主要用于核心技术的持续研发、产品量产能力建设,以及重点行业的商业化拓展。

从 POC 到规模化部署

在 3 月刚刚结束的 AWE2026 和德国 LogiMAT 2026(欧洲最大的内部物流展会)上,XG Z1 轮式机器人作为全球唯一与现有产品线无缝衔接的具身智能产品,在现场展示了一套完整的物流场景中处理“非标、多变、长尾”问题的闭环能力,引发了全球物流与制造业界的高度关注。

 

· 语义任务拆解:XGZ1 能够自主读取屏幕指令,理解复杂的生产顺序,而非执行预设程序。

· 非结构化环境自适应:当演示中的组件条码被故意遮挡或翻转时,XGZ1 可以做到自主判断并翻转物体,直到识别成功。一位来自德国本土分拣中心的集成商在现场表示:"这种非结构化环境自适应能力,可以帮助解决我们仓储物流中很多麻烦。"

· 多目标柔性投放:XGZ1 控精准地将易碎组件投放到动态移动的小车中,其动作流畅度让观众席发出赞叹。

目前,星工聚将已与多家头部智能制造企业达成亿级订单合作,并联合包括京东、灵心巧手、珞石机器人、领益机器人、亦庄机器人等在内的产业链伙伴发起“星火计划”,构建起具身智能的生态协同网络。

 

在与蚂蚁集团的合作中,双方将依托星工聚将的机器人本体能力、真实场景数据积累构建高价值的具身智能真机数据集,开展联合模型训练、优化迭代与本体深度适配。共同沉淀可复制的行业解决方案与标杆案例,加速推动具身智能从技术验证走向规模化商用落地。

全栈自研技术体系

支撑上述场景能力的背后来自星工聚将的全栈自研技术体系:

· 星工聚将的核心竞争力首先在于其全球首创的末端快换系统。这一创新技术让 XG Z1 轮式机器人能够在 6 秒内完成不同末端执行器工具的切换,使同一台机器人可以无缝完成搬运、装配、打磨、质检、焊接等多种任务,真正实现"一机多用"的通用性能力。

· 物理认知引擎 CPE:CPE 由"快慢双系统"中央脑和数字风洞共同组成。慢系统负责理解任务,快系统实现更高更稳的动作反馈;而数字风洞平台是在仿真与真实之间引入可测量、可校正的中间层,通过构建关键物理场景让机器人在"接近真实"的环境中反复交互,实现偏差校准,从而机器可以越用越好用,越用越智能。

· XG 系列一体化关节模组:从自研高精度关节模组到 7 自由度机械臂和 4 自由度可折叠躯干,操作范围提升至约 2400 毫米可以覆盖多数工业作业空间,星工聚将实现了本体模块定制化确保产品在复杂工业环境中的稳定性和高响应速度。

这套技术体系为企业提供了三大确定性:成本确定性(通过复用降低边际成本)、落地确定性(全栈能力保障项目成功)、演进确定性(系统能力持续增长)。

用确定性对抗不确定性

在具身智能赛道从"估值泡沫"向"价值创造"转折的关键时刻,星工聚将选择了一条更务实的路径:以工业场景锤炼通用智能能力;以确定性的商业闭环滋养技术的持续进化。

除了工业制造和物流场景,星工聚将还在积极探索关键技术在泛化场景下的拓展应用。例如我们与某外资头部企业共同探索黑灯工厂,嵌入研发侧实现研发样品的自动试验等,进一步验证技术的通用性和商业化潜力,持续探索“向场景再进一步”。

从国内展台到世界舞台,从头部工厂到泛化场景,星工聚将未来还将从清华实验室到斯坦福伯克利行深度拜访和交流,用"全球首创末端快换系统"和"物理认知引擎",重写工业具身智能的落地逻辑,为具身智能的未来提供"不止一种答案"。

今天,腾讯正式发布了新模型 Hy3 preview,这是姚顺雨加入腾讯后带领团队发布的首个模型。

姚顺雨团队没有从千亿规模模型入手。Hy3 preview 是一个快慢思考融合的 MoE 语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度,主打性价比。Hy3 preview 的模型能力提升,适用于 Coding 和智能体(例如龙虾)类场景,是一个在实际应用中具备实用性和高性价比的基础模型。

Hy3 preview 是腾讯尝试解决真实世界复杂工程问题的开端。腾讯希望将 Hy3 preview 置于真实的业务场景中,通过 WorkBuddy 这一面向知识工作者的智能体(Agent)生产力框架,让 AI 与用户共同完成能力的持续进化。

腾讯表示,这是混元重建后训练的第一个模型,也是混元迄今最智能的模型,在复杂推理、指令遵循、上下文学习、代码、智能体等能力及推理性能上实现了大幅的提升。

2026 年 2 月,腾讯混元重建了预训练和强化学习的基础设施,以及模型追求实用性的三个原则:

  • 能力体系化: 不推崇“偏科”,因为即使是代码智能体的单一应用,也涉及推理、长文、指令、对话、代码、工具等多种能力的深度协同。

  • 评测真实性: 主动跳出易被“刷榜”的公开榜单,通过自建题目、最新考试、人工评测、产品众测等多种方式评估和改进模型的“真实战斗力”。

  • 性价比追求:实用性离不开商业合理性,深度协同模型架构和推理框架的设计,大幅降低任务成本,让智能用得起、用得好。

模型发布的同时,腾讯官方也给混元系列换了新的 logo,俨然一副“重新出发”的感觉:

腾讯首席 AI 科学家姚顺雨表示,Hy3 preview 是混元大模型重建的第一步。“我们希望通过这次开源和发布,获得来自开源社区和用户的真实反馈,帮助我们提升 Hy3 正式版的实用性。与此同时,我们也在继续扩大预训练和强化学习的规模,提升模型的智能上限,并通过与腾讯众多产品的深度 Co-Design,持续提升模型在真实场景中的综合表现,并开始探索特色模型能力。”

今年初,在 AGI-NEXT 会议上,姚顺雨就坦言,腾讯仍然是一家 To C 基因更强的公司。因此,腾讯更关心的问题是:如何让今天的大模型真正为用户创造更多实际价值。

他认为,To C 场景里,很多问题的关键并不只是模型变得更大、更强,而是能否拿到更多上下文信息。姚顺雨举例说,像“我今天该吃什么”这样的问题,看似简单,但如果没有足够的上下文,模型很难给出真正贴近用户当下需求的答案。比如天气是否很冷、活动范围在哪里、是否需要考虑伴侣的安排,这些额外信息往往比继续做更大模型、更强强化学习或者更强搜索更重要。

值得注意的是,姚顺雨加入腾讯后的首次署名研究论文也是关于上下文。腾讯混元官网在 2 月发布了姚顺雨团队加入后的首个公开成果 CL-bench,专门测模型能不能从上下文中学到新知识并正确应用。姚顺雨强调不要只盯榜单,更重要的是把系统放进真实世界约束中评估。

腾讯在集团层面也在加速将 AI 融入游戏、广告和社交等核心业务,这体现在了最新财报中:增值服务收入同比增长 14% 至 899.2 亿元;营销服务收入同比增长 17% 至 411.2 亿元;金融科技及企业服务业务收入同比增长 8% 至 608.2 亿元。

公司还围绕大模型能力和 AI 产品矩阵持续推进,WorkBuddy、QClaw 等“小龙虾”系列 Agent 陆续上线。但更让人关注的是财报媒体会上,腾讯宣布混元 3.0 计划于 4 月陆续向外开放。自引入姚顺雨后,腾讯围绕 AI 组织与人才体系进行了一系列密集调整,而这一系列动作的效果一定程度会反映在最新的模型上。

很明显,Hy3 preview 既是符合姚顺雨和腾讯业务理念的模型,也是大众对腾讯的一次检验。

主打全面实用性,Agent 能力大幅提升

根据官方多个测评结果,Hy3 preview 模型能力全面提升。

上下文学习和指令遵循能力

在各种真实的生产与生活场景,理解杂乱冗长的上下文并遵从复杂多变的规则是模型的首要挑战。基于腾讯业务场景的灵感,腾讯混元提出了 CL-bench 和 CL-bench-Life 来创新性地评估模型的上下文学习能力,并在 Hy3 preview 显著地提升了模型上下文学习和指令遵循能力。

复杂推理能力突出,清华数学博士资格考试国内分数最高

复杂推理能力是模型解决各种问题的基础。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高难度理工科推理任务中表现突出,并在最新的清华大学求真书院数学博资考 (26 春)  和 全国中学生生物学联赛 (CHSBO 2025) 中取得优异成绩,展现了可泛化的强推理能力。

代码与智能体提升最为显著,展现出高性价比

代码和智能体是 Hy3 preview 提升最为显著的方向。得益于预训练及强化学习框架的重建和强化学习任务规模的提升,腾讯混元以较快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代码智能体基准以及 BrowseComp、WideSearch 等主流搜索智能体基准中取得了有竞争力的结果。

在数字世界中,代码关注的是模型在开发环境中的执行能力,搜索则聚焦于开放信息空间中的检索、筛选与整合能力,两者共同决定了模型在复杂智能体场景(例如 OpenClaw)中是否真正具备可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等评测中表现突出,表明我们的智能体能力正在稳步走向全面与实用。

除了公开榜单,腾讯混元还进一步构建了多个内部的评测集,对模型在真实开发场景中的表现进行评估。结果表明,无论是在后端工程任务集 Hy-Backend,贴近真实用户开发交互的 Hy-Vibe Bench,还是高难度软件工程开发任务集 Hy-SWE Max 上,Hy3 preview 均体现出了强竞争力。

比较各个开源模型的大小与智能体综合表现,Hy3 preview 展现出高性价比。

成本大幅降低,腾讯核心业务全面接入

得益于模型和推理框架上的深度协同,以及在推理框架、算子性能、量化算法等全方面优化,整体推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。

在腾讯云大模型服务平台 TokenHub 上,Hy3 preview 输入价格最低 1.2 元 / 百万 tokens,输入命中缓存价格 0.4 元 / 百万 tokens,输出价格最低 4 元 / 百万 tokens。同时,腾讯云联合混元推出定制的 Hy3 preview Token Plan 套餐,个人版定价最低 28 元 / 月,为 Agent 开发和打造“龙虾”应用的提供更具性价比选择。

而在正式上线之前,Hy3 preview 在腾讯主要 AI 业务进行了产品测试,获得明显正收益。

比如在元宝端,混元与元宝进行了深度 Co-Design。一方面,针对性地提升了模型在意图理解精准度、文本创作质量、深度搜索等硬核指标上的表现;另一方面,对文风、文笔、情商、内容组织和内容专业度上进行了精细化调优。模型与产品的深度协同,为用户带来了更智能且更具“活人感”的交互体验。

在 ima 知识库问答和通用问答两个场景下,Hy3 preview 处理长文的能力出色,特别是检索类任务,在回答信息的准确性、覆盖度和全面性上表现较好。

在 CodeBuddy、WorkBuddy 产品上,Hy3 preview 首 token 延迟降低 54%、端到端时长降低 47%、成功率提升至 99.99%+。实际用户环境中,Hy3 preview 已稳定驱动最长 495 步的复杂 Agent 工作流,覆盖文档处理、数据分析、知识检索、MCP 工具链编排等多样化办公场景。

而在公众号 AI 分身和 AI 客服的场景专项评测中,Hy3 preview 展现出相比 Hy2 更全面的能力升级。新模型在用户意图理解、复杂上下文承接和知识信息组织方面表现更成熟,面对模糊提问、短句追问和多轮对话时,能够更准确地把握用户诉求,并输出更清晰、更稳定的回复。结合知识库、用户记忆与上下文生成回答时更贴合 AI 分身和 AI 客服的角色,过度脑补、主观代入和情绪化表达显著减少,使整体交互体验更贴近“可信、自然、高效”的回复目标。

另外在和平精英 AI NPC 场景评测中,和平精英团队第一时间在 Hy3 preview 上线后基于 AI NPC 场景中完成接入并开展评测,整体表现令人印象深刻。在游戏局外的人设扮演场景中,Hy3 Preview 不仅能够精准理解角色设定,还能针对开放性问题输出高度关联、富有增量价值的内容,带来了更加真实、自然、沉浸的对话体验。而在游戏局内的复杂对战场景中,模型回复节奏贴近真实玩家聊天体验,展现出优秀的稳定性与出色的拟人化扮演能力,整体效果表现亮眼。

在腾讯文档 AI PPT 场景,较上一版本(Hy2)取得了显著进步:生成成功率提升 20%,评测得分提升 10%,同时生成耗时缩短 20%。整体而言,新模型在评测场景中表现优异,在模版选择,色彩匹配,生成大纲,补充内容多个阶段,均体现出优秀的表现,无幻觉,契合主题,视觉效果好。

在 QQ AI 助手小 Q 产品评测中,较上一版本,在长文本首字节时延、整体响应速度与流式输出效率方面显著优化;核心能力上,数学推理表现提升尤为明显,多场景指令遵循与泛化能力进一步增强;在工具调用推理及多轮指代消解方面表现更稳定高效,在 OpenClaw 官方 PinchBench QQ 智能体场景测试中取得突出效果,综合体验实现明显跃升。

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ 浏览器、腾讯文档、腾讯乐享等首发上线,微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等多个主线产品也在陆续上线。另外,Hy3 preview 支持接入流行的开源智能体产品,如 OpenClaw、OpenCode、KiloCode 等,并已上架腾讯云大模型服务平台 TokenHub。

InfoQ 有幸提前进行了测试,整体使用下来,一句话总结就是:这是个用理性解决问题的帮手。下面是我们做的五个小测试,包括国外播客整理翻译、研究报告、前端网站搭建、物理理解和 Skill 测试,期间 Hy3 preview 做得好的地方、不好的地方,都非常明显。

InfoQ 实测

英文视频提炼亮点和翻译

第一个小任务,尝试让 Hy3 preview 给英文采访视频提炼核心内容和亮点。这也是我们的日常工作场景之一。

下面是思考过程:

Hy3 preview 无法直接访问我给的链接,于是先尝试了用浏览器自动化工具来访问,过程中会自己尝试安装缺少的工具 agent-browser ,不过安装失败了。于是它改为使用 Python 脚本来获取视频信息,这一次获取成功了。最后基于获取到的视频基础信息,它进一步搜索到了这期播客的 newsletter 页面,并获取到了更详细的介绍。

我让它根据视频内容提炼 10 个关键亮点,它实际是从 newsletter 页面上总结的亮点中选取了一些给我(分别是页面里的第 1-8、10 和 12)。整体来说 Hy3 preview 比较顺利地完成了任务,虽然它和其他模型一样无法直接通过视频链接抓取到内容,但它很务实,不会凭空瞎编一些亮点(我在骂谁我不说🤐)。

下一步,让 Hy3 preview 提取视频字幕文件。

它花了一点时间(差不多 10 分钟),反复尝试多次,最终成功获取到了这个视频的英文字幕文件。中间尝试了不同方法,自动安装所需工具。

思考过程:

我问它获取字幕文件花了多长时间,它混淆成了从一开始给它视频链接到刚才完成获取字幕文件整个过程的总用时,所以给到了 40 分钟的答案。但实际获取字幕文件这一步的时间差不多是 10 来分钟。总体而言反思态度很好,也很会总结经验、给自己打气。

接下来尝试让它将字幕文件中第一段 10 分钟的内容翻译成中文,它耗时 5 分钟后完成翻译,并生成了 markdown 格式的文件可以直接下载。

它这一步依然是通过 Python 脚本的方式来完成的,这一步的思考过程:

不过它的翻译成果不算特别理想,存在几个问题:部分英语词汇可以翻译成中文但它没翻译;前后技术术语不一致;说话人识别还是存在错位情况。

不过平心而论,使用其他模型翻译视频播客的时候我们也经常会遇到类似问题,最终要达到可发布状态都需要进一步人工精调。而且这次由于时间有限,没有对 Hy3 preview 做更多更精细的调教,这也会在一定程度上影响最终效果。

这里附上这个视频访谈开始的第一段 QA,大家可以对比一下。一个是基于 GPT-5.4(Instant)翻译并经过人工润色的结果,一个是混元 3 初步翻译的结果。

  • 混元 3 初步翻译版本:

有一个地方是 GPT-5.4(Instant)明显优于混元 3 的,比如上面那段出现的技术名词 Ormachy,在原版英文字幕文件中就是前后不一致的,同时存在几个不同的错误拼写,但是 GPT-5.4(Instant)可以自动把出现的不同写法全部调整成正确写法 Ormachy,但混元 3 只是忠实地把错词翻译过来了。

“一人公司”报告:全而不细

然后,我们给出了一个 调研“AI 一人公司趋势”并输出一份报告的任务,要求其必须调用浏览器(搜索)、文档整理、数据总结。

提示词如下:

你现在是一个具备真实工作能力的研究型 Agent。你的目标不是基于已有知识生成内容,而是通过主动调用工具,完成一次完整的“AI 一人公司(One Person Company, OPC)趋势调研”,并交付一份结构清晰、信息可靠的研究报告。

任务目标:

调研“AI 一人公司趋势”,并输出一份可直接阅读和使用的分析报告。

强制要求(必须遵守):

1. 必须使用浏览器进行真实搜索,获取最新信息(不可仅依赖已有知识)

2. 必须对多来源信息进行整理、对比与归纳

3. 必须对关键数据进行提取和总结(如比例变化、融资情况、案例数据等)

4. 最终输出一份结构化报告,而不是零散内容

执行流程(必须按顺序执行):

第一步:调研规划

- 明确本次调研的核心问题(例如:OPC 是否趋势性增长、哪些人群受益、商业模式是什么等)

- 给出搜索关键词(中英文)

- 说明你将重点查找的信息类型(数据、案例、观点、公司实践等)

第二步:信息搜索(必须调用浏览器)

- 至少进行 3-5 轮不同角度的搜索

- 覆盖:行业数据、真实案例、公司/平台观点、投资/融资信息

- 每次搜索需说明:为什么搜、搜到了什么、是否可信

第三步:信息筛选与整理

- 去除重复或低质量信息

- 标记关键信息来源(例如报告、公司、媒体、个人观点)

- 将信息按主题归类(如:趋势、案例、商业模式、风险等)

第四步:数据与结论提取

- 提取关键数据(如占比变化、增长趋势、变现情况)

- 总结至少 3-5 个“可被验证的事实”

- 总结至少 3 个“趋势判断”

第五步:结构化报告输出

最终报告必须包含以下结构:

1. 背景与现象(AI 一人公司为何出现)

2. 核心趋势(是否在增长、增长逻辑是什么)

3. 典型案例(真实个人/公司案例)

4. 商业模式与赚钱路径

5. 谁在受益(人群分层)

6. 风险与限制(如平台依赖、可复制性问题)

7. 未来判断(短期红利 vs 长期结构)

执行要求:

- 每一步都要说明“你在做什么”和“为什么这么做”

- 不允许跳过搜索直接总结

- 不允许只给观点,必须有事实或案例支撑

- 如果信息存在冲突,需要指出并分析原因

- 优先使用最近 1-2 年的信息

输出要求:

- 语言清晰、逻辑连贯

- 信息密度高,但不要堆砌

- 可以直接作为一篇行业分析报告阅读

现在开始执行:先输出第一步【调研规划】,不要跳步。

输出报告如下:

读者可以复制链接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy

整体给人感觉:这是非常全面的一份报告,只是细节展开不够,但对于想要大概了解“一人公司”情况的读者来说是可以快速掌握相关信息的。

在准确性方面,我们随机抽检了两组数据,第一组数据:“2023-2024 年澳大利亚无雇员企业同比增长 4.9%,新增 78144 家”,在搜索后可以找到出处,数值引用也正确。

再随机抽检这个案例:“动画领域创业者可单人统筹 42 分钟动画,28 天完成传统 10 人团队的工作量”,结果也正确。

顺便让它把 md 格式转成 PDF,它也顺利完成了任务。

可见,在研究报告这块,Hy3 preview 信息搜集处理的准确度是不错的。不过,现在深度报告这块的竞争力或在数据上,近期 Kimi、千问等都添加了专业数据库来生成报告。

AI 新闻聚合网站:基本可用,细节待完善

接下来再给它一个任务:从零做一个“AI 新闻聚合网站”。在调用了 31 个工具、产生了 63 条过程消息后,Hy3 preview 成功生成了一个 AI 新闻聚合平台,如下图:

这是 Hy3 preview 自主选择的技术栈,还附了相关解释,告诉用户为什么这样选。在将逻辑和开发步骤讲清楚后,模型才开始正式执行。

期间,我们上传了一个 Excel 表格,让它读取各 sheet 里的新闻源,它成功读取并给出了一些意见,比如全是英文网站可能错过国内企业消息(然后自己在抓取时候加入了国内网站)。不过,读取也出现了一些问题,比如一个子 sheet 里的 31 条新闻源,其显示只读取了 3 个,数量差有些大,也导致新闻抓取过度依赖某一单一网站。

这次测试中,Hy3 preview 也展现了自己的 debug 能力。在任务完成后,打开网页出现了下面问题,告诉它后,它开始检查问题,最后顺利修复。

成品检验

首先是抓取时间问题,点击一个显示“4 分钟前”的新闻,打开原链接后新闻显示的时间是 2025 年 1 月 31 日。

当然生成的聚合网站上也有最新的消息(如下),但在明确要求“最新新闻优先展示”的情况下,整个排序依然错乱。

时间排序问题它自己在测试网页中也发现了,但最后呈现还是出现了问题。这种无法准确修改后呈现的问题,还包括在要求去掉某一个新闻源后其依然引用等。

另外,打开阅读的整个视觉效果也不太好,这可能也是为什么在任务完成后,提示下一步可以做视觉优化的原因吧。

整体下来,现在生成网页的效果已经比去年好了很多,但要符合用户者心意、做到产品级别性能,比如实时刷新、话题精准、抓取新闻量更大等,还需要更多投入精力。但可以预想,企业官网等要求不高的场景完全可以用,完成程度会不错。

高难度 STEM 仿真模拟

接下来的任务是通过调用 terminal 技能、使用 uv 管理虚拟环境,在本地编写 Python 脚本求解 Lorentz 力方程,并产出 3D 轨迹图。这是官方给的一个案例,我们进行了复现。最终,在经过 22 个工具调用、产生 55 条过程消息后,产出下图:

这次,我们附上模型的思考过程:

可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理实验处理上,知道带电粒子轨道问题需先处理尺度分离、可视化之前要检查能量守恒和周期,理解视觉好看不等于物理上可信。不过,目前 WorkBuddy 还未像爱马仕 Hermes 那样会自动沉淀未来可复用的 skill。

Skill 测试

接下来我们再来测测它加载和执行 skill 的能力如何。我们把已经写好的一个文案 Skill,丢给它学习,并通过这篇文章的内容让它写一下传播文案,看看效果如何,过程如下:

完整思考过程如下,Hy3 Preview 先快速总结了文章的内容和我的诉求,然后抓取文章的核心信息和关键字(甚至包含了传播转化动作与品牌露出),并按照 Skill 的规范去生成文案。生成之后先检查字数、符号使用规范等,最后有重新对照了一下原文内容去确保生成的文案信息准确,验证之后给我交付了结果。

最终生成的传播文案如下:

结果来看,关键信息基本都抓取到了,也符合 Skill 预设的风格和字数要求,唯一欠缺的可能是不同风格版本文案内容的多样性不太够。但是如果每类文案只选取 1 条使用,倒也没啥毛病。尤其是给完文案后它还自查并展示了标签使用规则、字数以及版本风格,这一点好评。

小结

整体体验下来,我们能感觉到,当前 Hy3 Preview 在任务执行过程中,对于用户需求的实施非常精准且务实,不会存在超出需求之外的“瞎编”,并且遇到问题会主动寻找其他解决方法,自动调用各种工具,直到解决问题。

好处是当我们把明确且具体的需求发送给它后,大概率能获得一个不太出错的答案,一致性也相对更好;坏处是如果当你给到一些抽象、需要发散和创意的需求时,可能会获得一份让人觉得有点“一板一眼”的内容,缺乏多样性和想象力,也不太能进入灵感碰撞的“心流时刻”,但这或许也是 Hy3 下一步会重点增强的地方,毕竟它现在说到底还只是个语言模型,而非多模态。当你有一个需要严谨执行的任务时,你能够第一时间想到 Hy3,这本身也是一种认可。

*InfoQ 策划编辑 Potatooo 对本文亦有贡献。

https://github.com/a9gent/mindfs.git

界面预览

MindFS 桌面端界面

MindFS 移动端界面


特性

Agent 会话

  • 多 Agent 支持:Claude Code · OpenAI Codex · Gemini CLI · Cursor · GitHub Copilot · Cline · Augment · Kimi · Kiro · Qwen · Qoder · Pi · OpenCode · OpenClaw ,自动探测已安装的 Agent 。
  • 实时流式输出:逐 token 推送,工具调用、思考过程、权限请求均以结构化卡片实时渲染,上下文窗口实时余量。
  • 灵活切换:会话中随时切换 Agent 或模型,多 Agent 共享同一上下文,无需重新描述背景。
  • 会话搜索:支持按会话标题或对话内容搜索,并可直接跳转到命中的会话和片段。
  • 外部会话双向导入:可浏览受支持 Agent CLI 的已有会话,选择后导入到 MindFS ,并作为原生 MindFS 会话继续使用,同时 MindFS 中的会话亦可在 cli 中恢复。
  • 绑定持久化与恢复:MindFS 会持久化内部会话与底层 Agent 会话的绑定关系,服务重启后可恢复该关联;后续消息在条件允许时会继续落到同一个 Agent 会话上。
  • 富媒体输入:支持在消息中直接附带文件和图片。
  • 多端同步:同一实例可同时在多个设备上访问,会话状态实时同步。

文件访问

  • 多 Project:同时托管多个目录,会话按 Project 独立组织,互不干扰。
  • 数据自托管:所有对话历史、文件元数据、视图配置均存储在 Project 目录的 .mindfs/ 子目录下,迁移和备份只需复制目录本身。
  • 文件树浏览:完整的目录树导航,支持文件预览,Markdown 、图片、代码均有对应渲染器。

交互优化

  • / 斜杠命令:输入 / 触发命令候选列表,快速执行预设操作。
  • @ 文件引用:输入 @ 触发文件路径补全,将任意文件作为上下文附件发送给 Agent 。
  • # 快捷提示词:输入 # 触发已收藏的快截提示词输入。
  • 文件与会话双向跳转:打开文件可跳转到产生它的会话;打开会话可查看所有相关文件。
  • 浏览器应用( PWA ):可安装到桌面或手机主屏幕,体验更优。
  • 手机界面优化:底部操作栏拇指可及,界面更简洁。

访问模式

  • 本地模式:服务启动后即可在局域网内通过浏览器访问,无需任何账号或配置。
  • Relay 远程模式:无需开放防火墙端口,通过 relayer 从公网任意设备访问本地实例,实现随时随地的 agent 访问。(本地模式页面中点击绑定按钮)
  • 私有通道:通过私有通道( tailscale 等),直接通过 ip:port 访问。
  • 端到端加密:会话、文件支持端到端加密保护。

插件系统

  • 定制视图:插件是一种针对文件的定制视图,按照「传入文件内容 → 解析 → 渲染界面」的框架运行。
  • Agent 生成插件:向 Agent 发送「实现一个 txt 小说阅读器」,Agent 即可生成对应插件,此后所有 txt 文件将以小说阅读方式呈现。
  • 交互闭环:实现「定制插件 → 浏览文件 → Agent 交互」的完整闭环。

安装运行

  • 单二进制:生产构建是一个静态编译的单二进制文件,内嵌所有 Web 资源,安装包小于 10M 。
  • 零依赖:宿主机无需安装 Node.js 、Docker 或任何守护进程管理器。
  • 多平台:支持 macOS ( Intel + Apple Silicon )、Linux ( x86-64 、ARM64 、ARMv7 )、Windows ( x86-64 、ARM64 )。

支持 csv 、json 、Excel 、Markdown 、PDF 格式
可以选择时间范围导出,数据全部在你的设备上处理
已上架苹果应用商店了
这里说一下,非常幸运,提交了一天就通过审核了,哈哈😄




20 个 pro 会员

HAYPNYMWHJHAWNWFTP
WW83MKEWAEKFA4KH4L
YWJYE7MMMTRLPX8JTN
WLRR4YFJ7KEHF6RAXF
4ANRLYMYWYF7Y6PL4T
RHLRKFRF8YL4Y8XFFT
HP4PEALJRWL4WREFRX
3YEY77WL4X6EL4N6LY
83KJFHK3L8XKANHFP7
ANXWTFJW4NEAKKJ4RH
WFJKWWTPMH6WNERW6F
TFL7P7XKM3NWJWWJP8
7KFJPRJLPW4YF3ENYF
6WJHMP7WN3XF4P66MM
RMJMKPWYYT3H6EJF3K
AK8WPWPKR6J7PJW4TX
KK8NRTE4J4L463T4RM
847XPAYFPXK4Y7KWNH
EMR78F47ATJKYNRPRW
FKAX3LW34AN4RYL6WF


各位 V 友大家好,

作为一名关注气象与数据的开发者,最近我肝了一个新项目:**2026 厄尔尼诺实时监测站**。

之所以想做这个站点,是因为根据多方气象机构的预测,2026 年极大概率会演变为 140 年一遇的“超级厄尔尼诺年”。这不仅仅是一个气象名词,它意味着全球范围内可能出现剧烈的气候异常。

这种量级的气候波动,不仅关系到农业生产、各国人民的生命财产安全,更会深度扰动全球金融市场的稳定。面对这种不可忽视的自然力量,我觉得有必要用数据化的方式,帮大家整理和持续观测这些信息。

先通过图片直观感受一下目前的数据趋势:

全球气候趋势看板

我在 El Niño 2026 监测点 整合了目前主流气象模型的预报数据,希望能为大家在应对极端天气、资产配置调整甚至生存准备方面,提供一点点有价值的参考信息。

项目预览截图

目前的站点功能还在持续完善中,主要侧重于核心气象数据的可视化和全球影响的实时跟踪。由于是个人开发,在数据源的广度和 UI 体验上肯定还有提升空间。

如果你也关注气候变化,或者想提前为明年的全球环境波动做些准备,欢迎常来 这个关于气候预警的小站 逛逛,也真心希望能听听各位大佬在数据呈现或功能上的建议。

面对自然,我们每个人都很渺小,但至少我们可以先从“了解”开始。

传送门:**elnino2026.com**

感谢各位的时间!


Claude 周额度突然重置了,是庆祝 GPT5.5 吗?
而且好像不影响下次正常的重置周期
本周可以畅饮啦

多和 openai 学学!

这两天不是有两个帖子: 你们的爸妈存在思想固化吗?
以及: 分享一个刷新认知的小事

然后想起来我家老两口的事情,我最近不是减肥嘛,所以吃紫薯和圣女果比较多,家母就斥责我,说那都是转基因的,然后我就解释,说不是,但是老人嘛,认为过去没有的东西,现在出现了,是不正常的,是转基因的结果(哈哈,挺无语)。对了,家母还是化工专业背景,专科学历。
再说我老爹,本科学历,那个年代就算比较优秀了(虽然是英语专业),然后就很害怕微波炉辐射,认为微波炉加热时候的辐射有害,当然现在好多了,毕竟也避免不了使用不是。

怎么说呢,人的认知是有瓶颈的,我觉得我未来也会向他们一样,但是我希望我的孩子能够宽容,当然我也努力让自己年轻一些,多用辩证的眼光看问题。

好了,又水了一贴。当然如果能给 2 友们启发就更好了。force_smile

用过 3 款无线充电器

第一款是绿联的传统无线充电板

没有磁吸功能,会有“没对准充电线圈”的心理压力,充电也很慢
用了一段时间就出掉了

image

第二款是 tb 买的,带半导体散热的三合一无线充电支架

号称支持 Qi2,功率能到 15W?反正实测比较慢
用了一段时间出掉了

优点

  • 支持 MagSafe 磁吸
  • 三合一,手机手表耳机都能充
  • 带半导体散热,手机充电冰冰凉

缺点

  • 手表和耳机的充电模块没有主动散热,广东地区夏天无线充很热
  • 半导体散热模块风扇噪音太大了,放桌面正常办公能听到风扇声,难以忍受

image

第三款是魅族的 PANDA 无线充

号称支持 Qi2 协议
最后吃灰了比较久,前两天出掉了

优点

  • 支持 MagSafe 磁吸
  • 长得比较符合审美,线很软很长,全铝合金背板带来比较好的被动散热

缺点

  • 还是很烫,被动散热根本不行
  • 充电很慢,不适合碎片化的充电方式,速度不及有线的 1/3

image


总结目前 iPhone 的无线充体验还是不够完美,最终还是回归到有线充电,发热少,速度相对快些

没用过官方的 MagSafe 充电器,有用过的大佬欢迎分享使用体验
大家还用过其他的无线充吗?感觉如何?

如果你欠下了 500 万的债务,你觉得自己需要多少年才能还清? 💰💰💰

500 万是多少钱?


500 万是多少钱?

刷到一个很有意思的话题:500 万人民币,放在全球范围内都能算妥妥的中产,为什么在网上却被很多人骂「穷困潦倒」?

底下的评论两极分化:有人说「500 万在上海连套学区房都买不起,确实穷」,也有人说「张口就嫌 500 万少的,大概率是没真正见过大钱」。

其实,大多数人对「大额资金」是完全没有概念的。我们每天接触的都是几十、几百、几千块的日常开销,一旦数字突破「100 万」,大脑就很难直观理解它的分量。就像我们能轻松想象 1 米、10 米的距离,却很难凭空感知 10000 米的概念,大额资金也是如此。

想要真正搞懂 500 万到底有多「值钱」,不用去查复杂的财富报告,只要把它置换成我们日常能接触到的数字,就一下子变得直观生动了。

先算一笔最实在的「工资账」:500 万,相当于每个月给你发 1 万块钱,从你 22 岁大学毕业开始发,一直发到 63 岁退休,整整 41 年。

我们简单算一下,1 个月 1 万,1 年就是 12 万,41 年就是 12 × 41 = 492 万。也就是说,发完 41 年,你手里还能剩下 8 万块钱,这还只是 500 万的「本金」,一分钱额外收益都没算。

我猜又有人会说「每月 1 万不够花」,但请别忘了,这是「不劳而获」的固定收入。你不用每天挤地铁通勤,不用看老板脸色加班,不用为了 KPI 熬夜,只要安安稳稳过日子,每个月就有 1 万进账,覆盖日常开销完全足够,甚至还能有结余。

更关键的是,没有人会把 500 万现金放在家里吃灰,哪怕你是最保守的人,不碰任何理财、不冒任何风险,只把钱存银行定期,按目前银行 2% 左右的年利率计算,光利息就足以让你「躺平」。

算一笔利息账,500 万 × 2% = 10 万/年,平均到每个月就是 8333 元,分摊到每天,相当于早上一睁眼,就有 277 块钱自动到账,让你当天随意花。

重点是,这笔利息是「白拿」的,你的 500 万本金一分不动,依然在银行里躺着,等你老了,还能完完整整地传给儿女,相当于给下一代留了一笔「保底财富」。这种「本金不动仅靠利息就能覆盖生活」的状态,已经超过了全国 90% 以上的家庭了。

如果还是没概念,我们再换个更直观的方式,直接拿出 500 万现金。

一张 100 元的人民币,重量约 1.15 克,500 万就是 5 万张 100 元,总重量大概是 50000 × 1.15 = 57500 克,也就是 115 斤,这已经比很多女生还要重了,一个人根本抱不起来。

再看高度,一张 100 元纸币的厚度约 0.1 毫米,5 万张叠起来,总高度就是 50000 × 0.1 = 5000 毫米,也就是 5 米,差不多是两层楼的高度,如果堆在你家客厅,能占满大半个房间。

640

还有一个角度,或许能让人更有感触:如果你欠下了 500 万的债务,你觉得自己需要多少年才能还清?

想想看,多少家庭一辈子都在为房贷、车贷、子女教育奔波,别说存下 500 万,就连还清 500 万债务都要耗尽一生。可为什么在网上,500 万却成了「穷困潦倒」的代名词?

我想,这不过是网络世界的「幸存者偏差」。短视频里,动辄就是「年入百万」和「豪宅豪车」,主播们随手一场直播就能赚几十万,久而久之,我们就被这种虚假的「财富幻象」裹挟,误以为人人都是土豪。

可现实是,我国存款超过 500 万的家庭,不足总人口的 0.1%,千里挑一。500 万,早已是绝大多数人一辈子都难以企及的目标。

我们与其被网络上的财富焦虑裹挟,不如理性看待世界的真相,能安安稳稳、衣食无忧地过好自己的生活,就已经超越了很多人。


全文链接 500 万是多少钱?

刚刚发现 apt update

复制
Ign:1 https://ppa.launchpadcontent.net/xtradeb/apps/ubuntu jammy InRelease
Ign:2 https://pkgs.tailscale.com/stable/ubuntu jammy InRelease
Ign:3 https://repos.influxdata.com/debian stable InRelease
。。。。。。
Err:1 https://ppa.launchpadcontent.net/xtradeb/apps/ubuntu jammy InRelease
  Could not handshake: The TLS connection was non-properly terminated. [IP: 185.125.190.80 443]
Err:2 https://pkgs.tailscale.com/stable/ubuntu jammy InRelease
  Could not handshake: The TLS connection was non-properly terminated. [IP: 13.33.183.27 443]
。。。。。。

查看系统监控发现

image

image

发现 v2rayA cpu 占用异常,并且在不断请求。

关闭后 apt update 正常

这边先记录一下,不知道发生了什么 🤔。

你是不是也遇到过这些情况——AI 写的代码跑不起来,AI 假装测试通过了,AI 遇到复杂问题就开始胡编?问题不在 AI 模型本身,而在于它缺少一套系统化的"思考框架"。

每个 AI 编码开发者都踩过的坑

如果你用过 Claude Code、Cursor、Codex CLI 这些 AI 编码工具,下面这些场景一定不陌生:

坑一:AI 编造不存在的 API

你让它调用一个库的方法,它自信满满地写出来了——结果运行报错,那个方法根本不存在。这就是经典的"幻觉"问题,AI 倾向于生成看起来合理但实际错误的代码。

坑二:AI 假装测试通过了

你让它写完代码跑测试,它回复"所有测试通过✅"——但你手动一跑,红色报错满屏。AI 有时候会省略实际的验证步骤,直接"宣布"成功。

坑三:AI 遇到复杂问题就"摸鱼"

简单需求它处理得又快又好,一遇到架构设计、跨模块协调这类复杂问题,它就开始给出模棱两可的方案,或者反复用同一套思路暴力重试,越改越乱。

坑四:换一个 Agent 就要从头配置

你在 Claude Code 上积累的提示词和工作流,迁移到 Codex CLI 或 OpenCode 时完全不能复用。每个平台的配置体系不同,重复劳动让人心力交瘁。

这些问题的根源,不是 AI 不够聪明,而是缺乏一套让 AI 系统化思考、严格验证、持续改进的认知框架


SCALE OS v10.0:不是提示词模板,是认知操作系统

2026 年 4 月,SCALE OS v10.0 正式发布。这不是又一套"万能提示词合集",而是一套完整的认知操作系统(Cognitive Operating System),专门为 AI 编码场景设计。

简单来说,SCALE OS 做了三件事:

  1. 让 AI 学会"怎么想"——而不是仅仅告诉它"想什么"
  2. 让 AI 无法"偷懒"和"编造"——通过机制约束,而非靠自觉
  3. 让配置跨平台复用——写一次配置,5 大 Agent 平台通用

核心方法论:四位一体

SCALE OS 的认知框架建立在四个核心支柱之上:

🧠 认知脚手架(Cognitive Scaffolding)

就像建筑工地的脚手架一样,认知脚手架为 AI 提供分层的思考结构。AI 不会一上来就写代码,而是先搭建问题分析的框架,再逐步填充细节。这避免了 AI 在复杂问题上的"漫无目的"和"顾此失彼"。

🛡️ 反幻觉(Anti-hallucination)

5 步验证门控系统,确保 AI 输出的每一行代码都经过校验:

  • 逻辑一致性验证
  • 实际场景测试
  • 边界条件检查
  • 性能评估
  • 可维护性分析

不通过验证的方案,必须回退重做。

🔥 反惰性(Anti-laziness)

针对 AI 的"偷懒"倾向,SCALE OS 设计了多重约束机制:

  • 强制验证步骤,不允许跳过测试
  • 防止假装测试通过
  • 禁止暴力重试——同样的方案失败后必须换思路
  • 关键决策必须有依据,不能凭空给出

🔍 求是(Seeking Truth)

借鉴"实事求是"的思维方式:

  • 调查先行:先调研再动手,而不是上来就写代码
  • 矛盾分析:识别问题中的核心矛盾,避免片面方案
  • 批评与自我批评:AI 主动质疑自己的方案,寻找潜在缺陷

v10.0 能力全景:90+ 技能,6 大能力域

SCALE OS v10.0 构建了完整的技能生态体系:

维度数据说明
AI 编码平台5+Claude Code、Codex CLI、OpenCode、Cursor、Gemini CLI
技能映射90+覆盖上下文管理、规划、执行、质量保障、知识沉淀、部署运维
能力域6上下文构建、需求规划、代码执行、质量保障、知识管理、部署运维
MCP 服务器18数据库、设计工具、监控系统、搜索引擎、项目管理等
CLI 工具8GitHub CLI、ripgrep、fd、bat 等开发利器

技能生态来源

SCALE OS 的技能并非凭空设计,而是整合了多个成熟开源项目的精华:

  • OMC(oh-my-claudecode):Claude Code 专属技能包,深度面试机制,多模型协作
  • gstack:23 个跨平台工程技能,Sprint 工作流,跨会话学习
  • Superpowers:1% 法则 + 反幻觉工作流,两阶段审查机制
  • CE(知识复利工程):知识管理与持续改进方法论
  • OmO(oh-my-openagent):OpenCode 专属代理,多模型路由
  • OMX(oh-my-codex):Codex CLI 增强功能

自研工作流引擎:scale-engine

除了整合开源技能,SCALE OS 还自研了 scale-engine 工作流引擎(已在 Gitee 开源),提供定制化的 AI 编码工作流编排能力,让你可以根据自己的项目特点灵活调整流程。


几分钟配置器:从选择到生成,一气呵成

SCALE OS 最实用的功能之一是配置器,它能根据你的需求在几分钟内生成个性化的配置方案:

Step 1:选择你的 Agent 平台

支持 Claude Code、Codex CLI、OpenCode、Cursor、Gemini CLI 五大平台。每个平台会自动匹配对应的技能包和配置文件格式。

Step 2:选择项目架构

前端项目、后端服务、全栈应用、数据科学项目……不同架构预设会推荐不同的技能组合和权限策略。

Step 3:配置工作流

从 90+ 技能中选择你需要的,也可以直接使用预设的快速启动包:

  • 🚀 前端开发包:15 个精选技能
  • ⚙️ 后端开发包:17 个精选技能
  • 🔧 全栈开发包:19 个精选技能
  • 🛡️ 生产运维包:17 个精选技能

Step 4:一键生成

生成完整的配置文件,包括:

  • 项目知识文档(CLAUDE.md / AGENTS.md)
  • 平台设置文件(settings.json / 配置文件)
  • 一键安装脚本
  • Hooks 自动化配置

生成的配置文件遵循 SCALE OS 的分层治理规范,知识文档不超过 200 行,只写约束不写废话,每条命令都是可直接复制运行的。


典型使用场景

这里分享几个适合使用 SCALE OS 的典型场景,供你对照参考:

场景一:新项目启动

使用 SCALE OS 配置器,选择对应的项目架构和技能包,几分钟内生成完整的项目知识文档和 Agent 配置。AI 从项目第一天就理解你的架构决策、技术栈选择和代码规范,而不是每次对话都从零开始。

场景二:AI 输出质量不稳定

开启"反幻觉"和"反惰性"机制后,AI 的输出需要通过验证门控才能交付。对于关键模块,还可以启用沙盒模式,限制 AI 的操作范围,确保安全。

场景三:团队协作标准化

团队统一使用 SCALE OS 生成的配置文件,确保每个成员的 AI 助手遵循相同的工作流和代码规范。新成员加入时,直接使用项目配置即可上手,无需额外培训。

场景四:多平台切换

在 Claude Code 和 Cursor 之间切换时,SCALE OS 的跨 Agent 适配机制确保你的技能配置和工作流在不同平台上都能正常工作,减少重复配置的工作量。


开源核心 + 付费增值

SCALE OS v10.0 采用开源核心 + 付费增值的模式:

🆓 免费版(开源核心)

  • 完整的认知框架和方法论
  • 配置器基础功能
  • 核心技能集
  • 社区支持

💎 知识星球会员(¥99/年)

  • 专属技能库持续更新
  • 深度实战案例与最佳实践
  • 社区专家答疑
  • 优先获取新功能

这种模式确保了核心价值的开放共享,同时为深度用户提供持续增值的服务。


快速上手指南

想试试 SCALE OS v10.0?跟着这几步走:

  1. 访问官网:打开 SCALE OS 官网,了解完整功能介绍
  2. 使用配置器:根据你的平台和项目类型,生成专属配置
  3. 下载安装:运行配置器生成的一键安装脚本
  4. 开始编码:AI 助手现在有了"认知框架",体验一下差别

整个过程不需要深厚的技术背景,跟着配置器走就行。


加入 SCALE OS 社区

一个人的探索,不如一群人的共进。SCALE OS 已经聚集了一批认真对待 AI 编码的开发者,大家在社区里分享经验、讨论问题、推动项目进步。

👇 多种方式加入我们:

🔹 微信公众号

🔹 微信交流群

扫描下方二维码加入微信交流群,和志同道合的开发者实时讨论 AI 编码的最佳实践。群内有项目维护者和资深用户,问题通常很快就能得到解答。

🔹 知识星球(¥99/年)

加入知识星球,获取:

  • 专属技能包和配置模板
  • 深度实战案例拆解
  • 社区专家 1v1 答疑
  • 新功能优先体验权
📌 加入知识星球,和认真的 AI 编码开发者一起成长

🔹 GitHub / Gitee

SCALE OS 核心框架在 GitHub 开源,自研的 scale-engine 工作流引擎在 Gitee 开源。欢迎 Star、Fork、PR,参与共建。

🔹 官网

访问官网在线使用配置器,几分钟生成你的专属 AI 编码配置:

[👉 [点击访问 SCALE OS 官网]](https://scale-os.hongmaple.top/)


写在最后

AI 编码工具正在快速进化,但工具再强大,如果缺乏系统化的使用方法,效果也会大打折扣。SCALE OS v10.0 的核心理念很简单:不是让 AI 更聪明,而是让 AI 更靠谱

通过认知脚手架、反幻觉、反惰性、求是这四根支柱,SCALE OS 帮助 AI 编码助手从"偶尔好用"变成"持续可靠"。如果你也在使用 AI 编码工具,不妨试试,感受一下有认知框架和没有认知框架的差别。

觉得有用?转发给你身边也在用 AI 写代码的朋友吧 👇


SCALE OS v10.0 | 认知操作系统,让 AI 编码更靠谱

🔗 相关链接:

  • 官网:在线配置器,几分钟生成专属配置
  • GitHub:开源核心框架
  • Gitee:scale-engine 工作流引擎
  • 微信公众号:SCALE OS
  • 知识星球:¥99/年,深度内容与专家答疑

© 2026 SCALE OS. All rights reserved.

本文由mdnice多平台发布

V2EX 原帖: https://www.v2ex.com/t/1207679

游戏地址: https://blog.mybatis.io/post/hormuz-game

🚢 游戏背景
霍尔木兹海峡是波斯湾通往阿拉伯海的咽喉要道,全球约 20% 的石油经此运输。如今,海峡水域布满水雷,你的任务是驾驶货轮找到一条安全航道,成功穿越封锁。

🎮 操作方法
左键点击水域格子:探测该区域,如果安全则显示周围水雷数量,货轮将自动沿新开辟的安全路径前进。
右键点击水域格子:标记/取消标记疑似水雷位置(旗帜标记)。
数字提示周围 8 格中的水雷数量,利用这些信息判断安全路径。
货轮将自动沿从左到右的最短安全路径行进,到达右侧出口即为胜利。

⚙️ 难度说明
低( 35 枚水雷):水雷稀疏,安全区域宽阔,适合熟悉游戏机制。偶尔有导弹威胁。
中( 55 枚水雷):标准难度,需要谨慎探测才能找到安全航道。导弹频率提高。
高( 80 枚水雷):水雷密布,右侧出口受限,导弹追踪更密集,考验快速判断能力。

高难度过关的高手请发截图,打赏金币 500。

写这个项目差不多有一年了,现在 GitHub 上差不多有了 4K 星星了!

Koharu 是用 Rust 写的漫画翻译器,内置目标识别、基于视觉 LLM 的 OCR 、结构分析、遮罩识别、图像修复模型,基于 DAG 的流水线,可以自行组合喜欢的模型。

并且内置 llama.cpp 与多种翻译 LLM ,全部本地运行,包括 Gemma4 ,Qwen3.5 的 NSFW 版本。也有调优的 Sakura 模型等。

支持翻译韩漫、日漫、美漫,翻译到任何语言!

项目地址:mayocream/koharu

欢迎大家试用!

引言

2026 年,文本到图像生成领域迎来了一次重大更新——OpenAI 推出的 GPT-Image-2 模型。它不仅继承了 GPT 系列强大的语义理解能力,更在图像生成质量、指令跟随和多轮编辑上实现了质的飞跃。根据 ARENA.AI 最新发布的 Text-to-Image 排行榜,GPT-Image-2 以绝对优势登顶,成为目前最受用户欢迎的文生图模型。

核心特性:不只是“画图”

GPT-Image-2 相比前代模型,拥有三项突破性能力:

  • 多轮对话式编辑
    用户可以像与设计师聊天一样修改图像:“把背景换成雨天”、“给人物加上墨镜”。模型会保留主体结构,仅改变指定区域。
  • 联合视觉理解
    模型不仅能生成图像,还能反向分析图像内容。例如输入一张“悬浮的杯子”,它会指出“缺少阴影,不符合物理规律”。
  • 超写实与风格迁移
    支持从照片级真实到手绘水彩、赛博朋克、浮世绘等数十种风格,且对材质、光影、构图的细节控制极为精准。

技术架构:扩散变压器 + 跨模态注意力

GPT-Image-2 采用 扩散变压器(DiT) 混合架构,并引入三项关键创新:

组件功能描述
双编码器文本理解使用 GPT-4 级文本编码器解析长文本、隐喻和复杂指令,大幅提升提示词跟随能力。
自适应扩散调度根据图像复杂度动态调整去噪步数,在 1024×1024 分辨率下生成速度提升 40%
对比后验对齐通过强化学习从人类反馈中学习审美偏好,有效减少畸形手指、文字乱码等常见伪影。

此外,模型通过 4 倍变分自编码器(VAE) 压缩潜空间,显存占用比前代降低 30%。


应用场景:创意生产力的加速器

  • 广告与平面设计
    设计师可通过对话生成初稿、变体,快速迭代海报和 Logo。某国际饮料品牌使用 GPT-Image-2 后,概念图产出时间从 8 小时缩短至 20 分钟
  • 医学影像合成
    在隐私合规的前提下,模型能够生成带有罕见病灶的 X 光片,用于培训年轻医生。
  • 游戏资产生产
    从角色立绘到场景概念图,模型能根据策划文档直接产出符合透视和比例的多视角素材。

性能评测:Arena 排行榜第一

ARENA.AI 的 Text-to-Image Arena 中,GPT-Image-2 以 1,512 分 的 Arena Score 高居榜首,领先第二名超过 240 分。该排行榜基于真实用户的偏好对抗评测,反映了模型在画质、提示词跟随、风格多样性和语义一致性上的综合实力。

下图展示了截至 2026 年 4 月的前 15 名模型排名:

从榜单中可以看到:

  • OpenAI 在前五名中占据两席(GPT-Image-2 和 GPT-Image 1.5),代际优势明显。
  • GPT-Image-2 的得分(1512)远高于第三名 Nano Banana Pro(1244),形成断层领先。

除了用户偏好得分,在传统自动评估指标上,GPT-Image-2 同样表现优异:

  • MS-COCO 30K 零样本 FID 分数:8.32(越低越好,显著优于 DALL-E 3 的 12.15)
  • CLIP 分数:0.81(越高越好)
  • T2I-CompBench 属性绑定准确率:94.7%,证明其对空间关系、颜色、数量等复杂指令的执行能力远超竞品。

综合 Arena 用户投票与自动化指标,GPT-Image-2 是目前文本到图像生成领域当之无愧的 SOTA 模型


局限性与未来方向

尽管表现惊艳,GPT-Image-2 仍存在一些挑战:

  • 计数错误:当提示词中出现“七个苹果和三个橙子”时,模型偶尔会遗漏或重复一两个物体。
  • 社会偏见:训练数据中的文化刻板印象可能反映在生成图像中(例如默认“CEO”为男性形象)。
  • 推理成本:单张 1024×1024 图像在 A100 GPU 上需要约 5.2 秒,实时应用仍有压力。

OpenAI 团队表示,下一版本将引入 动态专家混合(MoE)扩散蒸馏 技术,目标将推理时间压缩至 1 秒以内,并增加显式的偏见过滤层。


总结

GPT-Image-2 不仅是一个更强的图像生成模型,更是一个与人类意图高度对齐的创意伙伴。它将专业级别的视觉创作门槛降至自然语言交互,让任何人——无论是否具备绘画技能——都能将脑海中的画面变为高精度的视觉作品。随着效率、安全性和可控性的进一步提升,我们正在见证“人人都是艺术家”的时代加速到来。

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术


1、蚂蚁灵光发布「灵光圈」:通过对话生成调用移动端原生硬件(如震动马达、LBS、传感器)的多模态应用

蚂蚁灵光发布社区产品「灵光圈」并升级「闪应用」架构,确立了以自然语言为核心的 「Wish Coding」 交互范式。该更新支持通过对话在 30 秒内生成可直接调用移动端原生硬件(如震动马达、LBS、传感器)的多模态应用,并将传统代码级的 Fork 协作提升为基于「结构化意图」的语义级迭代。

  • 原生多模态交互与硬件 API 调用:不同于受限于浏览器沙盒的 Web Coding 工具,闪应用运行于端侧原生环境,支持通过 LLM 指令直接调用震动反馈、陀螺仪、摄像头识物、精确 LBS 等硬件能力,使生成物从「信息展示工具」演进为「感知交互工具」。
  • Wish Coding 交互范式:剥离 IDE、代码仓库与环境依赖,用户仅需提供模糊意图,Agent 自动完成从语义理解到功能模块级联、数据结构定义及 UI 渲染的全链路构建,生成耗时约 30 秒。
  • 意图级 Fork 与结构化语义编辑:灵光圈支持对他人应用进行「改一下(Fork)」的操作。其底层并非复制源码,而是传递「结构化意图表示层」。系统通过理解功能模块间的级联影响,支持用户以自然语言在原应用基础上进行精确的功能增删与场景迁移
  • 内置共享数据层与实时部署:应用生成即完成云端部署,平台默认集成多人协同能力。生成的工具(如实时投票器)内置共享数据接口,支持多端数据实时同步,无需手动配置服务器或数据库。

(@极客公园)

2、OpenAICodex 上线 Chronicle:捕获用户屏幕上下文以构建记忆

OpenAI 为其编程工具 Codex 推出了一项名为 Chronicle 的实验性新功能。作为对上周发布的 Memories 功能的扩展,Chronicle 能够通过捕获和分析用户的近期屏幕上下文来构建记忆,从而减少用户在与 Codex 交互时重复陈述背景信息的需求。

该功能目前以选择性加入的研究预览版形式提供给 macOS 平台上的 ChatGPT Pro 订阅用户,暂不支持欧盟、英国和瑞士地区。要启用此功能,用户需在 Codex 应用的设置中开启 Memories 选项及 Chronicle,并授予 macOS 的屏幕录制和辅助功能权限。

官方表示,该技术通过在后台运行沙盒化的 Agent 来处理屏幕截图、OCR 文本和时间信息等内容,帮助 Codex 识别用户的工作流及所需工具。然而,官方也明确警告,启用 Chronicle 会迅速消耗速率限制,增加提示注入攻击的风险,且生成的记忆会以未加密的 Markdown 文件形式存储在本地设备上。

(@橘鸦 Juya,@OpenAIdevs\@X)

3、Sierra 发布 μ-Bench:针对 8kHz 真实通话场景的多语言 ASR 基准,引入 UER 评估指标

对话式 AI 企业 Sierra 开源了 ASR(自动语音识别)转录基准 μ-Bench,旨在填补多语言真实电话场景评估的空白。该基准基于真实客服通话数据,通过引入新的评估指标 UER,揭示了主流 ASR 模型在处理非英语及低采样率音频时的性能鸿沟,为语音智能体的生产环境部署提供量化依据

  • 真实电话场景数据集:包含 4,270 条经过人工标注的语句,提取自 250 场真实的 8 kHz 单声道电话通话,涵盖英语、西班牙语、土耳其语、越南语和普通话,对比传统 ASR 基准更强调低信噪比和窄带环境。
  • 引入 UER(Utterance Error Rate,语句错误率):不同于传统 WER(词错误率)将语气词丢失与关键信息(如电话号码)错误同等对待,UER 专注于识别导致语义改变的转录错误,更能反映 ASR 质量对下游 LLM 逻辑判断的影响。
  • 多维度性能权衡:横向对比显示 Google Chirp-3 在准确率上占优但响应速度最慢;Deepgram Nova-3 的 p50 延迟比前者快约 8 倍,但在多语言准确性上表现较弱。
  • 语言间表现高度失衡:测试指出普通话转录的错误率可能比英语高出 5 倍,且越南语在不同供应商间的表现波动极大,证明了单一模型无法在全语种生产环境中达到最优

( @sierra)

02 有亮点的产品


1、首创「玩偶+主机」模式,多智能体儿童 AI 玩具品牌灵机天赐获数千万元融资

北京灵机天赐科技有限责任公司(下称「灵机天赐」)于过去一年内完成两轮数千万元人民币融资,天使轮由德联资本领投,小恐龙基金和瑞昇基金跟投,Pre-A 轮由 Implic Capital 领投,两轮融资均由探奇资本担任公司独家财务顾问。

灵机天赐 CEO 杨冰表示,「AI 时代,让孩子直接和一个虚拟人物聊天,这个产品定义其实很难成立。孩子无法快速和一个纯虚拟角色建立真实的物理连接。只有把世界观、人设和场景都构建出来,他们才会有交流的可能性。」

为了实现这种「可信的互动」,灵机天赐旗下品牌「Jollybubu」首创了「主机+玩偶」的智能体硬件交互系统

每一个 Jolly 实体玩偶都对应独立的智能体,拥有各自的世界观、知识库和人格模型。当孩子将玩偶放置在主机底座上,即可激活对应角色的故事内容,并随时打断、提问,与玩偶进行角色化的互动对话。与此同时,主机 bubu 更像整个系统的中枢,持续沉淀孩子的提问、探索路径与互动偏好,进而实现个性化引导。


基于内置的世界观、知识库,每个实体玩偶都代表了一种思维方式和学科方向,杨冰介绍称「我们发现,当孩子提出一个问题,比如『天为什么是蓝色』时,并不一定想要一个科学的答案,所以我们的玩偶也会根据自己的世界观和上下文做出各种不同的回答,可能是艺术的、可能是文学的、也可能是科学的。」当孩子使用不同的玩偶提问、互动,本身也是在不断拓展自己的认知路径和表达方式

为实现这一效果,技术层面,每一个玩偶都是一个独立的智能体,由语音识别(ASR)、语音合成(TTS)、角色音色系统与大模型能力共同支撑。由于一次互动中可能涉及多个角色的连续响应与协同,后台系统需要同时处理多智能体之间的低延迟联动,并保持不同角色稳定输出各自鲜明的人格特征。

商业模式上,灵机天赐选择以硬件销售为主,不以订阅付费作为核心门槛。相较于持续订阅,团队更看好通过新玩偶、新角色和新内容的持续扩展,建立复购机制。

(@硬氪)

2、阶跃星辰联合极氪 8X 首发量产超级 Eva:基于 Step 3.5 Flash 实现 350TPS 高频实时交互与多模态意图重构

阶跃星辰联合吉利、千里科技量产整车智能体「超级 Eva」。该系统通过 Step 系列模型矩阵打破传统「指令式」交互,将车载 AI 从单纯的语音助手升级为具备情绪识别、长短期记忆与多模态感知能力的实时交互终端,实现从响应单条命令向自主执行复杂目标的范式演进。

  • 350TPS 极速推理响应:依托 Step 3.5 Flash 推理引擎,系统推理速度最高达 350TPS,大幅降低多轮对话延迟,确保在复杂交互任务中保持毫秒级实时反馈。
  • 端到端语音情绪理解:接入阶跃语音大模型,具备语义重构与情绪识别能力,可识别用户语气的紧迫感或松弛感,并从机械式功能播报转向自然语言交互。
  • 256k Context Window 持续交互记忆:支持超长上下文处理,使智能体能够维持长周期的对话连续性,并基于历史交互数据记忆用户偏好,支持跨场景的多轮追问。
  • 多模态感知交互闭环:通过视觉模型与语言模型协同,系统可实时识别车外物理环境(如车位状态、路况变化),并将感知信息即时反馈至对话逻辑中,实现「感知-理解-表达」的闭环。
  • 目标驱动的任务编排:支持非结构化目标输入(Declarative Interaction),自动将模糊意图拆解为多步逻辑链,并调度整车系统能力完成导航、泊车、服务预定等协同动作。

(@雷锋网)

3、NovaVoice 发布:集成上下文记忆与跨应用执行的桌面级语音智能体


NovaVoice 推出一款定位为「语音中枢」的桌面端生产力工具。通过整合 ASR(自动语音识别)、上下文语义理解与系统级指令调用,该工具实现了从口述意图到跨应用文本输出及自动化动作执行的直接转化。

其目标用户是创始人、运营、销售、知识工作者和重度键盘用户;痛点是打字慢、查资料慢、跨应用操作碎片化。NovaVoice 要解决的是「如何把说话直接变成可执行的工作输出」。它更像「会记住你工作细节的语音副驾」:你说出需求,它直接帮你写、帮你找、帮你做,尤其适合需要保持心流、又不想一直敲键盘的人。

核心功能与差异化优势:


  • 高速度上下文写作: 口述后自动转成符合场景的文本格式,适配邮件、笔记、Markdown 等,并保持上下文语气。
  • 热键即问即答: 按热键就能问任何问题,无需切浏览器搜索,适合临时查询和脑暴。
  • 跨应用语音执行: 可通过语音打开应用、草拟消息、插入联系人/地址/链接,并对当前桌面执行动作。
  • 长期记忆: 记住常用联系人、地址和链接,减少重复输入,像一个桌面级个人助理。

网站链接:

https\://novavoice.app/

( @Z Potentials)

03 有态度的观点

1、游戏设备 Playdate:AI 写的文案、画的图、作的曲的游戏一律不收

Panic 宣布,旗下 Playdate 游戏商店 Catalog 将不再接受使用生成式 AI 制作美术、音频、音乐、文字或对话内容的游戏作品,第三季游戏合集亦全面禁止以任何形式使用生成式 AI 开发的作品。

根据官方 AI 使用声明,禁令涵盖 ChatGPT、DeepSeek、Google Gemini 等大语言模型,Stable Diffusion、DALL-E、Midjourney 等图像生成模型,以及 MuseNet、Suno、Udio 等音频生成模型

但编程环节使用 AI 辅助工具的作品暂获豁免,平台将对此类作品进行标注并注明具体使用程度,以便玩家自主决定是否支持

此次政策调整源于去年 6 月模拟赛车游戏《Wheelsprung》的争议——该游戏入选第二季合集后被发现使用了 GitHub Copilot 与 ChatGPT 辅助开发。

Panic 联合创始人 Cabel Sasser 在接受采访时坦承:「我们当时完全没有预料到开发者会使用大语言模型,回头来看过于天真,我们对此承担全部责任。」


(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


作者提示:个人观点,仅供参考

数据增强是现代机器学习中一个绕不开的环节。在计算机视觉里,不做增强就很难训练出一个好的的模型;在时间序列分类领域,虽然也已经沉淀出一套相对成熟的技术——jittering、scaling、window slicing、time warping、permutation、rotation,还有若干基于模式的变体,但时间序列预测是另一回事。

预测任务的目标不是一个离散的类别标签,而是紧接在输入之后的那一段连续信号。这一点改变了整个问题的性质。对分类任务来说安全的变换——比如对输入的一部分做 warping,或者往一个窗口里注入噪声——放到预测里就很容易破坏 look-back 窗口和预测 horizon 之间的关系。但是关系一旦断裂,模型训练时看到的 input-target 对就不再彼此自洽,预测性能随之滑落。

大部分在分类中表现良好的经典增强方法都在预测任务上被评估过,结果基本都没能跑赢不做增强的基线。这个结果本身就很说明问题:它把预测增强中一个内在问题暴露了出来:方法必须引入足够的多样性,让模型见到训练数据之外的变化,而且还要保持时间一致性,让增强后的信号仍然是一个合法的连续序列。把这两点同时搞定才是预测增强难以处理的地方。

所以一个有效的预测增强,应当对序列做足够的修改以产生价值,但不能修改到让输入与其未来失去一致性。

为什么面向分类的增强在预测中表现不佳

jittering、scaling、window warping、permutation 这些经典技术,最初都是为分类任务设计的。在标签不变的前提下,它们工作得不错。可预测里的“标签”就是序列后面那一段,只扰动输入、对信号局部做 warping 或者把局部时序扭得过猛,都会产出一段未来已不再合理的输入。这类方法通常压不过不做增强训练出来的模型。

WaveMask/WaveMix 和 TPS 这两条工作线都强调同一点:预测任务对 input-target 一致性的要求,比分类或异常检测严苛得多。随机性可以加,但必须是正确那种随机性——不破坏信号时间结构的那种。

数据-标签一致性:一个必要条件

记 look-back 窗口为 x,预测目标为 y。训练作用的对象是连续序列 (s = x ∥ y),而不是孤立的 x。所以增强应该作用在拼接后的序列上,再切分成输入和目标:

s = x ∥ y, s̃ = 𝒜(s), (x̃, ỹ) = Split(s̃)

听起来几乎是一句废话但是是预测增强里最关键的思路之一。只对 (x) 动手、让 (y) 原封不动,输入与目标之间天然的连续性就被人为切断了,因为去掉数据-标签一致性带来的性能下降最大。

图 1. 预测增强流水线:look-back 窗口与预测 horizon 在增强之前拼起来,增强之后再拆开,以此保持 input-target 对齐。

预测增强方法的分类体系

近几年真正有效的预测增强方法,主要来自三条路线——频域、信号分解,以及受控的信号级操纵。可以简要归类如下:

  • 基于频率:RobustTAD 、FreqMask、FreqMix 、WaveMask、WaveMix 、Dominant Shuffle 。
  • 基于分解:STAug 。
  • 其他方法:wDBA 、MBB 、Upsample 。
  • 基于 Patch:TPS 。

下面按类依次梳理,先从频域方法讲起——直到最近,这一直是主流范式。

RobustTAD

频域增强里一个奠基性的工作是 RobustTAD。做法是先对拼接后的输入与目标做离散 Fourier 变换,在选定的频率片段上做扰动,然后反变换回时域。实际操作时,把频谱视作实部和虚部的组合,再从中导出幅度和相位。

扰动的粒度由一个相对于完整频谱的比例决定,只改动选中的那些区域。幅度变体里,原始幅度被替换为从一个受扰动强度控制的 Gaussian 分布中采样的值;相位变体里,选中的相位值被一个小的受控扰动偏移。RobustTAD 原文主要面向异常检测,但一些预测研究会把幅度扰动变体用到了多变量时间序列预测上,所以本文的实验也把相位扰动纳入了比较。

FreqMask 和 FreqMix

FreqMask 和 FreqMix是预测任务中使用最广的频域增强。两者都从拼接输入与目标、然后做实 FFT 开始:

s = x ∥ y, S = rFFT(s)

FreqMask 用一个二值 mask (M) 把选定的频率分量清零:

FreqMask: S̃ = M ⊙ S, s̃ = irFFT(S̃)

直觉在于:抑制掉若干周期分量,可以迫使模型对这些分量的缺失保持鲁棒。FreqMix 把思路推了一步,去混合两个不同序列的频谱:

FreqMix: S̃ = M ⊙ S₁ + (1 − M) ⊙ S₂, s̃ = irFFT(S̃)

这让一个序列能部分地“继承”另一个序列的结构特征。两种方法概念清爽,实现也简单。

图 2. FreqMask 移除选定的频率分量;FreqMix 在两个序列之间混合频率。

两种方法都纯粹在 Fourier 域内操作,能捕捉哪些频率存在,却无法告诉你这些频率出现在时间轴的哪里。这个差别,后来被证明比看起来重要得多。

时频定位:WaveMask 和 WaveMix

Fourier 变换给出的是漂亮的全局频率信息,但把时间定位丢掉了。Short-Time Fourier Transform (STFT) 用局部窗口做了弥补可窗口大小是固定的。Wavelets 要灵活许多:它在多分辨率下同时工作,对高频事件给出高时间分辨率,对低频趋势给出高频率分辨率。

图 3. 时频分辨率比较。Fourier Transform 无时间定位;STFT 使用固定大小的窗口;Wavelet Transform 在不同尺度上自适应调整分辨率。

一句话概括:FFT 回答“哪些频率存在”,wavelets 回答“哪些频率存在、大概出现在哪里”。时间序列里局部变化往往携带关键信息,多出来的这一层时间定位因此格外有用。

WaveMask/WaveMix [8] 的做法是,先用离散 wavelet 变换 (DWT) 把信号分解为跨多个层级的近似系数和细节系数,再直接在这些系数上做增强:

s = x ∥ y
W = WaveDec(s) = {W⁽¹⁾, W⁽²⁾, …, W⁽ᴸ⁺¹⁾}

WaveMask:
W̃⁽ˡ⁾ = M⁽ˡ⁾ ⊙ W⁽ˡ⁾
s̃ = WaveRec(W̃)

WaveMix:
W̃⁽ˡ⁾ = M⁽ˡ⁾ ⊙ W₁⁽ˡ⁾ + (1 − M⁽ˡ⁾) ⊙ W₂⁽ˡ⁾
s̃ = WaveRec(W̃)

masking 和 mixing 可以在每一层独立施加,细粒度的细节和粗粒度的趋势不必被同等对待。论文中的结果显示,WaveMask 和 WaveMix 在 16 种预测 horizon 设置中的 12 种上压过了所有基线,其余四种排第二。

图 4. WaveMask 流水线:信号先经 DWT 分解,wavelet 系数在每一层被选择性 mask,再经逆 DWT 重建。

图 5. WaveMix 流水线:两个信号分别分解,它们的 wavelet 系数通过互补 mask 交换,混合后的系数再被重建。

Dominant Shuffle

Dominant Shuffle 则是一条更克制的路。它不对任意频谱分量做 mask 或 mix,而是先挑出最具主导性的那些频率,再在重建之前对它们做 shuffle:

S = FFT(s)
Ωₖ = indices of top-k dominant frequencies

S̃_{Ωₖ} = Shuffle(S_{Ωₖ})
s̃ = IFFT(S̃)

避免过于激进地扰动整个频谱——那样做有把增强样本推出分布的风险,原论文对此有比较详细的讨论。不过在 TPS 论文 的统一比较里,Dominant Shuffle 并不是整体最强的一个。

图 6. Dominant Shuffle:挑出 top- 主导频率分量做 shuffle,频谱的其余部分保持不动。

STAug

STAug 属于基于分解的一类。它对两个序列施加 Empirical Mode Decomposition (EMD),得到 intrinsic mode functions (IMFs),再用从均匀分布采样的 mixup 式插值权重把两组 IMF 重新组合。产出的是一段混合了两个输入时间特征的新序列。

STAug 给出了一种兼顾多样性与一致性的样本生成机制,颇有美感。它真正的问题在工程层面——EMD 内存开销很大,数据集一大就顶不住。TPS 实验 中,STAug 在 ECL 和 Traffic 数据集上因 GPU 内存不够而无法评估,这一限制在 STAug 原论文里也有承认。

图 7. STAug 通过 EMD 把两个序列分解为 intrinsic mode functions (IMFs),再借由插值权重重新组合。

wDBA、MBB 和 Upsample

这三种方法代表了频域之外的几个方向。

wDBA在基于 DTW 的对齐下对时间序列取平均,借此构造新样本;产出的合成数据质量不错,代价是计算开销很大。MBB先用 STL 把序列拆成趋势、季节性和残差,再从残差里 bootstrap 块生成新序列。Upsample的思路更简单——选一段连续片段,用线性插值把它拉伸回原始长度,相当于对局部结构加了一面放大镜。

Upsample 值得单独点一笔:它稳居较强的非频率基线行列,常常能给出一个不容忽视的 benchmark。但在 TPS 论文更广泛的评估中,TPS 在整体上仍然胜出。

从图像 patch 到时间 patch

Patch-based 增强在计算机视觉里已经是成熟工具。PatchShuffle 、PatchMix 之类的做法,把图像切成 patch,做 shuffle 或 mix,再拼回来。能这么干的前提是图像本身有空间冗余——patch 内部的局部像素重排通常不会把场景搞乱。

时间序列的性质完全不同。它是序列化的,每一个尺度上,值的顺序都在讲话。简单地把序列切成非重叠块再打乱,会制造出硬边界、肉眼可见的断裂,以及 input-target 错位。把 patch 的思路搬到时间域,每一步都得重新想一遍。

图 8. 计算机视觉中的 PatchShuffle:一张 4×4 图像被划分为非重叠的 2×2 patch,每个 patch 内部的像素被独立 shuffle。

Temporal Patch Shuffle (TPS)

TPS核心流程不复杂:给定完整序列(look-back 窗口与预测 horizon 的拼接),先提取重叠的时间 patch,为每个 patch 算一个基于 variance 的分数,按这个分数选择性地 shuffle 一个 patch 子集——低 variance 的优先——最后在重叠区域取平均来重建整条序列。

图 9. TPS 流水线。输入序列被切成重叠 patch(Temporal Patching);一个子集按 variance 分数被重排(Variance-Aware Shuffling);随后通过在重叠区域取平均重建序列(Reconstruction)。

流程

按论文 的表述,完整流程是这样的:

  1. 拼接。把 look-back 窗口和预测 horizon 合成一条连续序列,从源头强制数据-标签一致性。
  2. Temporal Patching。用 patch 长度 (p) 和 stride (s) 提取重叠 patch。重叠不是装饰,它让相邻 patch 共享时间步,重建时过渡才会平滑。
  3. Variance 评分。在归一化输入空间内,跨所有通道计算每个 patch 的 variance。低 variance 的 patch 结构特征较少,被视作更安全的扰动对象——一个相当保守的启发式。
  4. 选择性 shuffle。选出 variance 最低的 (\alpha) 比例的 patch,随机置换它们的位置;其余 patch 原地不动。
  5. 重建。把每个 patch 放回它(也许是新的)时间位置,在重叠区域取平均。取平均是一种自然的平滑手段,能把 shuffle 引入的任何不连续性柔化掉。
  6. 拆分。把重建后的序列拆回增强后的输入与增强后的目标。

形式化地,算法如下:

Algorithm 1: Temporal Patch Shuffle (TPS)

控制该方法的超参数有三个:patch 长度 (p)、stride (s) 和 shuffle 比例 (α)。实际选择时并不跑完整的 Cartesian 网格,而是在一组预先定义的候选组合上(大约 20 种配置)做基于验证集的搜索。

消融实验

TPS 论文的消融实验把每个设计选择的贡献分离开来。大致按重要性排序,结论如下。

数据-标签一致性是决定性的。只对输入做增强、让目标保持不变,带来的性能下降是所有单一消融中最大的——从经验层面把核心论点钉死:预测里输入和目标必须被联合变换。

重叠的影响同样实在。把重叠 patch 换成非重叠 patch,结果会明显退化。重叠正是在 shuffle 之下仍能保留局部时间结构的那道闸门。

基于 variance 的排序提供的是一份适度红利。它的效果比重叠小,但在只 shuffle 一个 patch 子集时仍然是个有用的细节。当 (α = 1.0)、所有 patch 都被 shuffle 时,variance 排序在构造上就失去意义。

时域优于频域。一个把同样的 patch 操作搬到 FFT 变换之后的变体,结果也会退化,说明 TPS 最好的工作状态是直接作用在原始时域信号上。

较高的 shuffle 比例通常更有利。在敏感性研究里,0.7 到 1.0 之间的取值在各数据集上稳定给出最强结果。

消融实验真正想说的是一件事:预测增强不是随便注入随机性的问题,而是注入受控随机性——一种尊重信号结构的随机性。

长期预测

TPS 在九个长期预测数据集上进行评估,用到五个近期的骨干:TSMixer、DLinear、PatchTST、TiDE、LightTS。在所有骨干上,TPS 都拿到了所比较增强方法中最好的平均 MSE。下图给出了整体比较。

图 10. 九个数据集、五个骨干上的长期预测结果。TPS 在每个骨干上都拿到了最好的平均 MSE 和最多的胜出次数。五个骨干上,相对最好竞争增强方法的 MSE 相对改善区间为 2.08% 到 10.51%。

LightTS 上那 10.51% 的改善是最醒目的一个数字,但故事的主线是一致性:TPS 并不依赖某个恰好合拍的骨干或数据集。从线性模型(DLinear、LightTS)到基于 MLP 的设计(TSMixer、TiDE),再到 transformer 风格的 PatchTST,它都能拿到收益。

短期交通预测

TPS 随后在四个短期交通数据集(PeMS-03、04、07、08)上用 PatchTST 再做一轮评估,仍然拿到了整体最强的增强表现 。

图 11. 用 PatchTST 在 PeMS-{03, 04, 07, 08} 上的短期交通预测结果。TPS 相对最好竞争增强方法的 MSE 改善分别为 7.14%、2.34%、0.00%、4.26%。即便在收益最小的 PeMS07,TPS 也没有让性能倒退。

稳定性和峰值表现一样要紧:一个好的增强方法不该像买彩票——某些数据集大赚,另一些数据集反倒亏出去。

扩展到时间序列分类

TPS 还有一个讨喜的地方,就是迁到分类任务上的顺滑程度。分类任务没有预测 horizon,只需要两处改动:直接作用在输入序列 (X) 上(不再做拼接),并把 shuffle 从批次级别移到样本级别。就这点改动,TPS 在单变量(UCR)和多变量(UEA)基准上都拿到了所比较增强方法里最好的平均准确率 。

图 12. 分类结果。在 30 个 UCR 单变量数据集上(MiniRocket),TPS 相对最好竞争方法把准确率提升了 0.50%,在 50% 的数据集上进入 top-2。在 10 个 UEA 多变量数据集上(MultiRocket),准确率提升 1.10%,60% 的数据集上进入 top-2。

基于 patch 的核心思路能不能走出预测本身,这是一份比较正面的早期证据。

总结

把上面这些放到一起看,TPS 的独特之处来自几个叠加的原因。它绕开了费力的分解步骤;不去无差别地改动整个频谱;也不去破坏 input-target 关系。做法是以受控的方式修改序列——重叠和平均守住局部时间结构;数据-标签一致性守住输入与目标的对齐。

在各项评估中,TPS 在长期预测(九个数据集,五个骨干)、短期预测(四个 PeMS 交通数据集)和时间序列分类(UCR、UEA 基准)上都取得了 SOTA 级别的增强效果。这种跨任务、跨架构的覆盖面,是它最有意思的地方。

https://avoid.overfit.cn/post/31f75a813b4947bea596fb1adc3102fc

by Sai Nitesh Palamakula