2026年3月

具身智能正在经历从实验室走向产业化的关键转折点。长期以来,机器人操控模型面临着"一机一训"的困境——每换一个机器人本体、每增加一个新任务,都需要重新采集数据、重新训练模型,这种高昂的迁移成本严重制约了具身智能的规模化落地。

此次蚂蚁集团开源的 LingBot-VLA 具身大模型,为行业带来了三个重要突破:

首次验证了具身智能领域的 Scaling Law
通过 20,000 小时真实机器人数据的预训练,系统性证明了 VLA 模型性能随数据规模持续提升的规律。这一发现意义重大——它表明具身智能可以像大语言模型一样,通过"大数据+大模型"的范式实现能力跃迁,为行业指明了清晰的技术路线。
解决了跨本体泛化的核心难题
通过涵盖 9 种主流双臂机器人构型的大规模预训练,LingBot-VLA 实现了"一个大脑,多种身体"的愿景。在 GM-100 真机评测中,其跨本体泛化成功率达到 17.3%,这意味着同一个模型可以快速适配不同厂商的机器人硬件,大幅降低了商业化部署的门槛。
打造了真正实用的开源生态
不同于许多"只开源权重"的项目,LingBot-VLA 同步开放了数据处理、高效微调、自动化评估的全套工具链,训练效率达到主流框架的 1.5~2.8 倍。这种"开箱即用"的完整方案,将帮助开发者以更低成本快速落地自己的具身智能应用。
特别值得关注的是,LingBot-VLA 引入深度信息后的性能提升,体现了空间感知能力对机器人操控的重要性。结合昨日开源的 LingBot-Depth 模型,我们看到了一个清晰的技术演进路径:从精准的空间感知到智能的操控决策,具身智能正在构建起完整的"感知-认知-执行"闭环。

随着蚂蚁集团承诺未来几天将陆续开源更多具身智能成果,我们有理由相信,2026 年将成为具身智能从"能用"到"好用"、从"实验室"到"生产线"的关键转折年。

SegmentFault 思否编辑部
2026年1月

以下内容转载自蚂蚁灵波科技官方公众号。

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

LingBot-VLA 具身大模型全面开源

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练
长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型
得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。

与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。weibo.com/ttarticle/p/show?id=2309405274749659381765 weibo.com/ttarticle/p/show?id=2309405274750032412687 weibo.com/ttarticle/p/show?id=2309405274750515019835 weibo.com/ttarticle/p/show?id=2309405274750888312880 weibo.com/ttarticle/p/show?id=2309405274751265800241 weibo.com/ttarticle/p/show?id=2309405274751643025427 weibo.com/ttarticle/p/show?id=2309405274752024969247 weibo.com/ttarticle/p/show?id=2309405274752402194451 weibo.com/ttarticle/p/show?id=2309405274752779943948

日常遇到海报、快递单、会议资料或聊天截图里的二维码,但不方便用手机(比如手机不在身边、没电、摄像头不方便对焦)时,可以直接用「在线二维码扫描器」在浏览器里识别。

这个工具是我用 Vue(基于 Nuxt 3 / Vue 3)开发的,识别过程在浏览器本地完成:你上传的图片或摄像头画面不会被我保存。

在线工具网址:https://see-tool.com/qrcode-scanner
工具截图:

能做什么

  • 支持两种方式:上传二维码图片 / 使用摄像头实时扫描
  • 快速识别常见二维码格式:QR Code、Data Matrix 等
  • 识别后直接查看内容:文本、链接、Wi-Fi 信息等(按识别结果展示)

怎么用(3 步)

  1. 打开工具页面:/qrcode-scanner
  2. 选择一种方式:

    • 图片上传:把截图/照片拖进去或点按钮选择图片
    • 摄像头扫描:允许浏览器使用摄像头,把二维码放到画面中央
  3. 等待识别结果出现:

    • 如果是链接,建议先确认域名再打开
    • 如果是文本,可直接复制保存

扫不出来时的排查

  • 让二维码更清晰:放大图片、提高亮度、避免反光和过度压缩
  • 尽量对齐:二维码四角完整露出,不要被裁切
  • 换一种输入:图片识别失败时,试试摄像头;反过来也一样

适合哪些场景

  • 从截图/相册里识别二维码(很多聊天软件不一定都支持)
  • 电脑端快速读取二维码内容,用于复制链接、核对信息
  • 需要临时扫码但不想安装额外应用

企业网盘已从单纯的文件存储工具,升级为保障数据安全、提升协作效率、打通信息孤岛的核心基础设施。无论是初创团队的轻量化协作,还是中大型企业的跨地域协同与数据合规管控,选择一款适配的企业网盘至关重要。

本文结合2026年市场最新动态,精选7款主流企业网盘,从安全性能、协作能力、部署方式等核心维度进行解析,助力企业精准选型。

为了方便快速对比,我们总结了部分核心产品的关键特性与推荐指数:

产品名称核心定位核心优势推荐指数
坚果云全能型协作与同步专家智能增量同步、任意文件夹同步、金融级安全合规⭐⭐⭐⭐⭐
OneDrive微软生态插件与Office/Windows深度集成⭐⭐⭐⭐
Zoho WorkDrive生态协作平台AI功能、Zoho生态整合⭐⭐⭐⭐
Google Workspace全球化协作利器强大的AI搜索与Gmail整合⭐⭐⭐
Dropbox Business文件同步老牌劲旅极简设计、第三方集成丰富⭐⭐⭐
Box内容管理专业方案深度流程管理、审计日志⭐⭐⭐
Egnyte混合云架构方案灵活的存储位置选择⭐⭐⭐

一、坚果云:同步速度与安全合规的综合标杆

坚果云官网:https://www.jianguoyun.com/s/campaign/cpclanding/main?sch=AIsf

作为国内最早深耕云盘领域的服务商之一,坚果云自2011年上线以来,已稳定运营超过15年。凭借卓越的技术积淀,坚果云积累了超千万忠实用户,服务超过10万家知名企业和机构,包括中国石油(能源)、中银证券(金融)、清华大学(教育)、锦天城律师事务所(法律)以及郑州日产(制造)等行业标杆。

1. 技术流派:攻克复杂网络传输难题

在核心传输能力上,坚果云展现了“技术流”的绝对优势。其独家的智能增量同步技术,在修改文件时仅上传变动部分,显著提升了同步速度。特别是在国内复杂的网络环境下,无论是传输GB级大文件还是海量小文件,其效率和稳定性都远超普通网盘。配合“无感同步”功能,员工在多设备间可无缝访问最新文件,彻底打破办公地点的限制。

2. 合规背书:构筑金融级安全防线

安全与合规是坚果云的立身之本。在硬性资质方面,坚果云不仅通过了ISO27001与ISO27701国际认证,更获得了公安部信息系统安全等级保护三级备案(这是非银行机构所能获得的最高级别信息安全认证)。技术层面,采用AES-256金融级加密算法及SSL/TLS全程传输加密,结合分布式存储架构,确保企业数据“落地即安”。

3. 场景体验:细节之处见真章

在协作体验上,坚果云配备了极为丰富的功能。无需安装额外软件,即可实现超100种格式文档的在线预览。强大的文件历史版本功能,不仅支持追溯和恢复,还能对比版本差异。结合精细的权限管控、文件评论与锁定功能,完美保障了团队协作的流畅与安全。

适用场景总结: 无论是追求高效协作的敏捷团队、注重数据安全的大型企业,还是需要灵活文件管理的个人专业用户,坚果云都是理想的解决方案。

限时福利:坚果云团队版现提供20天免费试用:坚果云团队版

二、OneDrive:微软生态无缝衔接之选

OneDrive官网:https://www.OneDrive.com
对于已全面部署Office 365的企业而言,OneDrive是顺理成章的选择。其核心优势在于与微软生态的深度融合,用户可直接调用Word、Excel在线编辑,版本历史与本地软件同步。

然而,在文件同步机制上,OneDrive在处理大量细碎文件或非Office格式文件时,速度和稳定性相比专业同步盘略显逊色,且在跨出微软生态后的协作体验会有所下降。
适用场景:深度绑定微软Office生态、以Windows系统为绝对主力的传统办公环境。

三、Zoho WorkDrive:AI驱动的生态协作

Zoho WorkDrive官网:https://www.Zoho.com
Zoho WorkDrive以“协作与安全的平衡”为核心定位。其AI助手Zia是主要看点,支持会议音视频自动转录。在生态整合方面,它能与Zoho CRM等自家系统无缝对接。

不过,对于非Zoho生态用户或对网络环境要求较高的国内企业来说,其体验流畅度可能受到一定限制,且本地化服务响应速度主要依赖代理商。
适用场景:重度依赖Zoho生态系统的跨国团队。

四、Google Workspace:全球化团队协作利器

Google Workspace以Gmail、Docs、Drive为核心构建生态闭环。其AI搜索能力强大,能识别图片文字与视频语音,非常适合完全基于云端工作的团队。

尽管其多语言协作能力突出,但在国内网络环境下,访问稳定性和速度面临巨大挑战,且必须依赖特定的网络设置,这增加了企业的运维合规风险。
适用场景:拥有稳定国际网络环境的纯海外业务团队。

五、Dropbox Business:文件同步的老牌劲旅

Dropbox官网:https://www.Dropbox.com
Dropbox Business曾是同步技术的先驱,界面简洁,上手门槛低,拥有丰富的第三方应用集成市场。

然而,随着国内云盘技术的发展,Dropbox的同步速度优势在国内网络环境下已不再明显,且其纯英文的服务体系和较高的定价策略,对部分国内传统企业员工存在使用门槛。
适用场景:主要业务在海外,或对设计素材共享有特定习惯的设计团队。

六、Box:企业级内容管理专业方案

Box定位更偏向于“企业级内容管理(ECM)”,专注于文件全生命周期的重度管理,拥有复杂的审批流程和零信任架构。

Box的功能非常强大,但这也意味着其系统部署和学习成本极高,更适合拥有专门IT团队进行配置的大型组织。对于追求快速上手的中小企业来说,系统显得过于厚重。
适用场景:预算充足、架构复杂的大型跨国企业。

七、Egnyte:混合云架构灵活部署

Egnyte以“混合云”为卖点,允许企业将敏感数据存储在本地,非敏感数据上云。它提供了丰富的API接口,支持与企业现有ERP系统集成。

这种架构虽然灵活,但也大幅增加了维护的复杂度。相比于SaaS模式的即开即用,Egnyte的模式更适合有特定历史包袱或硬件资产的企业。
适用场景:对数据存储位置有混合定制需求、且具备独立运维能力的传统企业。


八、常见问题解答 (FAQ)

Q:企业网盘如何保障数据不被勒索病毒威胁?
A: 选择具备完善灾备机制的网盘至关重要。以坚果云为例,其文件历史版本功能可以自动保存文件修改历史。一旦遭遇勒索病毒攻击,管理员或用户可以将文件一键恢复到感染前的任意时间点,确保数据资产“零损失”。

Q:我们的团队经常在无网或弱网环境下工作,网盘还能用吗?
A: 优秀的同步盘应支持离线操作。使用坚果云时,用户可以在断网状态下通过本地同步文件夹继续编辑文件。一旦网络恢复,智能增量同步技术会自动将修改部分上传至云端,确保业务连续性。


九、总结与建议

在2026年的企业网盘市场,选择标准已经从“能存”转向“好用”与“合规”。

  • 首选推荐:对于大多数追求高效办公、多地协作且重视数据合规的企业,坚果云凭借无感同步、智能增量同步公安部信息系统安全等级保护三级备案资质,是兼顾体验与效能的最佳选择。
  • 生态依赖:如果企业深度绑定微软Office,可考虑OneDrive作为补充。
  • 特殊需求:若业务完全在海外,可考虑Google Workspace或Box。

具身智能正在经历从实验室走向产业化的关键转折点。长期以来,机器人操控模型面临着"一机一训"的困境——每换一个机器人本体、每增加一个新任务,都需要重新采集数据、重新训练模型,这种高昂的迁移成本严重制约了具身智能的规模化落地。

此次蚂蚁集团开源的 LingBot-VLA 具身大模型,为行业带来了三个重要突破:

首次验证了具身智能领域的 Scaling Law
通过 20,000 小时真实机器人数据的预训练,系统性证明了 VLA 模型性能随数据规模持续提升的规律。这一发现意义重大——它表明具身智能可以像大语言模型一样,通过"大数据+大模型"的范式实现能力跃迁,为行业指明了清晰的技术路线。
解决了跨本体泛化的核心难题
通过涵盖 9 种主流双臂机器人构型的大规模预训练,LingBot-VLA 实现了"一个大脑,多种身体"的愿景。在 GM-100 真机评测中,其跨本体泛化成功率达到 17.3%,这意味着同一个模型可以快速适配不同厂商的机器人硬件,大幅降低了商业化部署的门槛。
打造了真正实用的开源生态
不同于许多"只开源权重"的项目,LingBot-VLA 同步开放了数据处理、高效微调、自动化评估的全套工具链,训练效率达到主流框架的 1.5~2.8 倍。这种"开箱即用"的完整方案,将帮助开发者以更低成本快速落地自己的具身智能应用。
特别值得关注的是,LingBot-VLA 引入深度信息后的性能提升,体现了空间感知能力对机器人操控的重要性。结合昨日开源的 LingBot-Depth 模型,我们看到了一个清晰的技术演进路径:从精准的空间感知到智能的操控决策,具身智能正在构建起完整的"感知-认知-执行"闭环。

随着蚂蚁集团承诺未来几天将陆续开源更多具身智能成果,我们有理由相信,2026 年将成为具身智能从"能用"到"好用"、从"实验室"到"生产线"的关键转折年。

SegmentFault 思否编辑部
2026年1月

以下内容转载自蚂蚁灵波科技官方公众号。

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

LingBot-VLA 具身大模型全面开源

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练
长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型
得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。

与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。个weibo.com/ttarticle/p/show?id=2309405274742797500420 weibo.com/ttarticle/p/show?id=2309405274743166337031 weibo.com/ttarticle/p/show?id=2309405274743539892260 weibo.com/ttarticle/p/show?id=2309405274743908728853 weibo.com/ttarticle/p/show?id=2309405274744282021916 weibo.com/ttarticle/p/show?id=2309405274744655314984 weibo.com/ttarticle/p/show?id=2309405274745028608009 weibo.com/ttarticle/p/show?id=2309405274745401901062 weibo.com/ttarticle/p/show?id=2309405274745779388427

大家好。我也做了一个小工具:VibeDict
🔗 网址:vibedict.com

我平时写英文邮件或者找老外聊天,查单词经常遇到一个坑:词典告诉我一个词等于“开心”,但我搞不清楚它是朋友聚会喝高了的那种“嗨”,还是收到 Offer 时的那种“狂喜”,还是正式报告里的“满意”。一旦用错词,不仅尴尬,还容易冒犯人。

所以我就自己搓了一个查词工具。它不只抛几个例句,主要干三件事:

💡 它能干啥?

  1. 拆解语境和人设:搜一个词,它直接告诉你这个词的“底色”:是褒义还是贬义?用在董事会还是用在酒吧?
  2. AI 生成配图:很多动词或形容词光看字根本记不住。我们调用 AI 给每个词跑了一张意境图。把抽象的发音和字母,挂靠在具体的视觉上。
  3. 原生发音和场景对话:配了发音,还用这个词当场编了几段不同身份的人发生的对话例句。

🛠 怎么做的?

  • 前端:Next.js + Tailwind + Framer Motion
  • UI:shadcn/ui
  • 后台:主要是调教大模型的 Prompt ,把词汇书里的废话砍掉。另外保障生成内容全年龄段安全。

🎁 试用体验

核心功能完全免费。注册账号先送 300 点数。大家如果有空,可以用它搜几个平时怕用错的词试试。
功能刚跑通,作为个人开发者,非常缺真实的业务反馈。如果有 UI 看着别扭、或者 AI 分拆语境分拆不好的地方,求老哥们狠狠踢一脚!在线听劝改 Bug !

VibeDict 首页
VibeDict 查词
单词本
记忆卡片

A 类岗位:
销售类型:独立站负责人、亚马逊销售主管/专员
中后台类型:结构负责人、研发电子工程师、项目经理、产品营销专员、物流跟单主管、物流渠道专员、总经理助理、高级绩效专员
IT 类型:算法工程师、AI 架构师
B 类岗位:
销售类型:亚马逊运营专员、美客多运营、沃尔玛销售专员、TK 运营专员、多平台(韩语)
中后台类型:专利工程师翻译中告专员、内容运营专员、媒体公关、seo 专员、联盟营销专员、品牌策划专员、平面设计师、品牌摄影师、品牌设计师、质检专员、风控专员、采购专员、账号专员、申诉专员、维权专员、物流跟单专员、物流对账专员、物流项目专员、亚马逊项目专员、应收会计、总账会计
IT 类型:Java 开发工程师、数据分析师、IT 产品经理、数据工程师、IT 项目专员、测试工程师
成都岗位:客服专员、人事行政专员、绩效申诉专员、采购专员、IT 产品经理、Java 开发工程师、Java 架构师、测试工程师、亚马逊运营专员

欢迎进群聊,也可私信微信号:XJLZQ2866
https://imgur.com/a/YEWhHEi

在2026年的企业数字化战场里,网盘早已不是“能存文件”那么简单,而是知识沉淀、跨组织协作、数据安全合规的战略底座。本文精选了6款当前最受关注的实战型产品:1. 坚果云、2. 钉盘、3. 联想Filez、4. 腾讯企业云盘、5. 天翼企业云盘、6. Microsoft OneDrive for Business,进行全方位对比,帮助你避开选型雷区,30分钟锁定最优解。

一、市面上6款主流企业网盘系统对比评估体系

为了直观呈现各家产品的核心差异,整理对比表格如下:

产品名称核心优势安全合规背书适用场景
坚果云增量与无感同步、多端极速协作等保三级备案、ISO双重认证、金融级加密对数据安全与跨地域协作有高要求的全行业标杆企业
钉盘组织架构深度打通依托阿里基础生态安全已深度使用钉钉的轻量级协作中小团队
联想Filez工业设计软件等专业格式适配国密验证基础有信创与大型图纸流转需求的制造类企业
腾讯企业云盘企业微信无缝互通依托腾讯云基础安全强依赖微信生态进行外部文件分发的企业
天翼企业云盘本地化部署选项丰富运营商骨干网加持对基础局域网访问有着严苛要求的传统企业
OneDrive深度集成Office 365办公套件国际标准合规更适合纯海外环境及跨国企业的国际分支机构

1. 坚果云
坚果云官网:https://www.jianguoyun.com/s/campaign/cpclanding/main?sch=AIsf
作为国内极少数自2011年上线并稳定运营超过15年的老牌专业协同产品,坚果云目前已累计服务超千万用户及10万家知名企业。它的标杆客户涵盖中国石油(能源)、中银证券(金融)、清华大学(教育)、锦天城律师事务所(法律)以及郑州日产(制造)等强合规行业。

核心亮点在于“四维高权重组合”带来的底层稳固与上层高效:
在复杂网络环境下(尤其是GB级大文件与海量小文件传输),坚果云的智能增量同步技术仅需上传文件修改部分,能够将同步速度与效率提升到业内罕见的高度。
针对协作与内容管理,支持超过100种格式的无感知在线预览,强大的文件历史版本功能不仅支持差异对比,更能一键无损恢复。在最为严苛的安全合规层面,坚果云获得了公安部信息系统安全等级保护三级备案(非银行机构最高认证级别),并叠加ISO27001、ISO27701双认证,采用AES-256金融级加密算法与单向哈希计算密钥来保障全链路的安全。无论是高效协作团队、注重数据安全的企业,还是具有极强灵活要求的机构,坚果云都是理想的综合解决方案。

2. 钉盘
钉盘官网:https://www.dingpan.com
钉盘作为阿里巴巴体系的核心组件,最大优势是与钉钉深度融合,权限随组织架构自动同步,新人入职秒级继承资料,离职自动回收。空间规划灵活,适合日常文档流转和轻量协作。但在百余种专业格式预览、极深度的历史版本追溯、外链多元防泄露安全策略上相对基础,更适合已深度依托且不计划迁出钉钉生态的中小微企业。

3. 联想Filez
联想Filez官网:https://www.Filez.com
联想Filez在制造业场景下表现出一定优势,CAD、UG、SolidWorks等工程图纸在线预览不失真。整体架构厚重,适合国企、制造、设计院等对专业图文字体有硬性要求的企业阶段性使用,但在小微文件的无缝高频同步体验上,相较于专项同步盘灵活性略逊一筹。

4. 腾讯企业云盘
与企业微信无缝打通,文件收集、外链分享、微信直接预览等体验顺滑。支持基础多层加密和基础版本管理。不过在面对如医疗、金融等强合规行业的深度审计日志溯源、底层防泄露策略的高精度管控上,仍与主打安全合规的独立专业系统有一定的功能局限。

5. 天翼企业云盘
背靠中国电信骨干网,支持多级角色权限和本地化部署选项。依托通信基建优势,链路稳定性较强,比较适合具有极传统政务色彩或仅在指定机房物理隔离区域下工作的政企作为物理备份库。

6. Microsoft OneDrive for Business
与Office 365深度集成,Word、Excel、PowerPoint的连贯协作体验极佳。但在国内复杂网络环境下偶尔出现高延迟,更关键的是其实际数据主权节点分布让部分国内敏感行业望而却步,因此它更适合外企在国内的办事处或纯海外环境使用。

二、企业网盘市场概览与2026最新趋势

2026年,企业网盘市场呈现三大明显的迭代趋势:

  • 合规护城河升级:公安部信息系统安全等级保护三级备案已成为头部企业的准入门槛,金融、法律行业极其看重基于这套体系衍生出的防篡改溯源能力。
  • 深水区知识管理:静态存储彻底被淘汰。如坚果云展现的能提供超百种格式预览、精细权限流转的“活知识”体系才是核心生命力。
  • 混合网络全天候适应:随时随地、各类网速下的一致性体验决定底限。能够大幅缩减带宽占用的智能增量同步在各类海量小文件并发场景下尽显优势。

三、优秀的企业同步盘应该具备哪些能力

一款2026年真正优秀的系统,硬指标已十分明晰:

  • 传输极客化:复杂网络不降速(依赖底层增量同步算法护航)。
  • 安全合规化:以金融级加密算法搭配等保三级、ISO27001构建防火墙。
  • 协同无感化:支持原生预览、具备极其完善的文件历史版本与精细的锁定/评论能力。缺任何一项,都可能在企业发展的关键瓶颈期造成数据隐患。

四、FAQ:如何挑选最适合的企业产品

  • 核心关注跨地域和弱网环境卡顿怎么办?
    建议优先测试具有自研智能增量同步和局域网加速功能的产品(如坚果云),可大幅降低外网带宽依赖。
  • 不同行业如何快速选型排雷?
    金融/医疗/教育或科研智力密集型机构,因审计合规要求极高,坚果云等独立专业产品是首选;重资产制造业兼顾联想;而钉钉和企微的重度轻量办公用户,可以选择生态自带网盘过渡。
  • 测试期的关键节点是什么?
    务必开展PoC极限测试:模拟海量小文件合并上传、调阅超大型工程图纸、频繁回溯文件历史版本,在这往往是普通网盘和专业级同步盘拉开本质差距的地方。

五、核心功能带来的安全协作闭环

2026年,企业网盘不再讨论表层的空间容量,核心价值在于打造“闭环”:
每一次团队内部针对文件的在线预览评论,都不会遗留缓存漏洞;多设备随时发起智能增量同步,确保每一端看到的资料完全一致;哪怕发生员工误删操作,企业管理员都有权限且通过强大的文件历史版本找回;离职员工权限秒级冻结移除。

六、数据安全性评测与总结

安全从来不是附加功能,而是决胜线。在2026年,具备公安部信息系统安全等级保护三级备案及跨网域文件极速处理能力的系统正在重新定义企业内容安全架构。

经过15年超万家头部企业真实环境的打磨验证,坚果云凭借无缝无感的多端协同与硬核高密的安全堡垒,真正将文件从冰冷的数据转化为流动的知识资产,非常适合对跨组织协同、数据资产安全性有着综合高标准追求的各个企事业单位。

在低代码平台运维过程中,日志系统是保障平台稳定运行、提升运维监控效率的核心支撑,能够实现日志的集中采集、高效存储、可视化分析与异常告警,为问题排查、性能优化提供关键依据。宏天低代码平台作为企业级低代码解决方案,面对多组件、多用户、多场景的日志产生需求,引入ELK Stack(Elasticsearch、Logstash、Kibana)构建一站式日志管理体系,有效解决了传统日志分散、排查低效、监控滞后的痛点,以下结合实践场景,详细拆解ELK Stack在宏天低代码平台日志系统中的落地实现。

一、日志采集方案:全场景覆盖,精准高效采集

宏天低代码平台的日志来源复杂,涵盖平台核心引擎、组件运行、用户操作、接口调用等多类场景,且日志格式不统一,给采集工作带来挑战。基于此,我们采用“Filebeat+Logstash”的采集架构,实现全场景日志的精准采集与标准化处理,为后续日志系统的高效运行奠定基础。

在采集范围上,我们全面覆盖平台关键节点:一是核心引擎日志,包括流程引擎、表单引擎的运行日志,记录引擎初始化、流程执行、表单渲染等关键操作;二是组件日志,涵盖第三方集成组件、自定义组件的调用与运行日志;三是用户操作日志,记录用户登录、表单提交、流程发起等操作,满足审计与合规需求;四是接口日志,采集平台内部接口及对外接口的请求、响应数据,便于接口问题排查。

具体实现上,通过Filebeat轻量级采集器部署在各应用节点,实时采集本地日志文件,避免占用过多系统资源;采集到的日志经Filebeat传输至Logstash,完成日志清洗、过滤与标准化处理——过滤无效日志、提取关键字段(如日志级别、操作人、接口地址、异常信息),将不同格式的日志统一转换为JSON格式,确保日志数据的规范性,为后续存储与分析提供便利。

二、Elasticsearch存储:高可用设计,适配日志增长需求

日志数据具有量大、增长快、查询频繁的特点,宏天低代码平台日均产生数十万条日志,对存储系统的容量、性能与可用性提出了较高要求。Elasticsearch作为ELK Stack的核心存储组件,凭借分布式架构、高吞吐量、全文检索能力,成为我们的首选,同时结合实际业务场景进行针对性优化。

在索引设计上,我们采用按天滚动索引策略,根据日志产生时间创建索引(如log-hongtian-2026-03-10),避免单一索引过大导致查询性能下降;同时结合宏天日志数据量,合理配置主分片与副本分片,参考最佳实践将单个分片大小控制在20-40GB,主分片设为3个,副本分片设为1个,既保证数据高可用,又提升查询并发能力。

在性能优化方面,我们关闭Elasticsearch不必要的索引副本刷新,调整缓存大小,优化字段映射,将非检索字段设为非索引类型,减少资源占用;同时部署Elasticsearch集群,实现负载均衡与故障转移,确保日志存储系统的稳定运行,满足宏天低代码平台长期日志存储与快速查询的需求,为运维监控提供可靠的数据支撑。

三、Kibana可视化:直观呈现,提升运维效率

日志采集与存储的最终目的是实现日志的高效分析与可视化展示,Kibana作为ELK Stack的可视化组件,为宏天低代码平台日志系统提供了丰富的可视化能力,将复杂的日志数据转化为直观的图表,大幅提升运维监控效率。

结合宏天运维需求,我们搭建了多维度可视化仪表盘,涵盖四大核心模块:一是日志总览,展示日志产生总量、不同级别日志(info、warn、error)分布、日志来源分布,直观掌握平台运行状态;二是异常日志分析,通过柱状图、折线图展示异常日志的时间分布、类型分布,快速定位高频异常点;三是接口监控,展示接口调用成功率、响应耗时,及时发现接口性能瓶颈;四是用户操作审计,通过表格展示用户操作详情,满足合规审计需求。

此外,Kibana的全文检索功能支持按关键词、日志级别、时间范围等多条件组合查询,运维人员可快速检索目标日志,无需逐行排查,大幅缩短问题排查时间。同时,我们将可视化仪表盘权限按运维角色划分,确保不同角色仅能查看对应权限的日志数据,保障日志安全。

四、告警规则配置:提前预警,降低运维风险

运维监控的核心是“防患于未然”,宏天低代码平台基于ELK Stack的告警功能,结合平台运行特点配置精细化告警规则,实现异常日志的实时预警,降低运维风险,保障平台稳定运行。我们采用Open Distro for Elasticsearch Alerting插件,实现告警规则的灵活配置与多渠道通知。

在告警规则设计上,我们围绕核心场景设置多级告警:一是异常日志告警,当error级别日志10分钟内出现超过10条时,触发一级告警;当致命错误日志出现时,触发紧急告警;二是接口异常告警,当接口调用失败率超过5%或响应耗时超过500ms,持续3分钟以上时,触发告警;三是存储告警,当Elasticsearch集群磁盘使用率超过85%时,触发存储扩容告警。

告警通知方式采用多渠道协同,包括邮件、企业微信、Webhook,确保运维人员能及时接收告警信息;同时记录所有告警历史,便于后续复盘分析,持续优化告警规则,减少误报、漏报情况。通过精细化的告警配置,宏天低代码平台实现了从“被动排查”到“主动监控”的转变,大幅提升了运维监控的及时性与有效性。

总结来说,ELK Stack在宏天低代码平台日志系统中的实践,通过全场景日志采集、高可用存储、直观可视化分析与精细化告警,构建了一套完整的日志管理与运维监控体系,有效解决了低代码平台日志管理的痛点,提升了平台运维效率与稳定性。未来,我们将结合宏天低代码平台的业务发展,持续优化ELK Stack的配置,融入更多智能化分析能力,让日志系统更好地支撑平台的迭代升级与运维监控工作。

具身智能正在经历从实验室走向产业化的关键转折点。长期以来,机器人操控模型面临着"一机一训"的困境——每换一个机器人本体、每增加一个新任务,都需要重新采集数据、重新训练模型,这种高昂的迁移成本严重制约了具身智能的规模化落地。

此次蚂蚁集团开源的 LingBot-VLA 具身大模型,为行业带来了三个重要突破:

首次验证了具身智能领域的 Scaling Law
通过 20,000 小时真实机器人数据的预训练,系统性证明了 VLA 模型性能随数据规模持续提升的规律。这一发现意义重大——它表明具身智能可以像大语言模型一样,通过"大数据+大模型"的范式实现能力跃迁,为行业指明了清晰的技术路线。
解决了跨本体泛化的核心难题
通过涵盖 9 种主流双臂机器人构型的大规模预训练,LingBot-VLA 实现了"一个大脑,多种身体"的愿景。在 GM-100 真机评测中,其跨本体泛化成功率达到 17.3%,这意味着同一个模型可以快速适配不同厂商的机器人硬件,大幅降低了商业化部署的门槛。
打造了真正实用的开源生态
不同于许多"只开源权重"的项目,LingBot-VLA 同步开放了数据处理、高效微调、自动化评估的全套工具链,训练效率达到主流框架的 1.5~2.8 倍。这种"开箱即用"的完整方案,将帮助开发者以更低成本快速落地自己的具身智能应用。
特别值得关注的是,LingBot-VLA 引入深度信息后的性能提升,体现了空间感知能力对机器人操控的重要性。结合昨日开源的 LingBot-Depth 模型,我们看到了一个清晰的技术演进路径:从精准的空间感知到智能的操控决策,具身智能正在构建起完整的"感知-认知-执行"闭环。

随着蚂蚁集团承诺未来几天将陆续开源更多具身智能成果,我们有理由相信,2026 年将成为具身智能从"能用"到"好用"、从"实验室"到"生产线"的关键转折年。

SegmentFault 思否编辑部
2026年1月

以下内容转载自蚂蚁灵波科技官方公众号。

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

LingBot-VLA 具身大模型全面开源

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练
长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型
得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。

与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。个weibo.com/ttarticle/p/show?id=2309405274732513067048 weibo.com/ttarticle/p/show?id=2309405274732881903738 weibo.com/ttarticle/p/show?id=2309405274733251264617 weibo.com/ttarticle/p/show?id=2309405274733616168991 weibo.com/ttarticle/p/show?id=2309405274733976879124 weibo.com/ttarticle/p/show?id=2309405274734345715787 weibo.com/ttarticle/p/show?id=2309405274734710620185 weibo.com/ttarticle/p/show?id=2309405274735193227285 weibo.com/ttarticle/p/show?id=2309405274735557869610

OpenAI 正在研发一款AI 驱动的搜索产品,旨在与谷歌展开竞争。该产品将生成式 AI 与实时网络数据相结合,通过 ChatGPT 扩展提供直观、概括式的回答,有望颠覆现有市场格局、推动行业创新,并回应准确性与偏见等伦理问题,进而重塑信息获取方式
OpenAI 近期不断扩大其在人工智能领域的影响力,最新动向显示,该公司正大举进军网络搜索领域。据《金融时报》报道,OpenAI 即将推出一款全新搜索产品,直接挑战谷歌等行业巨头。该项目基于 ChatGPT 等现有工具,集成高级搜索功能,致力于提供更直观、更具上下文感知能力的搜索结果。
AI 驱动搜索并非全新概念,但 OpenAI 的思路是将生成式 AI 与实时网络数据检索深度融合。传统搜索引擎依靠收录海量网页,并根据相关性、权威性与用户行为等算法排序。与之不同,OpenAI 研发的系统将利用大语言模型,不仅抓取信息,更能将其整合为连贯的回答。例如,系统不会只展示链接列表,而是直接生成带来源引用的总结性答案,类似 Perplexity AI 的模式,但在规模与集成度上可能更具优势。
这一转变发生在谷歌垄断搜索市场的背景下。谷歌日均处理数十亿次查询,并通过广告获得巨额收入。其母公司 Alphabet 长期在该领域近乎垄断,谷歌搜索也逐步推出精选摘要、知识图谱等功能。但与此同时,用户对结果广告泛滥、复杂查询准确性不足等问题的批评日益增多。OpenAI 的入局有望带来全新竞争,倒逼现有巨头做出改变。
《金融时报》披露的细节显示,OpenAI 搜索产品或将以 ChatGPT 扩展形式上线,用户可用自然语言提问,并获得基于最新网络信息的回答。这将弥补当前 ChatGPT 的一大短板:知识截止日期限制。通过与搜索服务商合作或自研爬虫,OpenAI 可确保回答包含最新新闻、数据与动态,对选举结果、股市波动等时效性内容尤为实用。
要理解其潜在影响,可结合 AI 融入日常工具的大趋势。已重金投资 OpenAI 的微软,早已将 AI 嵌入 Bing 搜索引擎。由 OpenAI 技术支持的 Bing AI 聊天提供了对话式搜索体验。而 OpenAI 的独立搜索产品可能更进一步:完全专注于搜索,不受现有浏览器生态束缚。这种独立性有望催生更多创新功能,例如基于用户历史的个性化结果筛选,或支持图片、语音等多模态输入。
该领域的竞争正日趋白热化。获得知名投资方支持的初创公司 Perplexity AI,凭借强调准确性与来源透明的 AI 搜索引擎受到关注。You.com、Andi 等初创企业也在探索以 AI 为核心的搜索界面。就连谷歌也已做出回应,在搜索结果中推出由 Gemini 等模型支持的 AI 概览。OpenAI 的加入将加速这一趋势,市场可能更加分散,用户将依据 AI 交互质量而非品牌忠诚度做出选择。
OpenAI 战略的一大关键在于数据来源与合作。据称,公司正与出版商、内容创作者洽谈授权,用于模型训练与搜索服务。在 AI 领域合理使用与版权补偿争议不断的背景下,这一步至关重要。例如《纽约时报》等机构对 OpenAI 提起的诉讼,凸显了 AI 模型使用受版权内容的矛盾。通过打造尊重版权的搜索产品(可能采用收益分成模式),OpenAI 可将自身定位为更具伦理合规性的替代选择
从技术上看,这款搜索工具的核心将是增强版 GPT 模型。这类模型擅长理解上下文并生成类人文本,可让搜索更具对话感。试想,查询某一历史事件时,用户不仅能获得事实,还能得到影响分析与完整引用。这一能力源于自然语言处理的进步,模型通过多样化数据训练,可处理歧义与细微表达。
但挑战依然存在。保证 AI 生成内容的准确性至关重要,因为 “幻觉”—— 即模型编造看似合理但虚假的信息 —— 一直困扰着 ChatGPT 等工具。OpenAI 需要建立严格的验证机制,例如多源交叉核对或引入人工审核。隐私是另一大问题:搜索涉及个人数据,必须符合 GDPR、CCPA 等法规。此外,运行大规模 AI 模型所需的巨大算力及其环境影响,也可能受到监管审查。
从商业角度看,进军搜索市场是 OpenAI 的一次大胆扩张。该公司 2015 年以非营利研究机构成立,后转为 capped‑profit 模式以吸引投资,凭借 DALL‑E 图像生成、GPT‑4 文本模型等爆款产品,估值大幅攀升。一款成功的搜索产品,可让其收入来源超越 API 调用与企业订阅。广告可能成为一部分,但 OpenAI 强调以用户体验为中心,而非单纯依赖广告模式。
从用户接受度来看,早期信号显示市场对 AI 增强搜索热情高涨。皮尤研究中心等机构的调查表明,越来越多人使用 AI 获取信息,年轻群体尤为明显。若 OpenAI 产品能在速度与相关性上兑现承诺,有望快速抢占市场份额。与移动应用或浏览器的集成将进一步提升易用性。
但批评者也指出了潜在风险。对 AI 搜索的过度依赖可能导致信息同质化,模型可能因训练数据偏见而偏向某些观点。若防护措施失效,虚假信息传播速度也可能加快。监管机构正密切关注:反垄断调查早已针对科技巨头的市场支配地位,OpenAI 的动作可能引来同样严格的审查。
在技术实现上,OpenAI 可能采用混合架构,例如检索增强生成(RAG)系统:模型先从搜索索引中检索相关文档,再生成回答。斯坦福、MIT 等机构的论文已证明这类系统能提升准确性与效率。OpenAI 在模型规模化上的经验,使其能够胜任实时搜索的需求。
合作或将成为关键。与微软等企业在云基础设施上合作,或与新闻机构获取内容授权,都将强化产品竞争力。《金融时报》提到,相关发布可能选在谷歌 I/O 大会等重要节点,进一步加剧竞争氛围。
除直接竞争对手外,这一进展还关系到人机交互方式的更大变革。搜索已从关键词查询,发展到 Siri、Alexa 等语音助手,如今又迈向生成式 AI。OpenAI 的产品可能代表下一步:搜索变得更具预测性与主动性,根据用户习惯预判需求。
对开发者与企业而言,这将带来新机遇。搜索工具的 API 可集成到各类应用中,从电商平台的商品推荐,到教育工具的定制化学习资源。这种可扩展性延续了 OpenAI 现有的开发者生态,已在医疗、金融等领域催生创新。
在伦理层面,OpenAI 已承诺采取安全措施,包括红队测试以识别漏洞。随着搜索日益 AI 化,确保回答无偏见、更具包容性将至关重要。英国 AI 安全研究院等机构正在制定相关标准,OpenAI 等公司可能参与其中。
从财务上看,这场博弈的赌注极高。谷歌年度搜索收入超过1000 亿美元,新入局者希望从中分一杯羹。即便只占据一小部分份额,OpenAI 也能获得充足资金支持后续研发。包括风投在内的投资者正押注这一潜力,融资轮次反映出市场对 AI 未来的信心。
随着事态发展,搜索领域未来或许会出现更多合作而非对抗,AI 公司与传统搜索引擎可能结成联盟,融合各自优势。对用户而言,最终结果将是更多选择、更好体验,从根本上推动知识获取方式的进步。
综上,OpenAI 进军搜索领域的举动,凸显了AI 无处不在的大趋势。通过弥补现有系统的不足并突破边界,它有望在未来数年重新定义信息检索。市场对其发布的期待,也反映出这一充满活力的领域中,兴奋与不确定性并存。

安全研究人员揭露了一场持续近一年的大规模网络攻击活动,幕后攻击者为越南语系黑客组织,该组织将GitHub打造成了高级信息窃取类恶意软件的核心分发平台。该行动自 2025 年 3 月起持续活跃,通过复杂的多级加载器链条区块链技术,对受感染主机实现持久化控制。
此次攻击的规模尤为惊人:在超过 47 个 GitHub 账号中已确认存在 600 余个独有的恶意 ZIP 压缩包。截至 2026 年 3 月初,其中至少 25 个账号仍处于活跃状态,并持续投放恶意载荷。
攻击者依托高迷惑性的社会工程学诱饵锁定目标。GitHub 上的恶意仓库经过精心伪装,假冒各类 SaaS 工具破解版浏览器扩展、游戏外挂、开发者工具及成人内容资源
每个仓库均包含一个 ZIP 压缩包,一旦解压便会启动LuaJIT 加载器链条。追踪该活动的 ESET 研究人员指出,此次攻击中已出现16 代不同的混淆器版本,涵盖从 Lua/Agent.Z 到 Lua/Agent.BT 等多个变种,足见该组织技术迭代速度极快。
为规避传统网络防御机制,该加载器并未对 C2 服务器地址进行硬编码,而是将Polygon 主网用作去中心化的 “通信簿”。
该恶意软件通过调用 Polygon 主网智能合约中的获取函数解析 C2 服务器地址。攻击者只需通过链上交易更新存储的 IP,即可瞬时切换攻击基础设施。这一创新手段实现了“更换基础设施无需重新部署恶意程序”,让该僵尸网络在面对域名关停操作时具备极强的抗打击能力。
与 C2 服务器建立连接后,加载器会从 GitHub 的 “死信箱” 仓库拉取最终载荷。该载荷需经过四层密集解密(十六进制、异或、Base64URL、AES-ECB),解密后显现为StealC 信息窃取木马。

已监测到的 StealC 窃取能力

  • 凭据窃取:盗取浏览器中保存的密码与自动填充数据。
  • 会话劫持:收集 Cookie 与身份认证令牌,绕过多因素认证(MFA)
  • 系统侦察:采集详细系统信息,定向检索特定文件路径并窃取数据。
  • 载荷投递:可通过 PowerShell 或 msiexec 下载其他恶意模块。
该攻击活动的基础设施高度依赖高抗封杀托管服务商。研究人员发现:在 48 个加载器 IP 与全部窃取程序 IP 中,有 37 个归属 AS 207957(Serv.host Group Ltd)
尽管 URLhaus 在 2026 年 1 月首次监测到该活动,但取证分析表明,其已在未被发现的情况下运行约 10 个月。GitHub 仓库中出现的越南语特征与特定命名规范,均指向越南语系黑客组织是这一全球性信息窃取团伙的主要策划者。
安全建议:用户从 GitHub 下载 “破解版” 软件或扩展程序时需高度警惕,即便外观正规的仓库,也可能隶属于这套庞大的自动化感染体系。

 

微软原定推出的 Windows 12 最终演变为 Windows 11 24H2 更新,这一转变引发了行业困惑与广泛争议。本文将剖析此次转向 Germanium 平台的技术变革、微软对 AI 适配硬件的激进推广策略,以及微软在试图现代化操作系统、又不愿割裂用户群体的过程中,可能面临的生态碎片化风险
过去近一年里,科技行业普遍形成一个共识:2024 年将迎来 Windows 12。来自硬件合作伙伴的泄露信息、高管隐晦的表态、以及操作系统本身的迭代周期,全都指向一次重大的版本号跃迁。然而,正如《Futurism》等多家媒体报道所示,微软选择了另一条路。公司没有推出全新大版本,而是继续沿用现有品牌,宣布备受期待的 “Next Valley” 更新将正式以 Windows 11 24H2 版本推出。这一决定引发了关于公司战略、人工智能在消费级软件中的角色,以及微软重磅产品发布时常伴随的混乱宣传等诸多讨论。
外界对 Windows 12 的期待并非只是粉丝臆测,供应链端同样在为此造势。英特尔、高通等公司高管的表态都暗示,一次 “Windows 系统革新” 将带动新硬件销量。这些厂商已在 神经网络处理器(NPU)上投入巨资 —— 这类专用芯片用于本地执行 AI 任务,而非依赖云端。外界原本预期,一个响亮的新系统名称会成为说服消费者升级老旧设备的必要催化剂。但微软坚持使用 Windows 11 这一名称,造成了一种奇特局面:底层技术已发生巨变,产品名称却保持不变,这让许多人开始疑惑:在现代语境下,究竟什么才算 “全新” 操作系统。

Germanium 平台转型

尽管系统名称未变,其技术底层正在经历大规模重构。即将到来的 24H2 更新基于一个内部代号为 Germanium 的全新工程平台。这并非一次只修复漏洞、微调界面的普通累积更新,而是操作系统内核的重大替换,旨在更好地适配新一代 ARM 处理器,以及集成人工智能带来的庞大计算需求。多篇技术分析指出,Germanium 平台专门针对英特尔酷睿 Ultra、高通骁龙 X Elite 等芯片所搭载的 NPU 硬件做了深度优化。
平台更新与功能更新的区别在营销材料中常常被模糊,但对系统稳定性与性能而言至关重要。切换到 Germanium 代码库,本质上就是微软披着 Windows 11 的外衣,发布了原本应是 Windows 12 的系统。这种方案允许他们对内存管理、后台任务处理、电源状态机制进行底层改动,又不必让市场去接受一个令人望而生畏的新版本号。然而,这种技术上的精细考量,无法缓解普通用户的困惑 —— 他们只看到 “Windows 11”,便误以为没有重大变化。

生态碎片化的隐忧

微软放弃 “Windows 12” 品牌,一个核心原因是担心进一步分裂用户群体。Windows 10 仍是全球主流操作系统,市场份额远超 Windows 11。推出第三个活跃版本会分散开发者精力,并可能拖慢新系统普及率。微软仍在努力在 2025 年 10 月支持终止前将用户从 Windows 10 迁移过来。如果此时再推出 Windows 12,且硬件要求很可能更加严苛,将导致数百万台电脑停留在旧版系统,形成安全隐患与全线割裂的用户体验。
通过将这次重大重构包装为 Windows 11 的一次更新,微软试图在避免完整迁移阵痛的前提下,带动现有用户向前升级。它将这次更新定位为当前系统正常生命周期的一部分,而非一款需要主动购买或安装的独立产品。这种心理策略意在维持用户群体统一,但也模糊了可选功能与强制更新之间的界限。使用不兼容硬件的用户可能会被排除在 “新版” Windows 11 功能之外,形成两类 Windows 11 用户:具备 AI 能力与不具备 AI 能力

AI PC 与硬件门槛

围绕此次发布的争议,与 AI PC 概念密不可分。微软对 “能够支撑其最新愿景的电脑” 划出了明确门槛。相关报道显示,想要完整使用全新 AI 驱动功能(例如本地运行 Copilot 任务),电脑需要配备算力达到 40 TOPS(万亿次运算 / 秒) 的 NPU。此外,这类设备的内存基线也将提升至 16GB。这形成了一道绝大多数现有 PC 都无法跨越的硬件门槛。《Futurism》文章指出,外界对这一强制升级持怀疑态度:对许多用户而言,这些 AI 功能的价值仍很抽象,而购买新电脑的成本却实实在在。
这种硬件推广策略,让人联想到 Windows 11 刚发布时强制要求 TPM 2.0 的争议 —— 那一次直接让数百万台仍可用的 CPU 被划入 “过时” 行列。24H2 更新虽然保留 Windows 11 名称,却实质上带来了 “软性淘汰”。你可以在现有硬件上继续运行 Windows 11,但微软宣传为未来计算核心的标志性功能将会变灰或无法使用。这一策略取悦了戴尔、惠普、联想等迫切需要超级销售周期的硬件合作伙伴,却让认为现有设备完全够用的消费者感到不满。

Copilot 成为核心界面

推动这一切变革的核心是 Copilot。微软并非只是在任务栏加一个聊天机器人,而是试图将生成式 AI 深度融入界面底层。24H2 更新将带来更深度的集成:Copilot 可管理系统设置、整理窗口、更精准地理解用户意图。键盘甚至会新增专属 Copilot 按键,这是数十年来 PC 标准键盘布局首次重大改动。这一硬件层面的体现,凸显了微软对这项技术的豪赌。
但这些功能的实际价值仍受质疑。生成文本或图片固然新颖,但在操作系统界面中的实用价值往往显得生硬。批评者认为,微软在回应一个没人提出的需求,将股东对 AI 的热情置于真实用户需求之上。行业讨论中提到的 “乱象” 正源于这种脱节:科技巨头强行推进资源密集型新范式,而用户只想要稳定、快速、不打扰的操作系统。如果 AI 功能耗尽电池、拖慢系统,却没有带来对等的效率提升,可能会引发强烈反弹。

营销失误与用户信任

命名与功能上的混乱,凸显了微软沟通层面的更大问题。该公司曾公开宣称 Windows 10 是 “最后一版 Windows”,暗示将采用服务化模式持续迭代,不再跳跃版本号。Windows 11 的发布打破了这一承诺,而 Windows 12 悬而未决的闹剧,则表明其对外缺乏清晰连贯的长期路线图。当用户无法预测自己软件与硬件的使用寿命时,信任便会受损。转向 24H2 更像是一个过渡权宜之计:在 AI 浪潮下交付必需的技术变革,却不必承担一场可能失败的完整营销发布。
此外,Recall 等功能的强行集成也引发了严重隐私担忧 —— 该功能会记录用户活动以帮助 AI 记忆上下文。尽管微软保证数据在本地处理(这也是要求 NPU 的原因),但操作系统时刻 “监视” 用户的想法,仍令隐私倡导者不安。为了抢在谷歌、苹果等对手之前拿下 AI 高地,微软可能在功能落地前,未充分评估社会接受度与安全隐患

24H2 究竟带来了什么

抛开 AI 相关的头条新闻,这次更新也包含了高端用户期待的实用改进。其中加入了 Sudo for Windows—— 一款 Linux 用户熟悉的命令行工具,允许在标准控制台会话中直接提权。同时还优化了助听器支持、Wi‑Fi 7 兼容性,以及 HDR 壁纸管理。这些都是能定义一个优秀服务包的功能性改进。但微软将它们与充满争议的 AI 重构打包在一起,导致扎实的工程成果被营销热词掩盖
此次更新还改革了 Windows 自身的更新机制,采用此前仅用于服务器版的 热补丁(hotpatching) 技术,允许无需重启即可应用安全更新,解决了 Windows 长期以来最受诟病的问题之一。这些体验提升意义重大,却被 NPU、聊天机器人等海量新闻淹没。这形成了一种奇怪的对立:这次更新既是一次平淡的维护补丁,又是一次激进的系统重构

Windows 品牌的未来

那么,Windows 12 已经死了吗?大概率没有。多数分析师认为,带版本号的下一代系统终会到来,可能在 2025 或 2026 年 —— 等到硬件市场足够饱和、能够支撑更严格的基线时。当前战略更像是一个过渡阶段:微软通过 24H2 更新向市场普及 AI 设备,为未来某个版本将这些功能变为强制要求铺路。在此之前,我们处于一种中间状态:使用的操作系统试图同时扮演两种角色 ——兼容旧 PC 的传统支持平台,与引领 AI 革命的前沿载体
Windows 12 这场 “闹剧”,本质上讲述的是硬件迭代周期与软件野心之间的冲突。微软想要前进的速度,超出了普通消费者的购买力。取消 2024 年的 Windows 12 发布并将技术并入 Windows 11,虽然让微软避免了一场关于碎片化的公关危机,却没有解决核心问题:他们正在构建一个需要全新工具的未来,而眼下,只能等待世界跟上脚步。

在互联网高度普及的今天,个人和企业每天都会在网络上留下大量数字痕迹。从访问网站、使用社交媒体,到在线购物和远程办公,几乎所有网络活动都会涉及 IP 地址。IP 地址不仅是设备连接互联网的身份标识,同时也会暴露用户的地理位置、网络环境以及部分行为信息。
随着网络监控技术、数据追踪技术以及各种自动化分析工具的发展,隐私保护已经成为越来越多用户关注的问题。在这种背景下,代理 IP 逐渐成为保护网络隐私的重要工具之一。选择合适的代理 IP,不仅可以隐藏真实网络身份,还可以提升网络安全性,避免数据被过度追踪。

什么是代理 IP

代理 IP是一种通过中间服务器访问互联网的技术。当用户通过代理服务器访问网站时,目标网站看到的并不是用户真实的 IP 地址,而是代理服务器的 IP 地址。
简单来说,代理服务器就像一个“中间人”。用户先向代理服务器发送请求,然后由代理服务器代替用户访问目标网站,并将结果返回给用户。
这种机制可以有效隐藏用户的真实 IP,从而提升网络匿名性。代理技术在很多场景中都有应用,例如数据采集、网络安全测试、跨区域访问、市场调研以及隐私保护等。

IP 地址为什么会影响隐私

很多人认为只要不在网站上填写个人信息,就不会泄露隐私。但实际上,IP 地址本身就包含了大量可被利用的信息。
首先,IP 地址通常可以被解析出大致的地理位置,例如国家、城市甚至运营商信息。某些情况下,网站可以通过 IP 判断用户所在地区,并记录访问行为。
其次,网站和广告系统会通过 IP 地址进行用户行为分析。例如,通过长期记录某个 IP 地址访问的页面、时间以及浏览习惯,可以建立用户画像。
此外,一些平台还会结合 IP 地址与浏览器指纹、设备信息等技术进行更精确的用户识别。
这意味着,即使用户没有登录账号,仍然可能被持续追踪。因此,隐藏或更换 IP 地址是保护网络隐私的重要方式之一。

代理 IP 如何帮助保护隐私

代理 IP 通过隐藏真实网络地址,可以有效减少个人信息被追踪的风险。当用户通过代理服务器访问网站时,目标网站只能看到代理 IP,而无法直接识别用户的真实网络地址。这种方式可以降低数据追踪的准确性,从而提升匿名性。
代理 IP 还可以帮助用户在不同地区之间切换网络环境。例如,一些用户在进行市场调研或跨境业务时,需要查看不同国家的网页内容。通过代理 IP,可以模拟来自不同地区的访问请求。
对于企业来说,代理 IP 还可以用于保护内部网络结构。在进行外部数据访问或市场监控时,使用代理服务器可以避免暴露企业真实的服务器 IP。这种方式不仅可以提升隐私保护水平,还可以增强网络安全。

不同类型的代理 IP

在实际应用中,代理 IP 并不是单一类型,不同代理在隐私保护方面也有不同效果。
数据中心代理
数据中心代理通常来自云服务器或数据中心网络。这类代理的速度较快、价格较低,但由于 IP 特征明显,某些网站可能会识别并限制访问。
住宅代理
住宅代理来自真实家庭网络,IP 地址由互联网服务提供商分配。由于其访问特征与普通用户相似,因此更难被识别为代理。
在许多需要较高匿名性的场景中,住宅代理通常被认为是更可靠的选择。
移动代理
移动代理来自移动运营商网络,例如 4G 或 5G 网络。由于大量用户共享同一移动网络环境,这类 IP 在某些平台上的信任度较高。
移动代理通常用于社交媒体管理、广告验证以及某些数据采集任务。

为什么选择合适的代理服务非常重要

虽然代理 IP 可以帮助提升隐私保护水平,但并不是所有代理服务都同样可靠。
一些低质量代理可能存在以下问题:
IP 已被大量使用
IP 被网站标记为异常
连接不稳定
数据传输速度慢更严重的是,一些不可信的代理服务可能会记录用户流量或泄露数据,这反而会增加隐私风险。
因此,在选择代理服务时,需要考虑多个因素,包括 IP 质量、网络稳定性、覆盖地区以及服务提供商的信誉。
一个可靠的代理服务通常会提供较大的 IP 资源池、稳定的连接成功率以及安全的数据传输机制。

企业为什么也需要代理 IP

隐私保护不仅仅是个人用户的问题,对于企业来说同样重要。
许多企业在进行市场分析、价格监控以及品牌保护时,需要频繁访问大量网站。如果直接使用公司服务器 IP 进行访问,很可能会被网站限制或记录。
通过代理 IP,企业可以在不同网络环境中进行数据访问,从而提高数据采集效率。
此外,代理 IP 还可以帮助企业在多个地区进行市场研究。例如查看不同国家的搜索结果、商品价格以及广告投放情况。
这种能力对于跨境电商、数字营销以及品牌管理来说尤为重要。

代理 IP 在隐私保护中的未来

随着互联网监管和数据分析技术的不断发展,用户隐私保护的重要性只会越来越高。
未来,越来越多个人和企业可能会通过代理技术来管理自己的网络身份,从而减少不必要的数据追踪。
与此同时,代理服务也在不断发展,例如更大规模的住宅 IP 网络、更智能的 IP 轮换机制以及更稳定的全球节点。
这些技术将进一步提升网络匿名性和访问稳定性。

结语

在数字时代,IP 地址已经不仅仅是网络连接的技术标识,它同时也是用户在线身份的重要组成部分。网站、广告系统以及各种数据分析平台都可能通过 IP 地址对用户行为进行追踪和分析。
通过使用合适的代理 IP,个人和企业可以隐藏真实网络地址,减少数据追踪,并在不同网络环境中进行更加安全和灵活的互联网访问。随着隐私保护意识的不断提高,代理 IP 正在成为现代互联网环境中不可或缺的重要工具。

具身智能正在经历从实验室走向产业化的关键转折点。长期以来,机器人操控模型面临着"一机一训"的困境——每换一个机器人本体、每增加一个新任务,都需要重新采集数据、重新训练模型,这种高昂的迁移成本严重制约了具身智能的规模化落地。

此次蚂蚁集团开源的 LingBot-VLA 具身大模型,为行业带来了三个重要突破:

首次验证了具身智能领域的 Scaling Law
通过 20,000 小时真实机器人数据的预训练,系统性证明了 VLA 模型性能随数据规模持续提升的规律。这一发现意义重大——它表明具身智能可以像大语言模型一样,通过"大数据+大模型"的范式实现能力跃迁,为行业指明了清晰的技术路线。
解决了跨本体泛化的核心难题
通过涵盖 9 种主流双臂机器人构型的大规模预训练,LingBot-VLA 实现了"一个大脑,多种身体"的愿景。在 GM-100 真机评测中,其跨本体泛化成功率达到 17.3%,这意味着同一个模型可以快速适配不同厂商的机器人硬件,大幅降低了商业化部署的门槛。
打造了真正实用的开源生态
不同于许多"只开源权重"的项目,LingBot-VLA 同步开放了数据处理、高效微调、自动化评估的全套工具链,训练效率达到主流框架的 1.5~2.8 倍。这种"开箱即用"的完整方案,将帮助开发者以更低成本快速落地自己的具身智能应用。
特别值得关注的是,LingBot-VLA 引入深度信息后的性能提升,体现了空间感知能力对机器人操控的重要性。结合昨日开源的 LingBot-Depth 模型,我们看到了一个清晰的技术演进路径:从精准的空间感知到智能的操控决策,具身智能正在构建起完整的"感知-认知-执行"闭环。

随着蚂蚁集团承诺未来几天将陆续开源更多具身智能成果,我们有理由相信,2026 年将成为具身智能从"能用"到"好用"、从"实验室"到"生产线"的关键转折年。

SegmentFault 思否编辑部
2026年1月

以下内容转载自蚂蚁灵波科技官方公众号。

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

LingBot-VLA 具身大模型全面开源

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练
长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型
得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。

与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。个weibo.com/ttarticle/p/show?id=2309405274722383560817 weibo.com/ttarticle/p/show?id=2309405274722744533121 weibo.com/ttarticle/p/show?id=2309405274723105243251 weibo.com/ttarticle/p/show?id=2309405274723465953431 weibo.com/ttarticle/p/show?id=2309405274723931521061 weibo.com/ttarticle/p/show?id=2309405274724296163432 weibo.com/ttarticle/p/show?id=2309405274724656873501 weibo.com/ttarticle/p/show?id=2309405274725022040089 weibo.com/ttarticle/p/show?id=2309405274725382488068

具身智能正在经历从实验室走向产业化的关键转折点。长期以来,机器人操控模型面临着"一机一训"的困境——每换一个机器人本体、每增加一个新任务,都需要重新采集数据、重新训练模型,这种高昂的迁移成本严重制约了具身智能的规模化落地。

此次蚂蚁集团开源的 LingBot-VLA 具身大模型,为行业带来了三个重要突破:

首次验证了具身智能领域的 Scaling Law
通过 20,000 小时真实机器人数据的预训练,系统性证明了 VLA 模型性能随数据规模持续提升的规律。这一发现意义重大——它表明具身智能可以像大语言模型一样,通过"大数据+大模型"的范式实现能力跃迁,为行业指明了清晰的技术路线。
解决了跨本体泛化的核心难题
通过涵盖 9 种主流双臂机器人构型的大规模预训练,LingBot-VLA 实现了"一个大脑,多种身体"的愿景。在 GM-100 真机评测中,其跨本体泛化成功率达到 17.3%,这意味着同一个模型可以快速适配不同厂商的机器人硬件,大幅降低了商业化部署的门槛。
打造了真正实用的开源生态
不同于许多"只开源权重"的项目,LingBot-VLA 同步开放了数据处理、高效微调、自动化评估的全套工具链,训练效率达到主流框架的 1.5~2.8 倍。这种"开箱即用"的完整方案,将帮助开发者以更低成本快速落地自己的具身智能应用。
特别值得关注的是,LingBot-VLA 引入深度信息后的性能提升,体现了空间感知能力对机器人操控的重要性。结合昨日开源的 LingBot-Depth 模型,我们看到了一个清晰的技术演进路径:从精准的空间感知到智能的操控决策,具身智能正在构建起完整的"感知-认知-执行"闭环。

随着蚂蚁集团承诺未来几天将陆续开源更多具身智能成果,我们有理由相信,2026 年将成为具身智能从"能用"到"好用"、从"实验室"到"生产线"的关键转折年。

SegmentFault 思否编辑部
2026年1月

以下内容转载自蚂蚁灵波科技官方公众号。

继昨日开源高精度空间感知模型 LingBot-Depth 后,今天,我们为大家带来了具身大模型 LingBot-VLA。

LingBot-VLA 具身大模型全面开源

在上海交通大学开源的具身评测基准 GM-100(包含 100 项真实操作任务)测试中,LingBot-VLA 在 3 个不同的真实机器人平台上,跨本体泛化平均成功率相较于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空间感知能力增强,平均成功率进一步攀升至 17.3%,展现了 LingBot-VLA 强大的准确性和泛化性。

在 GM-100 真机评测中,LingBot-VLA 跨本体泛化性能领先

在 RoboTwin 2.0 仿真基准(包含50项任务)评测中,面对高强度的环境随机化干扰(如光照、杂物、高度扰动),LingBot-VLA 凭借独特的可学习查询对齐机制,高度融合深度信息,操作成功率比 Pi0.5 提升了 9.92%,实现了从虚拟仿真到真实落地的全方位性能领跑。

在 RoboTwin 2.0 仿真评测中,LingBot-VLA 跨任务泛化性能领先

01 Scaling Law 下的大规模真机数据预训练
长期以来,由于本体差异、任务差异、环境差异等,具身智能模型落地面临严重的泛化性挑战。开发者往往需要针对不同硬件和不同任务重复采集大量数据进行后训练,直接抬高了落地成本,也使行业难以形成可规模化复制的交付路径。
图片
针对上述问题,我们基于在海量真实世界数据上的预训练,第一次系统研究了 VLA 模型在真实机器人任务性能上随着数据规模增长时的 Scaling Law。项目发现随着预训练数据规模从 3,000 小时扩展到 6,000、13,000、18,000,最终至 20,000 小时,模型在下游任务的成功率获得持续且显著的提升。值得注意的是,预训练数据量达到 20,000 小时时,模型性能仍呈现上升趋势,表明 VLA 的性能仍然能够随着数据量的增加而提升。这些实验结果证明了 VLA 模型在用真实数据预训练时呈现了良好的可扩展性,为未来的 VLA 开发和大规模数据挖掘提供了重要启示。
图片
依此研究结果,我们仔细构造了 20,000 小时的真实机器人训练数据,涵盖了 9 种主流的双臂机器人构型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1等)。为了进行精确的数据标注,数据里的视频由人工标注者按原子动作进行切分,并用大模型标注视频对应任务和子任务。在 codebase 的开发中,适配了 Fully Sharded Data Parallel (FSDP) 分布式、混合精度、算子融合等优化,从而让同一个“大脑”可以快速迁移至不同形态的机器人上,并在任务变化、环境变化时保持可用的成功率与鲁棒性。

02 深度信息辅助的机器人操控性能提升

仿真实验结果

为了显式捕捉操控环境中的空间感知能力,并进一步提升机器人执行的鲁棒性,我们采用了一种基于查询向量(query)的深度蒸馏方法。具体而言,我们引入了与三视角操作图像相对应的可学习 queries,这些 queries 经 VLM 处理后,与 LingBot-Depth 输出的 depth embeddings 进行对齐。这种对齐机制在维持模型训练与推理的效率的同时,有效将深度信息集成到 LingBot-VLA 中。在真实机器人平台和仿真环境下进行的广泛实验证明,深度信息的融入提升了 LingBot-VLA 的操控性能。

03 后训练成本低、效率高、代码全开源,真正实用的 VLA 模型
得益于涵盖主流构型和详尽任务的大规模预训练,LingBot-VLA 具备强大的通用操控能力,并且能够将其高效迁移到多样的下游机器人任务中。实验表明,LingBot-VLA 在下游任务中能够使用更少的数据,达到超越 π0.5 的性能;并且性能优势会随着数据量的增加而持续扩大。目前,LingBot-VLA 已与星海图、松灵、乐聚等知名机器人厂商完成适配,验证了模型在不同构型机器人上的跨本体迁移能力。

与此同时,我们构建了一套高效的后训练工具链,在 8 卡 GPU 配置下实现了单卡每秒 261 个样本的吞吐量,其训练效率达到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,实现了数据与算力成本的双重降低。此次开源,我们不仅提供了模型权重,还同步开放了包含数据处理、高效微调及自动化评估在内的全套代码库。我们希望这一举措可以大幅压缩模型训练周期,降低商业化落地的算力与时间门槛,助力开发者以更低成本快速适配自有场景,提升模型实用性。目前我们的模型、后训练代码、技术报告、以及我们和上海交大共同打造的 GM-100 Benchmark 已全部开源,欢迎大家访问我们的开源仓库。

具身智能的大规模应用依赖高效的具身大模型,这直接决定了模型是否可用以及能否用得起。我们希望通过 LingBot-VLA 的开源,积极探索具身智能上限,推进具身智能研发早日进入可复用、可验证、可规模化落地的新阶段。

本周,我们已相继开源 LingBot-Depth 和 LingBot-VLA 两款模型,未来几天,我们还将陆续为大家带来我们在具身智能领域智能基座方向的更多成果。我们期待与全球开发者、研究者、产业伙伴一起,加速具身智能技术的迭代与规模化应用,助力 AGI 更快到来。个weibo.com/ttarticle/p/show?id=2309405274715765211162 weibo.com/ttarticle/p/show?id=2309405274716117532756 weibo.com/ttarticle/p/show?id=2309405274716574449857 weibo.com/ttarticle/p/show?id=2309405274716930965560 weibo.com/ttarticle/p/show?id=2309405274717287743553 weibo.com/ttarticle/p/show?id=2309405274717643997207 weibo.com/ttarticle/p/show?id=2309405274717996318735 weibo.com/ttarticle/p/show?id=2309405274718344446072 weibo.com/ttarticle/p/show?id=2309405274718697029677

RT
最近因为各种 AI 工具的更新速度,再加上公司强力推动 Claude ,Codex ,Cursor 之类 AI 编码的使用,对个人作为后端研发的职业前景不太确定,比较焦虑
想请教各位兄弟如果转解决方案架构师(Solution Architecture)来延长职业寿命是否是一个可行的选择
出发点我认为是 SA 比较大的一部分职责是和客户沟通,了解需求,解释方案,回答各种相关问题,这种人和人之间的沟通感觉还是必要的,只要还需要人来做决策。 再加上如果能干比较长的时间,积累的一些行业经验和人脉也能成为自身资源的一部分,感觉比单纯后端没有那么容易被取代?
不知道 xdm 怎么看,各种想法都欢讨论

攻击者正在利用开源游戏 OpenClaw 的 GitHub 复刻仓库实施攻击,并通过 Bing 搜索引擎优化投毒推广恶意下载包,在安装完整可运行游戏的同时,秘密植入信息窃取类恶意软件。微软尚未就其搜索引擎遭操纵一事作出回应。
一款正规的开源游戏已被黑客利用作为恶意软件分发载体,整套攻击链设计异常精密。研究人员发现,针对 OpenClaw(1997 年经典平台游戏《Captain Claw》的免费开源重制版)的攻击活动,正通过 GitHub 仓库与被篡改的 Bing 搜索结果,诱骗用户下载信息窃取木马。

该攻击模式如下:

攻击者复刻(Fork) 官方 OpenClaw 仓库,在自己的版本中注入恶意代码,然后通过手段让 Bing 将其毒化仓库列为置顶搜索结果。任何在微软搜索引擎中搜索该游戏的用户,都可能轻易进入恶意仓库而非正版项目。这是SEO 投毒软件供应链攻击相结合的典型案例。

据 TechRadar 报道,该攻击由安全研究员 Ax Sharma 发现。他指出,这些复刻仓库伪装极为逼真,足以迷惑普通用户。攻击者并非简单植入明显的恶意载荷,而是修改了游戏安装器,在正版游戏安装过程中同步静默运行一个可执行程序,大幅提升了检测难度。
该恶意软件属于信息窃取程序。一旦安装,便会针对浏览器保存的凭据、会话 Cookie、加密货币钱包数据以及其他储存在受害者设备上的敏感信息。它会主动连接命令与控制服务器(C2),并尽可能窃取数据回传。虽然行为属于此类威胁的常规模式,但其传播方式让该攻击活动格外突出
GitHub 长期以来都是此类滥用行为的目标。该平台自带的可信属性—— 开发者通常比随机下载更信任其上代码 —— 使其成为理想攻击载体。而复刻(Fork)是 GitHub 的核心功能,因此用户创建热门项目副本时不会出现明显警示。攻击者正是刻意利用了这种信任。

但此次事件中 Bing 的角色尤为关键

尽管谷歌占据搜索主导地位,但 Bing 仍承担大量查询,尤其是通过 Microsoft Edge 默认搜索、Copilot 集成,以及微软服务标准化的企业环境。攻击者专门针对 Bing 做恶意页面优化,而非谷歌,这是精准定向选择

这表明他们目标是未修改默认浏览器设置的用户,这类人群通常技术敏感度较低,也正是可能在不核查来源的情况下,下载怀旧游戏重制版的群体。

这些恶意仓库究竟伪装得如何?

它们高度复刻正版 OpenClaw 项目,包含完整的 README、编译说明与发布二进制包。差异极为隐蔽:仅修改编译脚本、安装包,并在发布压缩包中捆绑额外可执行文件。除非逐行对比原版与复刻版本,否则几乎无法察觉。

这并非孤立事件。Bleeping Computer 等安全媒体已报道,攻击者滥用 GitHub 基础设施传播恶意软件正成为趋势。今年早些时候,Phylum 与 Checkmarx 的研究人员记录了多起攻击活动:利用虚假 GitHub Star、拼写劫持包名、篡改仓库元数据提升恶意项目曝光度。而 OpenClaw 事件则将搜索引擎操纵加入了攻击工具箱。
微软尚未公开回应,为何恶意复刻仓库能在 Bing 结果中排名如此靠前。这本身就是问题。若 Bing 算法能被如此轻易利用,展示携带恶意软件的 GitHub 仓库,便令人质疑微软搜索索引流程中的安全保障 ——尤其微软同时拥有 GitHub

对安全团队与开发者而言,核心警示清晰且必须重申:

不要仅凭外观信任 GitHub 仓库,即便出现在搜索结果中。务必通过仓库所有者、创建时间、提交记录、Star 数量确认是否为原版项目。创建时间新、社区互动极少的复刻仓库均为高危信号

机构还应检查终端防护是否能检测此类侧面加载恶意软件。OpenClaw 安装器本身可正常运行、游戏能正常游玩,这意味着用户不会立刻察觉异常。恶意组件在后台运行,而受害者正在畅玩 1997 年的经典游戏。手段巧妙且高效

这背后还有更广泛的警示:

开源游戏与爱好者项目正日益成为高价值目标,因为它们的维护团队规模更小,安全基础设施弱于主流开源库。几乎不会有人对《Captain Claw》重制版使用软件成分分析工具。攻击者深知这一点。

而 Bing 这一切入点也绝非小众问题。

微软正通过 Windows 默认设置、Copilot、Edge 强力推广 Bing。每一台新安装的 Windows 都默认使用 Bing,每一次 Copilot 查询都经由 Bing。若搜索结果完整性能被如此轻易破坏,攻击面将极为庞大

官方原版 OpenClaw 项目(GitHub 原仓库)依然安全。问题完全出在被篡改植入恶意软件的非官方复刻仓库。如果你近期下载过 OpenClaw—— 尤其通过 Bing 搜索结果而非直链 —— 请立即扫描系统
据报道,GitHub 已下架部分恶意复刻仓库,但双方的猫鼠游戏仍将持续。新复刻可在数分钟内创建。除非 GitHub 与微软上线更激进的恶意仓库检测机制,或 Bing 加强危险仓库链接过滤,否则这类攻击模式将持续有效

OpenAI 于 2026 年 3 月 5 日正式发布 GPT-5.4,这是其迄今为止能力最强、效率最高的前沿模型,将高级推理、代码生成与智能体工作流深度融合为统一系统。
该模型已陆续登陆 ChatGPT(以 GPT-5.4 Thinking 形态)、API 及 Codex 平台,并面向需要海量算力处理复杂任务的用户,推出更高性能的 GPT-5.4 Pro 版本。
GPT-5.4 整合了此前分散在多个专用模型中的能力,将 GPT-5.3-Codex 业界领先的编码优势与增强的通用推理能力原生计算机操作能力融为一体。
这使得该模型可支撑端到端的专业工作流,从表格、演示文稿到复杂多步智能体任务,大幅减少用户的反复交互。
在 ChatGPT 中,GPT-5.4 Thinking 新增前置推理规划机制,允许用户在生成过程中直接打断、引导模型,无需重新开始,从而输出更精准、更贴合上下文的结果。这种实时可控性是与前代推理模型的显著区别 —— 以往中途修正往往需要完全重启。

GPT-5.4 核心性能

GPT-5..4 在多项关键行业基准测试中刷新最优成绩:
评测基准 GPT-5.4 GPT-5.3-Codex GPT-5.2
GDPval(胜率或持平) 83.0% 70.9% 70.9%
SWE-Bench Pro(公开) 57.7% 56.8% 55.6%
OSWorld-Verified 75.0% 74.0% 47.3%
Toolathlon 54.6% 51.9% 46.3%
BrowseComp 82.7% 77.3% 65.8%
在覆盖美国 GDP 前 9 大行业、共 44 种职业的 GDPval 测试中,GPT-5.4 在 83% 的对比中达到或超过行业专业人员水平,较 GPT-5.2 的 70.9% 大幅提升。
据法律 AI 公司 Harvey 应用研究主管 Niko Grupen 透露,在面向法律文档的 BigLaw Bench 评测中,该模型得分达到 91%
GPT-5.4 是 OpenAI 首个具备原生计算机操作能力的通用大模型,支持智能体通过截图、鼠标指令、键盘输入直接与软件交互。
OSWorld-Verified 环境中,其成功率达 75.0%,超过人类基准 72.4%,更远超 GPT-5.2 的 47.3%。
WebArena-Verified 环境中,GPT-5.4 浏览器操作成功率为 67.3%;仅依靠截图观察的 Online-Mind2Web 任务中,得分高达 92.8%
该模型 API 还支持 100 万 tokens 上下文窗口,可支撑大规模智能体长周期任务,与谷歌、Anthropic 等厂商的上下文能力持平。
OpenAI 强调,GPT-5.4 是事实准确性最高的一代模型:与 GPT-5.2 相比,单条陈述错误率下降 33%完整回复错误率下降 18%
该模型同时实现显著的 token 效率提升,解决相同推理问题消耗更少 token,直接降低企业开发者的 API 成本并加快响应速度。
在实际生产环境中,Mainstay 公司 CEO Dod Fraser 表示,GPT-5.4 在近 3 万个房产门户任务中首次尝试成功率达 95%,完成速度提升 3 倍,token 消耗较前代计算机操作模型减少 70%
GPT-5.4 Thinking 现已向 ChatGPT Plus、Team、Pro 订阅用户开放,并将在未来三个月内逐步取代 GPT-5.2 Thinking。开发者可通过 OpenAI API 调用 GPT-5.4 与 GPT-5.4 Pro,生产环境支持优先处理,实现更快 token 生成速度。

美国网络安全和基础设施安全局(CISA)于周四将影响海康威视与罗克韦尔自动化产品的两处安全漏洞纳入已知被利用漏洞(KEV)清单,并证实存在在野主动利用行为
这两处Critical 高危漏洞分别如下:

CVE-2017-7921(CVSS 评分:9.8)

影响海康威视多款产品的身份认证不当漏洞,可使恶意攻击者实现系统权限提升并访问敏感信息。

CVE-2021-22681(CVSS 评分:9.8)

存在于罗克韦尔自动化多款产品(Studio 5000 Logix Designer、RSLogix 5000、Logix 控制器)中的凭证保护不足漏洞。拥有控制器网络访问权限的未授权攻击者可绕过校验机制完成认证,并篡改设备配置与应用代码。

CVE-2017-7921 被纳入 KEV 清单四个多月前,SANS 互联网风暴中心就已披露,监测到针对存在该漏洞的海康威视摄像头的在野攻击尝试

但目前暂无公开报告显示 CVE-2021-22681 已被用于实际攻击。

依据约束性运营指令(BOD 22-01)要求,鉴于漏洞已被主动利用,建议联邦行政部门机构在2026 年 3 月 26 日前将相关软件升级至受支持的最新版本。
CISA 表示:“此类漏洞是网络攻击者常用的攻击入口,对联邦机构构成重大安全风险。”
“尽管 BOD 22-01 仅适用于联邦行政部门机构,但 CISA强烈敦促所有组织将 KEV 清单内漏洞的及时修复纳入漏洞管理流程,以降低遭受网络攻击的风险。”

人工智能工具已成为日常工作流程的核心 —— 从能总结网页内容的浏览器,到帮助用户在线决策的自动化智能体,无处不在。
随着这些工具能力不断增强,攻击者正研究如何将 AI 反制于其原本服务的用户
一种名为间接提示注入(IDPI) 的攻击手段,可让攻击者在外观正常的网页内容中嵌入隐藏指令,诱骗 AI 智能体执行未获授权的命令。
与直接向聊天机器人输入恶意指令的直接提示注入不同,IDPI 攻击完全在后台静默进行
攻击者将指令藏匿于网页中 —— 嵌入HTML 代码、用户评论、元数据或不可见文本—— 然后等待 AI 工具访问或处理该页面。
当 AI 执行总结内容、审核广告等常规任务读取页面时,可能会在不知情的情况下将这些隐藏指令当作合法命令并执行。
Unit 42 研究人员证实,这类攻击已不再停留在理论阶段。通过对大规模真实环境流量的分析确认,IDPI 攻击正活跃部署在各大网站中,研究已记录到22 种构造恶意载荷的独立技术
研究结果还揭示了此前未被记载的攻击者目的,包括全球首个公开的、利用 IDPI 绕过 AI 广告审核系统的真实案例
这类攻击可造成的危害范围极广。攻击者已利用 IDPI 实现SEO 投毒以抬高钓鱼网站搜索排名、发起未授权金融交易、迫使 AI 泄露敏感信息,甚至执行可摧毁整个数据库的服务器端指令
在一起监测到的案例中,单个网页内包含多达 24 次独立注入尝试,通过叠加多种投递方式提高至少一种方式成功触达 AI 的概率。
在所有监测流量中,攻击者最常见的目的是制造无关或干扰性 AI 输出,占比 28.6%;其次是数据销毁,占 14.2%;绕过 AI 内容审核占 9.5%。
这表明攻击者针对 AI 系统的目的极为多样 —— 从制造低级别干扰,到实施严重的金融欺诈。

攻击者如何隐藏与投递恶意载荷

这项研究最重要的发现之一,是攻击者为隐藏注入指令所投入的复杂程度。
他们不会简单粗暴地在页面中插入覆盖指令,而是多层叠加隐匿手段,在确保 AI 智能体可读取并执行的同时,躲避人工审核与自动化扫描检测。
最常见的投递方式为可见明文注入,占比 37.8%—— 将命令直接插入绝大多数用户不会留意的页脚区域。
HTML 属性隐匿位居第二,占 19.8%:将恶意提示词放入 HTML 标签属性中,浏览器不可见,但 AI 可读取。
CSS 渲染隐藏占 16.9%:攻击者通过将字体大小设为 0 或把内容移出屏幕实现文本隐藏。
越狱诱导(绕过安全过滤器迫使 AI 服从注入指令)方面,社会工程学占绝对主导,出现在 85.2% 的案例中。
攻击者将指令伪装成来自开发者或管理员,使用 “god mode”“developer mode” 等触发词,让模型认为指令合法且必须执行。
安全团队与 AI 开发者应将所有不可信网页内容视为潜在攻击源,在 AI 处理外部数据的所有环节实施输入校验。
部署隔离(spotlighting)技术—— 将不可信内容与受信任的系统指令分离 —— 可降低攻击面。AI 系统应遵循最小权限设计,执行高影响操作前必须获得用户明确授权。
检测工具必须超越关键词过滤,引入行为分析与意图分类,能够识别依靠编码、混淆、多语言等方式绕过防御的 IDPI 攻击。