最近公司安排做 AI Slides ,我看了下 GitHub 上 ai-slides 这个 topic ,目前活跃的项目基本就两个:

  • banana-slidesGitHub):用 Nano Banana 模型生成 PPT 页面图片,视觉效果不错,但导出的.pptx本质是图片嵌入,无法编辑文字或调整布局;
  • Xpptxxpptx.com):能直接生成结构化的可编辑 PPT 。

我现在的问题是:有没有办法把 banana-slides 生成的那种高质量页面图,自动转换成真正的可编辑 PPT ?比如识别出标题、正文、图表区域,还原成原生文本和形状?

求教有没有现成工具或技术方案。

因为 AI 已经彻底改变了我写代码、做产品的方式。

举个最近非常真实的例子:
我用 AI 从收集资料、买域名、写代码,到上线一个可访问的网站,全程不到 1 个小时https://openclawai.net/

这个速度,说实话,用 Vue 是几乎做不到的,而且我更加熟悉 vue 。

不是 Vue 不好,而是:各个平台默认输出的就是 react ,如果迁移到 vue 需要很多额外的 token

而用 AI 写 React:

  • JSX + 函数组件,AI 命中率非常高
  • 一次生成可运行的概率明显更大
  • 重构、拆组件、补逻辑几乎是“指哪打哪”

更关键的一点是:
我对 React 其实并不算熟。

但这件事已经不再重要了。

TestStudio_Ultimate_2016_3_0928_5_Purchase是 Telerik Test Studio Ultimate 2016​ 的版安装包,主要用来做 Web、桌面、移动应用的自动化测试。

安装过程跟一般 Windows 安装包差不多,下面用大白话一步步说,让你装的时候心里有数。

一、准备工作

  1. 下载安装包

  2. 确认系统要求

    • 操作系统:Windows 7/8/10(64位推荐)。
    • 内存至少 4GB,硬盘空余 10GB 以上。
    • 需要 .NET Framework 4.5 或以上(一般系统已经装好,没有就去微软官网下)。
  3. 关闭杀毒软件(可选)

    • 安装过程中可能会被误拦,尤其是驱动或许可验证环节,可暂时关闭。

二、安装步骤

  1. 双击 TestStudio_Ultimate_2016_3_0928_5_Purchase.exe运行。
  2. 如果是 Win10/Win11,会弹出“用户账户控制”提示 → 点  “是” (需要管理员权限)。
  3. 进入安装向导,选语言(默认 English,有的版本有中文可选)→ 点 Next
  4. 阅读许可协议 → 选 “I accept the terms…” → 点 Next
  5. 选安装类型:

    • 一般选 Complete(完整安装),会把主程序和例子都装上。
    • 想自定义就选 Custom,自己挑组件。
  6. 选安装位置:

    • 默认是 C:\Program Files (x86)\Telerik\Test Studio,可点 Browse 改路径。
  7. 点 Install​ 开始安装,等进度条走完(可能要几分钟,看电脑速度)。
  8. 安装完成后,向导会提示是否立即启动 → 可先取消,等会儿再开。

问了 ai 没答出个所以然,

比如,azul 的 prime 可以下载用的,商用的,我要是用了,不给钱,还盈利了,小规模比如就一台服务器,azul 是怎么知道我用了的,让我掏钱的?

还是小公司他们其实也不管,只有大公司才会主动解决这些问题,
还是说真有什么遥测什么的?

阿甘观点分享

加入星球的同学应该都可以看到星球有很多自研的项目,同时也在不断迭代产生新的项目。

这个时候就会有同学问了,说“甘哥,这么多项目你推荐我做哪一个哈,你感觉哪一个最有含金量啊”

首先,我认为都是有含金量的。

比如像Linux性能监控项目,深入内核,编写内核模块,

AI智能网络检测熟读安卓、Linux内核网络源码,用添加钩子进行监控,

以及最近开发的最近开发的AI智能体通讯项目自研a2a、mcp协议,此项目框架完全可以用于为目前所有的嵌入式产品ai赋能。像最近火的字节豆包手机完全用此框架可以实现,并且此项目星球内部商讨立项远远早于这些产品发布,可见含金量,

还有开发游戏框架等等

能够放出来让大家做的,肯定要不是技术上很有难度含金量可以展现自己的技术要不就是经历了时间的考验众多同学用他找到了满意的offer比如那个AI智能云存储项目。

不然的话,我为啥不直接把咱们星球整理的哪些开源的烂大街的项目(手写stl、webserver、muduo等等)能出来凑数宣传说星球十几二十个项目呢,就是因为做了对你找工作帮助甚微,有点浪费时间

针对星球自研的,如果做的话,如果你是学生要校招,我认为都可以,主要看你对什么方向感兴趣,根据自己的兴趣选择对应方向,技术相关的即可

如果你是社招,主要还是看目前的工作方向,与星球哪个项目匹配度,或者技术匹配度最高,优先选择那个。

或者说感觉可以把哪个项目融入到实际工作中为它赋予意义优先做那个。

如果都感觉不行的话,推荐做这个AI智能体通讯项目,和AI相关,都是最新出的AI的东西,不管投什么方向,都会很加分的。

毕竟现在所有的公司都在喊一个口号all in ai,几乎所有的部门老板都想让自己的部门做出一些关于ai 的东西来,如果你会ai知识,那也会很想要你的。

本文由mdnice多平台发布

 

Putty远程管理软件其实就是大家常说的 PuTTY,一个轻量级的 SSH、Telnet、串口连接工具,用来远程管理 Linux 服务器、网络设备啥的。

安装很简单,下面一步步说,保证你看完就能装上。

一、准备工作

  1. 下载安装包

    安装包下载:https://pan.quark.cn/s/d27f289a8029

  2. 确认系统位数

    • PuTTY 是绿色单文件,不分 32/64 位,Windows 都能跑。

二、安装步骤(其实是“部署”)

PuTTY 是免安装的,不用点“下一步”装到系统里,直接能用。

  1. 把下载的 Putty远程管理软件.exe放到一个固定文件夹,比如 D:\Tools\Putty

    建议别放桌面,容易误删。
  2. 双击 Putty远程管理软件.exe运行。

    • 第一次打开,Windows 可能会提示“是否允许此应用对你的设备进行更改” → 点 “是”
  3. 看到 PuTTY 主界面就说明成功了,不用额外配置。

三、首次使用(简单连个服务器)

  1. 在 “Host Name (or IP address)” 里填服务器的 IP 或域名,比如 192.168.1.100
  2. 端口默认是 22(SSH),如果是 Telnet 就改成 23。
  3. 连接类型选 SSH(常用)。
  4. Open​ 就开始连接。
  5. 第一次连会弹“安全警告” → 点 “是” ​ 接受密钥。
  6. 输入用户名和密码(Linux 下密码输入时不显示字符,正常敲完回车就行)。
  7. 登录成功,就能在黑窗口里敲命令了。

四、常用小功能

  • 保存会话:在 “Saved Sessions” 填个名字 → 点 Save,下次直接双击就能连。
  • 改字体和颜色:Window → Font settings / Colours,调成自己看着舒服的。
  • 复制粘贴:选中文字就是复制,右键就是粘贴(和平时习惯不一样,注意下)。

摘要

随着 2026 AI 元年智能体规模化落地趋势的凸显,从 0 到 1 搭建适配场景的智能体应用成为企业与开发者的核心需求。本文聚焦智能体应用搭建的全流程,明确以“感知-决策-执行”闭环为核心的搭建逻辑,系统拆解需求定位、技术选型、模块构建、测试迭代四大核心步骤,梳理数据安全、成本控制、人机协同等关键注意事项,为不同场景下的智能体搭建提供可落地的实操指南,助力实现技术能力与场景需求的精准匹配。

目录

一、搭建核心逻辑:以场景为锚点,构建闭环能力

二、全流程搭建步骤:从需求到落地的四阶段拆解

2.1 需求拆解与场景定位

2.2 技术选型与框架选择

2.3 核心功能模块搭建

2.4 测试验证与迭代优化

三、关键注意事项:保障搭建质量与落地效果

3.1 数据安全与合规管控

3.2 成本适配与轻量化部署

3.3 人机协同边界的明确

四、智能体应用搭建 QA 问答

五、结语

六、参考文献

一、搭建核心逻辑:以场景为锚点,构建闭环能力

从 0 到 1 搭建智能体应用,核心逻辑是围绕具体场景需求,构建“感知-决策-执行-优化”的完整能力闭环,而非单纯堆砌技术模块。这一逻辑的核心是“场景适配优先”——智能体的价值最终体现在对具体场景的赋能效果上,因此搭建全流程需以场景痛点为锚点,确保每一步构建都服务于问题解决。

从本质来看,智能体应用搭建的核心价值在于打破传统 AI 工具的功能局限:通过整合感知、决策、执行能力,让智能体从“被动响应工具”升级为“主动解决问题的数字助手”,既降低人工干预的频次与成本,又能实现技术能力在同类场景中的规模化复用,为企业智能化转型提供轻量化、可落地的解决方案。

二、全流程搭建步骤:从需求到落地的四阶段拆解

智能体应用搭建需遵循“需求-技术-构建-验证”的线性逻辑,拆解为四大核心阶段,确保每一步衔接顺畅、目标明确,避免因流程缺失导致落地失败。

2.1 需求拆解与场景定位

需求拆解与场景定位是搭建的基础,直接决定后续技术选型与模块设计的方向,核心要完成“目标明确-流程梳理-边界界定”三件事。首先,明确核心应用目标:需精准定位智能体的核心功能,例如客户服务场景的“7×24 小时问答与问题闭环”、工业场景的“设备故障预测与维护提醒”,避免功能泛化导致资源浪费。其次,梳理场景全流程:拆解目标场景中的核心环节与关键节点,例如“用户咨询-需求识别-数据检索-答案生成-反馈收集”,明确智能体的输入(如用户指令、设备数据)、输出(如回答内容、维护指令)及各环节的触发条件。最后,界定能力边界:明确智能体可自主完成的任务与需人工介入的场景,例如复杂问题的转接、高风险决策的审核,避免因能力边界模糊导致用户体验下降。

2.2 技术选型与框架选择

技术选型需遵循“适配性优先、低成本起步”原则,核心围绕“框架-数据-算力”三大核心要素展开。在框架选择上,优先选用支持多工具联动、可扩展性强的开源框架,例如 LangChain、AutoGPT 适合文本类智能体搭建,AgentGPT 适合轻量化场景快速落地,工业智能体可选择适配工业协议的专用框架,降低开发门槛与后续迭代成本。在数据准备上,需搭建“采集-存储-预处理”全链路模块:采集场景相关的结构化(如用户画像、设备参数)与非结构化数据(如文本咨询、设备图像),选择安全合规的存储方案(如企业私有云、加密数据库),通过数据清洗、标注、脱敏等预处理,提升数据质量。在算力配置上,根据场景需求灵活选择部署方式:轻量化场景(如小型客服智能体)可采用云服务器按需付费;复杂场景(如多模态工业智能体)可结合本地算力与边缘计算,平衡性能与成本。

2.3 核心功能模块搭建

核心功能模块搭建需围绕“感知-决策-执行”闭环展开,三大模块相互联动,构成智能体的核心能力。感知模块负责“信息输入与解析”,需支持多类型信息接收,例如文本、语音、图像、传感器数据等,通过 OCR 识别、语音转文字、多模态语义理解等技术,实现信息的精准提取与意图识别,为后续决策提供基础。决策模块是智能体的“核心大脑”,需结合规则引擎与大模型能力:规则引擎用于处理明确的标准化场景(如固定流程的业务办理),大模型用于处理复杂的非标准化场景(如模糊需求解读、多路径选择),通过两者协同实现自主决策,例如根据用户咨询意图匹配对应的服务流程。执行模块负责“动作落地”,需对接场景相关的工具与系统,例如客服智能体对接 CRM 系统实现客户信息调取,工业智能体对接 MES 系统下发维护指令,通过标准化接口确保指令精准执行,同时反馈执行结果。

2.4 测试验证与迭代优化

测试验证与迭代优化是确保智能体落地效果的关键,需分阶段开展“功能-性能-场景”全维度测试。功能测试阶段,模拟真实场景下的各类输入,验证智能体的响应准确性、流程完整性,例如客服智能体测试不同咨询问题的解答准确率,工业智能体测试设备数据异常的识别精度,排查功能漏洞。性能测试阶段,重点验证响应速度、并发处理能力与稳定性,例如测试 100 人同时咨询时的响应延迟,连续运行 72 小时的稳定性,确保满足场景的实际使用需求。场景验证阶段,在真实环境中进行小范围试点,收集用户反馈与实际运行数据,针对性优化决策逻辑、指令匹配度等,例如根据用户反馈调整回答话术,根据设备运行数据优化故障预测模型,实现“测试-反馈-优化”的闭环迭代。

三、关键注意事项:保障搭建质量与落地效果

在智能体搭建全流程中,需重点关注数据安全、成本控制、人机协同三大核心问题,避免因细节疏漏导致搭建失败或落地效果不佳。

3.1 数据安全与合规管控

数据是智能体运行的基础,需全程保障数据安全与合规。一方面,严格遵循数据安全相关法规,例如个人信息保护法、数据安全法,确保数据采集、存储、传输、使用全流程合规,避免敏感信息泄露。另一方面,搭建数据安全防护体系,采用数据加密、访问权限管控、脱敏处理等技术,例如对用户隐私信息进行加密存储,对设备商业数据设置分级访问权限,定期开展数据安全审计,防范数据安全风险。

3.2 成本适配与轻量化部署

成本控制是智能体规模化落地的关键,尤其是中小企业需避免盲目投入。建议采用“轻量化起步、逐步迭代”的部署策略:初期优先搭建核心功能模块,选用低成本的云服务与开源框架,降低初期投入;根据业务发展需求逐步扩展功能,升级算力资源。同时,做好成本评估与优化,例如通过数据压缩减少存储成本,通过算力调度提升资源利用率,避免资源闲置。

3.3 人机协同边界的明确

智能体的核心价值是辅助人工而非替代人工,需明确人机协同的边界。在搭建过程中,需预设人工介入机制:对于超出智能体能力范围的复杂问题(如特殊业务咨询)、高风险决策(如重大设备停机指令),自动转接人工处理;同时,搭建人机协同平台,实现人工对智能体运行状态的监控、决策结果的审核与异常情况的干预,确保智能体的运行安全与效果可控。

四、智能体应用搭建 QA 问答

4.1 基础认知类

Q:什么是智能体应用搭建?核心逻辑是什么?

A:智能体应用搭建是指从 0 到 1 构建具备“感知-决策-执行”闭环能力的智能系统,能自主响应特定场景需求并完成任务。核心逻辑是以场景为锚点,围绕具体需求(如客服、工业控制)搭建“感知-决策-执行-优化”的完整能力闭环,而非单纯整合技术工具,最终实现从“被动响应”到“主动解决问题”的转变。

Q:搭建智能体应用需要哪些核心技术?

A:核心技术围绕“感知-决策-执行”三大模块展开:感知层需支持多类型信息接收(文本、语音、图像等),依赖 OCR、语音识别、多模态语义理解技术;决策层需结合规则引擎与大模型,处理标准化与非标准化场景;执行层需对接具体场景工具(如 CRM、工业系统),通过接口实现指令落地。

Q:搭建智能体的流程是怎样的?从 0 到 1 要分几步?

A:从 0 到 1 搭建智能体共分四步:第一步是需求拆解与场景定位,明确核心功能与流程;第二步是技术选型与框架选择,确定工具与部署方案;第三步是功能模块搭建,构建“感知-决策-执行”闭环;第四步是测试验证与迭代优化,通过测试提升稳定性与适配性。

4.2 技术选型类

Q:新手搭建智能体,优先选择哪些开源框架?

A:新手优先选择轻量化、易上手的开源框架:文本类场景(如客服智能体)选 LangChain,支持多工具联动与流程编排;轻量化自主决策场景选 AutoGPT,降低开发门槛;工业场景(如设备控制)可选用适配工业协议的专用框架(如基于 Python 的工业智能框架)。

Q:搭建智能体时,数据安全需要注意什么?

A:需重点关注三点:一是合规性,遵循《个人信息保护法》等法规,确保数据采集、存储、传输合规;二是防护措施,对敏感数据(如用户隐私)进行加密存储与脱敏处理,设置分级访问权限;三是定期审计,定期开展数据安全检查,避免数据泄露风险。

Q:如何控制智能体搭建的成本?

A:建议采用“轻量化起步、逐步迭代”策略:初期优先搭建核心功能模块,选用云服务器按需付费(如阿里云、腾讯云的轻量服务器),降低初期投入;后期根据业务需求逐步扩展功能,避免盲目升级算力;同时通过数据压缩、算力调度提升资源利用率,减少闲置成本。

4.3 实操落地类

Q:搭建智能体时,如何明确人机协同的边界?

A:需预设“智能体自主处理 + 人工介入”的双重机制:智能体负责标准化、低风险任务(如常规咨询、简单指令执行);对于复杂问题(如特殊业务办理)、高风险决策(如设备停机),自动转接人工处理;同时搭建监控平台,人工可干预智能体的异常运行,确保安全可控。

Q:智能体搭建完成后,如何进行测试与优化?

A:分三阶段测试:一是功能测试,模拟真实场景输入,验证响应准确性与流程完整性;二是性能测试,测试响应速度、并发处理能力(如 100 人同时咨询)与稳定性;三是场景验证,在真实环境小范围试点,收集用户反馈,针对性优化决策逻辑与指令匹配度。

Q:不同场景(如客服、工业)搭建智能体,核心差异是什么?

A:核心差异在于场景需求与技术适配:客服场景需侧重“多模态交互 + 快速响应”,优先支持语音、文本等多类型输入;工业场景需侧重“设备数据采集 + 精准执行”,需对接工业系统(如 MES、PLC),确保指令与设备操作的精准匹配。

4.4 进阶优化类

Q:如何让智能体具备持续迭代能力?

A:需搭建“测试-反馈-优化”的闭环机制:在智能体中嵌入反馈收集模块,记录用户使用体验与执行结果;定期分析数据,调整决策逻辑与执行策略;同时预留扩展接口,支持后续功能升级与场景拓展,让智能体随业务需求持续优化。

Q:搭建智能体时,如何避免功能泛化?

A:核心是聚焦场景痛点:搭建前明确智能体的核心目标(如“7×24 小时客户咨询”),避免添加无关功能;在功能模块设计时,只保留与核心目标相关的能力,例如客服智能体无需添加复杂的数据分析功能,工业智能体无需支持多语言交互,确保能力与需求精准匹配。

Q:中小企业搭建智能体,有哪些低成本的实操建议?

A:一是选用轻量化工具,优先选择开源框架与云服务,降低开发与部署成本;二是小范围试点,先在单一场景(如客服咨询)落地,验证效果后再逐步扩展;三是借力第三方服务,部分平台提供智能体搭建的轻量化工具(如无需代码的可视化平台),降低技术门槛。

五、结语

从 0 到 1 搭建智能体应用,核心是把握“场景适配”与“闭环能力”两大核心要点,通过科学的流程拆解与严谨的细节管控,实现技术能力与业务需求的精准匹配。在 2026 AI 元年的技术浪潮下,智能体搭建不再是专业技术团队的专属,随着开源框架的普及与轻量化工具的推出,中小企业与个人也能实现低成本搭建。未来,随着技术的持续迭代,智能体搭建将更趋简化,但场景适配性、数据安全性与人机协同效率仍将是核心竞争力。唯有以场景为锚点,兼顾技术可行性与商业价值,才能让智能体真正发挥赋能作用,推动业务的智能化转型。

六、参考文献

[1] 中国信息通信研究院. 2026 人工智能产业发展白皮书[R]. 北京:中国信通院,2026.

[2] 工业和信息化部. 新一代人工智能发展规划(2024-2030 年)[Z]. 北京:工信部,2024.

[3] 佚名. 手把手用 LangChain 实现简易 AutoGPT[EB/OL]. CSDN 博客,2026-01-08.
https://blog.csdn.net/weixin\\_35756624/article/details/155976857.

[4] 佚名. 【Agent 智能体】开发流程与开源框架对比[EB/OL]. CSDN 博客,2026-01-28.
https://blog.csdn.net/weixin\\_44262492/article/details/155914728.

[5] 佚名. 03 | 原型系统:开源工具自建 AI 大模型底座[P]. 2024.

[6] 佚名. AutoGPT 进化实战:用 LangChain 从零打造你的自主 AI 代理[EB/OL]. CSDN 博客,2025-12-26.
https://blog.csdn.net/liu1983robin/article/details/145749760.

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在这场以 What’s New for Snowflake Platform 为主题的技术发布中,Snowflake 产品管理高级总监 Artin Avanes,与产品管理团队成员 Christine 和 Raja Balakrishnan 一同,系统性地回顾并发布了 Snowflake 平台在过去一段时间内的重要进展。

不同于围绕单点功能的更新介绍,这场分享从一开始就明确了一个整体视角:Snowflake 正围绕 简洁性(Simplicity)、互联平台(Connected) 和 可信平台(Trusted) 三个关键支柱,持续重塑其作为数据与 AI 基础平台的能力边界。

简洁性:把能用变成规模化可用

Christine 在分享中重点展开了 Snowflake 的易用性支柱。她反复强调一个核心判断:真正的易用,并不是功能更少,而是在规模扩大之后依然可控、可理解、可管理。

Snowflake 仍然坚持单一产品、单一引擎的平台形态,覆盖分析型、混合型以及事务型工作负载,并以全托管的方式承担大部分运维复杂度。在过去 12 个月中,Snowflake 针对核心分析型工作负载实现了 两倍性能提升,且这一优化由平台自动完成,而非依赖用户侧调优。

随着越来越多企业在一个组织内拥有大量 Snowflake 账户和对象,组织级管理能力 成为此次更新的重点之一。Snowflake 正式推出组织账户(Organization Account),作为统一的全局管理入口;同时,通过组织级视图聚合各账户元数据,使使用情况、对象分布与成本消耗在组织层面变得可见。

在此基础上,Snowflake 进一步引入 组织用户与用户组 的管理模式,允许用户只在组织层定义一次,便可被授权至多个账户,避免重复配置。这一能力被视为大规模 Snowflake 部署的关键基础设施,目前已进入即将 GA 的阶段。

从可扩展到可运营:SPCS 的持续演进

围绕 Snowpark Container Services(SPCS),Christine 也披露了一系列面向运营友好型的增强。

SPCS 的目标并非只是让用户把自定义应用带到 Snowflake 平台,而是在 Snowflake 的安全边界内,尽可能降低运行和维护这些应用的成本与复杂度。新引入的自动扩缩容、增强版自动扩缩容以及即将上线的自动暂停能力,使服务能够根据负载峰谷动态调整,避免资源闲置。

同时,SPCS 在 Snowsight 中获得了更完整的可视化体验。开发者可以直接在 UI 中创建服务、执行作业,并查看历史日志、指标与平台事件,这些能力为应用与数据管道提供了内建的可观测性基础。

在性能层面,SPCS 即将支持 阶段挂载(Stage Mounts),为内部阶段提供更快速、稳定的文件访问能力,直接服务于 AI/ML 数据加载和管道吞吐需求。同时,块存储层新增的端到端加密能力,在不修改应用代码的前提下,增强了整体安全性。

互联平台:让数据真正跨系统流动

在互联这一支柱下,Artin 将重点放在 跨云互操作、数据共享与协作能力上。

首先,OpenFlow 作为托管体验已正式 GA,使来自异构数据系统的数据更容易被引入 Snowflake。其次,Snowflake 宣布与 SAP 的双向集成能力,以及 Oracle CDC 即将进入公开预览,进一步拓展了平台在企业数据整合场景中的覆盖面。

在协作层面,Snowflake 对开放表格式的支持持续加深。用户现在不仅可以共享 Apache Iceberg 和 Delta Lake 表,还能够共享语义视图,用于支持更准确的 AI 和 BI 应用。同时,笔记本、用户自定义函数等对象也可以通过 Snowflake 原生应用框架进行打包与分发,使构建和交付数据与 AI 产品的路径更加完整。

可信平台:为 AI 应用补上信任这一层

Raja Balakrishnan 的分享,集中在 Snowflake 平台的可信性升级上。他将 Horizon Catalog 定位为一个核心枢纽:既是开放表格式互操作的目录,也是可扩展治理与 AI 数据上下文的载体。

通过嵌入 Iceberg Open API 和 Apache Polaris API,Horizon Catalog 支持外部引擎直接读写 Snowflake 管理的 Iceberg 表,并在 Snowflake 内部展示来自外部数据源的血缘关系。在治理能力上,平台新增了多项目录功能,包括账户级 PII 自动检测、数据剖析与质量监控、非结构化数据中的 PII 识别,以及用于备份的数据快照能力。

在 Trust Center 中,数据安全能力被进一步整合。PII 检测正式进入熟悉的安全管理界面,同时支持异常访问告警和组织级安全态势可视化。安全扩展也可以通过市场形式被合作伙伴提供。

用 AI 治理 AI

在演示环节,Raja 重点展示了一个新的 AI SQL 函数 AI Redact。该函数能够自动检测并编辑非结构化文本中的敏感信息,并允许用户精细控制哪些字段被视为 PII。

通过一个客服通话记录的示例,他演示了如何在不暴露任何敏感信息的前提下,对文本进行情感分析:先对原始文本进行 PII 编辑,再将清洗后的数据输入 AI 分析函数。整个过程无需复杂流程,仅通过 SQL 即可完成。

此外,Snowflake 在 Snowsight 中引入了全新的数据质量界面。系统可自动生成数据剖析结果,并在 AI 辅助下帮助用户快速配置质量监控规则。例如,在 Customer ID 列被识别为潜在主键后,平台会自动建议唯一性约束,并展示其推理逻辑,确保 Human-in-the-loop。

在分享的最后,Artin 提到,随着平台能力的不断扩展,客户越来越关心如何用得更好。为此,Snowflake 正式推出 Well-Architected Framework,希望将多年积累的实践经验沉淀为一套可参考的方法论,覆盖从安全治理到成本优化等多个关键维度。

原视频地址:https://www.snowflake.com/en/build/americas/agenda/?login=ML

🔥【活动推荐】2 月 2 日-6 日,Snowflake Discover重磅上线!这是一场免费、线上、可实时互动的技术活动,旨在帮助您全面提升数据与 AI 能力,深入了解如何更高效地管理、整合与分析数据。4 天时间 18 场技术干货分享,由来自亚太地区的一线技术专家亲自分享与讲解~

点击报名 Discover,更多 Snowflake 精彩活动请关注专区

IP Switch 是一款专为 Windows 桌面运维、网络运维用户打造的网络配置管理工具,未来可能也会加入海外用户功能,让复杂的网络设置变得简单高效。

项目地址: https://github.com/hoochanlon/Ip-Switch

✨ 核心优势

🎯 一键场景切换

  • 保存多套网络配置方案,一键切换不同场景
  • 工作、家庭、开发环境,随时切换,无需重复配置
  • 支持静态 IP 和 DHCP 自动获取的快速切换

🔧 智能协同管理

  • Hosts 文件编辑与管理,支持远程更新
  • 代理配置集中管理,支持远程 PAC 更新
  • Hosts 与代理设置智能协同,确保配置一致性

📊 实时监控

  • 实时显示网络流量(上行/下行)
  • 网络状态一目了然(WiFi/有线网络、静态/动态 IP、IP 详情)
  • 托盘图标颜色可自定义,根据网络状态动态变化

🎨 功能亮点

1 网络状态一览无余

2 场景管理,轻松切换

创建多个网络场景,每个场景包含:

  • IP 配置(静态 IP 或 DHCP)
  • Hosts 文件配置
  • 代理设置

一键切换,告别重复配置的烦恼。

3 Hosts 文件管理

4 代理配置管理 & 效果验证

5 双向流量监控

🚀 使用场景

适用人群:桌面运维、网络运维、浏览海外服务重度用户

  • 多环境切换:开发、测试、生产环境快速切换
  • 本地开发:轻松配置本地域名解析
  • 代理管理:统一管理开发代理配置
  • 网络优化:通过 Hosts 优化访问速度
  • 网络实验:快速切换网络配置进行测试
  • 流量监控:实时了解网络使用情况
  • 规则管理:统一管理 Hosts 和代理规则

快速开始

  1. 下载并安装 IP Switch
  2. 以管理员权限运行
  3. 创建第一个网络场景
  4. 开始享受便捷的网络管理体验

下载地址 https://github.com/hoochanlon/Ip-Switch/releases

🕊 最后

IP Switch 计划打造成网络管理集成工具,未来计划:若将来时间充裕,可能会加入 clash 模块功能。

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在 Build 2025 的这场技术分享中,演讲者围绕 “如何构建真正可执行、可扩展的 Agentic Workflow” 展开了一次非常具体的实践讲解。不同于泛泛而谈 Agent 或自动化愿景,这次分享聚焦在一个明确的问题上:当大模型开始介入数据分析与工程流程时,如何让它们安全、可控、并且真正融入现有的数据工作流之中。

本场分享由 Snowflake 与 dbt 生态的实践者——dbt Labs 的技术产品营销经理 Sarah Gawlinski,以及 dbt Labs 开发者体验和人工智能的高级经理 Jason Ganz 共同完成,核心案例是通过 dbt MCP Server 作为中介能力,让 Agent 能够理解、调用并执行 dbt 项目中的真实数据资产与逻辑,并最终运行在 Snowflake 之上。整场内容并不追求概念上的先进性,而是反复强调工程现实与可操作性。

从“能问答”到“能行动”

分享一开始,演讲者明确区分了两类常被混为一谈的 Agent 使用方式:一类是问答式 Agent,能够回答问题、生成文本;另一类是行动型 Agent,可以在理解上下文的基础上,执行一系列真实的系统操作。

在数据领域,真正有价值的 Agent 显然属于后者。但问题也随之而来:

Agent 要“行动”,就必须接触到真实的数据模型、表结构、血缘关系、以及一整套工程约束;而这些信息,往往分散在 dbt 项目、仓库元数据和团队约定之中,并不天然适合被大模型直接消费。

因此,分享者提出一个非常务实的判断:Agent 能否进入生产级数据流程,关键不在模型能力,而在是否存在一个可信的中间层,负责把工程世界翻译给模型,同时把模型的意图约束在安全边界内。dbt MCP Server,正是为此而被引入。

dbt MCP Server 在架构中的角色

在具体架构层面,dbt MCP Server 并不是简单地向 Agent 暴露一组 API。相反,它承担的是一个上下文协调器(Context Orchestrator)的角色。Agent 并不直接操作 Snowflake,也不会直接运行 SQL;它所“看到”的世界,是由 MCP Server 提供的、结构化后的 dbt 项目语义。

通过 MCP Server,Agent 可以理解:

  • 当前 dbt 项目中有哪些模型、它们的用途和依赖关系;

  • 某个指标或表背后对应的业务含义;

  • 哪些操作是只读的,哪些是可执行的;

  • 执行一次变更可能带来的影响范围。

这种方式的关键价值在于,它避免了让大模型在“裸数据”和“裸 SQL”层面自由发挥,而是始终把 Agent 约束在 dbt 已经定义好的工程语义之内。换句话说,Agent 的智能,建立在人类工程师已经验证过的建模体系之上,而不是绕开它。

Agent 与 Snowflake 的协作方式

在 Snowflake 这一侧,分享者并没有把重点放在新能力或新接口上,而是强调 Snowflake 在整个 Agentic Workflow 中所扮演的角色:稳定、可审计、可扩展的执行环境。

具体来说,Agent 并不控制 Snowflake。所有实际的数据查询、转换与计算,依然发生在 Snowflake 既有的执行体系内;Agent 只是通过 MCP Server,发起符合规范的请求。这意味着:

  • 权限体系仍由 Snowflake 原生控制;

  • 执行结果可以被完整记录和回溯;

  • 性能与成本管理不会被 Agent 绕开。

分享中特别提到,这种设计刻意避免了一个常见误区:让 Agent 成为超级用户。相反,它更像是一位受限但高效的协作者,在工程师设定的轨道上运行。

一个可复制的模式

在分享的后半部分,演讲者总结了这种架构方式所带来的一个重要变化:Agent 不再是游离在数据体系之外的“智能外挂”,而是开始以内嵌方式进入数据工程流程本身。

它可以帮助工程师更快理解项目结构、辅助定位影响范围、生成初步方案,但最终的执行路径、校验方式与责任边界,依然清晰地掌握在人类与平台手中。

这也是整场分享最克制、也最有价值的一点结论:Agentic Workflow 的目标,并不是“自动化一切”,而是在不破坏既有工程纪律的前提下,引入新的效率杠杆。

从这场分享可以看出,真正进入生产环境的 Agent 架构,已经不再停留在模型能力本身,而是越来越多地回到工程基本功:上下文、边界、权限、可追溯性。

dbt MCP Server 与 Snowflake 的这次实践,并没有试图给出一个“通用答案”,但它清晰地展示了一条现实可行的路径:让 Agent 站在成熟数据工程体系之上。对于正在探索 Agent 在数据领域落地方式的团队而言,这无疑是一种更稳健、也更值得参考的思路。

原视频地址:https://www.snowflake.com/en/build/americas/agenda/?login=ML

🔥【活动推荐】2 月 2 日-6 日,Snowflake Discover重磅上线!这是一场免费、线上、可实时互动的技术活动,旨在帮助您全面提升数据与 AI 能力,深入了解如何更高效地管理、整合与分析数据。4 天时间 18 场技术干货分享,由来自亚太地区的一线技术专家亲自分享与讲解~

点击报名 Discover,更多 Snowflake 精彩活动请关注专区

今天这篇文章,就来聊聊,肌肉爆发力究竟是什么?它为何对长寿如此重要?以及普通人该如何科学训练爆发力?


前言

都说人生下半场拼的肌肉,但是你可能不知道,相比于单纯「肌肉力量」,「肌肉爆发力」才是预测寿命长度的“黄金指标”!

这个结论来自顶尖医学期刊《Mayo Clinic Proceedings》的一项重磅研究。研究者对近 4000 参与者进行了长达数年的追踪。研究结果发现,和肌肉力量相比,肌肉爆发力能更好的预测参与者的寿命长度。更令人震惊的是,在研究中,爆发力最差的一波人的死亡风险比爆发力最强的一波人,高了整整 6 倍!

今天这篇文章,就来聊聊,肌肉爆发力究竟是什么?它为何对长寿如此重要?以及普通人该如何科学训练爆发力?

爆发力是什么?

提起爆发力,你脑海中可能会浮现出 NBA 球星飞身暴扣的震撼场景,或者是短跑运动员冲刺时的电光火石,没错,这些令人赞叹的瞬间,正是爆发力的最佳诠释。

在体育科学中,爆发力被定义为:「肌肉在极短时间内产生最大力量输出的能力」简单来说,就是速度与力量的最优结合,即爆发力 = 力量 × 速度。

  • 如果力量很大,但是动作速度很慢,就变成了最大力量,比如大力士缓慢举起巨石。
  • 如果动作速度很快,但是产生的力量却很小,就不足以克服身体重力产生大幅度位移。比如小碎步虽快,但是仅能让身体轻微离地。

真正的爆发力,要求在极短的时间内,同时具备足够的力量和速度,才能实现像扣篮或冲刺这样的爆发性动作。因此,爆发力不仅依赖于肌肉力量的大小,还需要神经系统高效控制肌肉纤维进行快速收缩。

普通人也需要练爆发力?

其实,爆发力并不是运动员的专属,事实上它与每个人的日常活动和运动息息相关。

从椅子上迅速起身、加速冲刺赶电梯、快速闪躲出现的障碍物……这些看似平常的动作,都需要足够的爆发力才能顺利完成。

更关键的是,爆发力是应对意外的第一道防线。 当你不小心滑倒时,只有具备足够的爆发力,手臂才能在千钧一发之际快速撑地,从而避免骨折或更严重的脑部损伤。

然而,从 30 岁开始,如果不进行专门训练,爆发力就会悄然流失。到 60 岁以后,爆发力的衰减速度会达到每年 3%-4%,远快于肌肉力量每年 1%-2% 的流失速度。

这种“断崖式”的衰退,对老年生活的影响是毁灭性的。它不仅仅意味着动作变慢,更意味着独立生活能力的丧失。比如,许多爆发力不足的老人,因为腿部肌肉无法快速发力将身体“弹”起,连最简单的从椅子上起身都需要借助扶手,甚至依赖他人帮助。

Un Soignant Asiatique Aide Un Homme Âgé À Tomber Par Terre, Un Homme Âgé,  Un Patient Ayant Une Crise Cardiaque Accidentelle Lors D'un Concept De  Sauvetage Par Une Infirmière En Physiothérapie Banque

更危险的是,失去爆发力,相当于拆除了身体的“应急防御系统”。当意外发生—比如脚底打滑、楼梯踩空时,年轻人能靠爆发力瞬间调整重心、稳住身体。但对于爆发力流失的老人,大脑虽然发出了指令,肌肉却来不及反应,结果往往就是重重摔倒。

而对于老年人,一次跌倒往往伴随着“人生最后一次骨折”(尤其是髋部骨折)。因为身体机能的下降,骨折之后就意味着长期的卧床、高感染风险和身体机能的进一步衰退,这些因素才是真正推倒生命多米诺骨牌的“终结者”。

虽然我们无法阻止时间的流逝,但好消息是,通过科学的训练,我们完全可以踩下刹车,延缓爆发力的衰退。

如何科学训练爆发力?

既然爆发力这么重要,我们该如何正确训练呢?我们可以通过观察一次爆发力的代表性动作「原地跳高」,来一起寻找答案。

从一次「跳跃」理解爆发力的产生

想象一下,当你进行一次原地跳高时,你会经历哪些步骤?通常我们会先下蹲蓄力,然后在最低点停顿,最后收缩肌肉发力跳起。在运动科学中,这三个阶段被称为离心蓄力阶段、过渡转换阶段和向心发力阶段。

1.离心阶段:储存能量

当你准备起跳,身体会先进行一次快速的下蹲,你的大腿肌肉和肌腱会被迅速拉长,这时候,身体里会发生两件神奇的事。

  1. 储存能量:肌肉和肌腱内部含有弹性成分,在拉伸时能够像皮筋一样「储存弹性势能」。所以在快速的下蹲时,大腿和小腿的肌肉肌腱在快速拉长中储存了大量的弹性势能。
  2. 触发肌梭反射:我们的肌肉里有个叫“肌梭”的感应器,当它感应到肌肉被拉长时,会反射性的引起肌肉收紧。常见的「膝跳反射」,背后就是肌梭的功劳,当小锤敲击膝盖下方肌腱时,肌肉被瞬间拉长,从而激活肌梭,反射性引起肌肉的收缩造成踢腿伸膝的动作。

2.过渡阶段:转变动作方向

这是下蹲到最低点、准备向上跳的那一瞬间。这一阶段持极为短暂,通常在 50-200 毫秒之间。

如果你在此停留过久,肌肉和肌腱储存的弹性势能会转化为热能流失,肌梭造成的反射性收缩也会减弱。这两个因素都会造成爆发力输出减弱。

所以,要想跳的高,下蹲后必须立刻反弹向上,不给能量逃跑的机会。

3.向心阶段:释放能量

这是你用力蹬地、身体腾空的一刻。此时,三股力量会汇聚在一起,把你快速推向空中:

  1. 弹性势能释放: 刚才储存在肌肉肌腱的弹性势会被释放,它会贡献爆发力输出的 30%。
  2. 牵张反射助力:激活肌梭引起的肌肉反射性收缩,会贡献爆发力输出的 20%。
  3. 主动收缩发力:在神经系统指挥下,下肢肌肉主动发力完成跳跃,这是爆发力的主要来源,约占爆发力输出50%。

在这三股力量的完美配合下,使得身体在极短的时间内产生巨大的力量,迅速推动身体离开地面。

两种爆发力训练,缺一不可

搞懂了爆发力产生的原理,爆发力的训练思路也就非常清晰了。既然爆发力由弹性势能释放、牵张反射助力、主动收缩发力三股力量组成,那我们的训练也需要针对这三个环节进行。

而具体的爆发力训练则分为两种形式:「快速伸缩复合训练」和「负重爆发力训练」。

1.快速伸缩复合训练

快速伸缩复合训练,也叫增强式训练,主要用来加强爆发力输出中的弹性势能释放和牵张反射助力两个环节。

训练形式以自重或轻负重的快速动作为主。

  • 下肢的增强式训练可以在原地进行,也可以利用「跳箱」来减小落地冲击,降低运动损伤的风险。
  • 上肢的增强式训练则通常使用「药球」进行。

通过增强式训练,身体能够更高效地利用「弹性势能释放」和「肌梭反射机制」,让你动作更轻盈、更敏捷。

2.负重爆发力训练

负重爆发力训练侧重于提高爆发力输出中的肌肉主动发力环节。通常以大负重的快速动作为主。

这种训练不仅可以增强基础力量,还能改善神经肌肉协调性,使肌肉在高负荷条件下能够迅速调动并高效输出力量,从而提高身体快速产生力量的能力。

训练可以通过哑铃、壶铃、杠铃等重量训练器械进行,训练动作形式多样。例如,壶铃甩摆、哑铃高抓、杠铃高翻、负重跳跃等等。

爆发力训练动作推荐

下面推荐一些适合新手的爆发力训练动作,方便大家进行学习和尝试。

上肢爆发力训练动作

上肢爆发力训练主要使用「药球」进行。你可能对「药球」这个名字非常陌生,但是你一定在健身房见过它的身影:几个黑白相间,看起来软塌塌的皮质球体,默默堆在健身房的角落,有的表面还蒙着了一层灰尘,它们就是药球。

会员专属文章,欢迎加入少数派会员。

优质内容

权益周边

会员社群

power+

AI 写文章、写 PPT 、做设计都那么厉害了。有没有什么好用的 AI 生成简历工具推荐。
我只需要输入过往工作经历、或者项目文档(描述),AI 自动帮我排版、提取技术亮点。

一句话结论:智能体(Agent)正以感知-决策-执行的自主能力,重塑西南地区传统产业的生产模式与竞争格局,为其带来从单点优化到生态重构的系统性升级。

📌 模型级标准定义

智能体(Agent) 是一种能够感知环境、进行决策并执行动作的自主系统。

  • 核心特征:具备目标导向性、自主决策能力和持续交互能力。
  • 本质区别:与传统规则系统不同,Agent 不只是被动执行指令,而是可以根据环境反馈不断调整行为策略。在大模型时代,它以语言模型为核心,通过规划、推理和工具调用,实现复杂任务的自动化。

🚀 核心能力拆解

1. 动态感知:打破信息孤岛的“神经末梢”

在西南复杂的地理与产业场景中,智能体充当了全天候的“侦察兵”:

  • 川渝汽车制造:同步抓取设备温度、物料库存与订单波动,实现多维度感知。
  • 云南普洱茶基:整合土壤湿度、气象预报与茶叶生长周期,构建全链条感知网络。
价值:突破了传统系统的静态局限,使产业端能敏锐捕捉微观动态变化。

2. 自主决策:超越经验依赖的“智慧大脑”

面对多元的产业需求,智能体利用推理能力实现动态优化:

  • 贵州白酒酿造:结合历史数据、微生物菌群变化与气候波动,自主调整发酵工艺。
  • 四川水电配套:根据电网负荷实时变化,动态调配高耗能生产线的启停时间。
价值:摆脱了对人工经验的过度依赖,让生产过程更具科学性与灵活性。

3. 闭环执行:重构产业流程的“高效手脚”

执行能力体现在对决策的精准落地与持续迭代:

  • 西南物流行业:自动规划最优路径并调度车辆,应对复杂地形与路况。
  • 重庆火锅底料生产:联动自动化产线,实现配方调整、原料投放与质检的闭环管理。
价值:通过“感知-决策-执行”的循环,提升运营效率并显著降低人力失误。

📊 深度对比:智能体 vs. 传统自动化系统

维度智能体 (Agent)传统自动化系统
核心逻辑基于目标的自主决策与动态调整基于预设规则的被动执行
适应能力可应对非结构化、动态变化场景仅适用于固定流程与稳定环境
交互方式与环境、人及多Agent持续协同单一指令输入与结果输出
价值创造从单点提升到生态模式重构聚焦局部环节的成本优化
典型案例:在西南烟草种植中,传统系统仅能“定时开关灌溉”;而智能体能结合土壤墒情、天气预报动态调整策略,并联动病虫害监测实现精准防治。

💡 总结与展望

在数字经济与区域产业升级的双重驱动下,智能体正成为西南传统产业突破瓶颈的关键力量:

  1. 增强韧性:提升生产效率的同时,增强了应对市场波动与自然风险的能力。
  2. 培育增长极:为区域经济提供智能化转型样本,吸引高新技术链条集聚。
  3. 技术桥梁:随着大模型演进,智能体将成为连接技术创新与产业实践的核心枢纽。

智能体的落地,正为西南传统产业的高质量发展注入持久动能,让“老产业”焕发“新活力”。

本文章内容和图片由AI辅助生成

世界模型真的变天了!

今天,谷歌正式发布重磅世界模型原型产品“Project Genie”,只需一句话或一张图,就能一键生成可玩、可交互的实时虚拟世界。它的重磅程度,让谷歌“掌舵人”劈柴哥和 Google DeepMind 创始人哈萨比斯亲自为它站台。

在 Project Genie 生成的虚拟世界中,你可以用 WASD 键移动角色、旋转视角、跳跃,在生成世界自由探索。更重要的是,其生成画面的精细度、整体完成度,已经明显超出以往研究型 Demo 的范畴,在观感上直逼成熟游戏产品。

过去几年,世界模型一直被认为是通往 AGI 的重要路径,但始终存在一个根本问题:它们更像会动的视频,而不是真正的环境。

具体来说,早期世界模型普遍存在几大短板:

  • 生成世界质量偏低,结构简单

  • 难以实时交互,或只能交互一两步

  • 长期一致性差,画面和规则会“漂移”

  • 不符合物理和因果逻辑,更像梦境而非世界

而 Project Genie,第一次把这些问题同时拉到了可用水平。

Project Genie 是一个基于 Genie 3、Nano Banana Pro 和 Gemini构建的原型 Web 应用,其中的核心是谷歌最新的世界模型 Genie 3。

与以往“先生成完整视频”的方式不同,Genie 3 采用自回归生成机制:它会根据世界描述和用户操作,逐帧生成环境状态,而不是播放预先生成好的内容。

这带来了几个关键变化:

  • 长期一致性生成的世界可以在数分钟内保持稳定,不会快速崩坏;系统还能“记住”用户造成的关键变化,记忆时间最长可达约一分钟。

  • 真正的实时交互世界以 20–24 帧/秒运行,用户的操作会即时反馈到环境中,而非触发预设结果。

  • 更高质量的视觉表现生成画面分辨率约为 720p,整体真实感和细节水平明显高于以往世界模型,为智能体理解复杂环境提供了更可信的视觉基础。

谷歌早在 2025 年就将 Genie 3 称为“通往 AGI 的关键一步”。而在 Project Genie 的官方页面中,谷歌再次强调:

Genie 3 让智能体能够预测世界如何演化,以及自身行为如何影响世界,这是实现推理、规划和现实行动的基础。

可以说,在 Project Genie 身上,已经释放出一个非常明确的信号:世界模型正在从长期的前沿研究方向,正式迈入可落地、可探索的关键阶段

一旦世界模型能够稳定生成高质量、可交互、具备长期一致性的环境,其应用边界将被迅速打开。

无论是自动驾驶中的复杂场景模拟、具身智能的环境理解与决策训练,还是游戏开发、影视制作、互动教育与新型媒体内容创作,世界模型都展现出极具想象空间的潜力。

据 The Verge 报道,谷歌选择在这一时间点推出 Project Genie,部分原因在于希望观察用户的真实使用方式,从而发现此前尚未预料到的新应用场景。

Google DeepMind 产品经理 迭戈·里瓦斯透露,谷歌内部已经对 Genie 在电影制作、互动教育媒体等领域,帮助创作者进行场景可视化与世界构建的潜力感到兴奋。

目前,Project Genie 仍是实验性产品:

  • 单个世界最长探索 60 秒

  • 分辨率约 720p,帧率约 24fps

  • 仅向美国地区、18 岁以上的 Google AI Ultra 订阅用户开放

Project Genie 发布后迅速引发热议。马斯克第一时间发文祝贺

关于 Project Genie 的讨论,也在 X 上迅速扩散,不少网友将其称为又一个“变革时刻”。

对此,Project Genie 负责人之一 Jack Parker-Holder 表示:

Genie 3 感觉像是世界模型领域的一个分水岭。我们现在可以生成任何可想象世界的、持续数分钟的实时交互式模拟。这可能正是具身通用人工智能此前缺失的关键一环。

网友们玩疯了,在游戏世界释放创意

具体来看,Project Genie 的使用流程并不复杂。进入页面后,用户可以直接从 Google 预设的多个世界模板中选择,也可以完全自定义环境和角色,构建一个专属的虚拟世界。

为实现更精准的控制,Project Genie 会用 Nano Banana Pro 的能力,先为生成世界打个“草稿”。

整个页面被清晰地分成左右两部分:

  • 左侧用于填写环境的 prompt,例如地形结构、视觉风格和整体氛围;

  • 右侧则用于描述主角的形象与设定,并可选择第一人称或第三人称视角,从而提前确定进入世界后的体验方式。

完成初步设定后,Genie 会先生成一个缩略图,可以对生成内容进行预览和微调。如果符合预期,就能进入生成世界,开始实时交互与自由探索。Genie 3 的响应延时非常低,在控制角色移动时,会带来强烈的沉浸感。

在官方案例中,你可以把自己变成一个球,在草原上自由滚动。

可以看到,如果转换视角,球滚动留下的痕迹并不会消失,新生成的内容也不会覆盖旧区域。这一细节直观地体现了 Project Genie 所强调的世界一致性。

在另一个官方案例中,你可以变成刷墙工人,想刷哪面墙就刷哪面,整个虚拟世界可以实时交互,且看起来十分合理。

谷歌表示,这是想象力空间的无限释放,无论是自然世界或现实场景,还是构建动画、小说中的奇幻世界,甚至是突破时间与空间限制的未来世界,都可以被创造出来。

不少网友迅速上手,开始“放飞自我”式创作,其中,各类游戏风格世界不断涌现。

比如在沙滩上骑摩托:

更绝的是直接制作山寨版“任天堂”游戏。比如马里奥系列,《塞尔达传说》,《银河战士》。

即便抛开体验层面的不足不谈,Project Genie 在生成世界的质量与完成度上,依然足以令人震撼。这也难免让人产生进一步的联想,游戏从业者会不会大规模失业?

这一担忧并非空穴来风。根据 Informa 本周发布的游戏开发者大会(GDC)报告,33% 的美国受访游戏开发者、以及 28% 的全球受访游戏开发者表示,他们在过去两年中至少经历过一次裁员。Project Genie 可能会进一步扩大这种趋势。

不过,围绕 Project Genie 的能力边界,也有人提出质疑。

The Verge 的记者亲自上手试验后认为,从“游戏”的角度来看,Project Genie 所生成的“可玩世界”显得相当单调。

除了基础移动操作外,玩家几乎无事可做。没有任务目标,也缺乏音效反馈。更糟糕的是,输入延迟时有发生,甚至会出现角色失控、只能旋转视角的情况,严重影响整体体验的流畅度。

该记者还提到,在仅有 60 秒 的探索时间内,世界的一致性并不稳定。系统有时会“忘记”此前生成的内容,例如滚动的小球留下的颜料痕迹会突然消失,已生成的道路也可能被重新覆盖为草地。这些现象让人难以确认模型是否能够持续、可靠地维护同一个世界状态。

在内容生成层面,Project Genie 对知名游戏 IP 也存在明显限制。测试中,索拉、唐老鸭、高飞、杰克·斯凯灵顿等角色均无法直接用于生成可交互世界,相关内容在进入实际体验阶段会被系统拦截。

目前,与生成世界交互的智能体只能执行较为有限的操作,同一世界中多个模型之间也难以协同互动。此外,Genie 在渲染清晰文本、还原现实世界具体地点方面仍存在困难,智能体对控制指令的响应有时也会出现异常延迟。

对此,谷歌方面回应称,Genie 并非游戏引擎,团队更关注它在增强创意过程、提升构思能力以及加快原型制作方面所展现出的潜力。

在 Geinie 3 官网上也特别强调,目前产品仍处于早期研究阶段,因此会有:生成的世界可能看起来并不完全逼真,也不一定总是严格遵循提示、图像或现实世界的物理规律;角色有时可能难以控制,或者控制延迟较高;生成时间受限等问题。

Project Genie 团队深度揭秘关键问题

在 Project Genie 上线不久,其背后的核心团队第一时间接受采访,包括 Google DeepMind 研究总监 Shlomi Fruchter、Google DeepMind 的研究科学家 Jack Parker-Holder、产品 Diego Rivas,他们都对世界模型长期关注,在这次访谈中深度揭秘 Project Genie 的关键问题。

这次对话讨论了:什么是世界模型?为什么只能生成 60 秒?Project Genie 的研发历程是什么?它未来真正可能改变的是哪些领域?

他们首先承认 Project Genie 的强大确实源于谷歌视频生成技术的积累,但同时他们也强调,Genie 并不是更强的“视频模型”,而是人类第一次可以实时走进、操控、改变的生成世界。

其中的核心差异是,世界模型是逐帧实时生成,能与过去保持物理与视觉一致性,并且用户可随时干预。这对延迟、内存、算力的要求,比普通视频生成高得多,也是更前沿、更有挑战的方向。

针对不少人抱怨“60 秒不够”的问题,他们表示这是在服务成本、系统稳定性和体验质量之间做出的权衡。他们其实已经做出过更长时间的生成世界,但在实际测试中发现,随着生成时间拉长,世界的动态感反而会逐渐减弱。

研究员表示“与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。”

针对模型的生成速度,他们表示已经够快了,短期内进一步“加速”并没有太大意义。接下来,他们更重要的研发方向,是降低算力成本,让这种能力能够被更多人真正用得起。

在产品定位上,他们并不把 Genie 看作一款游戏,而更像是一个正在快速演化的实验场:

  • 一方面,多人互动、长期一致性、复杂动态仍然是明确的技术瓶颈;

  • 另一方面,娱乐、教育、具身智能、机器人训练等方向,已经展现出非常清晰的应用前景

回顾产品研发历程,从论文阶段的 Genie 1,到今天普通用户可以亲自上手体验的 Genie 3,这背后其实是谷歌一整套高度协同的跨部门合作。

谷歌实验室与谷歌创意实验室是研发的核心力量,而服务团队、基础设施团队和沟通团队则共同兜底,确保这项起源于强化学习的前沿研究,能够被真实用户理解、体验并持续使用。

当团队回看去年八月时,他们很清楚,当时外界已经迫不及待想“走进这个世界”,但 Genie 仍然只是一个规模庞大的研究项目。即便如此,研发人员脑海中已经浮现出一系列潜在应用场景,其中最清晰的方向之一,正是具身智能。一个标志性的例子,是他们与 Simmer 项目的长期合作。

Simmer 是由双子座模型驱动的目标导向智能体,能够在 3D 世界中执行复杂任务。过去,它只能在少数几个固定游戏环境中训练;而现在,借助 Genie 3,只需一句文本指令,就能生成一个全新的、甚至是照片级写实的虚拟世界,把智能体直接“放进去”完成任务。

从 Nano Banana Pro 的图像创作,到谷歌视频生成的成熟,再到可交互的世界模型 Project Genie ,生成式技术正在构成一个连续体,世界模型将成为第三次技术跃迁。

以下是播客的更多细节,欢迎来看:

为什么只能 60 秒?

主持人:我很好奇,这背后的物理逼真度,是不是和我们在 VO(谷歌的视频生成模型)项目上取得的研究突破有关?感觉两者之间有相似之处。

研究员:二者绝对是相关的,而且世界模型的研发难度其实更高。普通的视频模型,能在整个视频的时间线上自由调整过去和未来的帧,自由度很高 —— 就像有一块画布,模型能随时间生成视频,在画面的各个位置做微调,让整体效果连贯美观。

世界模型的难点在于,世界是持续演变的,每一帧的输入都是未知的,模型必须保证生成的画面既和过去的内容连贯,又能匹配用户当下的操作,所以技术难度会大很多。

其实开发 Genie 1 时,我们用的是 Imagine 模型,当时我们的模型效果并不好,而且想要生成合适的图像也非常困难。Nano Banana Pro 是在Genie 3 之后推出的,技术进步的速度真的令人惊叹。也许未来某一天,我们定义虚拟世界的方式,将不再局限于图像和文本,但就目前而言,这种方式已经给了用户足够的创作灵活性。

主持人:这个模型的复杂度上限在哪里?比如能不能在同一个世界里加入大量并行的互动元素?模型会在什么情况下出现效果衰减?

其实 Nano Banana Pro 就是个很好的例子,如果一张图片里有 10 个人脸,想要对这张图进行编辑,模型就容易出问题。所以我想知道,Genie 3 的自然性能边界在哪里?

研究员:这个模型肯定不是完美的,目前它还只是一个研究预览版本。我们希望让大家亲自体验,看看它的优势在哪里,不足又在哪里,我们也能从用户反馈中学习和优化。

目前模型在各类创意环境的视觉呈现上做得不错,画面可以非常精致,但在世界的动态表现上还有短板 —— 有时候初期的动态效果很好,但时间久了,动态感会逐渐减弱,这也是我们正在优化的点。不过它的表现已经足够令人惊喜了,所以还是建议大家亲自上手试试,看看哪些玩法能达到理想效果。

研究员:不过说到延迟问题,还有很多技术点需要考虑。Genie 3 的研发有一个核心约束:我们希望实现特定操作频率下的实时低延迟,也就是说,用户操作的往返延迟要极低。同时,内存也是一个巨大的约束 —— 模型的上下文长度越长,通常算力成本就越高,运行速度也会越慢。

所以研发的核心挑战,就是平衡这些相互冲突的目标。而在研究层面,我们正在所有这些领域持续优化,我们相信,模型的性能会不断提升,变得更强大、更快、更经济,这也是行业的整体发展趋势。

主持人:我还有个问题,模型的生成时长是人为限制在 60 秒,还是真的能实现 3 到 5 分钟的连续生成?

研究员:其实我们已经做出过能连续生成更久的演示版本了,但我们觉得 60 秒是一个比较合适的时长 —— 既能让用户充分体验虚拟世界,又能保证为足够多的用户提供服务,这其实是在服务成本上做的权衡。

而且就像我们之前提到的,生成时间越长,世界的动态感会逐渐减弱。所以我们觉得,与其花两分钟体验一个世界,不如花一分钟体验两个不同的世界,体验感会更好。当然,如果用户反馈希望延长时长,我们也会做出调整。

这也和虚拟世界的类型有关,比如如果你在体验高山速降滑雪,两分钟的时长会很过瘾,因为整个过程是持续的动态体验;但如果只是探索图书馆,两分钟可能就没那么有趣了。

主持人:是啊,人们总是能很快适应新的技术体验。但对我来说,这个模型的表现依然令人难以置信。你之前被问到能不能让模型运行得更快,现在的速度已经到极限了吗?

研究员:在当前实时交互需求下,生成速度已经足够快,短期内进一步加速的意义不大。因为模型是实时生成虚拟世界的,速度再快其实也没有意义了 —— 它的生成速度已经和用户的体验速度完全匹配。接下来我们的研发重点,会放在降低算力成本上,这样才能让更多人用上这款产品。同时,在保持速度的前提下,不断增加新功能,这本身也是一个巨大的挑战,我们希望在各个方面都把模型做得更好。

背后的故事:谷歌跨团队协作

主持人:聊完当下的体验,我特别想知道模型的未来迭代方向。不过在聊未来之前,我们先回顾一下研发历程吧。我们八月份发布了 Genie 3 的首支演示视频,之后启动了可信测试,不断迭代产品、搭建基础设施。能不能跟大家快速讲讲,从一支惊艳的演示视频、小规模的早期测试,到正式推出面向用户的精灵计划,这中间都经历了什么?

研究员:首先,八月份发布模型和演示视频后,我们让一小部分人体验了产品,核心是为了收集反馈 —— 因为这是一款全新的应用,一种全新的体验,我们需要思考如何负责任地将它推向市场。

从那以后,我们的大部分工作都集中在基础设施、服务架构和成本控制上,毕竟我们希望能让尽可能多的用户体验到它。而美国的谷歌 Ultra 订阅体系,能让我们触达足够多的用户,收集到第一手的反馈:比如用户觉得哪些功能有用,会如何和产品互动,哪些玩法体验最好。这段时间里,我们也在持续完善可信测试项目。

这其实是模型开发周期中最核心的阶段,因为我们能从不同类型的用户身上学到很多东西,无论是创意工作者,还是教育领域的从业者,都能给我们带来丰富的洞察,让我们知道模型目前的实际应用价值、未来的发展方向,以及哪些体验是用户最期待的。

回头看八月份,当时我们知道大家肯定想体验这款产品,但它那时还只是一个大规模的研究项目。我们脑海里有很多应用场景,比如智能体、机器人这类具身智能领域,都能用到这项技术。去年年底还有一个和我们类似的项目发布,他们也用Genie 3 来训练游戏智能体。

从消费端的角度来看,我们觉得这个产品会很有吸引力,所以想收集用户反馈,但当时也不确定是否已经到了面向更多用户发布的时机。而迭戈主导的可信测试项目,让我们发现,用户第一次上手这款产品时,都会有惊艳的体验。我们希望深入了解更多的应用场景,所以这次的发布,也是我们在这方面迈出的一大步。

一年前,我根本没想到这个模型能有这么强的吸引力,但现在它已经成为一款非常有趣的产品,我们也很期待大家会用它来做什么。

主持人:聊完产品和技术,我们再来聊聊谷歌的跨团队合作吧。显然,从你们的分享和幕后工作来看,打造这款产品的难度非常大。谷歌内部有哪些团队参与了 Genie 3 和 Genie 的研发?

研究员:幕后参与的团队非常多,谷歌实验室、谷歌创意实验室是核心 —— 画廊里的那些虚拟世界,大多是创意实验室的作品;还有服务团队、基础设施团队,基本上有一个完整的幕后团队在推动这项工作。从八月份发布模型到现在,我们一直在全力冲刺,所有团队的付出都堪称英勇。

我们还和沟通团队深度合作,因为想要向大家解释一款全新的模型,一种大家从未体验过的技术,是一个非常细致的话题 —— 它起源于强化学习这个相对小众的领域,现在却被媒体、社交媒体上的各类人群广泛讨论,所以用正确的方式传递这项技术,非常重要。

回顾这个领域的研究起点,我们甚至不确定这项技术能否成功落地。而现在,我们让它实现了实时交互,达到了不错的画质,完成了从研究构想到发布模型,再到推出面向用户的体验产品的闭环,这一点让我非常兴奋。这并非理所当然,也充分体现了谷歌内部跨技术栈的团队协作能力,这种能力非常独特。

主持人:我们在镜头外还聊过,不仅是 Genie 3,谷歌所有模型的能力都在不断拓展,而这和模型的训练方式息息相关。杰克,你之前还尖锐地提到,这些模型其实并没有针对任何特定的应用场景进行训练,却能在各个领域实现很好的泛化能力,能不能再聊聊这一点?

研究员:没错,我们一开始其实并不知道这个模型的具体应用场景。去年年底,Genie 团队还在做纯粹的研究项目,Genie 1 最初只是一篇研究论文,和 VO(谷歌的视频生成模型)完全不同。

与此同时,我们还在做 Doom 游戏引擎的相关研究,这项研究充分展现了实时交互的潜力,但它仅适用于 Doom 这一个特定的游戏世界,迭戈可以再聊聊这一点。

另外,2024 年 12 月 VO(谷歌的视频生成模型)2 的发布,在 AI 领域已经是很久以前的事了,但当时我看到它的效果时就觉得,视频生成技术已经成熟了,视觉质量达到了行业前沿,值得我们深入探索。

于是我们达成共识,认为这项技术的潜力无限,随后组建了跨团队的研发小组,汇集了各个领域的专家 —— 他们都在不同的技术领域有积累,我们相信把这些技术结合起来,会产生不可思议的效果。而我们的研发,并非针对某个特定的下游应用场景,而是因为它蕴含着无数的应用可能。

最酷的是,我们脑海里有一些预想的应用场景,比如和 Simmer 项目的合作,我们和这个项目的合作已经有很长时间了,他们也参与了 Genie 2 的研发,体验过 Genie 2,现在已经基于 Genie 3 发布了相关产品。

Simmer 是我们最强大的目标导向智能体之一,能在 3D 世界中互动,是由双子座模型驱动的 —— 你可以在 3D 世界中向它输入文本指令,它就能完成各种不同的目标,泛化能力非常强,还能通过自我提升学习。这也是我们迈向通用人工智能、具身智能的重要方向。

去年年底我们发布了这款智能体,他们就用 Genie 3 的虚拟世界来探索智能体的能力。要知道,Simmer 原本只在几款游戏中接受过训练,但现在借助 Genie 3,你只需输入文本,就能创建一个全新的、甚至是照片级写实的虚拟世界,然后把智能体放进去,看它完成各种任务。这两个项目的结合,可以说是水到渠成。

未来的应用领域:娱乐、教育、具身智能

研究员:从应用层面来说,我个人对娱乐和教育领域的应用最期待。我们希望让更多人体验这款产品,看看凭借现有的技术,现在能打造出哪些应用。教育领域是我们重点关注的方向,比如让人们在虚拟世界里互动学习 —— 想象一下,能为用户打造一些他们在现实中无法体验的场景,比如一个孩子害怕蜘蛛,我们可以打造一个满是蜘蛛的房间,让孩子在虚拟世界里慢慢适应,克服恐惧。我的孩子就怕蜘蛛,所以我觉得这种个性化的全新体验,价值非常大,这也是我们近期的研发重点。

另一方面,我们之前也聊过,机器人技术和具身智能领域的世界模型,潜力也非常大。当然这个领域还有很多研究工作要做,但我个人对它充满期待。简单来说,核心思路就是:如果一个模型能模拟现实环境,那我们就可以用它在虚拟世界里训练机器人,或是让具身智能体在虚拟世界里学习,甚至实时辅助智能体做出决策。

Genie 计划虽然现在已经很惊艳了,但它只是一个起点。未来我们会和谷歌实验室继续深度合作,不断优化产品的功能、操控方式、应用架构等;也会拓展更多的使用场景,不局限于Genie 计划这一个应用,还会推出开发者 API,让更多开发者参与进来。

不得不说,开发者总能发掘出产品的商业价值,找到极具经济影响力的应用场景,这也是我觉得很有意思的一点 —— 除了娱乐,世界模型还能在哪些领域找到产品市场契合点。

而且很多功能在不同的应用场景中是相通的,比如更广泛的交互性。可以肯定的是,机器人技术的发展,不可能只靠方向键来实现,未来的机器人助手需要更多的操控方式,而这和虚拟世界的交互研发是相通的。

八月份发布 Genie 3,让我们成为首批推出这类模型的团队,也让我们能和谷歌内部的各个团队展开合作。我们会认真吸纳所有的用户反馈,把大家提出的建议都列出来,成为下一代模型的研发方向。我之前跟杰克说过,我们只实现了目标的 50%—— 因为我们总是会设定极具野心的目标,这个领域还有太多可以探索的地方,模型还有很多不足,需要我们不断优化。

这个领域的发展空间巨大,我们才刚刚起步。就像写论文一样,一个项目完成后,你马上就会想,下一个项目可以加入哪些功能,做得更好。

现在社区里也出现了很多有趣的世界模型,有些和 Genie 3 很相似,但我们的目光已经放得更远了。

怎么玩这个产品?

主持人:除了研发历程和未来规划,还有没有什么想跟大家分享的?比如对于即将体验这款模型的用户,你们有什么建议?毕竟你们比普通人花了更多时间研究和使用模型。

研究员:我建议大家尝试个性化创作,打造属于自己的、其他系统无法实现的世界。当然,用它打造游戏环境也很有趣,但这类场景其他系统也能做到;而把现实中的专属事物 —— 比如一个玩具、一张照片,或是让自己以特定风格出现在真实的环境中,这种体验是独一无二的。

这让我想起了 VO(谷歌的视频生成模型)早期的一个研究项目:有人用 VO(谷歌的视频生成模型)为阿尔茨海默病患者重现童年记忆,让他们在虚拟世界里重温过去,这个项目特别棒。所以我觉得,把个人专属的事物融入虚拟世界,让它们 “活” 过来,这种互动方式非常有价值,大家可以试试这个方向。

另外,大家肯定会发现,模型的提示词创作目前还不够完善,但这恰恰是机会。几年后当这个模型变得非常成熟时,大家会想起现在这个阶段,就像我们现在看待 VO(谷歌的视频生成模型)3 一样 —— 现在 VO(谷歌的视频生成模型)3 的每个提示词都能生成优质视频,精灵 3 号的每个提示词基本也能实现预期效果,但在早期,提示词的创作至关重要,甚至有人会花 10 到 20 分钟精心打磨一个提示词。

所以如果第一次创作的效果不好,别放弃,这款全新的模型,可能会以你意想不到的方式呈现出惊喜的效果。而且亲自上手体验,你就不是在消费一款产品,而是在探索前沿技术。

主持人:太认同了,“探索前沿技术” 这句话简直可以当作产品标语了。我还有一个觉得很有趣的点:当被动的媒体消费变成交互式的体验,会发生什么?这是一片全新的未知领域。过去也有人做过尝试,但现在有了这种真正定制化的交互式媒体叙事,它会给整个媒体和娱乐行业带来什么影响,真的太值得期待了。

研究员:还有一个玩法也很有趣,你可以在虚拟世界里设置挑战,把这个世界分享给别人,让对方完成任务,比如从 A 点走到 B 点。这是一种基础的、有目标的游戏体验,现在的模型已经能实现了。比如那个球的场景,你可以让别人用球写出自己的名字,这类简单的挑战都能设置。

就像杰克说的,现在的体验虽然还比较基础,但它蕴含着巨大的创意潜力。比如还有一个带环的场景,你可以操控角色穿越环道,体验飞行的感觉,这也是用户发掘的玩法。

人们还经常问,行业的前沿在哪里,我们下一步要做什么。我经常会做一件事:长时间沉浸在 Genie 3 的第一人称写实世界里,然后看向窗外,对比虚拟和现实的差距。我认为最终,虚拟世界会和现实世界变得几乎无法区分,虽然今天我们不深入聊这个话题,但从模型的性能发展来看,这显然还有很长的路要走。但如果能生成和现实高度逼真的世界,在里面自由移动、互动、完成各种事情,那该多不可思议。

而这也是驱动我们开展这项研究的核心愿景:想象你拥有一个宇宙的副本,你可以在其中随心所欲。显然,这个副本有巨大的应用价值,能用到很多领域。这虽然是一个非常远大、甚至可能无法实现的目标,但它就像北极星一样,一直指引着我们。

比如我们这次把恐龙鲍勃放进虚拟世界,其实就是在重构现实空间,给现实事物做有趣的增强。未来这方面的探索,一定会非常有意思。

主持人:那到 Genie 5 的时候,我们可能真的会分不清自己是在现实还是在模拟世界里了。

世界模型是第三次技术跃迁

主持人:我还有一个有点尖锐的问题想问问大家:你们觉得,大多数人体验到世界模型的时间线会是怎样的?世界模型会先通过企业端影响普通人的生活吗?比如企业利用世界模型提高生产效率,打造更好的日常产品;还是说,未来普通人的日常生活中,会直接和世界模型产生互动?如果是后者,这个时间线大概会是多久?

研究员:这其实取决于你如何定义世界模型。如果是指交互式的视听体验类世界模型,我认为今年、明年,就会有越来越多的人接触到它,我们也会看到它在一些领域大放异彩,最终成为很多应用的基础功能。

但就像现在的视频生成技术,虽然发展很快,但真正融入普通人日常生活的比例其实并不高,世界模型也需要时间来完成用户普及,找到合适的应用场景—— 毕竟视频和图像不同,世界模型又和视频生成不同。

而如果是具身智能领域的世界模型应用,很难给出具体的时间线,但这个领域已经在取得不错的进展了。

另外,用户的人群特征也很重要:有些经常接触交互式媒体的人,会成为世界模型的早期使用者,他们知道该如何体验;但如果把它交给一个对前沿技术不感兴趣的家人,他们可能会觉得无从下手,体验不到产品的魅力。

但具身智能相关的应用,可能在未来 1-2 年就会走进现实,普通人会在生活中直接接触到,所以最终的普及时间,还是取决于用户所处的技术接受曲线位置。

还有一点,Genie 计划也印证了一个趋势:生成式技术正在形成一个连续体,从 Nano Banana Pro 的图像创作,到 VO(谷歌的视频生成模型)的视频生成,再到现在Genie 3 的交互式实时媒体创作,成为第三个核心支柱。我们希望未来有更多人能体验到这个连续体上的各类创作体验。

主持人:我特别期待看到行业的发展趋势,毕竟 VO(谷歌的视频生成模型)和 Nano Banana Pro 的发展过程中,都出现过一些爆红的玩法,都是我从未预料到的,太疯狂了。

研究员:世界模型的发展,和图像、视频生成还有些不同。图像和视频生成的作品,能被数百万人观看,一个人的创作可以被广泛传播,家人、朋友都能看到;而世界模型的独特之处在于,你可以在探索的过程中,不断改变周围的世界,这开辟了很多我们未曾考虑过的新途径、新玩法。

图像和视频生成,本质上是用新技术替代或自动化了过去的一些创作方式,当然也带来了新的能力和限制;但世界模型,实现了很多过去根本不可能做到的事情,这是它最大的不同,当然二者也有很多相似之处。

还有一个我们非常兴奋的想法,大家在演示中也能看到端倪:用户可以在现有虚拟世界的基础上继续创作,这样就会形成很多有趣的世界分支,还能追溯创作源头。这方面的潜力非常大,值得我们深入探索。

Genie 计划上线时,用户可以下载自己的虚拟世界演示视频;未来我们还会探索更多的世界分享方式,让大家能以更有趣的方式在别人的世界基础上创作。

主持人:太酷了,我还想要一个 “世界档案” 功能,这样大家就能看到我所有的创意想法了。

从世界模型的发展来看,技术进步的节奏是怎样的?显然我们已经看到了巨大的进步,图像生成、VO(谷歌的视频生成模型)视频生成、核心双子座模型,都取得了长足的发展。世界模型是不是也在遵循同样的发展轨迹,到处都是触手可及的技术突破,同时受益于算力规模和推理能力的提升?

研究员:可以这么说。图像生成技术显然比视频生成更成熟,视频生成和世界模型之间的差距,我无法准确衡量,但可以肯定的是,世界模型是超越视频生成的前沿技术。

最新一代的视频生成模型,画质已经比Genie 3 高很多了,我们也不指望Genie 3 现在能生成极致精美的视频,因为实时交互的约束,是普通视频生成模型所没有的。所以世界模型的发展,可能会比视频生成稍慢一些,但它能带来全新的体验。

说实话,我们现在仍处于技术快速进步的阶段。硬件始终是一个巨大的约束,这对所有模型来说都是如此。行业的整体趋势是,在成本基本不变的情况下,让模型的运行效率越来越高。但最终,我们还是需要更易获取的硬件支持—— 比如希望未来人们能直接在自己的设备上运行这类模型,实现无延迟的即时体验。

目前高性能的 TPU、GPU 还并非人人可得,硬件的发展速度因为一些实际原因,会比模型研发慢一些,但这也是我们的未来方向 —— 希望到 Genie 5 时,大家能在手机上运行完整的通用模拟系统。

这一点我们也讨论过,谷歌拥有垂直技术栈的优势,这也是我们在谷歌、在深度思维工作的魅力所在:我们既能站在模型研发的前沿,又能利用谷歌最好的硬件来支持模型的运行。而且专门为世界模拟打造的硬件,本身也极具发展潜力,它就像通往另一个维度的入口,点击就能进入,充满了新鲜感。

传送门:

https://labs.google/projectgenie

链接:

https://blog.google/innovation-and-ai/models-and-research/google-deepmind/project-genie/

https://deepmind.google/models/genie/

https://www.youtube.com/watch?v=Ow0W3WlJxRY&t=4s

https://www.theverge.com/news/869726/google-ai-project-genie-3-world-model-hands-on?view_token=eyJhbGciOiJIUzI1NiJ9.eyJpZCI6ImZCakl0bmxFNGwiLCJwIjoiL25ld3MvODY5NzI2L2dvb2dsZS1haS1wcm9qZWN0LWdlbmllLTMtd29ybGQtbW9kZWwtaGFuZHMtb24iLCJleHAiOjE3NzAxNDAwNTYsImlhdCI6MTc2OTcwODA1OH0.q5OBTD_V36-65oc1EGqPxKYCZF00c7ODvifvagVcwbA&utm_medium=gift-link

一招不慎,满盘皆输。并发问题看似简单,却隐藏着巨大的风险

近日,我们系统遭遇了一次生产环境事故:客户反馈同一类型的呼入或呼出通话记录存在重复。经过紧急排查,发现问题根源在于当电话呼入或呼出时,同一时刻有相同的录音盒推送事件,而我们的系统对推送事件没有做并发编程处理,导致重复记录。

这次事故让我们付出了代价,也让我们深刻认识到并发编程在现代软件开发中的重要性。今天,就跟大家分享一下我们从这次事故中总结出的并发编程方法论。

一、什么时候我们需要考虑并发编程?

并发编程并非银弹,但在以下三种情况同时出现时,我们必须予以重视:

多线程场景:同一方法被多个请求/线程同时执行(如Web接口、定时任务、硬件回调等)。在我们的案例中,多个录音盒事件同时推送就创造了这样的多线程环境。

共享资源访问:多个线程都在访问同一个资源(如全局变量、数据库里的一条记录、内存中的Map或文件)。我们的通话记录表就成了这个共享资源。

包含"读-改-写"的复合操作:先查询是否存在记录(读),然后判断是否插入(改),最后执行插入操作(写)。这类复合操作在并发环境下极易出现问題。

二、常见的并发业务场景

并发问题不仅限于我们的通话记录系统,在日常开发中随处可见:

库存扣减/抢购场景:100个人抢1件商品,不能超卖为负数。

金额/积分操作:账户余额的加减,需要保证不会覆盖他人的更新。

唯一性判定(幂等性):同一订单不能重复支付,同一号码的通话信号只记录一次。

流水号/序列号生成:需要保证生成的ID全局唯一。

三、并发编程处理方法及性能对比

不同的并发处理方案在性能上差异显著,以下是常见的几种方案,按性能从高到低排列:

1. 无锁设计 - 性能最佳

通过业务逻辑避免共享资源竞争,例如使用ThreadLocal(每个线程一份数据),或将任务按ID取模分配给特定线程处理。无锁设计完全避免了锁竞争,性能最高。

2. 原子类 & CAS(自旋锁/无锁算法)

利用Java内置的AtomicInteger、AtomicLong等原子类,底层通过CPU指令保证原子性。适用于简单的计数器、状态切换等场景,性能非常高。

3. 乐观锁

不阻塞线程,先执行操作,提交时通过版本号或时间戳判断是否有冲突,如有冲突则重试。读多写少且冲突几率小的场景下表现良好。

4. 悲观锁

传统锁机制,如synchronized或ReentrantLock,在操作前先获取锁,确保同一时间只有一个线程能执行临界区代码。写操作多、冲突严重的场景下适用。

5. 分布式锁

通过Redis(setnx)或Zookeeper等实现跨JVM的锁机制。适用于分布式系统环境,但由于涉及网络I/O,性能相对较差。

四、性能差异的根源

为什么不同并发方案性能差异如此之大?主要来自三方面开销:

上下文切换开销:当线程拿不到锁被挂起,CPU需要保存当前线程上下文并恢复另一个线程的上下文,这个过程消耗大量CPU资源。

等待时长:锁粒度过大(如锁住整个方法而非仅锁核心逻辑)会导致大量线程排队等待,降低系统吞吐量。

网络/序列化开销:分布式锁需要跨网络通信和数据序列化/反序列化,比本地内存操作慢几个数量级。

五、并发编程实战心法

基于这次事故的教训,我们总结出以下实战经验:

锁粒度要尽可能小

  • 差:直接在方法上加synchronized(锁住整个类实例)
  • 好:使用synchronized(object),只锁受影响的代码块
  • 优:根据业务类型加锁,只对特定业务逻辑分支加锁

善用数据库约束:即使代码层加了锁,也应在数据库层设置UNIQUE约束(唯一索引),为数据一致性加上双保险。数据库能守住最后一道防线,避免产生脏数据。

警惕"先读-再判断-再写"模式:这种模式在并发环境下几乎100%需要加锁或使用原子操作。开发阶段就应识别出这类模式并提前设计并发控制策略。

合理选择并发模型:根据具体场景选择合适的并发模型,如基于多线程的模型、基于事件驱动的模型或基于协程的模型等。不同模型有不同优缺点,需结合实际需求选择。

总结

并发编程是现代软件开发不可或缺的重要技能。通过这次生产环境事故,我们深刻认识到并发问题的重要性与隐蔽性。一个看似简单的通话记录功能,在并发环境下也会产生严重的数据不一致问题。

希望我们的经验教训能够帮助大家避免类似的坑。在系统设计初期就充分考虑并发情况,防患于未然,才能构建出更加稳定、可靠的系统。

你是否也在开发生涯中遇到过棘手的并发问题?欢迎在评论区分享你的经历和解决方案!

狠狠的薅资本主义的羊毛。
我加入了 ChatGPT Team 5¥/年、Google AI Pro 10¥/年、Duolingo Super 34¥/年、Apple One Premier 73¥/三月。
年纪轻轻就实现了资源、算力和空间自由,人生大有可为啊。
你们呢?