标签 视频生成 下的文章

时光奔流,我们即将与 2025 年挥手作别。感谢这一路上,每一位伙伴的并肩前行与坚定支持。

今年,美团技术团队在持续深耕中涌现出不少值得分享的实践与开源产品&服务。我们从中精选了18篇具有代表性的技术文章,内容涵盖大模型开源、研发技能、产品服务三大方向。值得一提的是,美团 LongCat 团队今年在大模型开源领域成果显著,陆续发布了涵盖基座模型、图像、视频、语音等多个方向的开源产品与工具,期望能够持续推动AI技术分享与生态共建。

希望这些开源的大模型产品、服务及凝结一线技术实战经验的内容,能为大家带来启发和帮助,陪伴同学们在技术前行的道路上扎实成长。愿我们在新年里,继续向下扎根、向上生长,迎着光,奔赴更高、更远的山海。2026,期待继续同行!

大模型开源

01 | 美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

9月初,美团正式发布并开源 LongCat-Flash-Chat。LongCat-Flash 采用创新性混合专家模型(Mixture-of-Experts, MoE)架构,总参数 560 B,激活参数 18.6B~31.3B(平均 27B),实现了计算效率与性能的双重优化。

根据多项基准测试综合评估,作为一款非思考型基础模型,LongCat-Flash-Chat 在仅激活少量参数的前提下,性能比肩当下领先的主流模型,尤其在智能体任务中具备突出优势。并且,因为面向推理效率的设计和创新,LongCat-Flash-Chat 具有明显更快的推理速度,更适合于耗时较长的复杂智能体应用。

目前,已在 Github、Hugging Face 平台同步开源,同时你也可以访问官网 https://longcat.ai/,与 LongCat-Flash-Chat 开启对话。(阅读全文

开源地址Hugging Face | Github

02 | LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!

9月,美团 LongCat 团队正式发布全新高效推理模型 LongCat-Flash-Thinking。在保持了 LongCat-Flash-Chat 极致速度的同时,全新发布的 LongCat-Flash-Thinking 更强大、更专业。综合评估显示,LongCat-Flash-Thinking 在逻辑、数学、代码、智能体等多个领域的推理任务中,达到了全球开源模型的先进水平。

同时,LongCat-Flash-Thinking 不仅增强了智能体自主调用工具的能力,还扩展了形式化定理证明能力,成为国内首个同时具备「深度思考+工具调用」与「非形式化+形式化」推理能力相结合的大语言模型。我们发现,尤其在超高复杂度的任务(如数学、代码、智能体任务)处理上, LongCat-Flash-Thinking 具备更显著的优势。目前, 该模型已在HuggingFace、Github全面开源。(阅读全文

开源地址Hugging Face | Github

03 | LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

要让人工智能真正理解、预测甚至重构真实世界,“世界模型”(World Model)已成为通往下一代智能的核心引擎。作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予AI“看见”世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径——通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI得以在数字空间中模拟、推演乃至预演真实世界的运行。

基于这一关键目标,10月,美团 LongCat 团队正式发布 LongCat-Video 视频生成模型 —— 不仅以统一模型在文生、图生视频基础任务上达到开源先进水平,更依托原生视频续写任务预训练,实现分钟级长视频连贯生成,从根源上保障跨帧时序一致性与物理运动合理性,尤其在长视频生成领域具备显著优势。

作为一款视频生成模型,LongCat-Video 凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。(阅读全文

开源地址GitHub | Hugging Face | Project Page

04 | LongCat-Flash-Omni 正式发布并开源:开启全模态实时交互时代

11月,LongCat-Flash-Omni 正式发布并开源。LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源先进水平,同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。模型已同步开源,欢迎体验。(阅读全文

开源地址Hugging Face | Github

05 | 美团开源 LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 “听不懂” 语音,车载助手 “说” 得像机器人,实时翻译延迟卡半秒。深究根源,全在 “语音 Token 化”:作为拆分语音为 Speech LLM “离散单元” 的关键步骤,传统方案始终没平衡好 —— 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 “死结”。

针对 Speech LLM 落地中的音频处理难题,11月,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。(阅读全文

开源地址Github | Hugging Face

06 | 美团发布 LongCat-Image 图像生成模型,编辑能力登顶开源SOTA

12月初,美团发布 LongCat-Image 图像生成模型。当前 AI 图像生成技术需求旺盛,但行业陷入 “两难困境”:闭源大模型性能强劲但无法自行部署或二次定制开发,开源方案普遍存在轻量化与模型性能难以兼顾、面向商用专项能力不足的痛点,制约商业创作与技术普惠。

为此,美团 LongCat 团队正式发布并开源 LongCat-Image 模型,通过高性能模型架构设计、系统性的训练策略和数据工程,以 6B 参数规模,成功在文生图和图像编辑的核心能力维度上逼近更大尺寸模型效果,为开发者社区与产业界提供了 “高性能、低门槛、全开放” 的全新选择。(阅读全文

开源地址Hugging Face | GitHub

07 | 美团 LongCat-Video-Avatar 发布,实现开源SOTA级拟真表现

今年 8 月,美团开源的 InfiniteTalk 项目凭借无限长度生成能力与精准的唇形、头部、表情及姿态同步表现,迅速成为语音驱动虚拟人领域的主流工具,吸引全球数十万名开发者的使用。10月底,LongCat 团队开源了 LongCat-Video 视频生成模型,尤其在长视频生成领域具备显著优势。

在 InfiniteTalk 和 LongCat-Video 基座的良好基础上,LongCat 团队针对实际场景中的核心痛点持续优化,12月正式发布并开源 SOTA 级虚拟人视频生成模型 —— LongCat-Video-Avatar。

该模型基于 LongCat-Video 基座打造,延续 “一个模型支持多任务” 的核心设计,原生支持 Audio-Text-to-Video(AT2V)、Audio-Text-Image-to-Video(ATI2V)及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的显著突破,为开发者提供更稳定、高效、实用的创作解决方案。(阅读全文

开源地址GitHub | Hugging Face | Project

研发技能

08 | MTGR:美团外卖生成式推荐Scaling Law落地实践

美团外卖推荐算法团队基于HSTU提出了MTGR框架以探索推荐系统中Scaling Law。MTGR对齐传统模型特征体系,并对多条序列利用Transformer架构进行统一建模。通过极致的性能优化,样本前向推理FLOPs提升65倍,推理成本降低12%,训练成本持平。MTGR离在线均取得近2年迭代最大收益,且于2025年4月底在外卖推荐场景全量。本文系相关工作的实践与经验总结,希望能给从事相关方向研究的同学带来一些帮助。(阅读全文

09 | JDK高版本特性总结与ZGC实践

美团信息安全技术团队核心服务升级JDK 17后,性能与稳定性大幅提升,机器成本降低了10%。高版本JDK与ZGC技术令人惊艳,且Java AI SDK最低支持JDK 17。本文总结了JDK 17的主要特性,然后重点分享了JDK 17+ZGC在安全领域的一些实践,希望能对大家有所帮助或启发。(阅读全文

10 | 鸿蒙应用签名实操及机制探究

华为鸿蒙单框架操作系统HarmonyOS NEXT已于2024年10月23日正式发布Release版。HarmonyOSNEXT仅支持鸿蒙原生应用,不再兼容安卓。本文对鸿蒙公开资料进行了深入分析和解读,梳理了鸿蒙单框架应用的签名机制,拆解每一步的实操过程和背后的实现原理,并对源码分析整理签名的校验机制。从中管中窥豹,探究鸿蒙系统的安全设计思路,给从事鸿蒙研发的同学提供一些借鉴。(阅读全文

11 | 预测技术在美团弹性伸缩场景的探索与应用

管理企业大规模服务的弹性伸缩场景中,往往会面临着两个挑战:第一个挑战是精准的负载预测,由于应用实例的启动需要一定预热时间,被动响应式伸缩会在一段时间内影响服务质量;第二个挑战是高效的资源分配,即在保障服务质量的同时控制资源成本。为了解决这些挑战,美团与中国人民大学信息学院柴云鹏教授团队展开了“预测技术在弹性伸缩场景的应用”科研合作,相关论文《PASS: Predictive Auto-Scaling System for Large-scale Enterprise Web Applications》在具有国际影响力的会议The Web Conference 2024(CCF-A类会议)上作为Research Full Paper发表。(阅读全文

12 | 从0到1建设美团数据库容量评估系统

美团数据库团队推出了数据库容量评估系统,旨在解决数据库容量评估与变更风险防控等领域难题。本文介绍了系统架构和主要功能:系统使用线上流量在沙盒环境回放验证变更安全,结合倍速回放技术探测集群性能瓶颈,构建容量运营体系实现集群容量观测与治理闭环。系统具备数据操作安全、结果真实可靠、灵活高效赋能等特点,有效提升数据库稳定性与资源利用率。(阅读全文

13 | AI Coding与单元测试的协同进化:从验证到驱动

AI生成代码质量难以把控!本文分享来自美团的技术实践,三大策略破解AI编程痛点。单测快速验证逻辑正确性,安全网保护存量代码演进,TDD模式精准传递需求。告别「看起来没问题」的错觉,构建AI时代的代码质量保障体系。(阅读全文

14 | LongCat-Flash:如何使用SGLang部署美团Agentic模型

SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan’s Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。(阅读全文

15 | 可信实验白皮书系列:从0到1的方法论与实践指南

增长与优化是企业永恒的主题。面对未知的策略价值,数据驱动的AB实验已经成为互联网企业在策略验证、产品迭代、算法优化、风险控制等方向必备的工具。越来越多的岗位,如数据科学家、算法工程师、产品经理以及运营人员等,要求候选人了解AB实验相关知识。然而,许多从业者由于缺乏有效的学习渠道,对AB实验的理解仍停留在初级阶段,甚至存在一些误解。我们希望通过系统性地分享和交流AB实验的理论基础、基本流程、核心要素及其应用优势,能够帮助更多相关人员深入了解实验,提升实验文化的普及度,最终辅助企业在更多领域做出精确数据驱动决策。

除了广泛传播实验文化外,该白皮书在深度上也可给实验研究人员,提供复杂业务制约下进行可信实验设计与科学分析评估的参考经验和启发。从美团履约技术团队、美团外卖业务的实践来看,实验者常常面临多种复杂的实验制约和难题,例如,在美团履约业务中,实验往往需要应对小样本、溢出效应(即实验单元间互相干扰)以及避免引发公平性风险等多重约束,需设计科学复杂的实验方案以克服相应挑战。通过撰写白皮书,我们系统性地总结和分享应对复杂实验约束的研究经验,进而能够促进实验技术的传播与升级,推动实验科学持续进步。

本白皮书以AB实验为中心,涵盖AB实验概述与价值、实验方法基础原理与案例剖析以及配套SDK代码分析等,内容丰富且易于理解和应用。适合从事AB实验研究的数据科学家、系统开发人员,以及需要实验驱动策略决策的业务和产研团队,同时也适合对数据驱动增长和数据科学等领域感兴趣的读者。(阅读全文

产品服务

16 | 无需代码!美团 NoCode 像聊天一样轻松搭建你的专属网站

这是一款由美团技术团队打造的 AI 编程类产品——NoCode,可以像聊天一样轻松搭建你的专属网站、游戏、各种小工具等等,当然还有更多的隐藏功能等你发现,文末我们还准备了2项互动奖励,期待跟大家一起,开启全新的 AI 编程之旅。(阅读全文

17 | 美团首款 AI IDE 产品 CatPaw 开启公测

Meituan CatPaw (以下统一使用“CatPaw”)是美团推出的 AI IDE,以 Agent & 人协作为核心,通过 Agent 智能驱动编程,辅以代码补全、项目预览调试等功能,结合美团自研的基于编程场景特训的 LongCat 模型,并支持多种模型混合调用,让编码过程更专注,项目交付更高效!

CatPaw 早在 2023 年就在美团内部以编辑器插件形态正式上线,此次完成全新升级后进行公开测试。目前在美团内部研发渗透率超 95%,增量代码 AI 生成率超 50%。(阅读全文

18 | 美团 LongCat 上线 AI 生图!精准高效,AI 创作不设限

美团 LongCat 全新上线 AI 生图功能,该功能基于LongCat系列模型「LongCat-Image」打造而成。不仅在文生图任务中实现了“快、真、准” :出图快速响应、达到摄影棚拍摄质感、中文渲染精准度高;更在图像编辑任务上做到了精准便捷,无需复杂指令,可以用自然语言对图像进行二次编辑。

无论是追求高效出图的普通用户,还是需要精准落地创意的专业创作者,LongCat 都以 “轻量化模型 + 流畅体验” ,让 AI 生图真正成为人人可用的创作工具。目前,AI 生图功能已在LongCat APP和 https://longcat.ai/ 同步上线,轻松解锁高效创作新方式。(阅读全文

本周AI领域迎来密集进展,大模型在动漫生图(Niji V7)、端侧智能(AgentCPM-Explore)、医疗(Baichuan-M3)、多模态生图(GLM-Image)、视频生成(Veo 3.1、PixVerse R1)及机器人(1X World Model、LimX COSA)等垂直场景实现性能突破与场景适配;AI工具则聚焦电商、办公、音频处理等高频需求推出,Google UCP、Claude Cowork、Voice-Pro等高效解决方案,技术则在药物研发(DrugCLIP)、大模型部署(Engram模块)、生物研究(Stack模型)等领域实现跨学科赋能,一起来回顾本周的AI新鲜事儿吧!

AI 大模型

Midjourney联合推出动漫风格AI生图模型「Niji V7」

1月9日,Midjourney联合推出动漫风格AI生图模型「Niji V7」,核心更新包括图像质量提升(连贯性增强、细节如眼睛反射、花瓣更清晰,实现“高清升级”)、提示词遵循能力强化(精准理解位置/数量等具体请求,sref风格参考功能向前兼容,cref角色参考暂不支持)、设计美学突破(线条可传达更多形体质感信息,支持简约风格留白,线条与空间结合呈现更平面化效果),且个性化与情绪板功能即将上线。实测线条流畅、细节优化,但复杂场景和中式风格仍有不足。

OpenBMB开源社区联合发布4B「AgentCPM-Explore」端侧智能体模型

1月13日,OpenBMB开源社区联合清华大学自然语言处理实验室、中国人民大学及面壁智能发布4B参数的「AgentCPM-Explore」端侧智能体模型,是首个支持GAIA、Xbench等8个长难智能体任务的4B模型,可实现100+轮稳定环境交互,在主流评测基准上取得同尺寸SOTA表现,越级赶超8B级模型、比肩部分30B级以上及「Claude-4.5-Sonnet」等闭源大模型,还展现出“质疑”“求真”等类人思考逻辑,通过模型融合、信号去噪、信息精炼三大技术破解小模型训练难题,全流程开源AgentDock工具沙盒平台、AgentRL强化学习框架与AgentToLeaP一键测评平台支持复现与扩展。

Arc研究所开源单细胞基础模型「Stack」与「Perturb Sapiens」图谱

1月13日,Arc研究所宣布开源首个无需重新训练即可学习新任务的单细胞基础模型「Stack」及预测性细胞反应全景图谱「Perturb Sapiens」,「Stack」基于1.49亿个人类单细胞数据预训练、5500万个细胞后训练,通过表格化Transformer模块、基因模块表征符的架构创新及上下文学习的训练策略创新,能以细胞为“提示”预测目标细胞群在全新环境中的反应,在零样本下游任务中表现优于基线模型和现有方案;「Perturb Sapiens」则依托其能力生成约20000个“细胞类型-组织-扰动”预测组合,填补了相关实验空白,模型及图谱均已开源。

百川智能发布开源新一代医疗大模型「Baichuan-M3」,医疗幻觉率降至3.5

1月13日,百川智能正式开源新一代医疗大模型「Baichuan-M3」,在全球权威医疗AI评测HealthBench等多项权威评测中全面超越「GPT-5.2」,且以3.5的全球最低幻觉率刷新行业底线(通过将医学事实一致性融入训练实现)。该模型创新提出“严肃问诊范式”与SCAN原则,借助SPAR算法和SCAN-bench全流程动态评测体系,具备原生端到端严肃问诊能力,在安全分层、信息澄清等四大维度显著高于真人医生平均水平,同时其医疗应用「百小应」已同步接入该模型向医生与患者开放。

美团龙猫LongCat升级全新稀疏注意力机制「LoZA」,解码快10倍

1月13日消息,美团龙猫LongCat系列升级全新稀疏注意力机制「LoZA」(LongCat ZigZag Attention),通过给MLA模块配可学习权重α筛选50%低重要性模块替换为线性复杂度的SSA,形成ZigZag交错结构并设计1024 Token稀疏窗口,在中期训练阶段即可完成改造,使模型上下文窗口从256K扩展至1M,128K文本解码速度快10倍、256K预加载提速50%且解码省30%算力,日常任务性能持平原版,长文本任务表现更优,还计划支持动态稀疏比例及多模态长内容处理。

1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」

1月13日,1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」,相关内容浏览量超500万次。该模型基于视频预训练技术,通过“世界模型主干(文本条件扩散模型,经互联网视频预训练、人类第一视角中期训练、NEO专属微调)+逆动力学模型IDM”两阶段对齐,无需大规模机器人数据即可泛化到全新物体、动作与任务,能通过生成“成功完成任务”的视频倒推动作轨迹,支持抓取、双手协调、人机交互等任务且保持稳定成功率。

智谱与华为联合开源首个基于国产芯片训练的SOTA生图模型「GLM-Image」

1月14日,智谱与华为联合发布中国首个全程基于国产华为Ascend A2芯片及昇思MindSpore框架训练的SOTA多模态生图模型「GLM-Image」,采用“9B自回归模型+7B DiT扩散解码器”混合架构,擅长文字精准渲染,拿下CVTG-2K和LongText-Bench双榜单开源第一,原生支持1024x1024至2048x2048任意尺寸,API调用仅0.1元/张,可适配小红书封面、商业海报等多场景,已开源并提供多个平台接入地址,印证了国产算力底座支撑前沿模型训练的能力。

Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频

1月14日,Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频(适配YouTube Shorts等移动端平台,无需裁剪)并新增4K分辨率,同时提升创意能力(简单提示词可生成小剧场)、强化角色与背景物体一致性(跨场景保持元素完整)、改善元素融合能力(无缝组合多图元素),普通用户可通过YouTube Shorts、Gemini等体验,企业用户可借助Flow、Gemini API等使用;Google依托YouTube的平台、流量与生态优势,形成“创作-分发-反馈-优化”正向循环,而AI视频竖屏化已成趋势,OpenAI、迪士尼及国内可灵AI等均有相关布局。

爱诗科技发布全球首个通用实时世界模型「PixVerse R1」

1月14日,爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型「PixVerse R1」,区别于传统AI视频的高延迟、固定时长与单向生成,凭借Omni原生多模态模型(统一多模态为连续Token流)、自回归流式生成机制(支持无限时长与长时序一致性)、瞬时响应引擎IRE(采样步骤1-4步,效率提升数百倍)三大技术创新,实现瞬时响应、实时共创,支持多模态交互与最高1080P输出,开启视频即交互、世界可共创的新范式,适用于游戏、电影、直播等场景。

生数科技Vidu AI开放平台发布「一键生成AI MV」功能

1月14日,生数科技Vidu AI开放平台发布「一键生成AI MV」功能,依托深度协同的多智能体系统,用户仅需提交音乐、1-7张参考图及文本指令,即可全自动实现分钟级输出(适配10-300 S主流流媒体时长),通过攻克角色与风格一致性、歌词驱动叙事、帧级音画融合等行业痛点,解决了传统“手工作坊”模式的效率与质量瓶颈,大幅降低创作门槛、压缩成本(刊例价为同行业50%),推动音乐视觉内容叙事权从主流机构向个体创作者转移,定义了AI原生MV的质量基线,重塑音乐产业生产与消费范式。

AI 工具

Google发布专为AI智能体设计的通用商业协议「UCP」及「Gemini CX」

1月12日,Google官宣发布Agentic电商解决方案,包括专为AI智能体设计的通用商业协议「UCP」(Universal Commerce Protocol)及企业端的「Gemini CX」(Gemini Enterprise for Customer Experience)。「UCP」接入Shopify、沃尔玛等伙伴,贯穿商品发现到售后全流程;「Gemini CX」具备复杂推理、多模态交互、执行授权操作能力,可覆盖客户服务全生命周期,已落地麦当劳等企业;国内阿里、1688、京东、抖音也纷纷推出电商相关AI工具与功能。

Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」

1月13日,Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」,核心定位是从“对话助手”转变为能理解任务、制定计划并持续执行的“数字同事”,支持用户授权访问指定本地文件进行分类、信息提取、报告整理等非编码工作,还具备内置虚拟机隔离、浏览器自动化支持等创新体验与安全功能。目前以研究预览版形式面向macOS平台的Claude Max订阅用户开放,后续计划加入跨设备同步、Windows版本及强化安全机制。

夸克AI浏览器上线千问划词「快捷指令」功能,划选即调用告别复制粘贴

1月13日,夸克AI浏览器上线千问划词「快捷指令」功能,用户只需三步(开启划词工具栏、添加自定义指令并命名保存)即可完成设置,浏览网页或文档时划选内容便能一键调用AI指令,无需复制粘贴,该功能提供了学术润色、种草文案撰写、情侣聊天支招、内容创作润色、代码优化、外语翻译、职场黑话解读等多场景指令模板,助力提升各类场景下的使用效率。

5.6K Star开源神器「Voice-Pro」,免费本地实现视频翻译+声音克隆

1月13日消息,GitHub上5.6K Star的开源工具「Voice-Pro」原是韩国创业团队的付费软件,现因新项目开发停止维护并完全开源,它整合WhisperX、F5-TTS等先进语音模型,在Windows等主流PC平台实现“视频下载-人声分离-字幕识别-文本翻译-声音克隆配音-视频合成”一站式本地运行,支持100多种语言处理、零样本语音克隆,无需代码,通过脚本即可轻松安装,免费无字符限制且不上传云端,是ElevenLabs等商业工具的优质替代方案,适配视频创作者和出海玩家需求。

Vercel Labs开源AI Agents浏览器自动化CLI工具「Agent-browser」

1月14日,Vercel Labs发布开源AI Agents浏览器自动化CLI工具「Agent-browser」,发布两天即获3.4k GitHub星,相比传统Playwright MCP可节省93%上下文,其中外层基于Rust编写,通过返回清洗后的可访问性树并为可交互元素打标签(Ref),让AI以简单指令精准操控浏览器,零配置且支持无头/有头模式,兼容多款AI工具,能降低Token消耗、提升AI注意力与稳定性,安装仅需两步命令。

技术突破

清华团队研发的AI药物虚拟筛选平台「DrugCLIP」登上Science

1月9日,清华大学联合团队研发的AI药物虚拟筛选平台「DrugCLIP」相关成果发表于《Science》,其通过语义检索技术实现筛选速度较传统方法提升百万倍,首次完成人类基因组规模虚拟筛选,实验验证对NET、TRIP12等靶点的筛选有效性,构建全球最大蛋白-配体筛选数据库并免费开放,配套服务平台已服务千余名用户,未来将助力抗癌、罕见病等领域新药研发。

逐际动力发布全球首个具身智能体系统「LimX COSA」

1月12日,逐际动力在深圳正式发布具身智能体系统「LimX COSA」,这是面向物理世界原生、深度融合高阶认知与全身运控的Agentic OS,采用自底向上的小脑基础模型、大小脑融合高阶技能层、自主认知决策层三层结构,赋予全尺寸人形机器人Oli高阶认知推理、语义记忆与主动感知、实时感知全身移动操作三大核心能力,实现“能想能动、知行合一”,标志着具身智能从Demo迈向产品落地,推动多领域的广泛应用。

DeepSeek V4核心技术「Engram」曝光:CPU替GPU存参,性能与降本双突破

1月13日,DeepSeek联合北京大学发布新论文,曝光「DeepSeek-V4」核心技术「Engram模块」,该模块基于N-gram改造,通过哈希函数映射与门控机制快速检索静态知识,以CPU内存替代GPU显存存储大规模参数(推理损耗<3%),相关模型在知识、推理、代码、长文本任务上显著优于现有模型,印证V4性能突破,降低超大规模模型部署成本。

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

0%
icon展开列表
通用级PixVerse P1的技术突破,揣着进入平行世界的密码
今天
img
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
今天
img
Nature丨清华等团队揭示AI科研双重效应:个人效率亦或是科学边界
今天
img
刚刚,喝到了千问APP给我点的奶茶
今天
img
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
今天
img
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
今天
img
已证实!清华姚班陈立杰全职加入OpenAI,保留伯克利教职
今天
img
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
今天
img
5分钟定制一个AI采购专家:讯飞发布“招采智能体工厂”,重新定义行业开发范式
今天
img
Agent时代,为什么多模态数据湖是必选项?
今天
img
大模型长脑子了?研究发现LLM中层会自发模拟人脑进化
今天
img
性能提升60%,英特尔Ultra3这次带来了巨大提升
01月14日
img
继宇树后,唯一获得三家大厂押注的自变量:具身模型不是把DeepSeek塞进机器人
01月14日
img
Sebastian Raschka 2026预测:Transformer统治依旧,但扩散模型正悄然崛起
01月14日
img
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统
01月14日
img
仅用10天?Anthropic最新智能体Cowork的代码竟然都是Claude写的
01月14日
img
AAAI 2026|AP2O-Coder 让大模型拥有「错题本」,像人类一样按题型高效刷题
01月14日
img
用AI从常规病理切片重建空间蛋白图谱:基于H&E图像的高维蛋白质表达预测
01月14日
img
京东首届AI影视创作大赛启动 最高奖金10万元邀全民共创AI视频
01月14日
img
合合信息多模态文本智能产品“上新”,覆盖AI教育、AI健康、AI Infra多元场景
01月14日
img

通用级PixVerse P1的技术突破,揣着进入平行世界的密码

原来,视频生成卷到极致,就是突破大脑和视觉的边界,让想象力进入 AI 构建的虚拟空间。

昨天,PixVerse R1 突然上线。一开始我们以为这只是一次普通的版本更新,但那种「即时响应、即看即创」的全新交互体验,却是前所未有的。读完技术报告我们发现,这不仅仅是一次卷到极致的性能提升,更是量变带来的质变。

回顾过去,23 年推出第一版模型,随后 Web 端、移动端全面铺开,爱诗科技在 DiT 路线上一路狂奔:从 24 年底的 10 秒生成,到 25 年 2 月实现 5 秒生成社交级视频,再到 11 月将 1080P 视频生成压缩至 30 秒。在自研模型技术和工程化落地的思想下,PixVerse 确实将「传统视频生成」的速度推向了极限。

与此同时,行业加速从未停歇。就在上个月,生数科技宣布其与清华大学团队研发的 TurboDiffusion 框架,也让视频生成正式迈入「秒级」门槛。

但时间上的「卷」就是视频生成的全部吗?

显然,再快的速度,如果不能生产出符合制作需求的画质和一致性,依然无法成为通用的标准。

PixVerse 曾是业界第一个把 5 秒视频生成做到 5 秒之内的团队,而当一切看似达到极限时,在 2026 年开年,PixVerse R1 模型与产品同步横空出世。

通过将计算效率提升数百倍,它不再局限于「秒级」,而是做到了人类肉眼感知范围内的「实时」生成。发布即实装,这是一款真正的「通用」实时世界模型。这已不仅是单点的技术突破,而是一步到位、直接实现应用层级质变的代际跨越。

以下,我们将通过技术报告,为您详细解析 R1 的这次突破。

看了这个视频,大家或许理解了什么是「无限内容」的视频生成。

在这个模型创造的世界里,「汉语竟是上古禁咒」,你只要说出「春」即刻绿草如茵,说出「鸟」即刻飞鸟成群。一切都是如此连续,直白,世界实时响应你的呼唤,时间和空间都在你的掌控之中。或许,PixVerse R1 已经彻底掌握了「无限流」的真谛。

简单来说,PixVerse R1 是全球首个支持最高 1080P 分辨率通用实时世界模型。

这也是第一次,AI 可以基于用户的意图实时生成一个持续演化、物理上合理的世界,标志着视频生成正式从「静态输出」迈入「实时交互」的全新阶段。

回顾视频生成技术的发展路径,行业始终受困于速度、质量与成本的不可能三角:高画质往往意味着高延迟(如传统扩散模型),而追求速度又不得不牺牲物理一致性。PixVerse R1 没有盲目追求参数军备竞赛,而是找到了一条通往「通用」的平衡之路:

当一个模型首先做到了打破物理极限的实时响应(IRE),并以此为基础结合了通用全模态(Omni)与长时序世界模拟(自回归),它就已经超越了传统意义上的视频生成工具。

图片
  • 技术博客链接:https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

交互的物理极限:瞬时响应引擎(IRE)

在通往通用世界模型的路径上,「实时性」始终是阻碍技术从实验室走向大规模应用的核心工程障碍。

传统扩散模型的生成逻辑本质上是一种精细的迭代去噪过程,通常需要 50 步甚至更多的采样步骤,才能将高斯噪声转化为清晰的视觉内容。这种机制虽然在一定程度上保证了生成质量,但其带来的秒级甚至分钟级的高延迟,使得 AI 视频生成长期停留在「离线制作、预录制回放」的阶段,无法满足即时交互的严苛需求。

不过,生成速度始终是 PixVerse 的强项,其在响应时间上一骑绝尘。早在 PixVerse V4.5 的时候我们就实测过,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过 1 分钟

但是,为了更进一步,实现彻底的「实时响应」,PixVerse 在 R1 上决心彻底重构底层推理架构,提出了瞬时响应引擎(Instantaneous Response Engine,IRE)

这是一套针对采样过程的系统级加速方案,通过三大关键技术,在保持 1080P 高分辨率生成的前提下,将推理时间压缩到极致。

时间轨迹折叠

不同于传统方法在加噪去噪过程上进行漫长的逐步逼近,该技术引入「直接传输映射」作为结构先验,建立噪声到数据的直线通路,能够直接预测干净数据的分布路径。

这种方法在数学上有效地「折叠」了原本冗长的时间维度,将传统扩散模型所需的 50+ 采样步数暴力压缩至仅需 1-4 步。这一数量级的步数缩减,直接从源头上解决了计算量过大的问题,实现了推理速度的质变。

引导校正

针对为了保证生成质量通常采用的无分类器引导策略(Classifier-Free Guidance,CFG)所带来的双倍计算开销问题,PixVerse R1 团队通过将条件梯度直接融合进模型内部,使得系统在推理阶段无需再进行正负样本的双重计算。

这一优化成功绕过了传统 CFG 的计算瓶颈,在不牺牲指令遵循能力的情况下,进一步降低了计算复杂度。

自适应稀疏注意力

为了应对高分辨率视频生成带来的巨大显存与计算压力,IRE 采用了自适应稀疏注意力机制。

该机制能够动态分析视频生成过程中的上下文依赖,智能识别并剪除长程依赖中的冗余计算,从而显著压缩了计算图,大幅提升了整体推理效率。

图片

       即时响应引擎由三个模块组成:时间轨迹折叠、引导修正和自适应稀疏注意力学习。

通用的认知底座:Omni 原生多模态基础模型

如果说「瞬时响应引擎」解决了传输的速度问题,那么一个强大的底座模型,则决定了传输内容的质量与上限。

底座模型是一切新功能新特性的基础。构建通用实时世界模型的第一步,在于打破单一模态的感知壁垒,只有设计一个完全端到端的原生多模态基础模型,才能彻底超越传统生成流程的局限

在当前的视频生成技术栈中,多为非端到端的生成方式。往往需要生成一种模态之后通过级联的方式生成另一种模态,这种方式下需要反复的铺路搭桥,尤其是在处理复杂的跨模态交互上,自然显著影响了生成的效率,也限制了模型的通用性。

为了实现无限的通用性,模型必须强调:原生,原生,还是原生

PixVerse R1 提出的 Omni 原生端到端多模态基础模型,正是通过底层架构的重构,实现了「因原生而通用」。

原生统一表示

Transformer 架构给了生成模型无穷的想象和可能性。

Omni 模型引入了统一 Token 流架构。该架构基于 Transformer,摒弃了异构模型拼接的传统路径,将文本、图像、音频与视频等不同模态的数据,统一编码为单一的生成序列。

在这一框架下,模型不再是将文本「翻译」为视觉信号,而是在原生层面上实现了对多模态数据的联合处理与理解。这种全模态的「通感」能力,使得模型能够精准捕捉文本指令与视听内容之间的深层关联,从而支撑起游戏、影视等多领域的通用化应用。

原生分辨率

除了多模态数据的原生处理,第二个原生,是实现高分辨率视频生成的核心特性:原生分辨率

Omni 模型引入这一机制,旨在解决传统视频生成模型中因数据预处理而导致的画面构图破坏与几何失真问题。

为了适配固定的模型输入结构,传统方案往往采取「强制裁剪」或「缩放拉伸」的策略。这种「削足适履」的方式,会导致画面关键信息被裁切丢失,或使物体形态发生非物理的扭曲变形(如被压扁或拉长)。

相比之下,Omni 模型坚持在原生分辨率和原始比例下进行端到端的学习。这一架构使其能够自适应处理任意长宽比的素材,从根源上消除了因裁切或缩放带来的视觉偏差,确保了生成内容在构图完整性与物理几何上的真实感

图片

Omni 原生多模态基础模型的端到端架构,统一设计使 Omni 模型能够接受任意多模态输入并同时生成音频和视频。

值得一提的是,模型通过原生学习大量真实世界视频数据,来确保真实世界的内在物理定律和动态的真实性。因此,Omni 模型的功能,似乎不仅限于生成引擎,更具备构建世界模型的潜力

世界的连续演化:自回归流式生成机制

构建「世界模型」的挑战之一,在于如何从生成分段的「切片」,跨越到模拟连续的「过程」。在这一维度上,PixVerse R1 重点解决的是长视频生成中普遍存在的「长时序一致性」难题,以及伴随而来的显存成本瓶颈。

在传统的视频生成流程中,模型通常受限于固定时长的生成窗口。当试图延长视频长度时,往往面临「时间误差累积」的问题:随着生成帧数的增加,微小的预测偏差会不断叠加,导致画面内容逐渐偏离初始设定,例如角色的外貌特征发生漂移,或物理环境逻辑出现崩坏。

此外,为了维持上下文的一致性,传统架构需要保存海量的历史状态,导致显存消耗呈指数级上升,使得长视频生成在计算成本上变得不可控。尤其是在 PixVerse R1 追求的「无限内容」的生成模式下,以上问题如果没有妥善处理,会出现严重的问题。

针对上述痛点,PixVerse R1 摒弃了传统的全局预测模式,构建了自回归流式生成机制

无限流式生成

在生成范式上,R1 采用了自回归建模。系统将视频合成任务重构为逐帧预测的流式过程,而非一次性生成固定片段。

这种架构从根本上解除了时长的硬性约束,实现了理论上的「无限流式生成」。视频不再是受限的帧组合,而成为可以根据即时输入,无限向前延展的时间流。

时间一致性

为了在无限延展中保持逻辑自洽,传统方法下基于帧上下文的特征记忆,大多有着数十秒的时间限制,显然是不够用的。

为此,R1 引入了记忆增强注意力模块。该模块能够显式地提取并锁定视频中的关键特征(如角色的身份特征、场景的空间布局等),将其转化为紧凑的记忆单元。

在生成后续内容时,模型无需回头重算所有历史数据的全量注意力,而是直接调用「记忆」。这一设计在维持长程依赖的同时,极大地优化了计算效率,避免了显存资源的爆炸式增长。

图片

      集成自回归建模与全能基础模型。

从技术逻辑上看,这一机制赋予了 AI 模型「长期记忆」的能力,打破了传统帧间上下文的限制,确保了 PixVerse R1 生成的内容不再是孤立、破碎的视觉片段,而是一个具备持续演化能力的「平行时空」。

无论生成时长如何延伸,核心主体的统一性与环境逻辑的连贯性始终保持稳定,这种物理与逻辑的持久性,正是「通用实时世界模型」成立的关键基石

结语:正在发生的现在

正如爱诗科技 CEO 王长虎所言:传统视频是被记录的历史,而 PixVerse R1 开创了「正在发生的现在」。

PixVerse R1 开启的是 AI 原生游戏、互动电影、实时仿真等全新媒介形态的大门,是未来「可交互的数字世界」的计算基础设施。

视频内容的消费边界正在消融。

媒体形态将不再局限于预先渲染的固定画面,而是转向由用户意图驱动的即时生成流。

PixVerse R1 以「通用实时世界模型」的形态,为这一未来提供了可落地的技术样本,也让视听媒介真正从「回放过去」迈向了「未来创作」。

花了 2 天时间,我做出来一个在线生成可爱宝宝跳舞的视频生成网站。

可以上传自己家宝宝照片,支持最多 30s 时长的视频模板,效果超级赞,关键是模型很厉害,加上上头的视频背景音

网站预览图

地址: https://aibabydance.video/

ps:目前由于单视频成本较高,一个视频 1–5 块钱,所以暂时积分没有免费赠送。等价格降下来我再通知大家免费领积分体验。

【开源自荐】制作短剧的教程整理

花费一个月时间做了一个开源制作短剧的项目,继上一篇把项目开源后,受到了好多佬友的鼓励,简单做了一个开源项目的教程。

之前的那一篇在这里:【开源短剧】AI 短剧创作工具

首先要配置大模型供应商,模型 API 地址,选择模型,文字,生图,生视频,只配置一遍即可,如果不配置这一步项目没办法往下进行。

配置好大模型供应商信息以后,开始创建项目

将准备好剧本放到章节里面,当然,聪明如佬,自己写一个也不是不可以~

提取角色和场景

提取角色和场景成功后,生成图片

批量生成角色和场景

拆解分镜

分解成功后,进入到剧集编辑页面,这里就是具体的生成效果配置,

每一个镜头配置,镜头属性,镜头图片,视频生成,音效与配乐,视频合成等等。

镜头属性,选择场景,选择角色,选择镜头语言

点击镜头图片,提取提示词,生成图片或者自己上传参考图片(玩命开发中 ing)

选择模型 ,选择参考图,选择时长,可以选择首帧或者其他关键帧配置,根据参考图点击生成视频按钮

视频生成完成后,点击:添加到素材库,再点击添加到时间线,视频的一个片段小结单元就制作好啦

两个视频拼接,可以设置转场效果

合成视频,下载视频

以上便是之前开源项目的简单制作教程


📌 转载信息
原作者:
xiaojunersheng
转载时间:
2026/1/14 18:20:02

Google 宣布推出 Veo 3.1 Ingredients to Video 升级版,该工具可基于参考图像生成视频内容。新版本在保持角色身份一致性、背景和物体连贯性方面显著改进,即使使用简单提示词也能生成更具表现力和创意的视频。

此次更新首次支持原生 9:16 竖屏格式输出,专为移动端短视频创作优化。同时新增最高 4K 分辨率的升级功能,1080p 版本提供更清晰的编辑效果,4K 版本则适用于高端制作和大屏幕播放。这些功能已在 Gemini 应用、YouTube、Flow、Google Vids、Gemini API 和 Vertex AI 中上线。


📌 转载信息
原作者:
tangdiao
转载时间:
2026/1/14 17:47:03

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

0%
icon展开列表
500万次围观,1X把「世界模型」真正用在了机器人NEO身上
今天
img
跳出「黑盒」,人大刘勇团队最新大语言模型理论与机理综述
今天
img
百川开源全球最强医疗大模型M3,「严肃问诊」定义AI医疗新能力
今天
img
相约AAAI 2026 | 上海AI实验室北极星 X 星启交流会(报名开启)
01月13日
img
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说
01月13日
img
无需重新训练,即可学习新任务,Arc研究所开源单细胞基础模型Stack及细胞反应全景图谱
01月13日
img
不上云、不租卡,如何优雅地在本地微调Qwen-VL-30B?
01月13日
img
OpenAI的首款硬件:是AI耳机,今年销量要冲5000万
01月13日
img
华为推出软工代码智能体SWE-Lego,解锁SFT训练极致性能
01月13日
img
大模型中标TOP10里的黑马:中关村科金的应用攻坚之道
01月13日
img
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
01月13日
img
一个模型统一4D世界生成与重建,港科大One4D框架来了
01月13日
img
端到端智驾的算力困局,九章智算云这样破局
01月12日
img
真香!刚骂完AI,Linux之父的首个Vibe Coding项目上线
01月12日
img
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟
01月12日
img
清华等团队用AI驱动百万倍速药物筛选,一天内十万亿次扫描的超高速虚拟平台
01月12日
img
2026年,大模型训练的下半场属于「强化学习云」
01月12日
img
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤
01月12日
img
AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房
01月12日
img
被Jim Fan点赞!全球第一的千寻智能Spirit v1.5正式开源!
01月12日
img

500万次围观,1X把「世界模型」真正用在了机器人NEO身上

还记得那个穿着「Lululemon」紧身衣、主打温柔陪伴的家用人形机器人 NEO 吗?

图片

上次聊到它时,大家还在吐槽其「远程操控」的隐私安全问题,调侃每个机器人的背后可能都是一个「印度小哥」。

昨天,1X 公司带着它的全新「大脑」亮相:1X World Model。这一次,NEO 似乎准备把「背后的操作员」给解放了。

简单来说,现在的 NEO 不再只是死记硬背动作,它学会了像人一样「想象」。通过观看海量的网络视频和人类第一视角的实操录像,它理解了物理世界是如何运作的:东西掉了会下落,门是可以推开的。

他们把类似 Sora 的视频生成技术装进了 NEO 的脑子里,接到指令时,它会先在脑海里生成一段「自己成功完成任务」的视频,然后倒推身体该怎么动,才能把这段想象变成现实。

不过,官方博客中也表示,有时候会出现「脑子学会了,手没学会」的情况:脑补出的视频很完美,但实际动作可能会抓空。

图片

那么这一次是「瑜伽服」下的真功夫,还是只存在于 Demo 里的「剪辑魔法」呢?不管技术落没落地,热度已经先爆表了。到截稿时间,官方推文浏览量已突破 500 万。

图片

看来,在经历了 AI 时代各式各样炫酷 Demo 的轮番轰炸之后,大家还是忍不住想看看:这一回,它是真长脑子了吗?

以下是 1X 技术团队对这颗「新大脑」的硬核拆解:

图片

家庭机器人要真正走进现实环境,必须具备常识性的行为能力以及对物理世界的深刻理解。

当前许多机器人基础模型采用的是 VLA 范式:即在一个预训练的 VLM 之上,增加一个用于预测机器人动作的输出头(例如 PI0.6、Helix、Groot N1.5)。VLM 能够从互联网规模的数据中学习到丰富的知识,但其训练目标更侧重于视觉与语义理解,而非对物理动态过程的预测。

因此,即便是对人类而言非常简单的任务,模型往往也需要数万小时、成本高昂的机器人数据才能学会完成。此外,为了进一步强化模型对物理交互中空间关系的理解,研究者通常还需要引入各种辅助训练目标(如 MolmoAct、Gemini-Robotics 1.5)。

在这篇博客中,1X 介绍了基于视频预训练的世界模型——1XWM,并将其集成进 NEO 机器人作为其控制策略。

与 VLA 模型直接从静态的图像-语言输入中预测动作轨迹不同,世界模型驱动策略是通过文本条件下的视频生成来推导机器人应采取的动作。借助互联网规模视频中蕴含的真实世界动力学规律,该世界模型能够在无需大规模机器人数据预训练、也不依赖任何相关的遥操作演示的情况下,即可泛化到全新的物体、运动方式和任务场景。

这标志着机器人智能范式的一次转变:机器人开始直接受益于视频预训练规模化带来的能力跃迁,而这一切得以实现,离不开一整套为高保真人类具身到机器人具身迁移而设计的硬件系统支持。

图片

从视频知识到世界模型

如今,诸如 Veo 和 Sora 等前沿文生视频模型已经能够生成极其逼真的视频内容。然而,这些模型在零样本生成场景下并未与机器人具身形态对齐,因而在控制任务所需的多个关键维度上往往存在不足,表现在以下几个方面:

  • 视觉/空间层面:生成的视频是否与机器人的相机内参和自我中心视角一致?是否能够准确保留操控任务所需的深度信息以及精确的空间关系?

  • 运动学层面:生成视频中的机器人动作是否在该具身形态下可实现,是否遵循其结构特性、关节极限、速度约束以及执行器能力?

  • 物理层面:生成过程是否避免了物理上不可能的结果(例如物体瞬移),从而保证其能够转化为现实世界中的成功执行?

原始视频能够提供看起来会发生什么,但并未给出如何去做。为了将视频知识转化为真正可用于控制的世界模型,1X 借助自身的端到端系统架构,采用了一种两阶段的对齐过程,思路与 DreamGen、UniPi 等已有工作一脉相承:

  • 世界模型主干:这是一个文本条件扩散模型:先在互联网规模的视频数据上进行预训练,随后在人类第一视角视频数据上进行中期训练,并最终在 NEO 专属的传感器-运动日志上进行微调。该模型能够高保真地预测场景随时间演化的过程,在视觉、空间和物理一致性方面表现出色。

  • 逆动力学模型(Inverse Dynamics Model, IDM):通过训练 IDM,将像素空间与执行器控制连接起来,使其能够预测在生成帧之间完成状态转移所需的精确动作序列。同时利用 IDM 的评估指标和拒绝采样机制,对生成结果施加运动学约束,从而确保动作在具身层面上的可行性。

在推理阶段,系统接收一个文本指令和一帧初始画面:世界模型负责生成符合意图的未来场景演化,逆动力学模型从中提取所需的动作轨迹,最终由机器人在现实世界中执行该动作序列。

图片

1XWM 的训练与推理流程

1XWM 的主干模型基于一个 140 亿参数的生成式视频模型。为了使该模型适配 NEO 的具身形态,1X 还采用了一种多阶段训练策略:

  • 第一视角中期训练:使用 900 小时的人类第一视角视频数据进行训练,使模型对第一人称的操作任务产生对齐。在这一阶段,模型能够学习到通用的操作行为模式,但仍然难以生成由 NEO 执行具体任务的视频。

  • 具身微调:随后,使用 70 小时的机器人数据进行微调,使模型进一步适配 NEO 的视觉外观与运动学特性。

以 DALL·E 3 等工作为例,已有研究表明,通过使用更具描述性的视觉文本标注进行训练,可以显著提升视觉基础模型对提示词的遵循能力。然而,许多第一视角数据集仅包含简要的任务描述。为此,1X 利用一个 VLM 生成更加详细的描述性字幕,并通过字幕上采样的方式将其用于训练。

此外,IDM 在 400 小时未经过滤的机器人数据上进行训练,其中既包括随机探索数据,也包含与任何具体任务无关的运动轨迹。这使得模型能够在任意状态下对 NEO 的运动进行准确追踪。

在测试阶段,系统接收一帧初始画面以及一条指导 NEO 执行动作的文本指令。1XWM 负责生成未来的视频序列,随后由 IDM 从生成视频中提取对应的机器人动作轨迹,并将其直接下发至机器人执行。为保证轨迹的平滑性,IDM 的输出会在多个初始噪声样本和滑动窗口维度上进行时间平均处理。

图片

NEO 后训练数据集主要包含高质量的抓取和放置数据(98.5%),这些数据经过筛选,仅包含桌面操作且手部可见的场景。通过利用基础视频模型的网络级预训练,1XWM 模型可以泛化到各种未曾见过的物体、环境和任务。

1XWM 到底能做啥

研究团队进一步评估了 1XWM 在任务泛化方面的能力,重点关注其是否能够完成 NEO 从未经历过的任务,以及生成视频与真实机器人执行之间的一致性程度。

在实验中,搭载 1XWM 的 NEO 被用于执行多种超出既有经验的任务,包括:

  • 抓取分布内与分布外的物体;

  • 操作此前从未见过、但具备复杂可供性的物体;

  • 完成需要全新动作模式的全新任务。

实验结果显示,1XWM 生成的视频与真实世界中的执行过程整体高度一致。将模型生成的视频与机器人实际完成任务后拍摄的视频进行并排对比,可以发现二者在视觉表现上非常接近。这表明,1XWM 在空间结构理解、运动学约束建模以及物理一致性等方面已经具备较强能力。

抓取:

图片

新动作:清洁

图片

接下来,1X 尝试需要双手协调和人机交互的任务。这些能力并未包含在训练数据集中。这表明此类知识来源于视频预训练和以第一人称视角进行的人机交互训练。由于 NEO 的身体结构与人类非常相似,因此从人类视频数据中学习到的功能可以直接迁移应用。

图片
图片

研究团队还通过系统性的实物实验评估了 1XWM 在分布内(ID)与分布外(OOD)任务上的表现。每类任务均重复执行 30 次。结果显示,1XWM 在多种动作原语上都保持了稳定的成功率,不过部分对精细操作要求较高的任务(例如倒液体、绘图等)仍然具有一定挑战性。

图片

能否将视频质量与任务成功率联系起来?

如果可以,就能使用视觉指标来衡量和改进视频质量,并估计实际任务成功的可能性。

有时,生成的视频是否可能成功一目了然。例如,向 1XWM 模型输入拉取纸巾指令,有时会生成 NEO 机器人拿起纸巾盒而不是拉取纸巾的视频。执行这些错误生成的视频时,成功率几乎为 0%。

1X 团队注意到像测试时计算这样的方法可以提高任务成功率。受此启发,他们尝试并行生成多个视频,并执行其中质量最好的一个。这个选择过程可以手动完成,但也可以使用 VLM 评估器进行自动化。

图片

第一视角数据与高质量字幕的重要性

基于此前假设:生成视频的质量与任务成功率之间存在相关性,研究团队对若干训练选择进行了视觉层面的消融分析,重点考察了字幕上采样以及第一视角人类数据训练这两项因素的影响。

实验共使用了三个评测数据集,每个数据集均包含 500 组起始图像–提示词对:

  • 分布内数据集:包含与机器人训练数据分布一致的复杂任务和场景,主要是杂乱环境中、物体位置较为困难的抓取与放置任务。

  • 新任务数据集:由一组全新的任务构成,例如搅拌碗、抽纸、相对尺寸判断(选择更大的物体)、双手协同操作等,数据采集于真实世界中的简单背景场景。

  • 分布外 T2I(OOD T2I)数据集:完全由抓取任务组成,其初始帧由文生图模型生成,随机采样分布外的家庭物体与背景场景。

下面是新任务数据示例:

图片

团队还要求人工标注员审查每个生成的视频,并根据物理合理性、任务完成情况以及与 NEO 的形态和能力的一致性来决定接受或拒绝该视频。

图片

字幕上采样在所有评测数据集上都能提升视频生成质量,因为更细致的字幕与视频模型预训练时的文本条件更加匹配,也能更清晰地引导具体动作生成。

引入第一视角人类数据则显著提升了新任务和分布外场景下的生成质量,说明这类数据为操作任务提供了可迁移的通用先验,且与 NEO 的类人具身高度契合。

不过,在已有大量 NEO 数据覆盖的分布内任务上,额外加入第一视角数据可能会稀释后训练数据分布,对效果提升有限,甚至略有负面影响。

图片

参考链接:https://www.1x.tech/discover/world-model-self-learning