标签 Veo 3.1 下的文章

本周AI领域迎来密集进展,大模型在动漫生图(Niji V7)、端侧智能(AgentCPM-Explore)、医疗(Baichuan-M3)、多模态生图(GLM-Image)、视频生成(Veo 3.1、PixVerse R1)及机器人(1X World Model、LimX COSA)等垂直场景实现性能突破与场景适配;AI工具则聚焦电商、办公、音频处理等高频需求推出,Google UCP、Claude Cowork、Voice-Pro等高效解决方案,技术则在药物研发(DrugCLIP)、大模型部署(Engram模块)、生物研究(Stack模型)等领域实现跨学科赋能,一起来回顾本周的AI新鲜事儿吧!

AI 大模型

Midjourney联合推出动漫风格AI生图模型「Niji V7」

1月9日,Midjourney联合推出动漫风格AI生图模型「Niji V7」,核心更新包括图像质量提升(连贯性增强、细节如眼睛反射、花瓣更清晰,实现“高清升级”)、提示词遵循能力强化(精准理解位置/数量等具体请求,sref风格参考功能向前兼容,cref角色参考暂不支持)、设计美学突破(线条可传达更多形体质感信息,支持简约风格留白,线条与空间结合呈现更平面化效果),且个性化与情绪板功能即将上线。实测线条流畅、细节优化,但复杂场景和中式风格仍有不足。

OpenBMB开源社区联合发布4B「AgentCPM-Explore」端侧智能体模型

1月13日,OpenBMB开源社区联合清华大学自然语言处理实验室、中国人民大学及面壁智能发布4B参数的「AgentCPM-Explore」端侧智能体模型,是首个支持GAIA、Xbench等8个长难智能体任务的4B模型,可实现100+轮稳定环境交互,在主流评测基准上取得同尺寸SOTA表现,越级赶超8B级模型、比肩部分30B级以上及「Claude-4.5-Sonnet」等闭源大模型,还展现出“质疑”“求真”等类人思考逻辑,通过模型融合、信号去噪、信息精炼三大技术破解小模型训练难题,全流程开源AgentDock工具沙盒平台、AgentRL强化学习框架与AgentToLeaP一键测评平台支持复现与扩展。

Arc研究所开源单细胞基础模型「Stack」与「Perturb Sapiens」图谱

1月13日,Arc研究所宣布开源首个无需重新训练即可学习新任务的单细胞基础模型「Stack」及预测性细胞反应全景图谱「Perturb Sapiens」,「Stack」基于1.49亿个人类单细胞数据预训练、5500万个细胞后训练,通过表格化Transformer模块、基因模块表征符的架构创新及上下文学习的训练策略创新,能以细胞为“提示”预测目标细胞群在全新环境中的反应,在零样本下游任务中表现优于基线模型和现有方案;「Perturb Sapiens」则依托其能力生成约20000个“细胞类型-组织-扰动”预测组合,填补了相关实验空白,模型及图谱均已开源。

百川智能发布开源新一代医疗大模型「Baichuan-M3」,医疗幻觉率降至3.5

1月13日,百川智能正式开源新一代医疗大模型「Baichuan-M3」,在全球权威医疗AI评测HealthBench等多项权威评测中全面超越「GPT-5.2」,且以3.5的全球最低幻觉率刷新行业底线(通过将医学事实一致性融入训练实现)。该模型创新提出“严肃问诊范式”与SCAN原则,借助SPAR算法和SCAN-bench全流程动态评测体系,具备原生端到端严肃问诊能力,在安全分层、信息澄清等四大维度显著高于真人医生平均水平,同时其医疗应用「百小应」已同步接入该模型向医生与患者开放。

美团龙猫LongCat升级全新稀疏注意力机制「LoZA」,解码快10倍

1月13日消息,美团龙猫LongCat系列升级全新稀疏注意力机制「LoZA」(LongCat ZigZag Attention),通过给MLA模块配可学习权重α筛选50%低重要性模块替换为线性复杂度的SSA,形成ZigZag交错结构并设计1024 Token稀疏窗口,在中期训练阶段即可完成改造,使模型上下文窗口从256K扩展至1M,128K文本解码速度快10倍、256K预加载提速50%且解码省30%算力,日常任务性能持平原版,长文本任务表现更优,还计划支持动态稀疏比例及多模态长内容处理。

1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」

1月13日,1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」,相关内容浏览量超500万次。该模型基于视频预训练技术,通过“世界模型主干(文本条件扩散模型,经互联网视频预训练、人类第一视角中期训练、NEO专属微调)+逆动力学模型IDM”两阶段对齐,无需大规模机器人数据即可泛化到全新物体、动作与任务,能通过生成“成功完成任务”的视频倒推动作轨迹,支持抓取、双手协调、人机交互等任务且保持稳定成功率。

智谱与华为联合开源首个基于国产芯片训练的SOTA生图模型「GLM-Image」

1月14日,智谱与华为联合发布中国首个全程基于国产华为Ascend A2芯片及昇思MindSpore框架训练的SOTA多模态生图模型「GLM-Image」,采用“9B自回归模型+7B DiT扩散解码器”混合架构,擅长文字精准渲染,拿下CVTG-2K和LongText-Bench双榜单开源第一,原生支持1024x1024至2048x2048任意尺寸,API调用仅0.1元/张,可适配小红书封面、商业海报等多场景,已开源并提供多个平台接入地址,印证了国产算力底座支撑前沿模型训练的能力。

Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频

1月14日,Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频(适配YouTube Shorts等移动端平台,无需裁剪)并新增4K分辨率,同时提升创意能力(简单提示词可生成小剧场)、强化角色与背景物体一致性(跨场景保持元素完整)、改善元素融合能力(无缝组合多图元素),普通用户可通过YouTube Shorts、Gemini等体验,企业用户可借助Flow、Gemini API等使用;Google依托YouTube的平台、流量与生态优势,形成“创作-分发-反馈-优化”正向循环,而AI视频竖屏化已成趋势,OpenAI、迪士尼及国内可灵AI等均有相关布局。

爱诗科技发布全球首个通用实时世界模型「PixVerse R1」

1月14日,爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型「PixVerse R1」,区别于传统AI视频的高延迟、固定时长与单向生成,凭借Omni原生多模态模型(统一多模态为连续Token流)、自回归流式生成机制(支持无限时长与长时序一致性)、瞬时响应引擎IRE(采样步骤1-4步,效率提升数百倍)三大技术创新,实现瞬时响应、实时共创,支持多模态交互与最高1080P输出,开启视频即交互、世界可共创的新范式,适用于游戏、电影、直播等场景。

生数科技Vidu AI开放平台发布「一键生成AI MV」功能

1月14日,生数科技Vidu AI开放平台发布「一键生成AI MV」功能,依托深度协同的多智能体系统,用户仅需提交音乐、1-7张参考图及文本指令,即可全自动实现分钟级输出(适配10-300 S主流流媒体时长),通过攻克角色与风格一致性、歌词驱动叙事、帧级音画融合等行业痛点,解决了传统“手工作坊”模式的效率与质量瓶颈,大幅降低创作门槛、压缩成本(刊例价为同行业50%),推动音乐视觉内容叙事权从主流机构向个体创作者转移,定义了AI原生MV的质量基线,重塑音乐产业生产与消费范式。

AI 工具

Google发布专为AI智能体设计的通用商业协议「UCP」及「Gemini CX」

1月12日,Google官宣发布Agentic电商解决方案,包括专为AI智能体设计的通用商业协议「UCP」(Universal Commerce Protocol)及企业端的「Gemini CX」(Gemini Enterprise for Customer Experience)。「UCP」接入Shopify、沃尔玛等伙伴,贯穿商品发现到售后全流程;「Gemini CX」具备复杂推理、多模态交互、执行授权操作能力,可覆盖客户服务全生命周期,已落地麦当劳等企业;国内阿里、1688、京东、抖音也纷纷推出电商相关AI工具与功能。

Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」

1月13日,Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」,核心定位是从“对话助手”转变为能理解任务、制定计划并持续执行的“数字同事”,支持用户授权访问指定本地文件进行分类、信息提取、报告整理等非编码工作,还具备内置虚拟机隔离、浏览器自动化支持等创新体验与安全功能。目前以研究预览版形式面向macOS平台的Claude Max订阅用户开放,后续计划加入跨设备同步、Windows版本及强化安全机制。

夸克AI浏览器上线千问划词「快捷指令」功能,划选即调用告别复制粘贴

1月13日,夸克AI浏览器上线千问划词「快捷指令」功能,用户只需三步(开启划词工具栏、添加自定义指令并命名保存)即可完成设置,浏览网页或文档时划选内容便能一键调用AI指令,无需复制粘贴,该功能提供了学术润色、种草文案撰写、情侣聊天支招、内容创作润色、代码优化、外语翻译、职场黑话解读等多场景指令模板,助力提升各类场景下的使用效率。

5.6K Star开源神器「Voice-Pro」,免费本地实现视频翻译+声音克隆

1月13日消息,GitHub上5.6K Star的开源工具「Voice-Pro」原是韩国创业团队的付费软件,现因新项目开发停止维护并完全开源,它整合WhisperX、F5-TTS等先进语音模型,在Windows等主流PC平台实现“视频下载-人声分离-字幕识别-文本翻译-声音克隆配音-视频合成”一站式本地运行,支持100多种语言处理、零样本语音克隆,无需代码,通过脚本即可轻松安装,免费无字符限制且不上传云端,是ElevenLabs等商业工具的优质替代方案,适配视频创作者和出海玩家需求。

Vercel Labs开源AI Agents浏览器自动化CLI工具「Agent-browser」

1月14日,Vercel Labs发布开源AI Agents浏览器自动化CLI工具「Agent-browser」,发布两天即获3.4k GitHub星,相比传统Playwright MCP可节省93%上下文,其中外层基于Rust编写,通过返回清洗后的可访问性树并为可交互元素打标签(Ref),让AI以简单指令精准操控浏览器,零配置且支持无头/有头模式,兼容多款AI工具,能降低Token消耗、提升AI注意力与稳定性,安装仅需两步命令。

技术突破

清华团队研发的AI药物虚拟筛选平台「DrugCLIP」登上Science

1月9日,清华大学联合团队研发的AI药物虚拟筛选平台「DrugCLIP」相关成果发表于《Science》,其通过语义检索技术实现筛选速度较传统方法提升百万倍,首次完成人类基因组规模虚拟筛选,实验验证对NET、TRIP12等靶点的筛选有效性,构建全球最大蛋白-配体筛选数据库并免费开放,配套服务平台已服务千余名用户,未来将助力抗癌、罕见病等领域新药研发。

逐际动力发布全球首个具身智能体系统「LimX COSA」

1月12日,逐际动力在深圳正式发布具身智能体系统「LimX COSA」,这是面向物理世界原生、深度融合高阶认知与全身运控的Agentic OS,采用自底向上的小脑基础模型、大小脑融合高阶技能层、自主认知决策层三层结构,赋予全尺寸人形机器人Oli高阶认知推理、语义记忆与主动感知、实时感知全身移动操作三大核心能力,实现“能想能动、知行合一”,标志着具身智能从Demo迈向产品落地,推动多领域的广泛应用。

DeepSeek V4核心技术「Engram」曝光:CPU替GPU存参,性能与降本双突破

1月13日,DeepSeek联合北京大学发布新论文,曝光「DeepSeek-V4」核心技术「Engram模块」,该模块基于N-gram改造,通过哈希函数映射与门控机制快速检索静态知识,以CPU内存替代GPU显存存储大规模参数(推理损耗<3%),相关模型在知识、推理、代码、长文本任务上显著优于现有模型,印证V4性能突破,降低超大规模模型部署成本。

刚刚,谷歌更新了其 Veo AI 视频生成器,新增原生竖屏视频生成与 4K 分辨率支持功能。此次对 “文生视频” 功能的调整,旨在提升画面清晰度的同时,确保不同场景中的主体元素保持一致。

 

Veo 3.1 的更新,解决了生成式视频领域一项长期存在的挑战:保持镜头间的视觉一致性。谷歌表示,新款模型在场景切换时能更好地保留人物特征与背景纹理,从而更容易重复使用特定的视觉元素,或在多场景叙事中贯穿同一主题。

最显著的改进是对“素材到视频”工具的重大优化。用户只需添加三张参考图片:一张用于主体,一张用于背景,一张用于展现所需的视觉效果或风格。然后,只需添加一些文字即可开始制作。即使提示信息较短,Veo 3.1 也能在提供参考图像后生成角色表情和动作更生动的视频。

 

移动创作者是本次更新的核心受众。升级后的 Veo 可直接生成 9:16 比例的原生竖屏视频,创作者无需对横屏素材进行裁剪,也不必牺牲画质,就能制作出适配 YouTube Shorts 等平台的全屏内容。针对更专业的创作流程,谷歌还新增了 1080P 至 4K 的画质提升选项。

 

目前,这些新功能已率先在 Gemini 应用、YouTube Shorts 及 YouTube Create 工具中上线,并将逐步覆盖谷歌旗下更多创作者工具与企业级服务。为区分生成内容与真实拍摄素材,谷歌会在视频文件中嵌入肉眼不可见的 SynthID 数字水印。

 

有体验用户反馈,Veo 3.1 似乎存在不同语言版本表现差距太大的问题。“巴西葡萄牙语的人物音频存在音画不同步、台词错乱的问题,其他语言版本的表现则相对更佳。我曾指令其生成一段鹦鹉以沙哑嗓音鸣叫的音频,但该需求最终未能实现。”

 

值得一提的是,此次更新距苹果与谷歌官宣合作、计划在下一代 Siri 中集成 Gemini 模型仅过去一天。与此同时, OpenAI 已达成合作,计划将迪士尼角色引入 Sora 平台。

 

Google 宣布推出 Veo 3.1 Ingredients to Video 升级版,该工具可基于参考图像生成视频内容。新版本在保持角色身份一致性、背景和物体连贯性方面显著改进,即使使用简单提示词也能生成更具表现力和创意的视频。

此次更新首次支持原生 9:16 竖屏格式输出,专为移动端短视频创作优化。同时新增最高 4K 分辨率的升级功能,1080p 版本提供更清晰的编辑效果,4K 版本则适用于高端制作和大屏幕播放。这些功能已在 Gemini 应用、YouTube、Flow、Google Vids、Gemini API 和 Vertex AI 中上线。


📌 转载信息
原作者:
tangdiao
转载时间:
2026/1/14 17:47:03

素材转视频功能:现支持竖屏比例

应用户需求,我们正式推出竖屏模式!所有付费套餐现已支持竖屏素材转视频功能(免费版后续开放)。使用步骤如下:

在下拉菜单中选择 “素材转视频”。

上传或生成图像素材作为主题或风格参考。

在设置中将宽高比调整为竖屏模式。

请注意:当前该功能仅支持 Veo 3.1 Fast 版本(横竖屏模式均适用)。期待见证您的创作成果!

视频分辨率升级至 1080p 与 4K

我们深知分辨率的重要性。今日推出两款全新升级模型:1080p 升级版(更新)与 4K 升级版(新增),您可在下载心仪作品时调用。下载视频时(右上角菜单内),只需选择对应的分辨率选项即可。

重要提示

1080p 升级下载适用于所有付费套餐,无需消耗积分。

4K 升级下载仅限 Ultra 套餐用户使用,每次消耗 50 积分。

升级处理可能需要数分钟,完成时右上角将显示提示气泡。

费用及可用性可能随时调整。

Flow 团队敬上


📌 转载信息
原作者:
Menkelo
转载时间:
2026/1/14 10:25:19