标签 GLM-Image 下的文章

模力工场新鲜事

  • 模力工场作为官方生态合作伙伴,诚邀您共赴产业前沿盛会——「逐梦 AI ·天使筑基」2026 中关村早期投资论坛暨 AI 新场景产业创新大会。本次大会汇聚政策、资本与产业领袖,深度聚焦机器人、智能体、大模型应用等前沿赛道,共同把脉 AI 趋势、破解落地难题,为您提供决策的一手洞察。1 月 28 日,北京中关村,期待与您共筑未来!

029 周榜单总介绍

模力工场第 029 周 AI 应用榜来袭!本周共有 23 款应用上架,我们从榜单中精选出十款代表性应用与大家分享。本期榜单应用多为近期热门或美国 CES 参展应用,整体呈现“软硬结合、多领域并进”的特点,涵盖大模型应用、智能硬件、生活方式工具及 AI 基础设施等多个方向。从中可以看出,当前 AI 应用正朝着更实用、更集成、更富交互感的方向演进,硬件创新与场景化服务正成为推动 AI 走向普及的关键动力。以下为本周精选的十款应用简介:

  • GLM-Image(智谱 AI): 图像设计、AI Infra 类,开源图像生成模型

  • 千问App: AI 搜索问答、生活方式类, 阿里最强模型官方 AI 助手

  • 雷鸟 AI 眼镜(RayNeo): AI 硬件类,想象万千,终于一见

  • 影目 GO3 (IMMO): AI 硬件类,AI 眼镜美学标杆

  • Lynx Ring(云康宝): AI 硬件类,小巧智能戒指,24 小时健康监测随身管理

  • Bonjour 数字名片: 生活方式类,Bonjour!创意工作者的 Portfolio

  • 智元机器人 AgiBot A2: AI 硬件类,业内首个规模化商用的全尺寸人形机器人

  • Loona(可以科技): AI 硬件类,具备情感反馈的家庭 AI 宠物陪伴机器人

  • 蓝耘星河: AI Infra、新媒体创作、营销增长类,蓝耘星河以智能,驱动增长

  • Tunee: AI Agent、音频语音、视频多媒体类,Tunee!The smartest AI music agent.

本周必试应用

应用名称:GLM-Image(智谱 AI)

关键词:开源图像生成模型 | 复杂视觉文本生成 | 长文本渲染

模力小 A 推荐:GLM-Image 在中文长文本准确性与小字脚注生成上表现突出,尤其适合法律文书、产品说明等对文字保真度要求极高的场景。此外,其价格仅为 Nano Banana Pro 的一半左右,性价比显著。

上榜冷门但有趣的应用

应用名称:千问App

关键词:阿里官方出品|多场景智能问答|搜索增强|生活助手

模力小 A 推荐:如果说之前的千问还是一位“聊天伙伴”,那么现在的它,已经进化成了能真正帮你“办事”的智能管家。随着 1 月 15 日新版本的发布,千问 App 全面接入了淘宝、支付宝、高德等阿里核心生态,这意味着你可以直接通过和千问对话完成点外卖、买机票、订酒店等一系列操作。

本周上榜应用趋势解读

本周的 AI 趋势呈现出清晰的双线演进:软件正变得更深、更实用,而硬件则在变得更轻、更自然。

软件:从“能说会道”到“能干实事”

近期两个标志性进展值得关注。其一,GLM-Image 登顶 Hugging Face 榜单,证明了国产模型能在专业场景(如法律文书、产品说明)中精准生成文本和图像,同时还具备显著的成本优势,让专业级 AI 工具变得触手可及。其二,千问 App 全面接入阿里生态,意味着 AI 已从单纯的“问答对话”进阶到“办事调度”阶段——用户可以通过自然对话直接完成点外卖、订机票等操作。AI 正从一个聊天对象,转变为串联现实服务的智能中枢。

硬件:从“技术秀场”到“场景适配”

从 CES 的趋势来看,AI 硬件近期正在褪去“极客玩具”的标签,转向更务实的设计哲学:不刻意刷存在感,但需要时总在身边。

  • 入口更轻了:新一代 AR 眼镜(如雷鸟、影目)不再追求取代手机,而是通过更轻巧的设计,专注做好“信息提示”“即时导航”这类“抬头即用”的场景,成为生活中的“第二块屏幕”。类似地,像 Loona DeskMate 这样的产品,让用户闲置的旧手机成为桌面机器人的“面孔”,以几乎零成本的方式,把熟悉的设备变成了桌面上可互动、可陪伴的 AI 伙伴。

  • 陪伴更久了:以智能戒指为代表的健康设备,正变得像首饰一样无感佩戴。竞争的关键不再是“能测多少项”,而是能否让用户愿意长期佩戴,从而获得持续、有价值的健康数据。同样,人形机器人(如智元 AgiBot A2)也迈入了新阶段:能量产了。接下来的核心问题,是它能在工厂、商场等具体场景中解决什么实际工作,创造什么经济价值。

  • 表达更活了:AI 也开始赋能个人形象展示。像 Bonjour 数字名片这样的工具,让个人主页从静态的“电子名片”变成了可动态展示作品、风格乃至个性的“互动橱窗”,帮助用户在社交与职场中更生动地呈现自己。

整体而言,当前 AI 的发展更加注重与真实场景、既有习惯的衔接。无论是软件的能力延伸,还是硬件的形态演进,都体现出同一种思路:在用户需要时提供恰到好处的支持,而非刻意强调技术本身的存在。或许只有当技术彻底融入行为日常,才是其真正成熟的标志。

最后再介绍一下模力工场的上榜机制和加入榜单的参与方式,欢迎大家继续积极参与提交 AI 应用:

模力工场 AI 应用榜并非依靠“点赞刷榜”,而是参考以下权重维度:

  • 评论数(核心指标,代表社区真实反馈)

  • 收藏与点赞(次级指标)

  • 推荐人贡献(注册推荐人可直接为好应用打 Call)

加入榜单的参与方式:

  • 如果你是开发者:上传你的 AI 应用,描述使用场景与核心亮点;

  • 如果你是推荐人:发现好工具,发布推荐理由;

  • 如果你是用户:关注榜单,评论互动,影响榜单权重,贡献真实声音。

One More Thing,对于所有在模力工场上发布的 AI 应用,极客邦科技会借助旗下各品牌资源进行传播,短时间内触达千万级技术决策者与开发者、AI 用户:

  • InfoQ 全媒体矩阵

  • AI 前线全媒体矩阵

  • 极客时间全媒体矩阵

  • TGO 鲲鹏会全媒体矩阵

  • 霍太稳视频号

在图像生成领域,扩散模型因其训练稳定和泛化能力强已逐渐走入主流行列。然而,面对海报、PPT、科普图等需要准确传达复杂信息的「知识密集型」场景时, 传统模型存在指令理解与细节刻画难以兼顾的短板。 另一个长期存在的问题是生成图像中的文字经常出现笔画错误或难以辨识,严重影响实用价值。

基于此,智谱于 2026 年 1 月联合华为开源了新一代图像生成模型 GLM-Image。 该模型基于昇腾 Atlas 800T A2 和昇思 MindSpore AI 框架完成全流程训练。其核心特点是采用了创新的 「自回归+扩散解码器」混合架构(9B 自回归模型 + 7B DiT 解码器), 将语言模型的深度理解能力与扩散模型的高质量生成能力相结合。

此外,模型通过改进 Tokenizer 策略,原生支持从1024×1024 到 2048×2048 的任意比例图像生成,无需重新训练。 GLM-Image 的创新性还体现在以下两个方面:

*解决文字渲染难题: 在 CVTG-2K 和 LongText-Bench 权威评测中,其文字准确率等关键指标均位列开源模型第一,显著提升了图像中文字的生成准确性。

*定义高性价比应用: 在 API 调用模式下,生成单张图片的成本仅需 0.1 元,成本仅为主流闭源模型的 1/10 至 1/3,为商业化应用提供了高性价比选择。

目前,「GLM-Image 精准语义高保真图像生成模型」已上线 HyperAI 官网(hyper.ai)的教程版块, 快来输出无限创意吧!

在线体验: https://go.hyper.ai/2jcCU

效果示例:

Demo 运行

1.进入 hyper.ai 首页后,选择「GLM-Image 精准语义高保真图像生成模型」,或进入「教程」页面选择。页面跳转后,点击「在线运行此教程」。


2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

注:页面右上角支持切换语言,目前提供中文及英文两种语言,本教程文章以英文为例进行步骤展示。

3.选择「NVIDIA RTX Pro 6000」以及「PyTorch」镜像,按照需求选择「Pay As You Go(按量付费)」或「Daily Plan/Weekly Plan/Monthly Plan(包日/周/月」,点击「Continue job execution(继续执行)」。

HyperAI 为新用户准备了注册福利,仅需 $1,即可获得 20 小时 RTX 5090 算力(原价 $7),资源永久有效。


4.等待分配资源,当状态变为「Running(运行中)」后,点击「Open Workspace」进入 Jupyter Workspace。

效果演示

页面跳转后,点击左侧 README 页面,进入后点击上方 Run(运行)。


待运行完成,即可点击右侧 API 地址跳转至 demo 页面


以上就是 HyperAI超神经本期推荐的教程,欢迎大家前来体验!

教程链接:

https://go.hyper.ai/2jcCU

本周AI领域迎来密集进展,大模型在动漫生图(Niji V7)、端侧智能(AgentCPM-Explore)、医疗(Baichuan-M3)、多模态生图(GLM-Image)、视频生成(Veo 3.1、PixVerse R1)及机器人(1X World Model、LimX COSA)等垂直场景实现性能突破与场景适配;AI工具则聚焦电商、办公、音频处理等高频需求推出,Google UCP、Claude Cowork、Voice-Pro等高效解决方案,技术则在药物研发(DrugCLIP)、大模型部署(Engram模块)、生物研究(Stack模型)等领域实现跨学科赋能,一起来回顾本周的AI新鲜事儿吧!

AI 大模型

Midjourney联合推出动漫风格AI生图模型「Niji V7」

1月9日,Midjourney联合推出动漫风格AI生图模型「Niji V7」,核心更新包括图像质量提升(连贯性增强、细节如眼睛反射、花瓣更清晰,实现“高清升级”)、提示词遵循能力强化(精准理解位置/数量等具体请求,sref风格参考功能向前兼容,cref角色参考暂不支持)、设计美学突破(线条可传达更多形体质感信息,支持简约风格留白,线条与空间结合呈现更平面化效果),且个性化与情绪板功能即将上线。实测线条流畅、细节优化,但复杂场景和中式风格仍有不足。

OpenBMB开源社区联合发布4B「AgentCPM-Explore」端侧智能体模型

1月13日,OpenBMB开源社区联合清华大学自然语言处理实验室、中国人民大学及面壁智能发布4B参数的「AgentCPM-Explore」端侧智能体模型,是首个支持GAIA、Xbench等8个长难智能体任务的4B模型,可实现100+轮稳定环境交互,在主流评测基准上取得同尺寸SOTA表现,越级赶超8B级模型、比肩部分30B级以上及「Claude-4.5-Sonnet」等闭源大模型,还展现出“质疑”“求真”等类人思考逻辑,通过模型融合、信号去噪、信息精炼三大技术破解小模型训练难题,全流程开源AgentDock工具沙盒平台、AgentRL强化学习框架与AgentToLeaP一键测评平台支持复现与扩展。

Arc研究所开源单细胞基础模型「Stack」与「Perturb Sapiens」图谱

1月13日,Arc研究所宣布开源首个无需重新训练即可学习新任务的单细胞基础模型「Stack」及预测性细胞反应全景图谱「Perturb Sapiens」,「Stack」基于1.49亿个人类单细胞数据预训练、5500万个细胞后训练,通过表格化Transformer模块、基因模块表征符的架构创新及上下文学习的训练策略创新,能以细胞为“提示”预测目标细胞群在全新环境中的反应,在零样本下游任务中表现优于基线模型和现有方案;「Perturb Sapiens」则依托其能力生成约20000个“细胞类型-组织-扰动”预测组合,填补了相关实验空白,模型及图谱均已开源。

百川智能发布开源新一代医疗大模型「Baichuan-M3」,医疗幻觉率降至3.5

1月13日,百川智能正式开源新一代医疗大模型「Baichuan-M3」,在全球权威医疗AI评测HealthBench等多项权威评测中全面超越「GPT-5.2」,且以3.5的全球最低幻觉率刷新行业底线(通过将医学事实一致性融入训练实现)。该模型创新提出“严肃问诊范式”与SCAN原则,借助SPAR算法和SCAN-bench全流程动态评测体系,具备原生端到端严肃问诊能力,在安全分层、信息澄清等四大维度显著高于真人医生平均水平,同时其医疗应用「百小应」已同步接入该模型向医生与患者开放。

美团龙猫LongCat升级全新稀疏注意力机制「LoZA」,解码快10倍

1月13日消息,美团龙猫LongCat系列升级全新稀疏注意力机制「LoZA」(LongCat ZigZag Attention),通过给MLA模块配可学习权重α筛选50%低重要性模块替换为线性复杂度的SSA,形成ZigZag交错结构并设计1024 Token稀疏窗口,在中期训练阶段即可完成改造,使模型上下文窗口从256K扩展至1M,128K文本解码速度快10倍、256K预加载提速50%且解码省30%算力,日常任务性能持平原版,长文本任务表现更优,还计划支持动态稀疏比例及多模态长内容处理。

1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」

1月13日,1X公司为家用人形机器人NEO推出全新世界模型「1X World Model」,相关内容浏览量超500万次。该模型基于视频预训练技术,通过“世界模型主干(文本条件扩散模型,经互联网视频预训练、人类第一视角中期训练、NEO专属微调)+逆动力学模型IDM”两阶段对齐,无需大规模机器人数据即可泛化到全新物体、动作与任务,能通过生成“成功完成任务”的视频倒推动作轨迹,支持抓取、双手协调、人机交互等任务且保持稳定成功率。

智谱与华为联合开源首个基于国产芯片训练的SOTA生图模型「GLM-Image」

1月14日,智谱与华为联合发布中国首个全程基于国产华为Ascend A2芯片及昇思MindSpore框架训练的SOTA多模态生图模型「GLM-Image」,采用“9B自回归模型+7B DiT扩散解码器”混合架构,擅长文字精准渲染,拿下CVTG-2K和LongText-Bench双榜单开源第一,原生支持1024x1024至2048x2048任意尺寸,API调用仅0.1元/张,可适配小红书封面、商业海报等多场景,已开源并提供多个平台接入地址,印证了国产算力底座支撑前沿模型训练的能力。

Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频

1月14日,Google升级视频模型「Veo 3.1」,首次原生支持9:16竖屏视频(适配YouTube Shorts等移动端平台,无需裁剪)并新增4K分辨率,同时提升创意能力(简单提示词可生成小剧场)、强化角色与背景物体一致性(跨场景保持元素完整)、改善元素融合能力(无缝组合多图元素),普通用户可通过YouTube Shorts、Gemini等体验,企业用户可借助Flow、Gemini API等使用;Google依托YouTube的平台、流量与生态优势,形成“创作-分发-反馈-优化”正向循环,而AI视频竖屏化已成趋势,OpenAI、迪士尼及国内可灵AI等均有相关布局。

爱诗科技发布全球首个通用实时世界模型「PixVerse R1」

1月14日,爱诗科技发布全球首个支持最高1080P分辨率实时生成的世界模型「PixVerse R1」,区别于传统AI视频的高延迟、固定时长与单向生成,凭借Omni原生多模态模型(统一多模态为连续Token流)、自回归流式生成机制(支持无限时长与长时序一致性)、瞬时响应引擎IRE(采样步骤1-4步,效率提升数百倍)三大技术创新,实现瞬时响应、实时共创,支持多模态交互与最高1080P输出,开启视频即交互、世界可共创的新范式,适用于游戏、电影、直播等场景。

生数科技Vidu AI开放平台发布「一键生成AI MV」功能

1月14日,生数科技Vidu AI开放平台发布「一键生成AI MV」功能,依托深度协同的多智能体系统,用户仅需提交音乐、1-7张参考图及文本指令,即可全自动实现分钟级输出(适配10-300 S主流流媒体时长),通过攻克角色与风格一致性、歌词驱动叙事、帧级音画融合等行业痛点,解决了传统“手工作坊”模式的效率与质量瓶颈,大幅降低创作门槛、压缩成本(刊例价为同行业50%),推动音乐视觉内容叙事权从主流机构向个体创作者转移,定义了AI原生MV的质量基线,重塑音乐产业生产与消费范式。

AI 工具

Google发布专为AI智能体设计的通用商业协议「UCP」及「Gemini CX」

1月12日,Google官宣发布Agentic电商解决方案,包括专为AI智能体设计的通用商业协议「UCP」(Universal Commerce Protocol)及企业端的「Gemini CX」(Gemini Enterprise for Customer Experience)。「UCP」接入Shopify、沃尔玛等伙伴,贯穿商品发现到售后全流程;「Gemini CX」具备复杂推理、多模态交互、执行授权操作能力,可覆盖客户服务全生命周期,已落地麦当劳等企业;国内阿里、1688、京东、抖音也纷纷推出电商相关AI工具与功能。

Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」

1月13日,Anthropic基于Claude Code底层架构推出智能协作工具「Claude Cowork」,核心定位是从“对话助手”转变为能理解任务、制定计划并持续执行的“数字同事”,支持用户授权访问指定本地文件进行分类、信息提取、报告整理等非编码工作,还具备内置虚拟机隔离、浏览器自动化支持等创新体验与安全功能。目前以研究预览版形式面向macOS平台的Claude Max订阅用户开放,后续计划加入跨设备同步、Windows版本及强化安全机制。

夸克AI浏览器上线千问划词「快捷指令」功能,划选即调用告别复制粘贴

1月13日,夸克AI浏览器上线千问划词「快捷指令」功能,用户只需三步(开启划词工具栏、添加自定义指令并命名保存)即可完成设置,浏览网页或文档时划选内容便能一键调用AI指令,无需复制粘贴,该功能提供了学术润色、种草文案撰写、情侣聊天支招、内容创作润色、代码优化、外语翻译、职场黑话解读等多场景指令模板,助力提升各类场景下的使用效率。

5.6K Star开源神器「Voice-Pro」,免费本地实现视频翻译+声音克隆

1月13日消息,GitHub上5.6K Star的开源工具「Voice-Pro」原是韩国创业团队的付费软件,现因新项目开发停止维护并完全开源,它整合WhisperX、F5-TTS等先进语音模型,在Windows等主流PC平台实现“视频下载-人声分离-字幕识别-文本翻译-声音克隆配音-视频合成”一站式本地运行,支持100多种语言处理、零样本语音克隆,无需代码,通过脚本即可轻松安装,免费无字符限制且不上传云端,是ElevenLabs等商业工具的优质替代方案,适配视频创作者和出海玩家需求。

Vercel Labs开源AI Agents浏览器自动化CLI工具「Agent-browser」

1月14日,Vercel Labs发布开源AI Agents浏览器自动化CLI工具「Agent-browser」,发布两天即获3.4k GitHub星,相比传统Playwright MCP可节省93%上下文,其中外层基于Rust编写,通过返回清洗后的可访问性树并为可交互元素打标签(Ref),让AI以简单指令精准操控浏览器,零配置且支持无头/有头模式,兼容多款AI工具,能降低Token消耗、提升AI注意力与稳定性,安装仅需两步命令。

技术突破

清华团队研发的AI药物虚拟筛选平台「DrugCLIP」登上Science

1月9日,清华大学联合团队研发的AI药物虚拟筛选平台「DrugCLIP」相关成果发表于《Science》,其通过语义检索技术实现筛选速度较传统方法提升百万倍,首次完成人类基因组规模虚拟筛选,实验验证对NET、TRIP12等靶点的筛选有效性,构建全球最大蛋白-配体筛选数据库并免费开放,配套服务平台已服务千余名用户,未来将助力抗癌、罕见病等领域新药研发。

逐际动力发布全球首个具身智能体系统「LimX COSA」

1月12日,逐际动力在深圳正式发布具身智能体系统「LimX COSA」,这是面向物理世界原生、深度融合高阶认知与全身运控的Agentic OS,采用自底向上的小脑基础模型、大小脑融合高阶技能层、自主认知决策层三层结构,赋予全尺寸人形机器人Oli高阶认知推理、语义记忆与主动感知、实时感知全身移动操作三大核心能力,实现“能想能动、知行合一”,标志着具身智能从Demo迈向产品落地,推动多领域的广泛应用。

DeepSeek V4核心技术「Engram」曝光:CPU替GPU存参,性能与降本双突破

1月13日,DeepSeek联合北京大学发布新论文,曝光「DeepSeek-V4」核心技术「Engram模块」,该模块基于N-gram改造,通过哈希函数映射与门控机制快速检索静态知识,以CPU内存替代GPU显存存储大规模参数(推理损耗<3%),相关模型在知识、推理、代码、长文本任务上显著优于现有模型,印证V4性能突破,降低超大规模模型部署成本。

GLM-Image 正式上线并开源!继续讨论:
官方渠道 1 分 30 秒,默认参数

想测文字已经没额度了 (2k 图片 100 步,根本没来得及成功,额度就已经用完了…)


不过 APP 内还是挺快的,1 分钟四张图

这么正常的图给我杀掉一张,太离谱了

重进了一下软件发现,网络的问题…

终于可以测文字了


非常稳定,非常精准,字体也不错,但是整体画质真的被豆包完全碾压…
不过换个角度来说,换个标准平板,这个图片还是不错的 有点偏离动漫风格,更偏向于卡通风格 星星我是比较喜欢的
之后我整点对比图


📌 转载信息
原作者:
StellaFortuna
转载时间:
2026/1/15 10:20:03

最近被叫去帮小老板代上一节大一的思政课(话说,为什么我一个 AI 方向的博后要做这种事情 - -),选题选了浅淡辩证唯物主义的认识论,主要从 教员 文章 《人的正确思想是从哪里来的》展开,结合 AI 革命的时代背景,讨论青年如何借助 AI 学习与自我提升、如何积极实践,以及如何再用实践经验改造方法,最终形成自我提升的闭环。

在用 gemini3-pro-image 做 ppt 的时候,碰巧发现智谱发布了新的 image 模型。并宣称在多项关于文字渲染的 benchmark 上达到了 SOTA,于是我就起了尝试的心思。具体宣称指标如下:

先说结论,在经过了多轮测试后发现,在模型体量相近的情况下,智谱新模型的文字渲染能力确实还行,但离 gemini-3pro-image-2k/4k 还是有一些距离,且需要更多的提示词来告知图像生成的细节才能达到较好的效果,没有 gemini-3-pro-image,那种用简短的提示词就能生成让人眼前一亮效果的能力。可能并不适合用于制作 PPT。放两张控制变量下,不同模型的文生图让大家参考一下:
GLM-IMAGE:


Gemini-3-pro-image:


📌 转载信息
原作者:
AlexChu1996
转载时间:
2026/1/14 17:42:29

GLM-Image 技术报告:GLM-Image: Auto-regressive for Dense-knowledge and High-fidelity Image Generation

模型基于昇腾 Atlas 800T A2 设备和昇思 MindSpore AI 框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的 SOTA 多模态模型。
GLM-Image 采用自主创新的「自回归 + 扩散解码器」混合架构,实现了图像生成与语言模型的联合,是我们面向以 Nano Banana Pro 为代表的新一代「认知型生成」技术范式的一次重要探索。

新一代图像生成模型 GLM-Image 正式上线并开源!

这一次,图像生成不只 “好看”,更 “写对”

核心亮点:

强理解 × 准文字:理解复杂指令,文字绘制更精准,特别适合海报、插画等知识密集型场景

架构革新:面向以 Nano Banana Pro 为代表的新一代技术范式打造

硬核突破:首个在国产芯片上完成全程训练的 SOTA 图像模型

极致性价比:API 生成一张图仅 0.1 元

Bigmodel 已就位,欢迎大家上手体验,一起玩出新高度

详情 i3z.cc/v-8na7u

消息转发自官方开发者社群


📌 转载信息
原作者:
zhongruan
转载时间:
2026/1/14 10:25:43