标签 智谱AI 下的文章

模力工场新鲜事

  • 模力工场作为官方生态合作伙伴,诚邀您共赴产业前沿盛会——「逐梦 AI ·天使筑基」2026 中关村早期投资论坛暨 AI 新场景产业创新大会。本次大会汇聚政策、资本与产业领袖,深度聚焦机器人、智能体、大模型应用等前沿赛道,共同把脉 AI 趋势、破解落地难题,为您提供决策的一手洞察。1 月 28 日,北京中关村,期待与您共筑未来!

029 周榜单总介绍

模力工场第 029 周 AI 应用榜来袭!本周共有 23 款应用上架,我们从榜单中精选出十款代表性应用与大家分享。本期榜单应用多为近期热门或美国 CES 参展应用,整体呈现“软硬结合、多领域并进”的特点,涵盖大模型应用、智能硬件、生活方式工具及 AI 基础设施等多个方向。从中可以看出,当前 AI 应用正朝着更实用、更集成、更富交互感的方向演进,硬件创新与场景化服务正成为推动 AI 走向普及的关键动力。以下为本周精选的十款应用简介:

  • GLM-Image(智谱 AI): 图像设计、AI Infra 类,开源图像生成模型

  • 千问App: AI 搜索问答、生活方式类, 阿里最强模型官方 AI 助手

  • 雷鸟 AI 眼镜(RayNeo): AI 硬件类,想象万千,终于一见

  • 影目 GO3 (IMMO): AI 硬件类,AI 眼镜美学标杆

  • Lynx Ring(云康宝): AI 硬件类,小巧智能戒指,24 小时健康监测随身管理

  • Bonjour 数字名片: 生活方式类,Bonjour!创意工作者的 Portfolio

  • 智元机器人 AgiBot A2: AI 硬件类,业内首个规模化商用的全尺寸人形机器人

  • Loona(可以科技): AI 硬件类,具备情感反馈的家庭 AI 宠物陪伴机器人

  • 蓝耘星河: AI Infra、新媒体创作、营销增长类,蓝耘星河以智能,驱动增长

  • Tunee: AI Agent、音频语音、视频多媒体类,Tunee!The smartest AI music agent.

本周必试应用

应用名称:GLM-Image(智谱 AI)

关键词:开源图像生成模型 | 复杂视觉文本生成 | 长文本渲染

模力小 A 推荐:GLM-Image 在中文长文本准确性与小字脚注生成上表现突出,尤其适合法律文书、产品说明等对文字保真度要求极高的场景。此外,其价格仅为 Nano Banana Pro 的一半左右,性价比显著。

上榜冷门但有趣的应用

应用名称:千问App

关键词:阿里官方出品|多场景智能问答|搜索增强|生活助手

模力小 A 推荐:如果说之前的千问还是一位“聊天伙伴”,那么现在的它,已经进化成了能真正帮你“办事”的智能管家。随着 1 月 15 日新版本的发布,千问 App 全面接入了淘宝、支付宝、高德等阿里核心生态,这意味着你可以直接通过和千问对话完成点外卖、买机票、订酒店等一系列操作。

本周上榜应用趋势解读

本周的 AI 趋势呈现出清晰的双线演进:软件正变得更深、更实用,而硬件则在变得更轻、更自然。

软件:从“能说会道”到“能干实事”

近期两个标志性进展值得关注。其一,GLM-Image 登顶 Hugging Face 榜单,证明了国产模型能在专业场景(如法律文书、产品说明)中精准生成文本和图像,同时还具备显著的成本优势,让专业级 AI 工具变得触手可及。其二,千问 App 全面接入阿里生态,意味着 AI 已从单纯的“问答对话”进阶到“办事调度”阶段——用户可以通过自然对话直接完成点外卖、订机票等操作。AI 正从一个聊天对象,转变为串联现实服务的智能中枢。

硬件:从“技术秀场”到“场景适配”

从 CES 的趋势来看,AI 硬件近期正在褪去“极客玩具”的标签,转向更务实的设计哲学:不刻意刷存在感,但需要时总在身边。

  • 入口更轻了:新一代 AR 眼镜(如雷鸟、影目)不再追求取代手机,而是通过更轻巧的设计,专注做好“信息提示”“即时导航”这类“抬头即用”的场景,成为生活中的“第二块屏幕”。类似地,像 Loona DeskMate 这样的产品,让用户闲置的旧手机成为桌面机器人的“面孔”,以几乎零成本的方式,把熟悉的设备变成了桌面上可互动、可陪伴的 AI 伙伴。

  • 陪伴更久了:以智能戒指为代表的健康设备,正变得像首饰一样无感佩戴。竞争的关键不再是“能测多少项”,而是能否让用户愿意长期佩戴,从而获得持续、有价值的健康数据。同样,人形机器人(如智元 AgiBot A2)也迈入了新阶段:能量产了。接下来的核心问题,是它能在工厂、商场等具体场景中解决什么实际工作,创造什么经济价值。

  • 表达更活了:AI 也开始赋能个人形象展示。像 Bonjour 数字名片这样的工具,让个人主页从静态的“电子名片”变成了可动态展示作品、风格乃至个性的“互动橱窗”,帮助用户在社交与职场中更生动地呈现自己。

整体而言,当前 AI 的发展更加注重与真实场景、既有习惯的衔接。无论是软件的能力延伸,还是硬件的形态演进,都体现出同一种思路:在用户需要时提供恰到好处的支持,而非刻意强调技术本身的存在。或许只有当技术彻底融入行为日常,才是其真正成熟的标志。

最后再介绍一下模力工场的上榜机制和加入榜单的参与方式,欢迎大家继续积极参与提交 AI 应用:

模力工场 AI 应用榜并非依靠“点赞刷榜”,而是参考以下权重维度:

  • 评论数(核心指标,代表社区真实反馈)

  • 收藏与点赞(次级指标)

  • 推荐人贡献(注册推荐人可直接为好应用打 Call)

加入榜单的参与方式:

  • 如果你是开发者:上传你的 AI 应用,描述使用场景与核心亮点;

  • 如果你是推荐人:发现好工具,发布推荐理由;

  • 如果你是用户:关注榜单,评论互动,影响榜单权重,贡献真实声音。

One More Thing,对于所有在模力工场上发布的 AI 应用,极客邦科技会借助旗下各品牌资源进行传播,短时间内触达千万级技术决策者与开发者、AI 用户:

  • InfoQ 全媒体矩阵

  • AI 前线全媒体矩阵

  • 极客时间全媒体矩阵

  • TGO 鲲鹏会全媒体矩阵

  • 霍太稳视频号

科技云报到原创。

2026年伊始,港股市场被AI热潮彻底点燃。

1月8日,智谱AI以“全球通用大模型第一股”身份登陆港交所,1164倍超额认购、首日528亿港元市值,拉开国产AI企业资本化序幕。

仅隔一天,MiniMax接力挂牌,1837倍超额认购、盘中涨幅超109%、市值破千亿港元,刷新港股AI新股热度纪录。

短短48小时,两家头部企业募资近百亿港元,市值总和逼近1700亿港元,这场资本盛宴背后,是市场对AI产业价值的集体押注。

同时,北京智源人工智能研究院发布《2026十大AI技术趋势》,明确指出AI发展的核心转变:从“预测下一个词”的语言游戏,迈向“预测世界状态”的物理规律探索。

当资本泡沫与技术突破碰撞、商业化探索与产业需求对接,2026年的AI行业不再是单一技术的狂欢,而是一场涉及认知范式、智能形态、商业逻辑的全面重构。

 

 

技术成熟度与产业需求的双重共振

AI企业的密集上市,标志着行业正式告别“依赖融资续命”的草莽阶段,迈入“资本化造血”的关键转折期。

这一转变,是技术成熟度与产业需求的深度契合,更暗藏着行业发展的逻辑变化。

从技术层面看,大模型已从参数竞赛进入能力沉淀期,智源报告指出,2026年AI将实现从“感知”到“认知”的跨越,NSP(Next-State Prediction)范式让模型具备物理世界规律理解能力,为商业化提供了技术基础。

从产业需求看,全球AI市场规模将从2025年的7575.8亿美元增至9000亿美元,同比增长18.7%,延续了高增长态势。

国务院“人工智能+”行动将AI定位为新型工业化 “必答题”,工业、金融、医疗等领域的智能化需求迫切,为技术落地提供了广阔场景。

资本的选择也暗藏趋势密码,AI应用与多模态世界模型正成为AGI共识方向。

这意味着,资本不再盲目追逐参数规模,而是聚焦“技术落地能力”与“场景适配性”,这种理性回归将推动行业从野蛮生长走向高质量发展。

从“预测文本”到“理解世界”

智源十大趋势的核心洞察,是AI技术范式从NTP(Next Token Prediction)到NSP(Next-State Prediction)的转变。

这一变革不仅重塑了技术研发逻辑,更将AI的应用边界从数字空间拓展至物理世界,催生了一系列颠覆性创新。

2026年,“能否理解世界运转规律”将成为衡量大模型实力的核心标准。

不同于传统语言模型仅能生成连贯文本,世界模型通过多模态数据统一编码,自主学习物理动态、时空连续性与因果关系,实现“理解-预测-规划”的完整认知闭环。

这一技术突破,让AI从“文字工具”升级为“世界模拟器”。

在海外,OpenAI的Sora 2展现出对真实世界的深度模拟能力,World Labs的RTFM 模型可从单幅图像创建3D空间;在国内,智源悟界・Emu3.5成为NSP范式的标杆,蚂蚁百灵大模型在多模态生成、方言识别领域逼近GPT-5水平。

世界模型的成熟将重构多个行业。自动驾驶领域,通过模拟复杂路况降低实车测试成本;机器人训练中,虚拟场景预训练大幅提升实体机器人的环境适应能力;科研领域,模拟分子运动加速新药研发。

智源报告指出,这一技术将成为AGI的核心共识方向,2026年将有更多企业加入布局,推动认知智能进入规模化应用阶段。

如果说世界模型是AI的“大脑”,具身智能就是让大脑“走进现实”的载体。

2025年的“百机大战”后,2026年具身智能行业进入“出清期”,同质化企业因资金断裂或技术不足被淘汰,头部企业凭借订单优势与技术积累形成格局。

技术层面,“世界模型+强化学习”的闭环进化模式成为主流,智源发布的通用具身大脑RoboBrain2.0与小脑基座RoboBrain-X0,实现跨场景多任务轻量化部署;海外Tesla Optimus 2.5已应用于工厂生产、农场运营等真实场景。

商业化方面,行业从实验室验证转向量产交付,智元、乐聚智能等企业推进上市进程,标志着具身智能从“技术演示”走向“产业工具”。

值得注意的是,具身智能的爆发离不开AI大模型的支撑。大模型赋予机器人自然语言交互能力与复杂任务规划能力,让机器人从“专用设备”升级为“通用助手”。

2026年,工业制造中的精密装配、服务业的个性化服务、医疗领域的辅助诊疗,将成为具身智能落地的核心场景,推动实体产业智能化转型进入深水区。

面对日益复杂的任务需求,单智能体的能力天花板逐渐显现,多智能体系统(MAS)成为解决复杂问题的关键路径。

不同于单智能体的独立工作模式,MAS通过智能体间的协作分工,实现“1+1>2”的认知升级,其逻辑契合“多样性预测定理”——足够多且独立的智能体协作,可使系统准确率逼近100%。

2026年,多智能体发展的核心突破是“协议标准化”。

MCP与A2A通信协议被捐赠给Linux基金会后实现分层融合,成为Microsoft、Google等巨头及LangChain、AutoGen等框架的原生支持协议,IBM计划将ACP协议并入A2A,推动行业标准统一。

这意味着,不同企业开发的智能体将拥有通用语言,能够跨平台协作完成复杂任务流。

应用层面,MAS正从科研领域向产业场景渗透。例如,金融领域的智能体团队可协同完成风险评估、投资分析、客户服务;工业场景中,生产智能体、质检智能体、物流智能体形成协作网络,优化全产业链效率。

ToC与ToB的价值兑现期来临

技术突破最终要通过应用落地实现价值闭环。2026年,AI应用将呈现“ToC超级应用竞逐+ToB垂直突破”的双轨格局,经历早期概念验证的“幻灭期”后,真正可衡量的商业价值将集中爆发。

“All in One”的超级应用成为C端AI竞争的核心战场。这种以单一入口实现信息获取、任务规划、问题解决的闭环模式,依托高算力成本与庞大用户数据迭代,正在重塑互联网流量格局。

海外,ChatGPT、Gemini日活过亿,Gemini已取代Google Maps原生语音助手,实现功能内化;国内,蚂蚁“灵光”AI助手上线6天下载量破200万,支持30秒生成小应用与全模态输出;字节豆包依托抖音生态引流,月活位居全球第二,仅次于 ChatGPT。

 

超级应用的竞争本质是生态整合能力的较量。

字节跳动凭借短视频流量优势,将AI助手深度融入内容创作、社交互动、生活服务场景;阿里以千问App为核心,整合消费、支付、物流等电商生态资源;蚂蚁集团则依托金融科技优势,让“灵光”助手具备理财咨询、生活缴费、政务办理等复合功能。

2026 年,超级应用将进入“生态闭环决战”阶段,能够实现跨场景无缝衔接、个性化精准服务的产品,将定义AI时代的“新BAT”格局。

与此同时,垂直赛道成为中小玩家的突围机会。多模态、大健康、教育等高ROI领域呈现“低频高价值”特征,Google Nano Banana Pro单次调用价格为文本模型的几十倍,但仅需1.5%调用量即可实现同等收入。

国内,蚂蚁“蚂蚁阿福”健康App聚焦慢病管理、健康咨询等场景;MiniMax的海螺AI深耕视频创作赛道,成为自媒体、设计师的必备工具;字节即梦AI在教育领域的个性化辅导功能,精准击中用户痛点。

 

这些垂直应用凭借高用户粘性与强付费意愿,正在构建可持续的盈利模式,成为C端AI商业化的重要补充。

2025年,95%的GenAI Pilot项目未产生可衡量影响,B端AI应用进入“幻灭低谷期”,核心症结集中在数据质量、系统集成、成本失控三大问题:46%企业将“现有系统集成”列为首要障碍,AI应用仍依赖手动操作ERP/CRM;多智能体的涌现行为失控、调试困难导致落地受阻;死循环通信、自我对话等问题造成高额成本损耗,曾有4个LangChain智能体11天消耗4.7万美元的案例。

但行业拐点已现,2026年下半年将迎来V型反转。随着数据治理工具的成熟与行业标准接口的统一,AI与企业现有系统的集成效率大幅提升,多智能体协议标准化解决了互操作性问题,算法优化与硬件升级降低了推理成本,让AI应用的ROI可量化、可追踪。

2026年,B端AI的落地将呈现三大特征:一是行业定制化深化,通用大模型通过微调适配特定场景,例如金融领域的风控模型、制造领域的质检模型;二是轻量化部署成为主流,边缘计算与模型压缩技术让中小企业无需高额算力投入即可享受AI服务;三是价值闭环明确,从“降本”向“增效”“创新”延伸。

 

繁荣背后的隐忧与破局之道

AI产业的爆发式增长,并未掩盖底层矛盾与潜在风险。盈利模式模糊、算力瓶颈、安全合规压力、人才缺口等问题,正在考验行业的可持续发展能力,也成为2026年AI企业必须突破的关键关卡。

智谱与MiniMax的上市招股书,揭开了AI企业的盈利难题。MiniMax三年累计亏损近13亿美元,C端业务依赖营销投放驱动增长,“高投入-高增长-低盈利”模式难以持续,用户留存困境导致营销效率低下。

智谱虽实现亿级收入,但仍未实现全面盈利,大模型研发的高额算力成本与人力成本,对现金流构成持续压力。

这并非个例,当前全球头部AI企业中,除少数企业通过生态协同实现盈利外,多数仍处于“投入大于产出”的阶段。

破局路径集中在三个方向。一是成本优化,通过MoE架构、混合注意力机制等技术创新提升模型效率;二是商业模式创新,B端企业从“一次性部署”转向“订阅制服务”,C端产品深化“免费+增值”模式,提升ARPU值;三是场景深耕,聚焦高价值垂直领域,例如AI制药等高毛利场景成为盈利突破口。

2026年,盈利能力将成为AI企业的核心竞争力,无法构建可持续盈利模式的企业,将在行业洗牌中被淘汰。

算力是AI产业的核心基础设施,2026年将迎来“需求爆发+格局重构”的双重变革。

随着生成式AI与智能体的大规模落地,推理算力需求首次超过训练算力。根据IDC发布的《全球人工智能算力发展白皮书》数据显示,2025年全球AI算力市场规模已突破60万亿元,预计到2026年底将达到120万亿元,正式迈入百万亿规模时代。

但当前算力格局仍受海外垄断,国内高阶AI芯片缺口明显,成为制约产业发展的关键瓶颈。

为突破算力困境,国内正从技术创新与生态建设双管齐下。

一方面,开源芯片架构成熟与国产AI芯片崛起,打破英伟达垄断,2026年中国高阶AI芯片本土份额有望接近 50%,中芯国际、华虹的BCD工艺产能利用率满载;

另一方面,国家层面加快“东数西算”工程建设,推动训练推理分离架构普及,这些举措共同推动算力成本持续下降,为AI普惠奠定基础。

AI技术的快速发展,让安全风险从“模型幻觉”升级为更隐蔽的“系统性欺骗”,深度伪造、模型投毒、数据泄露等问题频发。

据国际刑警组织数据,2025年全球深度伪造诈骗案件数量同比增长87%,涉案金额超30亿美元,安全合规成为企业落地的“生死线”。

2026年,传统网络安全防御体系已难以抵御AI原生攻击,行业正面临从“被动修补”到“原生免疫”的紧急转型,AI安全攻防正式进入“军备竞赛”新阶段。

技术层面,Anthropic的回路追踪研究致力于从内部理解模型机理,OpenAI推出自动化安全研究员,智源研究院联合国际顶尖机构发布全球首个AI欺骗系统性国际报告。

监管层面,欧盟《人工智能法案》已于2025年2月生效,中国出台生成式AI版权保护细则,全球形成差异化监管框架,要求企业公开训练数据清单、建立内容审核机制,合规成本成为企业必须承担的运营成本。

2026,AI成为社会基础设施的元年

站在2026年的时间节点回望,AI产业已完成从“技术概念”到“社会基础设施”的蜕变。

智谱与 MiniMax 的上市,标志着资本对 AI 价值的认可;智源十大趋势的落地,展现了技术从 “实验室” 到 “产业界” 的跨越;ToC与ToB应用的爆发,让AI深度融入日常生活与生产经营。

2026年,AI将实现从“认知”到“创造”的跨越,AI+新能源、AI+医疗、AI+制造等跨界融合深化,推动实体经济高质量发展,重塑就业结构与生活方式,新岗位不断涌现,智能化服务覆盖各个角落。

但AI的发展并非坦途,盈利模式的探索、安全风险的防控、伦理边界的界定,仍需要行业、政府、社会的共同努力。

正如智源研究院理事长黄铁军所言,AI的发展要重视“结构决定功能,功能塑造结构”的相互作用,只有让技术发展与社会需求同频共振,才能推动AI稳健迈向价值兑现的新阶段。

2026年,既是AI产业的价值爆发年,也是行业规范的奠基年。当资本的热度褪去、技术的泡沫消散,真正能够解决社会痛点、创造实际价值的AI企业,将在时代浪潮中脱颖而出。

而我们每个人,既是这场智能革命的见证者,也是参与者和受益者,AI与人类的共生共荣,正在开启新的篇章。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、数博会、国家网安周与全球云计算等大型活动的官方指定传播媒体之一。深入原创报道云计算、人工智能、大模型、网络安全、大数据、区块链等企业级科技领域。

这里记录每周值得分享的科技内容,周五发布。

本杂志开源,欢迎投稿。另有《谁在招人》服务,发布程序员招聘信息。合作请邮件联系[email protected])。

封面图

刚刚运营的北京通州站位于地下,为了充分利用自然光,屋顶采用了透光的膜结构,上方还有一个风帆形状的保护架。(via

中国 AI 大模型领导者在想什么

上周六(1月10日),北京有一场"AGI-Next 前沿峰会",由清华大学基础模型实验室主办。

中国顶尖的 AI 大模型领导者,很多都出席了。

  • 唐杰:清华大学教授,智谱创始人
  • 杨植麟:月之暗面 Kimi 创始人
  • 林俊旸:阿里 Qwen 技术负责人
  • 姚顺雨:OpenAI 前核心研究者、腾讯 AI 新部门负责人

他们谈了对大模型和中国 AI 发展的看法,网上有发言实录

内容非常多,有意思的发言也很多,下面是我摘录的部分内容。

一、唐杰的发言

1、智谱的起源

2019年,我们开始研究,能不能让机器像人一样思考,当时就从清华成果转化,在学校的大力支持下,成立了智谱这么一家公司,我现在是智谱的首席科学家。

那个时候,我们实验室在图神经网络、知识图谱方面,在国际上做的还行,但我们坚定地把这两个方向暂停了,暂时不做了,所有的人都转向做大模型。

2、泛化和 Scaling

我们希望机器有泛化能力,我教它一点点,它就能举一反三。就和人一样,教小孩子的时候,我们总希望教三个问题,他就会第四个、第十个,甚至连没教过的也会。怎么让机器拥有这种能力?

目前为止,我们主要通过 Scaling(规模化)达到这个目标,在不同层面提高泛化能力。

(1)我们最早期用 Transformer 训练模型,把所有的知识记忆下来。训练数据越多、算力越多,模型的记忆能力就越强,也就是说,它把世界上所有的知识都背下来了,并且有一定的泛化能力,可以抽象,可以做简单的推理。比如,你问中国的首都是什么?这时候模型不需要推理,它只是从知识库里拿出来。

(2)第二层是把模型进行对齐和推理,让它有更复杂的推理能力,以及理解我们的意图。我们需要持续的 Scaling SFT(Supervised Fine-Tuning,监督式微调),甚至强化学习。通过人类大量的数据反馈,不断 Scaling 反馈数据,可以让模型变得更聪明、更准确。

(3)今年是 RLVR(强化学习与可验证奖励)爆发年。这里的"可验证"是什么意思?比如,数学可以验证、编程可能可以验证,但更广泛地,网页好不好看,就不大好验证了,它需要人来判断。

这就是为什么这个事情很难做,我们原来只能通过人类反馈数据来做,但人类反馈的数据里面噪音也非常多,而且场景也非常单一。

如果我们有一个可验证的环境,这时候我们可以让机器自己去探索、自己去发现这个反馈数据,自己来成长。这是我们面临的一个挑战。

3、从 Chat 到做事:新范式的开始

大家可能会问,是不是不停地训练模型,智能就越来越强?其实也不是。

2025年初,DeepSeek 出来,真是横空出世。大家原来在学术界、产业界都没有料到 DeepSeek 会突然出来,而且性能确实很强,一下子让很多人感到很震撼。

我们当时就想一个问题,也许在 DeepSeek 这种范式下,Chat(对话)差不多算是解决了。也就是说我们做得再好,在 Chat 上可能做到最后跟 DeepSeek 差不多。或许我们可以再个性化一点,变成有情感的 Chat,或者再复杂一点,但是总的来讲,这个范式可能基本到头了,剩下更多的反而是工程和技术的问题。

那么,AI 下一步朝哪个方向发展?我们当时的想法是,让每个人能够用 AI 做一件事情,这可能是下一个范式,原来是 Chat,现在是真的做事了。

当时有两个方向,一个是编程,做 Coding、做 Agent;另一个是用 AI 来帮我们做研究,类似于 DeepResearch,甚至写一个复杂的研究报告。我们现在的选择是把 Coding、Agentic、Reasoning 这三个能力整合在一起。

二、林俊旸的发言

4、千问是怎么开源的

千问的开源模型比较多,很多人问这是为什么?

这起源于2023年8月3日,我们开源了一个小模型,它是我们内部用来做实验的 1.8B 模型。我们做预训练,资源毕竟有限,你做实验的话不能通通用 7B 的模型来验,就拿 1.8B 的来验。

当时我的师弟跟我说,我们要把这个模型开源出去。我非常不理解,我说这个模型在2023年几乎是一个不可用的状态,为什么要开源出去?他跟我说 7B 很消耗机器资源,很多硕士生和博士生没有机器资源做实验,如果 1.8B 开源出去的话,很多同学就有机会毕业了,这是很好的初心。

干着干着,手机厂商跑来跟我们说 7B 太大,1.8B 太小,能不能给我们干一个 3B 或 4B 的,这个容易,没有什么很难的事情。一路干下来,型号类型越来越多,跟服务大家多多少少有一点关系。

5、我们的追求是多模态模型

我们自己内心追求的,不仅仅是服务开发者或者服务科研人员,而是能不能做一个 Multimodal Foundation Agent(多模态基础智能体)。

我特别相信这件事情,2023年的时候大模型是一个大家都不要的东西,多多少少有那么几分大炼钢铁的成分,多模态是我们从那时就一直想做的事情。

为什么呢?我们觉得如果你想做一个智能的东西,天然的应该是 Multimodal(多模态),当然带有不同看法,各个学者都有一些看法,多模态能不能驱动智力的问题。我懒得吵这个架,人有眼睛和耳朵可以做更多的事情,我更多的考虑是 Foundation(基础智能体)有更多的生产力,能不能更好地帮助人类,毫无疑问我们应该做视觉,我们应该做语音。

更进一步,我们要做什么东西呢?Omni 的模型(全模态模型)不仅仅是能够理解文本、视觉、音频,我们可能还让它生成文本、音频。今天我们已经做到了,但是我们还没有做到把视觉生成结合在一起。如果做到三进三出,我觉得至少是我个人喜欢的东西。

三、姚顺雨的发言

6、To C 和 To B 的差异

我的一个观察是 To C(消费者模型)和 To B(商业用户模型)发生了明显的分化。

大家一想到 AI,就会想到两个东西,一个是 ChatGPT,另外一个是 Claude Code。它们就是做 To C 和 To B 的典范。

对于 To C 来说,大部分人大部分时候不需要用到那么强的智能,可能今天的 ChatGPT 和去年相比,研究分析的能力变强了,但是大部分人大部分时候感受不到,更多把它当作搜索引擎的加强版,很多时候也不知道该怎么去用,才能把它的智能激发出来。

但对于 To B 来说,很明显的一点是智能越高,代表生产力越高,也就越值钱。所以,大部分时候很多人就是愿意用最强的模型。一个模型是200美元/月,第二强或者差一些的模型是50美元/月、20美元/月,我们今天发现很多美国的人愿意花溢价用最好的模型。可能他的年薪是20万美元,每天要做10个任务,一个非常强的模型可能10个任务中八九个做对了,差的是做对五六个,问题是你不知道这五六个是哪五六个的情况下,需要花额外精力去监控这个事情。

所以,在 To B 这个市场上,强的模型和稍微弱点的模型,分化会越来越明显。

7、垂直整合和模型应用分层

我的第二点观察是,基础模型和上层应用,到底是垂直整合,还是模型应用分层,也开始出现了分化。

比如,ChatGPT Agent 是垂直整合,Claude(或者 Gemini)+ Manus 是模型应用分层。过去大家认为,当你有垂直整合能力肯定做得更好,但起码今天来看并不一定。

首先,模型层和应用层需要的能力还是挺不一样的,尤其是对于 To B 或者生产力这样的场景来说,可能更大的预训练还是一个非常关键的事情,这个事情对于产品公司确实很难做。但是想要把这么一个特别好的模型用好,或者让这样的模型有溢出能力,也需要在应用侧或者环境这一侧做很多相应的事情。

我们发现,其实在 To C 的应用上,垂直整合还是成立的,无论 ChatGPT 还是豆包,模型和产品是非常强耦合、紧密迭代的。但是对于 To B 来说,这个趋势似乎是相反的,模型在变得越来越强、越来越好,但同样会有很多应用层的东西将好的模型用在不同的生产力环节。

8、需要更大的 Context

怎么让今天的大模型或者 AI 能够给用户提供更多价值?我们发现,很多时候需要的是额外的 Context(上下文)。

比如,我问 AI 今天该去吃什么?其实,你今天问 ChatGPT 和你去年问或者明天问,答案应该会差很多。这个事情想要做好,不是说你需要更大的模型、更强的预训练、更强的强化学习,而是可能需要更多额外的输入,或者叫 Context。如果它知道我今天特别冷,我需要吃些暖和的,我在今天这样的范围活动,可能我老婆在另一个地方吃什么等各种各样的事情,它的回答就会更好。

回答这样的问题,更多需要的是额外的输入。我和老婆聊了很多天,我们可以把聊天记录转发给元宝,把额外的输入用好,会给用户带来很多额外的价值。这是我们对 To C 的思考。

四、圆桌对话:中国 AI 的未来

李广密(主持人):我想问大家一个问题,在三年和五年以后,全球最领先的 AI 公司是中国团队的概率有多大?我们从今天的跟随者变成未来的引领者,这个过程到底还有哪些需要去做好?

9、姚顺雨的回答

我觉得概率还挺高的,我挺乐观的。目前看起来,任何一个事情一旦被发现,在中国就能够很快的复现,在很多局部做得更好,包括之前制造业、电动车这样的例子已经不断地发生。

我觉得可能有几个比较关键的点。

(1)中国的光刻机到底能不能突破,如果最终算力变成了瓶颈,我们能不能解决算力问题。

(2)能不能有更成熟的 To B 市场。今天我们看到很多做生产力或者做 To B 的模型和应用,还是会诞生在美国,因为支付意愿更强,文化更好。今天在国内做这个事情很难,所以大家都会选择出海或者国际化。这和算力是比较大的客观因素。

(3)更重要的是主观因素,我觉得中国想要突破新的范式或者做非常冒险事情的人可能还不够多。也就是说,有没有更多有创业精神或者冒险精神的人,真的想要去做前沿探索或者范式突破的事情。我们到底能不能引领新的范式,这可能是今天中国唯一要解决的问题,因为其他所有做的事情,无论是商业,还是产业设计,还是做工程,我们某种程度上已经比美国做得更好。

10、林俊旸的回答

这个问题是个危险的问题,理论上这个场合是不可以泼冷水的,但如果从概率上来说,我可能想说一下我感受到的中国和美国的差异。比如说,美国的 Compute(算力)可能整体比我们大1-2个数量级,但我看到不管是 OpenAI 还是什么,他们大量的算力投入到的是下一代研究当中去,我们今天相对来说捉襟见肘,光交付可能就已经占据了我们绝大部分的算力,这会是一个比较大的差异。

这可能是历史上就有的问题,创新是发生在有钱的人手里,还是穷人手里。穷人不是没机会,我们觉得这些富哥真的很浪费,他们训练了这么多东西,可能训练了很多也没什么用。但今天穷的话,比如今天所谓的算法 Infra(基础设施)联合优化的事情,如果你真的很富,就没有什么动力去做这个事情。

未来可能还有一个点,如果从软硬结合的角度,我们下一代的模型和芯片的软硬结合,是不是真的有可能做出来?

2021年,我在做大模型,阿里做芯片的同学,找我说能不能预测一下,三年之后这个模型是不是 Transformer,是不是多模态。为什么是三年呢?他说我们需要三年时间才能流片。我当时的回答是三年之后在不在阿里巴巴,我都不知道!但我今天还在阿里巴巴,它果然还是 Transformer,果然还是多模态,我非常懊悔为什么当时没有催他去做。当时我们的交流非常鸡同鸭讲,他给我讲了一大堆东西,我完全听不懂,我给他讲,他也不知道我们在做什么,就错过了这个机会。这个机会有没有可能再来一次?我们虽然是一群穷人,是不是穷则思变,创新的机会会不会发生在这里?

今天我们教育在变好,我属于90年代靠前一些的,顺雨属于90年代靠后一点的,我们团队里面有很多00后,我感觉大家的冒险精神变得越来越强。美国人天然有非常强烈的冒险精神,一个很典型的例子是当时电动车刚出来,甚至开车会意外身亡的情况下,依然会有很多富豪们都愿意去做这个事情,但在中国,我相信富豪们是不会去干这个事情的,大家会做一些很安全的事情。今天大家的冒险精神开始变得更好,中国的营商环境也在变得更好的情况下,我觉得是有可能带来一些创新的。概率没那么大,但真的有可能。

三年到五年后,最领先的 AI 公司是一家中国公司的概率,我觉得是20%吧,20%已经非常乐观了,因为真的有很多历史积淀的原因在这里。

11、唐杰的回答

首先我觉得确实要承认,无论是做研究,尤其是企业界的 AI Lab,和美国是有差距的,这是第一点。

我们做了一些开源,可能有些人觉得很兴奋,觉得中国的大模型好像已经超过美国了。其实可能真正的情况是我们的差距也许还在拉大,因为美国那边的大模型更多的还在闭源,我们是在开源上面玩了让自己感到高兴的,我们的差距并没有像我们想象的那样好像在缩小。有些地方我们可能做的还不错,我们还要承认自己面临的一些挑战和差距。

但我觉得,现在慢慢变得越来越好。

(1)90后、00后这一代,远远好过之前。一群聪明人真的敢做特别冒险的事,我觉得现在是有的,00后这一代,包括90后这一代是有的,包括俊旸、Kimi、顺雨都非常愿意冒风险来做这样的事情。

(2)咱们的环境可能更好一些,无论是国家的环境,比如说大企业和小企业之间的竞争,创业企业之间的问题,包括我们的营商环境。

(3)回到我们每个人自己身上,就是我们能不能坚持。我们能不能愿意在一条路上敢做、敢冒险,而且环境还不错。如果我们笨笨的坚持,也许走到最后的就是我们。

科技动态

1、载人飞艇

1月9日,湖北制造的载人飞艇祥云 AS700,完成了荆门至武汉往返航程。这是全国首次载人飞艇商业飞行,可能也是目前世界唯一运作的商业载人飞艇。

飞艇总长50米,最大载客量9人。由于载客量太小,不可能用作常规的交通工具,只能做一些观光飞行。

2、鼻子触控

一个英国发明家想在洗澡时使用手机,结果因为手指带水无法触控。

他灵机一动,发明了戴在鼻子上的触控笔。

它的结构很简单,就是一个石膏纤维的鼻管,里面插着一支触控笔。

这个发明看上去很有用,可以解放双手,也适合戴手套的情况和残疾人士。

3、越南禁止不可跳过的广告

越南近日颁布第342号法令,禁止不可跳过的广告,将于2026年2月15日起生效。

法令规定,视频广告的等待时间必须在5秒以内,否则观众可以选择跳过。而且,关闭方式应该是清晰简便的,禁止使用迷惑用户的虚假或模糊符号。

这明显针对 Youtube 等视频平台的片头广告。这让人第一次感到,越南互联网值得叫好。

文章

1、我所有的新代码都将闭源(英文)

作者是一个开源软件贡献者。他感到,自己的开源代码都被大模型抓取,导致仓库访问者减少,进而也没有收入,所以他后面的代码都要闭源。

2、网站的视觉回归测试(英文)

本文介绍如何使用 Playwright,对网页进行视觉测试,看看哪里出现变动。

3、我用 PostgreSQL 代替 Redis(英文)

Redis 是最常用的缓存工具,作者介绍它的痛点在哪里,怎么用 PostgreSQL 数据库替代。

4、如何用 CSS 修复水平滚动条(英文)

一篇 CSS 初级教程,介绍四个简单的技巧,让网页不会出现水平滚动条(即避免溢出)。

5、消息队列原理简介(英文)

本文是初级教程,介绍消息队列(mesage queue)的概念和作用。

6、macOS Tahoe 的圆角问题(英文)

macOS 最新版本 Tahoe 加大了圆角半径,造成调整窗口大小时经常失败。作者认为,从操作角度看,圆角面积最好超过端头的50%。

工具

1、whenwords

本周,GitHub 出现了一个奇特的库,没有一行代码,只有一个接口文档。

用户需要自己将接口文档输入大模型,并指定编程语言,生成相应的库代码再使用。

以后会不会都是这样,软件库没有代码,只有接口描述?

2、Hongdown

Markdown 文本的格式美化器,根据预设的规则,修改 Markdown 文本的风格样式。

3、VAM Seek

一个开源的网页视频播放器,会自动显示多个时点的视频缩略图,便于快速点击跳转。

4、kodbox

开源的网页文件管理器。

5、Nigate

让 Mac 电脑读写 NTFS 磁盘的开源工具。(@hoochanlon 投稿)

6、Flippy Lid

一个实验性软件,把 macbook 铰链开合作为输入,可以玩 Flippy Lid,也可以作为密码解锁。(@huanglizhuo 投稿)

7、Jumble

nostr 网络的开源 Web 客户端,专门用来浏览以 feed 内容为主的 relay 节点。(@CodyTseng 投稿)

8、Clash Kit

一个基于 Node.js 的 Clash 命令行管理工具。(@wangrongding 投稿)

9、SlideNote

开源的 Chrome 浏览器插件,在侧边栏做笔记,支持跨设备自动同步。(@maoruibin 投稿)

10、NginxPulse

开源的 Nginx 访问日志分析与可视化面板,提供实时统计、PV 过滤、IP 归属地、客户端解析。
@likaia 投稿)

AI 相关

1、Auto Paper Digest (APD)

一个 AI 应用,自动从 arXiv 抓取每周的热门 AI 论文,通过 NotebookLM 生成视频讲解,并能发布到抖音。(@brianxiadong 投稿)

2、CC Switch

一个跨平台桌面应用,一键切换 Claude Code / Codex / Gemini CLI 的底层模型,以及完成其他的管理设置。(@farion1231 投稿)

3、网易云音乐歌单 AI 分析

使用 AI 分析用户的网易云音乐歌单,进行总结。(@immotal 投稿)

资源

1、EverMsg

这个网站可以查看 BTC 区块链的 OP_RETURN 字段,该字段记录了一段文本,只要发上区块链就永远不会删除和修改。(@blueslmj 投稿)

2、DeepTime Mammalia

沉浸式 3D/2D 网页可视化项目,交互式哺乳纲演化树,探索哺乳动物2亿年的演化。(@SeanWong17 投稿)

图片

1、冰下修船

俄罗斯有一个船厂,位于北极圈附近。每年冬天,船坞都要结冰。

为了冬天也能修船,船厂会把冰层凿掉一块,露出船底。

冰层通常不会那么厚,不会结冰到船底,必须分层凿开。工人先用电锯,锯开最上层的冰层,然后等待下面的河水结冰,再用电锯向下切割,反复多次,直到船底结冰。

有时,需要凿开一条很长的冰槽。

下图是工人进入冰层下方,检修船底,由于冰下工作条件恶劣且有危险性,工人的工资都较高。

言论

1

我对自己的代码被大模型吸收感觉如何?

我很高兴这样,因为我把这看作是我一生努力的延续:民主化代码、系统和知识。

大模型让我们更快编写更好、更高效的软件,并让小团队有机会与大公司竞争。这和 90 年代开源软件所做的事情一样。然而,这项技术太重要,绝不能只掌握在少数公司手中。

-- Antirez,Redis 项目的创始人

2、

即使你不相信 AI,但跳过它对你和你的职业都没有帮助。

以前,你熬夜编程,看到项目顺利运行时,心潮翻滚。现在,如果你能有效利用 AI,可以建造更多更好的项目。乐趣依旧存在,未受影响。

-- Antirez,Redis 项目的创始人

3、

如果你不写作,你就是一个有限状态机。写作时,你拥有图灵机的非凡力量。

-- 曼纽尔·布卢姆(Manuel Blum),图灵奖得主

4、

人们陷入困境有三个主要原因:(1)行动力不足,(2)行动方向错误,(3)等待天上掉馅饼(幻想问题会缓解而拒绝采取行动)。

-- 《当你想摆脱困境》

往年回顾

年终笔记四则(#334)

YouTube 有多少个视频?(#284)

AI 聊天有多强?(#234)

政府的存储需求有多大?(#184)

(完)

使用【首次发帖】佬们,开源了 AutoGLM For Android APP,不再需要电脑! - #14,来自 miao23328
中 luokavin 佬开发的软件 AutoGLM for Android
一.adb 调试设置
GitHub - Luokavin/AutoGLM-For-Android: 纯 Android 端 Open-AutoGLM 实现,无需电脑
会使用 shikuzu 的佬可以直接跳到第三节
1. 下载安装 shikuzu

2. 打开设置,点击版本号直至处于开发者模式
3. 按照引导为 shikuzu 配置 (给予 shikuzu 通知权限,否则不会显示配对码)
3. 按照图片完成设置


5. 点击无线调试进入配对页面,使用配对码配对,shikuzu 会识别到并在通知栏给出输入配对码的入口,输入配对码
6. 完成配对,点击启动,出现这个页面即代表配置成功

二 .AutoGLM 配置
进入软件之前需要给予软件的悬浮窗权限
在 shikuzu 的第 2 个选项内授予 AutoGLM 的 adb 权限

三.APIkey 获取
打开智谱官网,没有账户的先注册,获取一个 key,其他不用管,复制备用
在 AutoGLM 中点击右上角设置,打开如图界面

点击新建配置
base url 填这个

https://open.bigmodel.cn/api/paas/v4

模型名称为 autoglm-phone
填写自己的 key 完成配置
需要点击最下面的 “保存” 才能应用设置
四。测试
输入任务指令,尽可能详细,必须给出应用名称,告知它要干什么
eg. 打开应用 Salt player,随机播放一首歌曲
五.(补充技巧) 指令修正
当你的 AutoGLM 执行了错误的指令时,你可以对其进行修正.
点击 “暂停”,模型会停止当前动作

打开手机的 “便签” 或任何可以输入文本的地方,对模型的指令进行补充
例如:
用户:你需要切换输入法为 AutoGLM keyboard 才能进行操作,点击上方搜索栏可以进行搜索操作
再次点击继续,模型会看到你的指令并继续进行任务
多次测试可以获得适合你的任务指令,也可以把提示词丢给 Gemini 让它帮助完善指令

* 第一次发教程帖,排版很乱,有空会重新排一下,希望佬们谅解一下
不要使用 AutoGLM 做一些涉及个人隐私的事,虽然在风险页面模型会申请用户接管,但 API 提供商可能会用数据训练 Al,注意个人敏感信息


  1. Footnotes ↩︎


📌 转载信息
原作者:
Railgun100030
转载时间:
2026/1/3 11:58:32

订阅用户在指定编程工具中接入 GLM Coding Plan,并配置 MCP,并输入口令,即可获得一张沪上阿姨新品奶茶兑换券,并通过沪上阿姨官方小程序完成兑换。

小程序链接:t.hsay.com/qf7TZX

官方配置原文:“阿姨助我” 奶茶领取说明 - 智谱 AI 开放文档

通用 mcp 配置:

 { "mcpServers": { "milk-tea": { "type": "streamableHttp", "url": "https://open.bigmodel.cn/api/mcp/milk_tea/mcp", "headers": { "Authorization": "Bearer your_api_key" } } } } 

cc 配置:

claude mcp add -s user -t http milk-tea https://open.bigmodel.cn/api/mcp/milk_tea/mcp --header "Authorization: Bearer your_api_key"


📌 转载信息
原作者:
zhongruan
转载时间:
2025/12/26 18:41:45