标签 Qwen3-Max-Thinking 下的文章

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@瓒an、@鲍勃

01 有话题的技术

1、阿里发布万亿参数模型 Qwen3-Max-Thinking,性能对标 GPT-5.2

昨天,阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking。该模型总参数量超万亿(1T),在多项权威评测中刷新全球纪录,官方宣称其性能媲美 GPT-5.2、Gemini 3 Pro,是迄今为止最接近国际顶尖水平的国产 AI 大模型。

Qwen3-Max-Thinking 的预训练数据量高达 36T Tokens,并在预览版基础上进行了更大规模的强化学习后训练。在涵盖事实知识、复杂推理、指令遵循等 19 个基准测试中,该模型刷新了数项最佳表现(SOTA)纪录。

根据官方公布的评测数据,Qwen3-Max-Thinking 在启用 TTS(Test-time Scaling)机制后,在科学知识(GPQA Diamond)测试中得分 92.8,略高于 GPT-5.2 的 92.4;

在数学推理(IMO-AnswerBench)和代码编程(LiveCodeBench 2025.02-2025.05)中分别取得 91.5 和 91.4 的高分,均优于 GPT-5.2、Claude Opus 4.5 和 Gemini 3 Pro。

特别是在启用工具的「人类最后的测试」(Humanity's Last Exam with Search)中,该模型得分为 58.3,大幅领先 GPT-5.2-Thinking 的 45.5 分,录得当前所有模型的最高分。

技术层面,阿里表示 Qwen3-Max-Thinking 采用了一种全新的测试时扩展机制。 与业界普遍的简单增加并行推理路径不同,新机制能对此前推理结果进行「经验提取」式的提炼,通过多轮自我迭代在相同上下文中实现更高效的推理计算。

此外,模型大幅增强了自主调用工具的原生 Agent 能力。 经过基于规则奖励与模型奖励的联合强化学习训练,模型可自适应选用搜索、个性化记忆和代码解释器等核心工具,不仅回答更流畅,还大幅降低了模型幻觉。

目前,普通用户可通过千问 PC 端和网页端免费试用新模型,千问 App 也即将接入;企业开发者则可通过阿里云百炼获取 API 服务。

体验链接

Qwen Chat: https\://chat.qwen.ai/

阿里云百炼:

https\://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23

( @APPSO)

2、打通感知、交互与执行:讯飞星辰升级多模态全栈能力,加速智能体规模化落地

1 月 26 日,讯飞星辰智能体平台官宣重大升级,实现了讯飞星辰智能体平台和 AIUI 开放平台完全打通、升级超拟人交互技术、支持快速定制音色、RPA 升级,提供一套全面且完整的多模交互解决方案,让智能体拥有更全面的类人化交互能力、全场景执行能力。

  • AIUI 开放平台接口打通 :支持在「讯飞星辰」创建智能体并一键发布至 AIUI,实现语音交互与机器人动作规划(如桌面机器人绘本生成、运动轨迹)的同步调用与快速集成。
  • 秒级「一句话声音复刻」 :利用超拟人交互技术,支持通过自然语言描述声线并在几秒内合成 4 个候选音色;支持中英日韩粤等多语种、方言及多风格(新闻、交谈、绘本)音色生成。
  • 单图构建多模态数字分身 :支持通过一张照片快速生成数字人,其口型、表情及动作由大模型自动驱动;结合多模态视觉理解,支持智能体实现主动迎宾与环境感知的交互闭环。
  • RPA 执行能力组件化 :升级网页自动化智能组件,支持非专业开发人员通过低代码配置参数进行流程编排;提供开源可视化数据表格功能,实现数据提取与处理过程的透明化。

最直观的一个例子就是,将 为智能体定制声音的时间压缩到了几秒钟

发布会的实际演示中,操作人员在讯飞星辰智能体平台生成了曹操人格的智能体后,通过自然语言描述想要的音色声线、输入试听文本、点击生成,就在几秒内合成 4 个候选音色。接着选择保存、应用音色后,用户就能与刚刚的曹操人格智能体进行语音聊天。

这是讯飞星辰智能体平台此次升级的一个缩影,而智能体的未来形态,将从单一工具,升级为兼具感知、交互能力,拥有专属声音、形象与性格人设,还能自主完成操作执行的全能型智能体,驱动这一切进化的核心,正是多模交互技术

当前海内外大厂与科创企业均在智能体平台赛道加速布局、密集发力,但行业仍普遍面临技术落地难、场景适配不深的核心痛点。

讯飞星辰智能体平台此次实现感知、交互、执行三大核心能力的一体化整合,从底层打破智能体落地过程中的技术协同壁垒,直面其场景适配难题,为智能体技术的规模化落地扫清关键障碍。

简言之,讯飞星辰智能体平台此次升级,核心便是瞄准降低智能体开发门槛、丰富其可落地的能力边界两大核心目标,在扩展服务能力的基础上,还提供了低代码、一键接入、快速接入等快速开发部署工具。

总的来看,当前智能体产业技术成熟度足够支撑场景落地,市场需求旺盛,但落地效率与成本仍是核心瓶颈,而打通场景适配、能力集成、生态协同的全栈能力,将成为智能体产业竞争的核心壁垒。

相关链接:

https\://agent.xfyun.cn

(@智东西、@讯飞开放平台)

3、Google 支付 6800 万美元和解金,解决语音助手「监视」用户的指控

据路透社报道,Google 已同意支付 6800 万美元,以解决一项指控其语音助手非法监视用户、并利用相关数据投放广告的索赔诉讼。

Google 在这项集体诉讼的和解协议中并未承认存在任何不当行为。该诉讼指控 Google「在未经个人同意的情况下,非法且故意地拦截并录制个人的机密通信,并随后将这些通信未经授权地披露给第三方。」诉讼进一步声称,「从这些录音中收集的信息被错误地传输给了第三方,用于定向广告及其他目的。」

该案件的核心争议集中在「错误唤醒」上,即指控 Google Assistant 即使在用户未通过唤醒词有意触发的情况下,也会自动激活并录制用户的通信内容。TechCrunch 已就此联系 Google 寻求置评。


长期以来,美国民众一直怀疑电子设备在不适当地监视他们,这些怀疑正日益转化为法律诉讼。2021 年,苹果公司曾同意支付 9500 万美元,以解决关于其语音助手 Siri 在未获用户提示的情况下录制对话的类似指控。

与其他科技巨头一样,Google 近年来也面临着多起隐私相关的诉讼。去年,该公司同意向得克萨斯州支付 14 亿美元,以解决两起指控其违反该州数据隐私法的诉讼。

( @TechCrunch)


02 有亮点的产品

1、249 元起,苹果推出升级版 AirTag,精确查找范围扩大 50%

昨天,苹果突然官宣,正式推出新款 AirTag,采用与 iPhone 17 系列、iPhone Air、Apple Watch Ultra 3 及 Apple Watch Series 11 相同的第二代超宽带芯片,在连接范围、精确查找能力与扬声器音量方面均进行了大幅升级:

  • 精确查找范围最高提升 50%,定位更快更准
  • 蓝牙连接范围扩大,远距离也能找到
  • 扬声器音量提升 50%,提示音更响亮
  • 支持 Apple Watch 精确查找,查找场景更丰富
  • 「查找」网络升级,脱离配对设备也能回传位置
  • 防追踪机制强化,跨平台警报更可靠
  • 支持共享物品位置,协助航空公司找回延误行李
  • 外壳与磁铁采用高比例再生材料,更环保

新款 AirTag 已正式开售。售价方面,单件装售价 249 元,四件装售价 849 元,并提供免费镌刻服务。零售店将于本周晚些时候陆续上架。

与此同时,苹果今天还推送了 iOS、iPadOS 和 watchOS 26.2.1,主要更新内容是新增对 AirTag 2 的支持。

( @APPSO)

2、京东「抢跑」淘宝,首款智能眼镜购物应用落地乐奇 Rokid

1 月 26 日消息,京东科技购物智能体 JoyGlance 正式登录智能眼镜品牌乐奇 Rokid,标志着行业首款智能眼镜购物应用正式落地,是京东布局「具身智能消费场景」的关键一步。

用户只需将 Rokid 眼镜系统更新至最新版本,应用由京东自研大模型 JoyAI 驱动,深度融合 Rokid 在光波导显示、远场语音交互与自研操作系统上的硬件能力,将传统网购流程从「搜索—浏览—比价—下单—支付」五步,压缩为极简的 「说、看、付」三步

据悉,2025 年 10 月,Rokid 乐奇与京东科技就达成战略协议。此次携手,不仅是技术突破,更是消费入口的迁移,开启全球首个「所见即购买」的智能眼镜全链路购物入口,实现「目光所及、皆可购买」

当购物从「指尖滑动」转向「目光注视」,智能眼镜正从可穿戴设备升级为下一代空间计算与消费交互终端。用户不再依赖搜索框或直播链接,而是将物理世界直接转化为购物入口,或为电商行业开辟了全新的场景。

(@即智 Ultra)

3、LiveTok 发布「LiveTok Avatars」:支持单张照片生成实时交互式 AI 数字孪生

LiveTok 推出基于 AI 的虚拟助手平台「LiveTok Avatars」。该产品支持通过单张静态照片构建具备实时音视频交互能力的数字分身,旨在通过拟人化的「数字孪生」替代传统文字客服,实现 24/7 的实时客户互动。

  • 单图驱动数字孪生 :用户仅需上传单张人物照片,AI 即可生成具备面部动态的克隆形象,无需复杂的视频采集。
  • 行为与语调克隆 :AI 模型通过学习可复刻特定个体的说话风格、语速及特定动作习惯,提供具备自然停顿的类人语音响应。
  • 低代码 Web 集成 :支持通过嵌入数行代码直接在网站部署,无需复杂的后端环境配置。
  • 实时音视频同步 :提供低延迟的实时语音对话环境,演示版本目前支持单次最高 2 分钟的交互。

目前处于 Beta 测试阶段,提供免费起步版,特定「数字孪生」功能需申请加入 Waitlist。

相关链接:

https\://www.livetok.ai/products/avatars

( @LiveTok)

4、阶跃星辰获超 50 亿人民币融资,印奇出任董事长

昨天,大模型创业公司阶跃星辰(StepFun)完成超 50 亿人民币 B+ 轮融资,创下过去 12 个月大模型赛道单笔最高融资纪录。上国投先导基金、国寿股权、浦东创投、徐汇资本、无锡梁溪基金、厦门国贸、华勤技术等产业投资方参与本轮融资,腾讯、启明、五源等老股东继续加码。本轮资金将主要用于基础模型研发,并加速「AI + 终端」战略落地。

同日,阶跃星辰宣布千里科技董事长印奇正式出任公司董事长,全面负责公司战略节奏与技术方向。 印奇此前已深度参与阶跃星辰的战略规划,其加入被视为公司在大模型「季后赛」阶段强化产业落地能力的关键一步。

这笔融资规模不仅超过月之暗面此前宣布的 5 亿美元 C 轮,也高于智谱与 MiniMax IPO 募资额,成为近期 AI 资本市场最受关注的事件之一。

过去两年间,该团队在「百模大战」中突围,跻身国内大模型第一梯队,并持续坚持预训练路线,构建了覆盖语言、多模态、音频、动作等方向的完整模型矩阵。

印奇的加入补足了阶跃星辰在产业落地上的关键能力。作为旷视科技联合创始人,印奇在 AIoT、城市级物联网系统等领域拥有丰富经验,其长期关注的「AI+终端」路径也与阶跃星辰的战略方向高度一致。

  • 在商业化方面,阶跃星辰已与国内六成头部智能手机品牌达成深度合作,模型装机量突破 4200 万台,覆盖 OPPO、荣耀、中兴等品牌,日均服务用户达 2000 万人次;
  • 在汽车领域,公司与千里科技、吉利合作,将端到端语音模型集成至智能座舱系统,吉利银河 M9 上市 3 个月销量接近 4 万辆,阶跃星辰今年的车载模型装车目标为百万级;
  • 在技术路线方面,阶跃星辰坚持「原生多模态」策略,直接从图文交错语料进行端到端训练,以提升模型对物理世界的理解能力。其音频模型 Step-Audio-R1.1 通过 MGRD 技术在权威榜单 Artificial Analysis 上取得全球第一。

印奇的加入意味着阶跃星辰将加速推进「AI 进入物理世界」的战略,并在手机、汽车等消费终端形成更具确定性的商业闭环。

( @APPSO)


03 有态度的观点

1、俞敏洪:AI 或消灭大量教师岗位,中小学教师「一大半是不合格的」

据快科技报道,新东方创始人俞敏洪近日在今年崇礼论坛上围绕互联网与人工智能对教育行业的影响发表最新观点。

他指出,技术变革正推动教育从「一张嘴一块黑板」到「互联网 + 教育」,再迈向「AI + 教育」,并强调这一趋势将深刻改变教师岗位结构。

俞敏洪表示,互联网仍在人类可控范围内,但其带来的舆论放大效应已深刻影响个人生活。他提到,过去三年遭遇的网暴与互联网环境密切相关。

相比之下,人工智能的影响更具结构性,其在教育、医疗、生物等领域的应用将持续扩大。

在教育场景中,他认为 AI 已能完成接近 100% 的英语交流与作业批改,不仅提升效率,也减轻学生面对老师时的心理压力。他指出,AI 的普及可能会「消灭大量老师岗位」,因为基础知识传递正被技术快速替代。

他进一步强调,未来教师的核心价值将转向激发学生潜能、塑造人格与引导成长,这些能力无法被技术替代。


按照这一标准,他直言目前国内中小学教师「一大半不合格」,部分教师面对学生提问时因无法回答而迁怒学生的现象亟需改善。

俞敏洪还回顾新东方在「互联网 + 教育」时代的结构性变化:互联网放大名师影响力,使大量优秀教师离开线下课堂,包括他本人也不再走进教室授课。

他认为,AI 的到来将带来更深层次的行业重塑,对教师提出更高要求,而这些要求比以往更难达到。

他强调,人工智能的最终走向取决于使用者,而非技术本身,教育行业需要在技术变革中重新定义教师角色与价值。

( @APPSO)


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


作者提示: 个人观点,仅供参考​

森海塞尔发布 CX 80U 与 HD 400U 有线耳机

1 月 26 日,森海塞尔(Sennheiser)正式发布 CX 80U 有线入耳式耳塞与 HD 400U 有线头戴式耳机。作为 CX 80S 与 HD 400S 的升级版,两款新品将传统 3.5mm 接口替换为 USB-C 接口,内置数字转换器以支持 24-bit/96 kHz 无损音频回放,并配备集成 MEMS 麦克风的线控器。

其中 CX 80U 采用 28Ω 阻抗动圈单元,频率响应范围 17Hz-20kHz,提供三组不同尺寸硅胶耳套;HD 400U 采用 18Ω 阻抗 32mm 动圈单元,频率响应范围 18Hz-20kHz,具备可折叠封闭式耳罩设计并随附收纳袋。两款设备均自 2026 年 1 月 26 日起上市销售,CX 80U 定价为 40 美元,HD 400U 定价为 100 美元。来源


Sonos 发布多通道功率放大器 Amp Multi

1 月 27 日,Sonos 正式推出旗下首款专业级多通道流媒体功率放大器 Amp Multi,专为大型住宅及复杂定制安装场景设计。Amp Multi 搭载氮化镓(GaN)功率架构与 D 类后滤波器反馈(PFFB)技术,可在 1.5U 的紧凑机身内提供 8 路各 125W(8Ω)的功率输出,并支持配置为 4 个独立控制分区;硬件配置包含 4 核 1.9GHz A55 处理器、WiFi 6 与双以太网接口,支持 Apple AirPlay 2 及 Spotify Connect,且每通道最多可驱动 3 台 Sonos Architectural 系列扬声器。目前该设备定价尚未公布,预计将于未来数月内通过授权安装商渠道正式发售。来源


Bigme 大我发布 B10 彩墨屏办公本

Bigme 大我于 1 月 27 日在海外平台发布 10.3 英寸 B10 4G 彩墨办公本,搭载天玑 1080 处理器,配备 8GB 内存、256GB 存储空间和 Android 14 操作系统,支持 4G 全网通,配有 6900mAh 电池、8 麦克风阵列,以及 4096 级压感笔和指纹识别;大我 B10 屏幕为 Kaleido 3 彩色墨水屏,支持 30FPS 刷新率、36 级冷暖双色温自定义调节;同时搭载前后双摄,支持文档扫描、OCR 文字识别和视频会议。

大我 B10 采用 8PCS 可自定义触摸按键设计,内置 4 大 AI 模型,支持会议语音转文字等功能,可选键盘配件。大我 B10 定价 699 美元,预售价 594 美元。来源


Google Gemini 相关资讯三则

1 月 27 日,Google 宣布为 Gemini 3 Flash 模型引入代理视觉(Agentic Vision)能力,旨在将图像理解从静态处理转化为动态理解过程,通过「思考-行动-观察(Think, Act, Observe)」的循环逻辑,结合视觉推理与 Python 代码执行工具,使模型能够自主执行放大检查细节、旋转/裁剪图像、绘制边界框注释、视觉数学运算与图表绘制等操作。技术测试显示,启用代理视觉执行后的 Gemini 3 Flash 在多数视觉基准测试中实现了 5-10% 的质量提升,并在一定程度上解决了长篇视觉任务中的幻觉问题。目前该功能已通过 Gemini API(含 Google AI Studio 和 Vertex AI)正式上线,开发者可在工具栏开启 Code Execution 进行调用。来源

同时,Google 也宣布正式将 Gemini 3 设为全球范围内「AI 概览(AI Overviews)」功能的默认底层模型,并引入无缝的「AI 模式(AI Mode)」对话体验,允许用户直接在 AI 概览下方发起后续追问,使搜索从单向的信息展示转变为保留上下文的流式对话;Google 表示底层模型的升级也能提升复杂问题的推理质量,新版 AI 概览和 AI 模式对话功能已在全球移动端及网页端搜索中上线,基础服务对所有用户免费开放。来源

最后,Google 宣布其入门级 AI 订阅方案 Google AI Plus 正式在包含美国在内的全球其它 34 个国家和地区上线。该计划定价为每月 8 美元,主要面向日常用户提供 Gemini 3 Pro 模型、深度研究(Deep Research)以及 Nano Banana Pro 模型,订阅者还可获得 200GB 的 Google One 存储空间并解锁 AI 电影制作工具 Flow、图文转视频工具 Whisk 以及 NotebookLM 的高级研究权限(包含 100 个输入来源支持与音频概览功能)。值得一提的是,原有 Google One Premium 2TB 会员将自动升级为该方案,同时前两个月还有每月 4 美元的新用户订阅优惠。来源


Yahoo 发布 AI 问答搜索 Yahoo Scout

1 月 27 日,Yahoo 宣布推出由 Anthropic Claude 提供技术支持的 AI 问答搜索功能 Yahoo Scout,该功能深度整合了 Yahoo 过去三十年积累的 500 亿用户配置文件及 18 万亿条消费行为信号,支持以自然语言合成包括 Yahoo 自有频道(如新闻、财经、体育等)在内的全网信息,然后以结构化表格、丰富多媒体卡片及显眼的蓝色溯源链接形式呈现,每条回答平均包含多达 9 个引用来源;同时该功能已同步嵌入 Yahoo 全线产品,提供邮件摘要、财经市场实时分析、新闻评论热点提炼及体育赛事拆解等增强体验。

目前 Yahoo Scout 已在美国地区上线测试版,提供独立网页端及 iOS/Android App 访问,服务保持免费并计划通过底部广告及联盟佣金实现商业化。来源


阿里发布 Qwen3-Max-Thinking

阿里于 1 月 26 日发布千问旗舰推理模型 Qwen3-Max-Thinking,总参数超万亿,进行了更大规模的强化学习后训练,在多项关键性能基准测试中增强了自主调用工具的原生 Agent 能力,可按需调用搜索引擎和代码解释器,支持测试时扩展技术(Test-Time Scaling),显著提升了推理性能,在关键推理基准上超越 Gemini 3 Pro,同时该模型也大幅降低了模型幻觉。

目前 Qwen3-Max-Thinking 已上线 Qwen Chat,对应的 API(模型名称为 qwen3-max-2026-01-23)也通过阿里云开放。来源


Anthropic 推出交互式 Claude 应用

Anthropic 于 1 月 26 日宣布上线 Claude 聊天机器人交互式应用,允许用户在对话界面直接调用包括 Slack、Canva、Figma、Box 和 Clay 在内的日常办公应用,后续还将上线 Salesforce 集成;Claude 可以在这些服务中代用户发送 Slack 消息、生成图表或访问云端文件,具体能力取决于开启了哪些应用权限。

Anthropic 在博客中表示,数据分析、内容设计和项目管理等任务,本身就更适合在专门的可视化界面中完成,与 Claude 的智能能力结合后,用户在构思、修改和迭代方面的效率将显著提高。目前这项新功能面向 Claude Pro、Max、Team 和 Enterprise 订阅用户开放,可在 claude.ai/directory 启用和管理。来源


OpenAI 发布科学研究 AI 协作空间 Prism

1 月 27 日,OpenAI 正式发布专为科学研究设计的 AI 原生协作空间 Prism,并同步宣布收购云端 LaTeX 平台 Crixet 以作为其底层架构。Prism 深度集成了 GPT-5.2 Thinking 模型,使 AI 能够直接在项目环境中理解论文结构、公式与参考文献,支持自动生成 TikZ 图标、从 arXiv 检索并引用文献、自动编写书目、以及将白板手写公式或草图转换为 LaTeX 代码;此外,Prism 还具备实时多人协作功能,并能根据特定主题生成研究生课程计划与配套习题。

目前 Prism 已向所有拥有 ChatGPT 个人账户的用户免费开放,支持创建无限数量的项目与协作席位,并将于近期登陆 ChatGPT 商业、团队、企业及教育版方案。来源


看看就行的小道消息

  • 1 月 28 日,三星开始为将在 Galaxy 设备上搭载的新隐私保护功能预热,该功能旨在通过硬件与软件的深度融合解决公共场所的「肩窥(Shoulder Surfing)」风险,据称可通过像素级别调整显示可见度,实现对密码输入、特定应用界面及通知弹窗的定向遮蔽,仅允许正面操作者清晰查看特定屏幕内容。来源
  • 1 月 26 日,Meta 宣布计划在未来数月内对其旗下 Instagram、Facebook 及 WhatsApp 三大应用启动高级订阅服务测试,该订阅体系旨在通过付费模式解锁更强的生产力、创造力及 AI 扩展功能,同时保持基础核心体验免费。来源
  • 根据部分媒体的爆料和近期提交给圣何塞联邦法院的和解协议,Google 同意支付 6800 万美元以和解一项围绕其 Google Assistant 语音助手非法录音的集体诉讼。该案件核心指向 Google Assistant 的「误触发(False Accepts)」机制,即设备在未接收到「Ok Google」唤醒词的情况下仍会自动激活并截获用户敏感音频信息用于人工分析或定向广告推送,与苹果公司此前因 Siri 的类似问题支付 9500 万美元和解金的案例性质相似。本次和解涵盖自 2016 年 5 月 18 日起,所有账户关联过预装 Google Assistant 设备(含 Pixel 手机、Google Home 智能音箱、Nest Hub 系列显示器等)的美国用户,根据和解方案,符合条件的设备购买者预计可获得 18 至 56 美元的补偿,居住在相关设备环境下的受影响个人也可申领 2 至 10 美元。来源
  • 根据新墨西哥州总检察长办公室获取的内部文件,Meta 首席执行官马克·扎克伯格(Mark Zuckerberg)主导并否决了在其下 AI 聊天机器人中加入家长控制功能的决定,并据此推动了更宽松的安全限制。相关指控源于新墨西哥州针对 Meta 未能保护儿童免受性骚扰的诉讼,且《华尔街日报》此前的调查曾指出其 AI 机器人存在与未成年人进行色情对话或模仿未成年人的风险。受此影响,Meta 已于上周暂停了青少年账户对 AI 角色功能的访问权限,以待开发相关家长控制工具。来源
  • 1 月 27 日,Google 在 Chromium Bug 追踪页面中意外泄露了代号为 Aluminum OS (ALOS) 的桌面界面截图,截图源自一台搭载第 12 代 Intel 酷睿处理器的 HP Elite Dragonfly Chromebook,系统版本号 ZL1A.260119.001.A1、版本为 Android 16;从截图来看,该桌面环境包含面向大屏幕多任务优化的状态栏、秒级时间显示、M3E 电池图标、Gemini AI 入口及屏幕录制控制面板,且所搭载的 Chrome 浏览器已支持桌面级扩展程序(Extensions)。这也证实了此前 Google 正在 Chromebook 上测试 Android 与 ChromeOS 的深度融合版本的传闻。来源


少数派的近期动态

  • 我们正在优化并改进新的首页版式,如果你在使用过程中发现了任何问题或者有改进建议,请通过反馈表单告知我们。首页反馈收集
  • 将设计装进耳朵:少数派×飞傲联名 CD 机盖板设计大赛已经开始啦。了解详情
  • 比第三方 Apps 更好使:盘点 Apple 生态经典好用的原生应用。看看都有啥


你可能错过的文章


> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    阿里突发最强旗舰模型,总参数过万亿

     

    就在刚刚,Qwen3-Max-Thinking 正式版突然发布,总参数规模超过 1 万亿(1T),位于目前全球最大规模 AI 模型行列,预训练数据规模高达 36T Tokens,覆盖大量高质量语料。

     

    Qwen3-Max 是阿里通义团队迄今规模最大、能力最强的语言模型,该版本包括 Base、Instruct 和 Thinking 多种形式。

     

    在多项权威基准测试中表现优异,Qwen3-Max-Thinking 性能可与 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等闭源顶级模型竞争甚至超越。

     

    具体而言,Qwen3-Max-Thinking 在多项关键 AI 基准测试中达到了或刷新了全球 SOTA 表现:

     

    • 在包含事实科学知识、复杂推理和编程能力在内的 19 项权威基准测试中取得极高水平,有记录显示其综合表现可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等业内领先模型。

    • 在数学推理基准测试中,该模型曾在预览阶段实现 AIME 25 和 HMMT 25 满分(即 100% 准确率),这一表现被认为代表了高难度数学推理能力。

    • 相较于此前的 Instruct 版本,Thinking 版本在 Agent 工具调用、复杂逻辑和深度推理任务中表现出更优的能力。

     

    这些测试覆盖了科学知识问答(如 GPQA Diamond)、数学推理(如 IMO 等级测试)、代码编程(如 LiveCodeBench)等多个领域,是衡量大型语言模型综合能力的重要指标。

     

    为实现上述性能突破,千问团队在官方博客中称为 Qwen3-Max-Thinking 引入两项核心创新:

     

    • 自适应工具调用能力,可按需调用搜索引擎和代码解释器,现已上线;

    • 测试时扩展技术(Test-Time Scaling),显著提升推理性能,在关键推理基准上超越 Gemini 3 Pro。

     

    那么,这两项核心创新到底什么意思?

     

    首先是自适应工具调用能力,据千问团队介绍,与早期需要用户手动选择工具的方法不同,Qwen3-Max-Thinking 能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。

     

    该能力源于专门设计的训练流程:在完成初步的工具使用微调后,模型在多样化任务上使用基于规则和模型的反馈进行了进一步训练。实验表明,搜索和记忆工具能有效缓解幻觉、提供实时信息访问并支持更个性化的回复。代码解释器允许用户执行代码片段并应用计算推理来解决复杂问题。这些功能共同提供了流畅且强大的对话体验。

     

    再来说说测试时扩展。该技术是指在推理阶段分配额外计算资源以提升模型性能的技术。研发团队提出了一种经验累积式、多轮迭代的测试时扩展策略。

     

    不同于简单增加并行推理路径数量 N(这往往导致冗余推理),团队对并行轨迹数量进行限制并将节省的计算资源用于由“经验提取”机制引导的迭代式自我反思。

     

    该机制从过往推理轮次中提炼关键洞见,使模型避免重复推导已知结论,转而聚焦于未解决的不确定性。关键在于,相比直接引用原始推理轨迹,该机制实现了更高的上下文利用效率,在相同上下文窗口内能更充分地融合历史信息。在大致相同的 token 消耗下,该方法持续优于标准的并行采样与聚合方法:GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

     

    这些技术改善了模型处理复杂任务时的自主规划、推理链构建和决策能力。

     

    千问 App PC 端和网页端已经第一时间上新这一 Qwen 系列最强模型,现在即可免费体验。API(qwen3-max-2026-01-23)也已开放。

     

    体验地址:https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

    网友:中国大模型不负期待!

     

    在模型发布消息传出后,社交平台上也迅速出现了大量讨论。一部分网友的关注点集中在模型能力本身,语气中带着明显的惊讶与认可。

     

    有海外开发者在 X 上表示,自己已经习惯看到 Qwen 在多个榜单上“反超”其他模型。

     

    “Qwen 总是能跑赢其他模型,”一位用户调侃道,同时也提出了更偏产品层面的期待,希望 Qwen 能在 Android 端做出“更简洁、更有辨识度的应用设计”,认为模型能力已经走在前面,产品体验还有进一步打磨空间。

     

    也有不少声音将 Qwen 的发布节奏与国际头部厂商作对比。一位网友直言,通义千问团队在模型更新和能力披露上的频率,甚至“已经超过了 OpenAI”。在他看来,这种持续、高密度的迭代和公开沟通,本身就是一种对开发者更友好的信号,至少让外界清楚知道模型在什么阶段、解决了哪些问题。

     

    还有用户的反馈则更为直接。一位名为 Harriett Solid 的网友在评论中写道:“这正是我一直在等的 Qwen 发布版本。”这类评价并未展开具体技术细节,但从情绪上看,显然将 Qwen3-Max-Thinking 视为一次“到位”的升级,而不是过渡性产品。

     

    整体来看,网友评论呈现出两个明显特点:一方面,对 Qwen 在推理能力和更新速度上的认可度较高;另一方面,讨论已经开始从“模型是否强”延伸到“产品体验、生态建设是否匹配当前能力”。

     

    这也从侧面反映出,随着模型能力逼近甚至进入全球第一梯队,外界对通义千问的期待,正在从单点技术突破,转向更完整的产品与平台层面。

     

    参考链接:

    https://chat.qwen.ai/

    https://qwen.ai/blog?id=qwen3-max-thinking