2026年1月

模力工场新鲜事

  • 模力工场作为官方生态合作伙伴,诚邀您共赴产业前沿盛会——「逐梦 AI ·天使筑基」2026 中关村早期投资论坛暨 AI 新场景产业创新大会。本次大会汇聚政策、资本与产业领袖,深度聚焦机器人、智能体、大模型应用等前沿赛道,共同把脉 AI 趋势、破解落地难题,为您提供决策的一手洞察。1 月 28 日,北京中关村,期待与您共筑未来!

029 周榜单总介绍

模力工场第 029 周 AI 应用榜来袭!本周共有 23 款应用上架,我们从榜单中精选出十款代表性应用与大家分享。本期榜单应用多为近期热门或美国 CES 参展应用,整体呈现“软硬结合、多领域并进”的特点,涵盖大模型应用、智能硬件、生活方式工具及 AI 基础设施等多个方向。从中可以看出,当前 AI 应用正朝着更实用、更集成、更富交互感的方向演进,硬件创新与场景化服务正成为推动 AI 走向普及的关键动力。以下为本周精选的十款应用简介:

  • GLM-Image(智谱 AI): 图像设计、AI Infra 类,开源图像生成模型

  • 千问App: AI 搜索问答、生活方式类, 阿里最强模型官方 AI 助手

  • 雷鸟 AI 眼镜(RayNeo): AI 硬件类,想象万千,终于一见

  • 影目 GO3 (IMMO): AI 硬件类,AI 眼镜美学标杆

  • Lynx Ring(云康宝): AI 硬件类,小巧智能戒指,24 小时健康监测随身管理

  • Bonjour 数字名片: 生活方式类,Bonjour!创意工作者的 Portfolio

  • 智元机器人 AgiBot A2: AI 硬件类,业内首个规模化商用的全尺寸人形机器人

  • Loona(可以科技): AI 硬件类,具备情感反馈的家庭 AI 宠物陪伴机器人

  • 蓝耘星河: AI Infra、新媒体创作、营销增长类,蓝耘星河以智能,驱动增长

  • Tunee: AI Agent、音频语音、视频多媒体类,Tunee!The smartest AI music agent.

本周必试应用

应用名称:GLM-Image(智谱 AI)

关键词:开源图像生成模型 | 复杂视觉文本生成 | 长文本渲染

模力小 A 推荐:GLM-Image 在中文长文本准确性与小字脚注生成上表现突出,尤其适合法律文书、产品说明等对文字保真度要求极高的场景。此外,其价格仅为 Nano Banana Pro 的一半左右,性价比显著。

上榜冷门但有趣的应用

应用名称:千问App

关键词:阿里官方出品|多场景智能问答|搜索增强|生活助手

模力小 A 推荐:如果说之前的千问还是一位“聊天伙伴”,那么现在的它,已经进化成了能真正帮你“办事”的智能管家。随着 1 月 15 日新版本的发布,千问 App 全面接入了淘宝、支付宝、高德等阿里核心生态,这意味着你可以直接通过和千问对话完成点外卖、买机票、订酒店等一系列操作。

本周上榜应用趋势解读

本周的 AI 趋势呈现出清晰的双线演进:软件正变得更深、更实用,而硬件则在变得更轻、更自然。

软件:从“能说会道”到“能干实事”

近期两个标志性进展值得关注。其一,GLM-Image 登顶 Hugging Face 榜单,证明了国产模型能在专业场景(如法律文书、产品说明)中精准生成文本和图像,同时还具备显著的成本优势,让专业级 AI 工具变得触手可及。其二,千问 App 全面接入阿里生态,意味着 AI 已从单纯的“问答对话”进阶到“办事调度”阶段——用户可以通过自然对话直接完成点外卖、订机票等操作。AI 正从一个聊天对象,转变为串联现实服务的智能中枢。

硬件:从“技术秀场”到“场景适配”

从 CES 的趋势来看,AI 硬件近期正在褪去“极客玩具”的标签,转向更务实的设计哲学:不刻意刷存在感,但需要时总在身边。

  • 入口更轻了:新一代 AR 眼镜(如雷鸟、影目)不再追求取代手机,而是通过更轻巧的设计,专注做好“信息提示”“即时导航”这类“抬头即用”的场景,成为生活中的“第二块屏幕”。类似地,像 Loona DeskMate 这样的产品,让用户闲置的旧手机成为桌面机器人的“面孔”,以几乎零成本的方式,把熟悉的设备变成了桌面上可互动、可陪伴的 AI 伙伴。

  • 陪伴更久了:以智能戒指为代表的健康设备,正变得像首饰一样无感佩戴。竞争的关键不再是“能测多少项”,而是能否让用户愿意长期佩戴,从而获得持续、有价值的健康数据。同样,人形机器人(如智元 AgiBot A2)也迈入了新阶段:能量产了。接下来的核心问题,是它能在工厂、商场等具体场景中解决什么实际工作,创造什么经济价值。

  • 表达更活了:AI 也开始赋能个人形象展示。像 Bonjour 数字名片这样的工具,让个人主页从静态的“电子名片”变成了可动态展示作品、风格乃至个性的“互动橱窗”,帮助用户在社交与职场中更生动地呈现自己。

整体而言,当前 AI 的发展更加注重与真实场景、既有习惯的衔接。无论是软件的能力延伸,还是硬件的形态演进,都体现出同一种思路:在用户需要时提供恰到好处的支持,而非刻意强调技术本身的存在。或许只有当技术彻底融入行为日常,才是其真正成熟的标志。

最后再介绍一下模力工场的上榜机制和加入榜单的参与方式,欢迎大家继续积极参与提交 AI 应用:

模力工场 AI 应用榜并非依靠“点赞刷榜”,而是参考以下权重维度:

  • 评论数(核心指标,代表社区真实反馈)

  • 收藏与点赞(次级指标)

  • 推荐人贡献(注册推荐人可直接为好应用打 Call)

加入榜单的参与方式:

  • 如果你是开发者:上传你的 AI 应用,描述使用场景与核心亮点;

  • 如果你是推荐人:发现好工具,发布推荐理由;

  • 如果你是用户:关注榜单,评论互动,影响榜单权重,贡献真实声音。

One More Thing,对于所有在模力工场上发布的 AI 应用,极客邦科技会借助旗下各品牌资源进行传播,短时间内触达千万级技术决策者与开发者、AI 用户:

  • InfoQ 全媒体矩阵

  • AI 前线全媒体矩阵

  • 极客时间全媒体矩阵

  • TGO 鲲鹏会全媒体矩阵

  • 霍太稳视频号

以往扫描仪在办公室中的角色颇为单一:将纸质文件变成电子图片,任务便告完成。然而,在人工智能技术蓬勃发展的今天,扫描仪正在经历一场深刻的进化。新一代智能扫描仪不再只是简单的格式转换工具,而是成为了能够理解、分析和处理非结构化文档内容的“智能脑”。通过集成光学字符识别(OCR)、自然语言处理(NLP)和计算机视觉技术,智能扫描仪不仅能“看见”文档,更能“看懂”文档。

这个转变的背后,是一个重要的事实支撑:根据行业研究,企业中超过80%的有价值信息以非结构化数据的形式存在——包括合同、报告、邮件、发票等各类文档。这些信息若能被有效挖掘和利用,将为企业决策和创新提供强大动力。智能扫描仪的进化,正是开启这座信息宝库的关键钥匙。

二、智能扫描仪的三大核心能力突破

1. 精准识别与转换

现代智能扫描仪搭载的高精度OCR技术已经相当成熟,不仅能准确识别印刷体文字,对手写体、特殊字体也有很好的识别能力。多语言混合文档、复杂排版(如多栏、图文混排)的识别准确率已超过98%。更重要的是,智能扫描仪能够保持原始文档的格式、字体和布局,生成可直接编辑的Word、Excel等格式文件,而非简单的图片或PDF。

2. 结构理解与智能分类

智能扫描仪能够理解文档的逻辑结构,自动识别标题、副标题、段落、表格、图表、页眉页脚等元素。基于内容分析,系统还能对文档类型进行智能分类——自动区分发票、合同、简历、报告等不同类型的文档,并应用相应的处理策略。例如,面对一份采购合同,系统会重点关注金额、交货日期、违约责任等关键条款;而处理学术论文时,则会聚焦研究方法、数据结果和结论部分。

3. 内容解析与知识提取

这是智能扫描仪最具革命性的能力突破。通过深度学习算法,系统能够:

  • 语义理解:超越文字表面,把握文本的深层含义和意图。例如,不仅能识别“甲方应在30日内付款”这句话中的每个字,更能理解这是一项付款义务,涉及特定主体、时间限制和具体行为。
  • 关系网络构建:分析不同文档间的内在联系,构建跨文档的知识图谱。比如,将多份相关合同、邮件和会议记录关联起来,形成完整的项目视图。
  • 模式识别与异常检测:在海量文档中发现规律和异常。例如,在财务报表中自动识别异常波动,在质检报告中标记不合格项目。

三、深度解析:非结构化数据的价值解锁

1. 什么是非结构化数据?

非结构化数据指那些没有预定义数据模型或组织形式的信息,包括文本文件、电子邮件、社交媒体帖子、图像、视频等。在企业环境中,最常见的非结构化数据是各类业务文档:

  • 合同与协议:条款复杂,专业性强
  • 财务报告:数据密集,关联性强
  • 客户反馈:形式多样,情感丰富
  • 会议记录:口语化强,重点分散
  • 研究论文:专业术语多,逻辑严密

传统处理方式主要依赖人工阅读、摘录和整理,效率低、成本高、一致性差,且难以进行大规模分析。

2. 智能解析的四层突破

智能扫描技术通过四个层次的解析,破解非结构化数据处理难题:

第一层:语义理解

系统能够理解文本的上下文关系、情感倾向和真实意图。例如,在客户投诉信中,不仅能提取投诉内容,还能分析客户的失望程度和核心诉求。

第二层:实体提取

自动识别和提取文档中的关键信息实体,如人名、组织名、日期、金额、产品名称等。这些实体信息可直接导入数据库或业务系统,实现数据自动化。

第三层:逻辑分析

理解文档内部的逻辑关系。例如,在法律文件中,识别“如果...那么...”的条件关系;在调查报告中,理解数据与结论之间的支撑关系。

第四层:知识图谱

将分散在不同文档中的信息关联起来,构建企业知识网络。比如,将客户信息、订单记录、服务反馈等关联分析,形成完整的客户视图。

3. 行业应用价值

金融行业:智能扫描系统可自动审查贷款申请材料,提取关键财务数据,评估信用风险,处理时间从数小时缩短至几分钟。

医疗健康:将纸质病历、检查报告数字化并结构化,建立可搜索的患者健康档案,辅助医生诊断和治疗决策。

法律服务:快速分析大量法律文件和案例,提取相关法条、判例要点和关键事实,大幅提高案件准备效率。

教育科研:智能解析学术文献,提取研究问题、方法、数据和结论,帮助研究人员快速了解领域动态。

四、ComPDF AI:智能文档解析的实践典范

1. 产品定位与技术优势

ComPDF AI是一款面向企业级应用的智能文档处理平台,集成了先进的OCR、自然语言处理和深度学习技术。其核心优势在于“一体化”和“智能化”:不仅支持从扫描到解析的全流程处理,更能深入理解文档内容,将非结构化数据转化为结构化知识。

平台采用多格式统一解析引擎,无论是扫描件、PDF、Word、Excel还是图片格式,都能提供一致的高质量解析结果,真正实现全格式文档的智能化处理。

2. 核心功能详解

智能版面分析ComPDF AI能够精准识别复杂文档的版面结构,包括多栏排版、表格、图表、文本框等元素。无论是传统的报纸式排版还是现代的创意设计,系统都能准确还原文档的逻辑结构,为后续的内容解析奠定基础。

深度内容解析:基于预训练的大语言模型和行业知识库,ComPDF AI能够理解文档的语义层次。例如,在技术白皮书中,区分技术原理、应用场景和竞争优势;在年度报告中,识别财务数据、业务分析和未来展望。这种深度理解能力,使系统能够提取真正有价值的信息,而非简单的关键词匹配。

交互式处理:用户可以通过自然语言与文档进行对话。例如,输入“找出合同中所有关于知识产权的条款”或“汇总2023年各季度销售数据”,ComPDF AI能够准确理解查询意图,并在文档中找到相应信息,以结构化形式呈现结果。这种交互方式大大降低了使用门槛,使非技术人员也能轻松进行复杂文档分析。

批量自动化处理:针对企业级应用场景,ComPDF AI支持大规模文档的批量处理。用户可以建立自动化处理流水线,设置规则和模板,系统将自动完成文档的解析、分类和信息提取。例如,财务部门可以设置发票处理流程,系统自动识别发票类型、提取金额和供应商信息,并导入财务系统。

3. 应用场景展示

企业法务场景:某跨国公司使用ComPDF AI处理全球分支机构的合同审查。系统自动识别合同类型(采购、销售、雇佣等),提取关键条款(价格、交付期限、违约责任等),并标记潜在风险点。法务团队审查重点合同的时间从平均4小时缩短至30分钟,效率提升超过85%。

财务部门应用:一家大型零售企业将ComPDF AI集成到财务流程中,自动化处理每月数千张供应商发票。系统不仅提取发票基本信息,还自动验证发票真伪、匹配采购订单,并将数据直接导入ERP系统。人工核对工作量减少70%,错误率降低90%以上。

研究机构案例:某政策研究机构利用ComPDF AI分析大量政策文件和研究报告。系统自动提取政策要点、实施措施和影响评估,帮助研究人员快速把握政策脉络。文献调研时间减少60%,让研究人员能够更专注于深度分析和创新思考。

五、智能扫描仪的具体应用场景

1. 办公室自动化

智能归档与检索:传统文档管理依赖人工标注和分类,检索困难。智能扫描仪自动识别文档内容,提取关键词和摘要,实现精准的全文检索。例如,需要查找三年前某个项目的会议记录,只需输入相关关键词,系统即可快速定位。

会议记录处理:扫描纸质会议记录或直接处理电子笔记,系统自动识别发言人、讨论主题、决策事项和待办任务,生成结构化会议纪要,并同步到项目管理工具中。

2. 专业领域深化应用

财务税务:自动处理各类发票、收据和报税单据,提取关键数据(金额、税率、日期等),验证税务信息,并直接导入会计软件。每年报税季,这一功能可节省大量时间和精力。

人力资源:智能解析求职者简历,提取教育背景、工作经历、技能证书等信息,与职位要求自动匹配,生成候选人评估报告。招聘人员可以快速筛选合适人选,提高招聘效率和质量。

客户服务:分析客户来信、在线反馈和调查问卷,自动识别客户情感(满意、中性、不满),提取核心问题和建议,分类汇总后转交相关部门处理。帮助企业及时了解客户需求,改进产品和服务。

知识管理:将企业内部的各类文档(技术手册、产品说明、案例研究等)数字化并结构化,构建企业知识库。员工可以通过自然语言查询获取所需知识,促进知识共享和创新。

3. 个人效率提升

学习笔记管理:学生和研究人员可以扫描纸质笔记和参考资料,系统自动识别重点内容、公式图表和参考文献,建立个人知识库。复习和写作时,能够快速查找相关资料。

个人文档整理:处理个人证件、保单、合同等重要文件,系统自动分类存储,并设置提醒(如保险续保、证件到期等)。需要时可通过手机快速检索和查看,实现个人文档的智能化管理。

六、实施路径:如何部署智能扫描解决方案

1. 技术准备要点

硬件选择:根据文档处理量选择合适规格的扫描仪。对于大批量处理,建议选择自动进纸、双面扫描的高端型号;对于日常办公,普通平板扫描仪即可满足需求。同时考虑与现有办公设备的兼容性。

系统集成:智能扫描解决方案需要与企业的文档管理系统、业务系统(如ERP、CRM)集成。选择支持标准API接口的解决方案,确保数据能够顺畅流转。云部署方案可以降低初期投入,快速上线使用。

2. 流程改造建议

制定数字化标准:统一文档扫描的质量标准(分辨率、格式等)、命名规范和存储结构。建立文档分类体系,确保后续处理的效率和一致性。

优化工作流程:重新设计文档处理流程,减少人工干预环节。例如,将扫描、识别、分类、归档设置为自动化流程;建立异常处理机制,对无法自动处理的文档进行人工复核。

培训与推广:对员工进行系统培训,使其掌握智能扫描工具的使用方法。通过试点项目展示应用效果,逐步推广到全公司。建立使用反馈机制,持续优化系统配置和流程设计。

3. 数据安全与合规

隐私保护机制:确保扫描和解析过程中个人隐私数据的安全。采用数据加密传输和存储,设置访问权限控制。对于敏感文档,提供本地化处理选项,避免数据外泄风险。

行业合规性:不同行业对文档处理有特定合规要求。例如,医疗行业需符合HIPAA标准,金融行业需满足数据保存和审计要求。选择解决方案时,确保其符合相关行业规范和法律法规。

七、未来展望:智能扫描技术的发展趋势

1. 技术融合方向

多模态AI整合:未来的智能扫描仪将整合文本、图像、语音等多种信息处理能力。例如,不仅解析文档文字,还能分析其中的图表数据;结合语音识别技术,处理会议录音和访谈记录,形成完整的会议档案。

边缘计算与云协同:部分处理任务将在扫描设备本地完成(边缘计算),减少数据传输延迟,提高响应速度;复杂分析任务则交由云端处理,利用更强大的计算资源。这种协同模式平衡了效率与能力的需求。

2. 功能演进预测

预测性文档分析:系统不仅能解析已有文档内容,还能基于历史数据预测未来趋势。例如,分析历年销售合同,预测下季度销售情况;审查项目文档,识别潜在风险和延误可能。

实时协作处理:支持多人同时处理同一份文档,实时共享解析结果和批注意见。无论团队成员身在何处,都能高效协作完成文档审查和分析任务。

行业深度定制:针对特定行业的专业需求,提供高度定制化的解析模型和知识库。例如,为律师事务所定制的法律文档分析系统,为医院定制的病历处理方案,为科研机构定制的文献分析工具。

3. 生态建设

深度系统集成:智能扫描技术将与企业各类业务系统深度集成,成为企业数字基础设施的一部分。从简单的数据输入工具,演变为支持决策的智能分析平台。

开放开发者生态:提供丰富的API接口和开发工具包,支持第三方开发者创建定制化应用。构建应用商店生态,满足不同用户的个性化需求。

八、结论:智能扫描仪——企业数字化转型的关键拼图

智能扫描仪正在从企业的“成本中心”转变为“价值创造者”。传统文档处理需要投入大量人力资源,却难以产生直接价值;而智能扫描仪通过自动化处理和深度分析,释放非结构化数据的潜力,直接支持业务决策和创新。

这一转变的核心,在于智能扫描仪成为了非结构化数据价值释放的杠杆点。它连接了纸质世界与数字世界,物理文档与数据系统,将散落在各处的信息碎片整合成可用的知识资产。

RT,Microsoft365 的 copilot 大部分情况下都是大幅度降智的,见我的上个帖子
经过研究,Microsoft365 其实可以用上满血 GPT 5.2 Thinking,经过对比和官网智力没有区别,而且基本不会触发降智,用过官网的都知道官网经常降智。
好像还可以用 5.1,能用 5.2 应该没人会去用 5.1 吧,所以就没加到脚本里。

此外,如果账号本来就有切换模型的权限,请本脚本设置默认模型,并使用官方功能切换模型,可以用本脚本去除无关的数据源,以提升模型能力。

使用链接 https://m365.cloud.microsoft/
油猴脚本如下,为了能活的久一点,没有上传到 github 并给帖子设了权限,所以不建议转发该帖子内容

// ==UserScript==
// @name         M365 GPT 优化工具
// @namespace    https://linux.do/u/fatekey/summary
// @version      1.3
// @description  Modify M365 chat websocket messages
// @author       fatekey
// @match        https://m365.cloud.microsoft/*
// @grant        GM_addStyle
// @run-at       document-start
// ==/UserScript==

(function() {
    'use strict';

    // ================= 配置与状态管理 =================
    const STORAGE_KEY = 'm365_mod_config_v2';
    const DEFAULT_CONFIG = {
        mode: 'default', // default, reasoning, chat
        cleanData: false
    };

    function getConfig() {
        try {
            const saved = localStorage.getItem(STORAGE_KEY);
            return saved ? JSON.parse(saved) : DEFAULT_CONFIG;
        } catch (e) {
            return DEFAULT_CONFIG;
        }
    }

    function saveConfig(config) {
        localStorage.setItem(STORAGE_KEY, JSON.stringify(config));
    }

    let currentConfig = getConfig();

    // ================= WebSocket 拦截逻辑 =================
    const originalSend = WebSocket.prototype.send;

    WebSocket.prototype.send = function(data) {
        let modifiedData = data;

        if (typeof data === 'string') {
            // 1. 处理模式替换
            if (currentConfig.mode !== 'default') {
                const target = '"isSbsSupported":true';
                let replacement = target;

                if (currentConfig.mode === 'reasoning') {
                    replacement = '"isSbsSupported":true,"tone":"Gpt_5_2_Reasoning"';
                } else if (currentConfig.mode === 'chat') {
                    replacement = '"isSbsSupported":true,"tone":"Gpt_5_2_Chat"';
                }

                if (data.includes(target)) {
                    modifiedData = modifiedData.replace(target, replacement);
                }
            }

            // 2. 处理数据净化
            if (currentConfig.cleanData) {
                const keywordsPattern = '"People","File","Event","Email","TeamsMessage"';
                modifiedData = modifiedData.replace(keywordsPattern, '');
            }
        }

        return originalSend.apply(this, [modifiedData]);
    };

    // ================= UI 界面逻辑 =================

    const css = `
        #m365-mod-btn {
            position: fixed;
            top: 12px;
            right: 160px;
            z-index: 99999;
            background: #252525;
            color: #fff;
            border: 1px solid #444;
            border-radius: 4px;
            padding: 6px 12px;
            font-family: 'Segoe UI', sans-serif;
            font-size: 12px;
            cursor: pointer;
            box-shadow: 0 2px 5px rgba(0,0,0,0.2);
            transition: background 0.2s;
            user-select: none;
        }
        #m365-mod-btn:hover {
            background: #3a3a3a;
        }

        #m365-mod-modal-overlay {
            display: none;
            position: fixed;
            top: 0; left: 0; width: 100%; height: 100%;
            background: rgba(0,0,0,0.5);
            z-index: 100000;
            justify-content: center;
            align-items: center;
            backdrop-filter: blur(2px);
        }

        #m365-mod-modal {
            background: #1e1e1e;
            color: #fff;
            padding: 20px;
            border-radius: 8px;
            width: 300px;
            box-shadow: 0 10px 25px rgba(0,0,0,0.5);
            border: 1px solid #444;
            font-family: 'Segoe UI', sans-serif;
        }

        .mod-row { margin-bottom: 15px; }
        .mod-title { font-size: 16px; font-weight: bold; margin-bottom: 15px; display: flex; justify-content: space-between; align-items: center; }
        .mod-close { cursor: pointer; color: #aaa; font-size: 24px; line-height: 20px; padding: 0 5px; }
        .mod-close:hover { color: #fff; }

        .mod-select { width: 100%; padding: 6px; background: #333; color: white; border: 1px solid #555; border-radius: 4px; outline: none; }
        .mod-label { display: block; margin-bottom: 5px; font-size: 13px; color: #ccc; }

        .mod-checkbox-container { display: flex; align-items: center; cursor: pointer; user-select: none; }
        .mod-checkbox { margin-right: 10px; transform: scale(1.2); }

        .mod-status { font-size: 12px; color: #88ff88; min-height: 18px; margin-top: 10px; text-align: right;}
    `;

    if (typeof GM_addStyle !== 'undefined') {
        GM_addStyle(css);
    } else {
        const style = document.createElement('style');
        style.innerText = css;
        document.head.appendChild(style);
    }

    function createUI() {
        // 1. 创建触发按钮
        const btn = document.createElement('div');
        btn.id = 'm365-mod-btn';
        btn.innerText = '⚙️ 设置模型';
        // 直接绑定 JS 函数,而非 innerHTML 字符串
        btn.onclick = openModal;
        document.body.appendChild(btn);

        // 2. 创建模态框容器
        const overlay = document.createElement('div');
        overlay.id = 'm365-mod-modal-overlay';
        // 点击遮罩层关闭
        overlay.onclick = (e) => {
            if (e.target === overlay) closeModal();
        };

        const modal = document.createElement('div');
        modal.id = 'm365-mod-modal';

        // --- 标题栏 ---
        const header = document.createElement('div');
        header.className = 'mod-title';

        const titleText = document.createElement('span');
        titleText.innerText = 'M365 GPT 优化工具';

        const closeBtn = document.createElement('span');
        closeBtn.className = 'mod-close';
        closeBtn.innerHTML = '×';
        // 修复点:使用 onclick 属性直接绑定函数,避开 CSP 限制
        closeBtn.onclick = closeModal;

        header.appendChild(titleText);
        header.appendChild(closeBtn);
        modal.appendChild(header);

        // --- 选项 1: 模式 ---
        const row1 = document.createElement('div');
        row1.className = 'mod-row';
        row1.innerHTML = `<label class="mod-label">AI 模型</label>`;

        const select = document.createElement('select');
        select.className = 'mod-select';
        const modes = [
            { val: 'default', text: '默认' },
            { val: 'reasoning', text: 'GPT 5.2 Thinking' },
            { val: 'chat', text: 'GPT 5.2 Quick' }
        ];
        modes.forEach(m => {
            const opt = document.createElement('option');
            opt.value = m.val;
            opt.innerText = m.text;
            if (currentConfig.mode === m.val) opt.selected = true;
            select.appendChild(opt);
        });
        select.onchange = (e) => {
            currentConfig.mode = e.target.value;
            saveConfig(currentConfig);
            showStatus('修改生效');
        };
        row1.appendChild(select);
        modal.appendChild(row1);

        // --- 选项 2: 清理数据 ---
        const row2 = document.createElement('div');
        row2.className = 'mod-row';

        const labelClean = document.createElement('label');
        labelClean.className = 'mod-checkbox-container';

        const check = document.createElement('input');
        check.type = 'checkbox';
        check.className = 'mod-checkbox';
        check.checked = currentConfig.cleanData;
        check.onchange = (e) => {
            currentConfig.cleanData = e.target.checked;
            saveConfig(currentConfig);
            showStatus('Clean Setting Saved');
        };

        labelClean.appendChild(check);
        labelClean.appendChild(document.createTextNode('移除无关数据源(邮件、联系人、云文档等)'));
        row2.appendChild(labelClean);
        modal.appendChild(row2);

        // --- 状态栏 ---
        const status = document.createElement('div');
        status.id = 'mod-status-text';
        status.className = 'mod-status';
        modal.appendChild(status);

        overlay.appendChild(modal);
        document.body.appendChild(overlay);
    }

    // 打开弹窗函数
    function openModal() {
        const overlay = document.getElementById('m365-mod-modal-overlay');
        if (overlay) overlay.style.display = 'flex';
    }

    // 关闭弹窗函数
    function closeModal() {
        const overlay = document.getElementById('m365-mod-modal-overlay');
        if (overlay) overlay.style.display = 'none';
    }

    function showStatus(msg) {
        const el = document.getElementById('mod-status-text');
        if (el) {
            el.innerText = msg;
            setTimeout(() => { el.innerText = ''; }, 2000);
        }
    }

    // 延迟加载确保不被框架覆盖
    const waitLoad = setInterval(() => {
        if (document.body) {
            clearInterval(waitLoad);
            createUI();
        }
    }, 500);

})();


📌 转载信息
原作者:
fatekey
转载时间:
2026/1/20 19:19:50

就在明天!大家别忘了领哦!


📌 转载信息
转载时间:
2026/1/20 19:17:05

skill 搜索安装的 skill

搜索 skill 的 skill ,内置数万 skill 的链接,一键搜索安装

skill 管理客户端,

  • 内置 skill 市场,数万 skill 可供选
  • 管理本地 skill,一键安装、更新、卸载
  • 支持多种 agent,




📌 转载信息
原作者:
zhangsaner
转载时间:
2026/1/20 19:15:33

vc_redist.x86.exe是 微软 Visual C++ 可再发行组件包(32位) ,很多游戏、软件(比如 QQ、微信、部分老游戏)运行都要靠它。

如果电脑里没装,打开软件时可能会提示“缺少 MSVCR120.dll”或“找不到 vcruntime140.dll”这种错误,装了这个就能解决。

一、准备工作

安装包下载:https://pan.quark.cn/s/7efe80e5ae43

二、安装步骤

  1. 双击 vc_redist.x86.exe运行。
  2. 如果是 Windows 10/11,会弹出“用户账户控制”提示 → 点  “是” (需要管理员权限)。
  3. 进入安装界面,点  “安装” ​ 按钮(有的版本是“I agree to the license terms and conditions” → 勾选同意条款 → 点“Install”)。
  4. 等待进度条走完(大概几十秒到一分钟)。
  5. 提示“Setup Successful” → 点  “关闭” ​ 完成安装。

三、验证是否安装成功

  1. 按 Win + R键,输入 appwiz.cpl回车,打开“程序和功能”。
  2. 在列表里找  “Microsoft Visual C++ 2013 Redistributable (x86)” ​ 或类似名称(不同版本年份不一样,比如 2015、2017、2019 等)。
  3. 如果能看到,说明安装成功。

摘要

本文专为智能体入门者设计​从 0 到 1 的实操指南​,摒弃复杂理论,以 “选场景 → 挑平台 → 做搭建 → 调优化 → 落地用” 为核心流程,聚焦零代码平台实操(兼顾代码入门轻指引),搭配工具选择、避坑要点、高频 QA 与落地计划,让新手能在 1-7 天内快速做出可实际使用的第一个智能体。核心逻辑为​以具体需求为导向,轻量化落地,先跑通再优化​,无需深厚编程或 AI 基础,零基础也能快速上手。

搭建自己的第一个智能体,核心不是啃透技术原理,而是​先锁定一个具体需求,选择适配的零代码工具,通过简单的可视化操作完成搭建与调试​。新手优先从解决个人 / 工作的小痛点入手(如日程提醒、文档问答、邮件总结),避开复杂功能,让智能体先 “能用”,再逐步优化 “好用”。以下是分步骤的详细实操指南,全程聚焦零代码落地,同时补充代码入门的轻量路径。

一、前期准备(30 分钟):定需求、选平台,找对切入点

1. 锁定一个具体落地需求(核心关键)

新手切忌贪多求全,优先选择单一、标准化、高频重复的小需求,这类需求搭建简单、易出成果,推荐入门需求清单:

  • 个人效率类:日程管理助手(同步日历 + 提醒待办)、文档问答助手(上传笔记 / PDF,快速检索答案)、每日信息汇总(整合新闻 / 公众号 / 邮件核心内容)
  • 办公职场类:会议纪要助手(提取录音 / 文字核心信息 + 拆分待办)、报表辅助助手(整理表格数据 + 生成简单分析)、客服快捷回复助手(根据问题匹配标准答案)
  • 学习科研类:错题整理助手(上传错题,自动分类 + 标注考点)、文献摘要助手(提取论文核心观点 / 研究方法)

选需求原则​:自己每天都会用到、手动做耗时 5 分钟以上、需求描述能一句话说清(如 “帮我总结微信公众号的干货文章,提取 3 个核心观点”)。

2. 零代码平台选择(新手首选,无需编程)

新手友好度、国内适配性、功能贴合度排序,附平台核心特点与适配场景,直接选其一即可,不用纠结多平台对比:

平台核心特点适配入门需求操作难度推荐指数
扣子(Coze)国内主流,全中文界面,可视化拖拽,办公 / 生活插件丰富(日历、微信、文档),自带角色模板,调试简单全品类入门需求,尤其办公 / 个人效率类★☆☆☆☆★★★★★
Dify(云版)低代码零代码结合,知识库功能强大,支持 PDF/Word/Excel 多格式上传,文档问答体验佳文档问答、知识检索类需求★★☆☆☆★★★★☆
CrewAI(零代码版)侧重任务流程,角色设定清晰,适合单智能体的任务执行分步式任务类(如 “选题 → 写作”“提取 → 总结”)★★☆☆☆★★★☆☆

3. 基础准备工作

  • 注册平台账号:用手机号 / 微信即可完成,部分平台需实名认证(仅合规要求,无其他影响);
  • 准备需求相关素材:如做文档问答助手,提前整理好要上传的 PDF/Word 文件;做日程助手,提前绑定自己的日历 / 微信账号;
  • 理清核心指令:用一句话写清智能体的​核心功能​(如 “上传考研数学笔记,我提问后快速给出答案并标注页码”),后续搭建全程围绕这句话展开。

二、核心搭建(1-3 小时):以扣子为例,手把手零代码实操

新手首选的扣子(Coze) 为例,搭建一个 **「个人文档问答助手」**(最易上手、实用性最高的入门需求),其他平台操作逻辑类似,均为 “新建 → 设角色 → 配功能 → 调规则” 四步,可直接参考。

步骤 1:新建智能体,基础信息设置(5 分钟)

  1. 打开扣子官网,进入「我的智能体」,点击「创建智能体」;
  2. 填写基础信息:

    • 智能体名称:清晰易懂(如 “考研数学笔记问答助手”);
    • 角色设定:简单描述身份(如 “你是考研数学答疑助手,能根据我上传的考研数学笔记,精准回答我的问题,标注答案所在页码”);
    • 头像 / 简介:可选填,新手直接跳过,不影响功能。

步骤 2:配置核心能力,上传知识库(10-20 分钟)

  1. 左侧菜单栏选择「知识库」,点击「新建知识库」,命名后选择「上传文件」,将准备好的笔记 / PDF 上传(支持多文件批量上传,单文件大小无入门限制);
  2. 等待文件解析(1-3 分钟,视文件大小而定),解析完成后,将该知识库绑定到当前智能体(勾选 “知识库问答” 功能);
  3. 简单设置检索规则:新手直接用平台默认设置(如 “精准匹配”“返回答案 + 原文片段”),无需修改。

步骤 3:配置交互规则,优化回复效果(10 分钟)

  1. 左侧菜单栏选择「对话设置」,设置​回复规则​:

    • 回复风格:选择 “简洁明了”(新手首选,避免冗余);
    • 上下文记忆:开启 “短期记忆”(让智能体记住对话中的问题,无需重复提问);
    • 拒绝无关问题:开启 “仅回答知识库相关问题”(避免智能体答非所问);
  2. 可选配置​快捷提问​:添加 3-5 个高频问题(如 “高数极限的解题方法有哪些?”),方便快速测试。

步骤 4:集成工具(可选,针对复杂需求,5 分钟)

若搭建的是日程助手、邮件助手等需要对接外部工具的智能体,在左侧「工具中心」选择对应插件(如日历、邮箱、微信),点击「授权绑定」,按提示完成账号关联即可;文档问答助手无需集成工具,直接跳过。

步骤 5:保存并测试,跑通核心功能(10-30 分钟)

  1. 点击「保存并发布」,进入智能体对话界面;
  2. 进行多轮测试,输入不同类型的问题(简单问题 + 复杂问题),如 “洛必达法则的使用条件是什么?”“高数上册第三章的核心考点有哪些?”;
  3. 若出现答非所问、找不到答案的情况,回到「知识库」检查文件是否解析成功,或优化角色设定中的指令(如补充 “若找不到答案,直接告知‘暂无相关内容’,不要编造”)。

其他需求搭建通用逻辑

无论搭建哪种智能体,均围绕 **「角色设定 + 核心能力 + 交互规则」** 展开:

  • 日程助手:角色设定为 “日程管理师”+ 绑定日历工具 + 设置 “定时提醒 + 待办同步” 规则;
  • 会议纪要助手:角色设定为 “会议纪要专员”+ 绑定语音 / 文字上传功能 + 设置 “提取核心信息 + 拆分待办 + 标注责任人” 规则。

三、调试优化(1-2 天):从 “能用” 到 “好用”,解决常见问题

搭建完成后,智能体可能出现答非所问、回复冗余、功能失效等问题,新手无需复杂操作,通过 3 个简单方法即可快速优化,让智能体更贴合需求。

1. 高频问题解决方法

常见问题核心原因优化方法
答非所问,偏离知识库角色指令不清晰,或未限制回答范围1. 角色设定中明确 “仅根据知识库内容回答”;2. 对话设置中开启 “拒绝无关问题”
找不到答案,提示 “无相关内容”文件解析失败,或问题表述太模糊1. 重新上传文件,确保解析状态为 “成功”;2. 优化问题表述,更具体(如将 “极限怎么学” 改为 “高数极限的解题步骤有哪些”)
回复冗余,有大量无关内容回复风格未设置,或模型生成冗余信息1. 对话设置中选择 “简洁明了”,添加 “回复控制在 3 句话内,不要冗余”;2. 角色设定中补充 “答案直击要点,无需铺垫”
工具调用失效(如日历不提醒)工具授权过期,或规则未设置触发条件1. 重新绑定工具,检查授权状态;2. 设置明确触发条件(如 “我说‘添加待办’,自动同步至日历”)

2. 简单优化技巧

  • 精简指令:角色设定中的描述​控制在 2 句话内​,越简洁,智能体执行越精准,避免堆砌形容词;
  • 补充禁忌规则:在角色设定中添加 “不要编造答案”“不要回答无关问题”“回复简洁” 等禁忌,减少无效输出;
  • 多轮测试迭代:每天用 5 分钟测试 3-5 个问题,发现问题及时调整,不用追求一步到位。

3. 功能轻量化升级(可选)

若想让智能体功能更丰富,可在基础版上做简单升级,无需新增复杂配置:

  • 文档问答助手:添加 “答案标红重点 + 页码跳转” 功能(扣子 / Dify 均为一键开启);
  • 日程助手:添加 “微信提醒” 功能(绑定微信插件,替代平台内提醒);
  • 办公助手:添加 “文档导出” 功能,将智能体的回复导出为 Word/Excel,方便后续使用。

四、落地使用(长期):融入日常,发挥智能体价值

搭建智能体的核心是解决实际问题,新手无需追求 “功能完美”,而是将其融入​个人生活 / 工作流程​,让智能体成为自己的 “专属助手”,同时在使用中持续微调。

1. 日常使用小技巧

  • 固定使用场景:如每天早上用信息汇总助手整理 10 分钟资讯,每周用文档问答助手复习笔记,形成使用习惯;
  • 快速调用:将智能体添加到桌面 / 微信小程序(扣子等平台均支持),无需打开官网,一键调用,提升使用效率;
  • 记录问题:准备一个小本子,记录使用中遇到的问题(如 “某个问题答不上来”),每周花 10 分钟集中优化。

2. 轻量迭代原则

  • 小步快跑:每次只优化一个问题(如 “解决答非所问”),不要一次修改多个设置,避免出现新问题;
  • 按需升级:若当前功能能满足需求,无需新增功能(如文档问答助手能精准回答问题,就不用添加 “知识点拓展” 功能);
  • 贴合自己的使用习惯:如自己喜欢用短句提问,就不用刻意优化长句提问的效果,以自己的使用方式为核心。

五、代码入门轻指引(可选,适合想进阶的新手)

若零代码搭建后,想尝试代码开发(如自定义智能体逻辑、本地部署),无需从头学编程,遵循 **「轻量入门,先调用再自定义」** 原则,用 1-2 周即可做出简单的代码版智能体。

1. 必备基础(3-5 天)

  • 编程语言:Python 基础(仅需掌握​变量、函数、简单的 API 调用​,推荐 B 站《Python 零基础快速入门》,只看前 5 集即可);
  • 核心工具:安装 Python 环境(3.9 及以上)、PyCharm 社区版(免费,代码编辑器)、Postman(可选,测试 API)。

2. 入门技术栈(直接套用,无需理解底层)

  • 基础模型 API:OpenAI API / 文心一言 API / 通义千问 API(提供智能体的对话能力,新手选其一即可);
  • 框架:LangChain(轻量框架,封装了智能体核心功能,无需自己写复杂代码);
  • 前端(可选):Streamlit(一键搭建简单界面,无需前端知识)。

3. 极简代码实战(1-2 天)

Python+LangChain + 文心一言 API 搭建一个简单的文档问答智能体,核心步骤为:​安装依赖 → 调用 API→ 加载知识库 → 实现问答​,网上有大量现成的代码模板(GitHub/LangChain 官方文档),直接复制修改参数即可(如替换自己的 API 密钥、上传自己的知识库文件)。

4. 避坑指南

  • 先调通官方示例代码,再修改自己的需求,避免从头写代码;
  • 不用追求本地部署,先在云端运行(如 Colab,免费,无需配置环境);
  • 核心学习 API 调用和​知识库加载​,其他功能(如记忆、工具调用)后续逐步学习。

六、常见误区与避坑建议

新手搭建第一个智能体,最容易陷入 “追求完美、过度学习、贪多求全” 的误区,以下 3 个避坑建议,能让你少走 80% 的弯路:

  1. 误区​:先啃透 AI 理论 / 编程知识,再动手搭建。
    建议​:理论知识按需补充,零代码搭建完全不需要懂 AI 原理,动手做才是核心,哪怕搭建的智能体功能简单,也比光看不学强。

    1. 误区​:一次搭建多个功能,想让智能体 “无所不能”。

      建议​:一个智能体只解决​一个核心需求​,如文档问答助手就只做问答,不要添加日程、提醒、汇总等功能,功能越多,调试越复杂,越容易放弃。

      1. 误区​:过度纠结平台选择,反复对比各个平台的优劣。

        建议​:新手直接选​扣子(Coze)​,国内适配性最好、操作最简单,先在一个平台做出成果,再尝试其他平台,不用在选择上浪费时间。

        1. 误区​:测试一次就觉得 “不好用”,直接放弃。

          建议​:智能体的优化是一个持续的过程,哪怕是大厂的智能体,也会出现答非所问的情况,新手搭建的第一个智能体,只要能解决 60% 的需求,就是成功的,后续逐步优化即可。

        七、QA 问答:解决搭建中的高频疑问

        Q1:零基础、完全不懂编程,真的能搭建出可用的智能体吗?

        A:完全可以。零代码平台(如扣子)的操作逻辑和搭积木一样,全程可视化拖拽、全中文界面,仅需根据提示完成 “角色设定 + 知识库上传 + 规则设置”,1-3 小时就能做出可用的智能体,核心是​锁定需求、按步骤操作​,不用懂任何编程或 AI 知识。

        Q2:搭建智能体需要付费吗?新手需要开通会员吗?

        A:主流零代码平台的​基础功能均为免费​,如扣子的个人版、Dify 的云版免费层,完全能满足新手搭建第一个智能体的需求(如上传 10 个以内的文件、每月一定的对话次数);​新手无需开通会员​,只有当后续需要高级功能(如大文件上传、无限对话、企业级部署)时,再考虑付费,免费版足够入门使用。

        Q3:选择哪个需求搭建第一个智能体最好?

        A:优先选 **「文档问答助手」,原因有三:1. 搭建步骤最简单,无需集成外部工具;2. 实用性最高,学生、职场人都能用到;3. 调试难度低,问题反馈直观(答没答对点一眼就能看出来)。若你有明确的办公需求(如会议纪要、日程管理),也可以直接选对应的需求,核心是自己熟悉、能快速测试 **。

        Q4:搭建完成后,智能体的数据安全吗?会不会泄露自己的文件 / 信息?

        A:主流平台(如扣子、Dify)均遵循国家个人信息保护法,采用加密存储,​个人搭建的智能体,若未设置公开,仅自己能访问​,不会泄露你的文件和信息;若担心数据安全,可选择​本地部署​(如 Dify 开源版),但新手无需考虑,零代码平台的云版完全能保证个人使用的安全性。

        Q5:为什么我搭建的智能体答非所问?该怎么快速解决?

        A:答非所问是新手最常见的问题,核心原因只有 3 个:​指令不清晰、未限制回答范围、文件解析失败​,按以下步骤排查,90% 的问题能快速解决:1. 检查角色设定,是否明确 “仅根据知识库回答”;2. 检查对话设置,是否开启 “拒绝无关问题”;3. 检查知识库,文件是否解析成功(重新上传一次即可)。

        Q6:可以将自己搭建的智能体分享给别人使用吗?

        A:可以。主流零代码平台均支持​分享功能​,如扣子可生成分享链接 / 二维码,别人无需注册平台,点击链接即可使用;也可以设置 “仅好友可见”“公开可见”“密码访问” 等权限,新手可将自己的智能体分享给同学 / 同事,收集反馈,进一步优化。

        八、7 天落地计划(直接套用,零基础也能完成)

        为新手定制的​7 天极简落地计划​,每天仅需投入 30 分钟 - 1 小时,无需加班加点,按计划执行,7 天就能做出一个可实际使用的智能体,并融入日常流程。

        天数核心任务操作内容输出成果
        1定需求 + 选平台锁定一个需求(如文档问答助手),注册扣子账号,准备好相关素材(如 PDF 笔记)明确需求,完成平台注册,准备好素材
        2-3零代码搭建按步骤搭建智能体(新建 → 设角色 → 传知识库 → 配规则),完成核心功能测试第一个智能体原型,能回答基础问题
        4-5调试优化解决答非所问、找不到答案等常见问题,优化回复风格和交互规则可用的智能体,能精准解决核心需求
        6轻量化升级(可选)开启 1-2 个实用小功能(如答案标红、文档导出),添加快捷提问优化版智能体,使用体验更好
        7落地使用 + 记录问题将智能体融入日常流程(如用其复习笔记 / 整理文档),记录使用中遇到的问题能实际使用的智能体,形成问题清单

        核心目标​:7 天内让智能体成为你的 “专属小助手”,哪怕每天只使用一次,也是成功的落地。

作者: 闵加坤 | 淘天集团价格平台开发工程师

业务介绍

淘天价格力团队作为平台价格治理的核心部门,承载着淘宝天猫全域商品价格管理的重要职责。团队掌握着淘内外所有商品的全量价格信息,包括商品原价、券后价等多维度价格数据,每日增量数据规模达亿级以上。

在电商大促上下线时(如618、双11),价格变动频率会呈现数倍增长,这些海量数据不仅体量大,而且具有高时效性、强关联性和复杂变化特征。在大促常态化的现状下,行业运营急需高时效性的数据看板以便及时发现问题,并且需要商品维度、店铺维度等多维圈选能力,及时圈选出符合要求的数据并进行处理或分析。Hologres Dynamic Table完美契合业务需求。

Hologres Dynamic Table介绍

视图是基于表的虚拟表,不存储数据只存储查询逻辑,每次访问时动态执行SQL,返回最新结果,主要帮助我们简化复杂查询。如果没有视图,那么对于以下查询,需要我们自己保存到一个地方,查询时执行完整SQL。

SELECT region, SUM(amount) as total_sales 
FROM orders 
WHERE status = 'completed';

如果有视图,我们可以把查询托管给视图,直接查询视图,可以简化使用。

-- 创建视图
CREATE VIEW sales_summary AS 
SELECT region, SUM(amount) as total_sales 
FROM orders 
WHERE status = 'completed';

-- 查询视图
SELECT * FROM sales_summary;

视图虽然帮我们管理了SQL的定义,但是复杂逻辑SQL的执行通常很耗费时间。将视图的查询结果实际保存下来就是物化视图。物化视图的结果需要定期更新以保证数据新鲜度。所以物化视图就是预定义SQL + 物化结果 + 周期更新

Hologres Dynamic Table与物化视图类似,架构如下,提供全量刷新与增量刷新两种刷新模式。

全量刷新就是在周期到来时进行一次全量刷新覆盖,相当于Insert Overwrite。

增量刷新每次只处理增量数据,原理为在底层创建一个列存state表,存储中间状态(类似Flink state)。增量数据先以微批次方式做内存态聚合,再与state表合并,最后提交时以BulkLoad写入动态表。

在 Hologres V3.1 中 Dynamic Table 的能力如下。
image.png

业务实践

数据圈选

业务背景

价格力团队需要为多个业务场景如商品价格回滚、全网比价等提供灵活的数据圈选能力,要求支持动态的指标组合和筛选条件配置。圈选集创建后,圈选结果也需要随底表数据的变化而变动,不同业务场景可接受的数据变化时间间隔也有所不同。

解决方案

Dynamic Table完美符合场景要求:工程基于不同的筛选规则翻译成相应的DQL,并根据业务场景的需求灵活设置数据新鲜度等配置参数,最终生成完整的Dynamic Table DDL。

指标系统: 指标系统中将表列配置为实体指标。业务指标提供高阶能力如级联指标、聚合、召回计算。

筛选组件: 提供通用筛选配置组件,根据业务场景展示相应指标

业务场景默认配置:Diamond中保存不同业务场景默认配置,包括刷新周期、刷新模式、默认召回条件、默认Join条件等

DDL生成: 将筛选条件与默认条件通过DSL翻译为Hologres Dynamic Table DDL

状态监控: 实现刷新状态检查机制,定期检查动态表刷新状态,区分未完成刷新刷新后无数据两种情况

数据供给:动态表第一次刷新完成后,提供Flink分页查询两种数据供给方式。若选择Flink,在动态表创建完成后会自动根据默认条件创建Flink任务,通常把数据变更作为消息发送给MetaQ。

应用效果

该方案可在秒级亿级数据基表中完成Dynamic Table创建及初次数据刷新,已在价格力团队多个业务场景中部署应用,显著提升了数据圈选的灵活性和效率。


近实时报表构建

业务背景

数据看板的时效性越高,越能帮助运营及时发现问题,快速进行决策和业务调整。价格力团队内部分场景的报表数据原通过ODPS离线调度实现更新,但运营期望能有近实时分钟级数据。

解决方案

数据分层构建: 基于Hologres Dynamic Table实现ODS → DWD → DWS → ADS数据架构的近实时化改造

增量刷新策略: 采用动态表增量刷新机制,设置分钟级刷新间隔,实现近实时数据更新,并分钟级保存历史数据

资源隔离保障: 通过使用Hologres Serverless资源减少与其他任务的资源竞争。

应用效果

应用效果: 成功解决了数据看板的时效性痛点,亿级底表数据,输入RPS 1W的处理时延从小时级降低至分钟级,可以灵活比对任意分钟数据的同比,双十一期间为运营团队提供了及时可靠的数据支撑。

摘要

本文为普通人设计了从认知到应用、无代码到有代码、单一到复杂的智能体渐进式学习路径,分 8 个核心板块明确各阶段学习目标、实操方法、工具资源与避坑要点,同时通过高频 QA 解答零基础适配、学习时间投入、场景化学习重点等关键疑问,搭配可直接落地的 12 周学习计划,让不同基础、不同学习场景的学习者都能以 “先实践后理论” 为核心,从搭建简单智能体逐步进阶到开发落地化、甚至商业化的智能体系统,核心学习逻辑为以真实问题驱动实践,按需补充理论知识,快速积累可落地的智能体开发能力。

普通人学习智能体,应遵循 “从认知到应用、从无代码到有代码、从单一到复杂” 的渐进路径,先明确概念与应用场景,再通过零代码平台快速上手,逐步掌握核心技术并进阶实战,最终形成可落地的能力与作品。以下是分阶段的详细指南:

一、认知筑基(1-2 周):先懂 “是什么” 再动手

1. 核心概念理解

  • 明确智能体定义:具备感知、决策、执行能力,能自主完成目标的 AI 系统,区别于普通聊天机器人(后者无长期记忆与工具调用能力)。
  • 掌握关键术语:提示词工程、思维链(CoT)、工具调用、记忆机制、多智能体协作等。
  • 了解应用场景:办公自动化、客服、数据分析、游戏 AI、科研辅助等,结合自身需求选择切入点。

2. 资源推荐

  • 入门读物:《AI 智能体入门与实践》《智能体时代:从对话到协作》,快速建立认知框架。
  • 课程:吴恩达《机器学习专项课程》(Coursera)、DeepMind 强化学习入门视频,夯实 AI 基础。
  • 社区:GitHub Awesome Agentic AI、知乎 “智能体” 话题,跟踪前沿动态与案例。

二、零代码实践(2-4 周):快速做出第一个智能体

1. 平台选择(从易到难)

平台特点适合场景推荐指数
扣子(Coze)国内主流,可视化流程,插件丰富办公助手、知识库问答★★★★★
CrewAI无代码搭建多智能体,协作流程简单团队任务分工、项目管理★★★★☆
LangGraph社区活跃,灵活度高,支持复杂工作流进阶开发、自定义逻辑★★★★☆
Dify开源低代码,支持本地部署企业级应用、数据隐私需求★★★☆☆

2. 实战项目(从简到繁)

  1. 个人助理​:用扣子平台搭建日程管理、邮件总结、文档问答智能体,集成日历、邮箱插件,掌握提示词编写与工具调用。
  2. 知识库助手​:上传 PDF/Word 文档到平台,搭建企业规章制度、产品手册问答智能体,解决实际业务问题。
  3. 多智能体协作​:用 CrewAI 创建 “写作 - 编辑 - 翻译” 团队,分工完成文案生产,理解任务拆分与角色定义。

3. 核心技能

  • 提示词工程:学会写清晰指令(如 “总结收件箱中含‘会议纪要’的邮件,生成三点待办并添加到日历”),提升智能体执行效率。
  • 工具集成:熟悉常用插件(API、数据库、办公软件),掌握参数配置与调试方法。
  • 记忆管理:设置上下文窗口、长期记忆存储,确保智能体 “记住” 历史交互。

三、代码入门(4-8 周):从调用 API 到自定义开发

1. 技术栈准备

  • 编程语言:Python(必备),推荐《Python 编程:从入门到实践》快速上手。
  • 基础库:OpenAI API、LangChain、Streamlit(快速搭建前端)。
  • 数学基础:线性代数(矩阵运算)、概率论(贝叶斯定理)、基础微积分,理解模型原理。

2. 实战项目(代码驱动)

  1. API 调用型智能体​:用 OpenAI Assistants API 开发文档分析工具,实现上传文件 → 提取信息 → 生成报告的自动化流程。
  2. 强化学习小实验​:用 OpenAI Gym+PyTorch 训练 CartPole 平衡智能体,理解状态、动作、奖励机制。
  3. 自定义工作流​:用 LangChain+Streamlit 搭建论文写作助手,集成文献搜索、大纲生成、内容撰写功能。

3. 避坑指南

  • 先调通 API 再优化逻辑,避免过早陷入复杂算法。
  • 善用社区代码模板(GitHub Gist、LangChain Cookbook),减少重复开发。
  • 用 Streamlit 快速做前端,专注核心逻辑而非界面设计。

四、进阶深化(8-12 周):掌握核心技术与多智能体协作

1. 核心技术突破

  • 思维链(CoT)与计划执行(Plan-and-Execute):优化提示词,让智能体拆解复杂任务(如 “写一篇市场分析报告”→“调研行业数据 → 分析竞品 → 撰写结论”)。
  • 工具调用优化:设计工具选择逻辑,解决 “调用哪个工具”“何时调用” 的问题。
  • 记忆与知识库:用向量数据库(Pinecone、Chroma)存储长文本,实现高效检索与上下文关联。

2. 多智能体系统实战

  1. 团队协作模型​:用 AutoGen 搭建 “产品经理 - 开发 - 测试” 智能体团队,完成小型软件项目的需求分析、代码编写、Bug 修复。
  2. 复杂任务处理​:开发 “科研助手” 系统,集成文献检索、数据处理、图表生成、论文写作功能,解决跨领域复杂问题。

3. 资源推荐

  • 书籍:《深度强化学习实战》《LangChain 实战》,深入技术细节。
  • 课程:斯坦福 CS221(人工智能原理)、伯克利 RL Course,提升理论水平。
  • 开源项目:AutoGen、MetaGPT 源码阅读,学习工业级架构设计。

五、工程化与落地(12 周 +):从原型到产品

1. 工程能力建设

  • 部署与监控:用 Docker 容器化智能体,阿里云 / 腾讯云部署,Prometheus 监控性能。
  • 数据安全:敏感信息加密,遵循 GDPR / 个人信息保护法,确保合规。
  • 迭代优化:建立用户反馈机制,用 A/B 测试优化提示词与模型参数。

2. 商业化方向

  • 垂直领域解决方案:为教育、医疗、金融行业定制智能体(如学生辅导、病历分析、投资顾问)。
  • 企业效率工具:开发自动化办公套件,对接 OA 系统,提升团队协作效率。
  • 开源贡献:参与 LangChain、AutoGen 等项目,积累技术影响力。

六、常见误区与避坑建议

  1. 误区​:一上来就啃底层算法(如深度学习、强化学习数学推导)。
    建议​:先通过零代码平台做出可用产品,再按需补数学与算法知识。

    1. 误区​:忽视提示词工程,过度依赖模型能力。

      建议​:提示词是智能体的 “灵魂”,花时间优化指令,比盲目换模型更有效。

      1. 误区​:追求 “大而全”,忽略落地场景。

        建议​:从解决小问题(如 “每日邮件总结”)入手,逐步扩展功能,避免半途而废。

      七、QA 问答:解决学习中的高频疑问

      Q1:零基础、不懂编程,能学会智能体吗?

      A:完全可以。目前主流的零代码平台(如扣子、CrewAI)已实现可视化拖拽操作,无需编写代码就能搭建简单智能体。建议先从这类平台入手,完成 “个人助理”“知识库问答” 等基础项目,积累实战经验后,再根据需求决定是否学习编程进阶。学习的核心是 “解决问题”,而非必须掌握编程技能。

      Q2:学习智能体需要掌握哪些数学知识?必须深入学深度学习吗?

      A:无需一开始就深入学习复杂数学和深度学习。入门阶段(零代码 + 基础 API 调用)几乎不需要数学知识;代码进阶阶段,掌握基础的线性代数、概率论即可理解核心逻辑;只有向 “算法优化”“模型微调” 方向进阶时,才需要深入学习深度学习、强化学习的数学推导。普通人优先聚焦 “应用落地”,数学知识按需补充即可。

      Q3:不同学习场景(办公 / 科研 / 创业),学习重点有什么区别?

      A:需结合场景精准定位:① 办公场景:重点学零代码平台、提示词工程、办公软件插件集成,目标是实现日程管理、文档总结等自动化需求;② 科研场景:侧重文献检索、数据处理、多智能体协作工具(如 AutoGen),提升科研效率;③ 创业 / 商业化场景:除技术能力外,需额外关注垂直领域需求调研、数据安全合规、产品部署与迭代,优先开发能解决行业痛点的落地产品。

      Q4:学习智能体需要投入多少时间?多久能做出可用的作品?

      A:按文中渐进路径,每周投入 5-8 小时,2-4 周就能做出第一个零代码智能体(如个人日程助手);4-8 周可完成基础代码开发,做出 API 调用型工具;12 周左右能开发复杂多智能体系统。关键是 “持续实战”,避免只学理论不落地,哪怕每周只完成一个小功能,也能逐步积累成果。

      Q5:免费资源足够学习吗?需要付费购买课程或工具吗?

      A:免费资源完全能满足入门到进阶需求。免费资源包括:零代码平台的官方文档(扣子、CrewAI 文档)、GitHub 开源项目(LangChain、AutoGen)、吴恩达等学者的免费课程、知乎 / B 站的入门教程。仅当需要 “系统化课程指导”“专属答疑服务” 或 “企业级工具部署” 时,才考虑付费,新手不建议盲目购买高价课程。

      Q6:如何选择适合自己的智能体学习切入点?

      A:核心原则是​贴合自身需求与现有资源​。如果是职场人,优先从办公自动化切入,解决自己的日常工作痛点(如报表制作、信息汇总);如果是学生 / 科研人员,从文献分析、论文写作等科研辅助方向入手;如果想往开发方向发展,从 Python+LangChain 基础 API 调用开始;如果只是兴趣尝试,直接用零代码平台搭建趣味小工具(如智能问答、任务提醒)即可,切入点越贴近自身生活,越容易坚持并获得成就感。

      Q7:多智能体协作是必学的吗?单智能体的应用场景多吗?

      A:多智能体协作并非入门必学,单智能体的应用场景依然非常广泛。单智能体能很好地解决​单一、标准化的自动化需求​,比如个人日程管理、单文档问答、简单数据处理等,这类需求在日常办公、个人使用中占比极高,掌握单智能体开发已能满足大部分普通人的需求。多智能体协作主要用于解决​复杂、多步骤、跨领域的任务​(如项目管理、行业报告撰写),适合有进阶开发需求或特定场景(如科研、企业级应用)的学习者,可在单智能体掌握扎实后再学习。

      八、每周学习计划(示例)

      周次核心任务工具 / 资源输出成果
      1概念学习 + 扣子平台入门扣子文档、吴恩达课程理解智能体核心逻辑
      2搭建个人日程助手扣子 + 日历插件可自动管理日程的智能体
      3-4学习 Python+API 调用《Python 入门》+OpenAI API文档分析工具(代码版)
      5-6多智能体协作实战CrewAI+LangGraph团队任务管理系统
      7-8强化学习小项目OpenAI Gym+PyTorchCartPole 平衡智能体
      9-12复杂系统开发 + 部署Docker + 阿里云企业级知识库智能体

      普通人学习智能体的关键在于​先实践后理论​,通过解决真实问题驱动学习,逐步建立技术栈与作品集。建议从最贴近自身需求的场景(如办公自动化)开始,快速获得成就感,再向更复杂的方向进阶。

本文用“计划—执行—可视化—度量—集成—落地治理”六个维度,测评 10 款项目管理软件:ONES、Jira、Asana、monday.com、ClickUp、Smartsheet、Azure Boards、GitLab、Linear、OpenProject,帮你在不同管理模式与团队文化下做更稳的选择。

我印象很深的一次复盘:会上每个人都在“汇报进度”,但彼此说的不是同一个进度。产品说“需求评审过了”,研发说“任务都建好了”,测试说“用例还没准备”,交付说“客户以为下周能上线”。大家都很努力,问题在于——信息没有在同一条链路上自然流动。

所以我看一款项目管理软件(也可以叫项目管理系统/项目协作平台),第一反应不是“功能多不多”,而是:它能不能让团队少靠人盯人,多靠看得见的事实协作?——让计划、执行、质量、交付在同一处闭环,至少做到两件事:

  • 进度不靠问出来,而是自然呈现;
  • 风险不靠运气躲过,而是提前暴露。

我用哪些维度做测评(你也可以直接拿去做选型表)

很多人选项目管理软件,会陷入“对比清单越拉越长”。我的经验是:清单再长,不如抓住会影响交付的几个关键点。

1.计划能力:能不能把交付路径讲清楚
WBS、里程碑、依赖关系、基线对比,都是在帮助你回答“偏差从哪里开始”。尤其在瀑布/阶段门场景里,基线对比能把讨论从“谁耽误了”拉回到“偏差何时产生、是否需要变更控制”。

2.执行与协作:能不能把工作对象定义清楚
看板、冲刺、工作流、自定义字段与权限,核心目的只有一个:让团队对“这件事是什么、做到哪一步算完成”形成一致语言。ONES Project 提到的需求/任务/缺陷/迭代等全场景适配,本质上就是把对象与流程打通。

3.进度与风险可视化:能不能让问题早一点出现
燃尽图、仪表盘、状态更新、路线图,价值不在“有图”,而在于图背后是否有一致口径的数据输入。多视图与状态更新就是典型的“把对齐成本从会议里挪到系统里”。

4.度量与复盘:能不能让改进变成可重复动作
把 issue 变成可分析的数据集,用来回答“资源都花在哪、bug 修得快不快、优先级是否一致、估算准不准”。这类能力决定你复盘时是“感觉复盘”,还是“证据复盘”。

5.上下游集成:能不能减少系统之间的断层
工程交付型团队更在意规划与执行同语境:项目管理工具能不能用来承载跨迭代的目标与进度表达。

6.落地治理:能不能推得动、用得久
再强的项目管理软件,推不动就是摆设。要看:模板、权限、角色、度量口径与试点路径是否清晰。ONES Project 的多层权限与多套项目模板,属于“治理能力”的典型体现。

10款项目管理软件测评与使用体验

1)ONES:研发型项目管理软件

核心功能:需求池/需求属性与状态自定义、任务与工时统计、看板与燃尽图、缺陷跟踪与质量统计、多维报表与数据维度自定义,并强调与其他产品/应用数据互通。
项目管理能力:
敏捷/Scrum:围绕迭代规划、敏捷看板、燃尽图与迭代回顾形成闭环;并把“复盘用的数据”(工时日志、缺陷分布、交付数据等)纳入同一语境。
瀑布/阶段门:支持 WBS、前后置依赖、里程碑基线与计划-执行偏差对比,强调变更追溯与风险识别。
治理层:多层权限体系与多套项目模板(敏捷/瀑布/通用等),意味着你可以把“统一口径”固化在系统里,而不是靠项目经理反复强调。
适用场景:各种类型的研发组织、需求与缺陷协作紧、同时存在敏捷与里程碑管控的混合场景。
优势亮点:减少事实源分裂——你不用在多个系统里拼凑故事,而是让故事在一条链路里自然发生。

2)Jira:流程治理与可配置强,但你得先想清楚怎么管

核心功能:用 Boards(Scrum/Kanban)承载执行节奏;用 Plans(Advanced Roadmaps)做跨职能规划、依赖映射、产能与场景模拟,并且强调“单一数据源 + 沙盒式规划”。
项目管理能力:适合把组织规则写进系统:工作项层级、依赖关系、跨团队计划、里程碑式发布管理。
适用场景:研发组织、流程治理要求高、需要跨团队规划与依赖管理的场景。
优势亮点:当你要做的是“机制驱动的项目管理”,它的可配置性会成为优势。
局限与使用体验:最常见的失败不是工具不行,而是“配置先行、共识滞后”:字段越配越多、状态越加越长,最后没人愿意维护。我的做法是先用最小状态机跑通,再把口径写成团队约定。

3)Asana:跨部门项目管理工具

核心功能:项目多视图(list/calendar/timeline/Gantt/board 等)、自定义字段、以及可快速撰写的 Status updates。
项目管理能力:对跨部门项目而言,最大的难题往往不是“任务没分”,而是“每个人对项目现状理解不同”。状态更新把风险、阻塞、下一步结构化表达,能明显减少会议消耗。
适用场景:市场/产品/运营/交付等多角色协作,想要提高透明度、降低对齐成本的团队。
优势亮点:干系人可读性强,适合“对齐多于治理”的组织。
局限与使用体验:在更深的研发闭环(缺陷/发布与工程链路)上通常需要组合其他工具,否则项目经理仍要做系统间拼接。

4)Monday:可视化与资源视角强

核心功能:Workload(资源负载视图/组件)、Timeline(时间线)、Gantt(甘特视图/组件)等,可用于仪表盘与多项目视角展示。
项目管理能力:对“项目太多、管理层看不懂”的组织,可视化面板能显著降低解释成本;Workload 类能力的价值在于把“人是否被压垮”变成可见事实。
适用场景:交付型/运营型团队、多项目并行、强调资源均衡与态势感的组织。
优势亮点:上手快、呈现强,适合把项目管理软件变成“每天打开的工作台”。
局限与使用体验:更强于“把事情看清楚”,而不是“把复杂治理做精细”;如果你要严格的研发闭环,可能还需要工程侧工具链补齐。

5)ClickUp:功能覆盖面广

核心功能:用 Whiteboards/Docs 定义范围与共识,用 Gantt 规划时间线,用任务视图执行,用 Dashboards 监控 KPI,并强调覆盖项目管理生命周期。
项目管理能力:对项目经理来说,Docs/Whiteboards 的价值是让“共识形成”能直接链接到任务执行,减少“文档写完没人做”的断层。
适用场景:中小团队想减少工具切换;或项目+运营混合管理。
优势亮点:可塑性强,能把不同角色关注点放在同一套数据上。
局限与使用体验:功能多也容易“配置成迷宫”。建议从最小闭环(需求/目标→任务→验收→复盘)开始,避免一上来开满模块。

6)Smartsheet:表格思维友好

核心功能:Grid(网格)、Gantt(甘特)、Card(卡片/看板)、Calendar(日历)等视图可切换。
项目管理能力:很多组织的计划管理从表格开始。Smartsheet 的优势是让表格不止是表格,而是能与甘特/看板联动,让计划与执行少断层。
适用场景:PMO/交付团队、项目计划多、需要汇总报表与干系人对齐。
优势亮点:迁移门槛低,适合把“项目管理软件”引入不愿被重工具打扰的团队。
局限与使用体验:如果你追求的是敏捷研发工作流治理与缺陷闭环,它更像“计划与协作底盘”,需要与研发工具组合使用。

7)Azure Boards:工程化语境很近的敏捷项目管理工具

核心功能:Kanban boards、backlogs、dashboards、scrum boards,可从预置流程开始,也可自定义工作流;并强调可扩展与集成。
项目管理能力:适合把需求拆解、迭代推进、看板流转与管理视图连起来,尤其当团队的交付节奏与工程链路强绑定时。
适用场景:研发组织、偏工程化管理、希望在 DevOps 体系内做稳定节奏推进的团队。
优势亮点:标准敏捷工具链清晰,易于规模化推广。
局限与使用体验:对非研发角色不一定友好;跨部门协作仍需要额外的沟通机制,否则“系统内很清楚,系统外还是乱”。

8)GitLab:工程交付一体型项目管理

核心功能:使用 epics 承载跨项目/跨里程碑的主题工作,并可建立可视化 roadmaps 监控进度(并支持嵌套 epics 的层级结构)。
项目管理能力:Epic + Roadmap 的价值在于:你可以用时间线语言向管理层讲清楚目标推进情况,同时在执行层用 issue 机制推动交付。
适用场景:研发团队希望规划与交付强绑定、减少“规划在 PPT、执行在系统”的割裂。
优势亮点:把范围边界、讨论决策与交付推进放进同一工程上下文。
局限与使用体验:对非技术角色有门槛;如果协作主体不在研发侧,可能需要更偏业务协作的项目管理软件补齐。

9)Linear:轻量高节奏,但它要求团队“在概念上先对齐”

核心功能:覆盖 issues、projects、roadmaps;并通过 Insights 把 issue 变成可分析的数据集,回答资源、缺陷修复速度、优先级一致性、估算准确性等问题。
项目管理能力:Linear 的优势不是“功能多”,而是“流程摩擦小”。对项目经理来说,这类工具能把透明度建立在日常习惯上——越轻越要求口径一致。
适用场景:产品研发团队、追求效率与一致性、希望工具尽量不打扰人的团队。
优势亮点:用更少噪音换更高可见性,Insights 让复盘更像“证据讨论”。
局限与使用体验:对阶段门、合同交付、复杂资源核算的支持不一定够;如果你需要重计划与审计,可能要配更强的计划/报表体系。

10)OpenProject:开源与可控路线下的项目管理软件

核心功能:面向敏捷团队提供多 boards、sprint backlog、估算与跟踪,并与 roadmap planning、bug tracking、task management 等模块紧密集成,支持混合项目管理。
项目管理能力:对一些组织来说,项目管理软件不仅是效率工具,也是治理与合规的一部分。OpenProject 的“可控性 + 混合管理”更贴近这类需求。
适用场景:偏治理/合规、希望采用开源或自建更可控方案的团队。
优势亮点:把敏捷看板与路线图、缺陷、任务放在同一体系里,适合“方法论沉淀为机制”。
局限与使用体验:相对更偏“管理型工具”,推广与配置需要投入;对追求极简体验的团队可能不够轻。

选型建议:别先问“哪个好”,先问“我们要解决什么结构性痛点”

如果只给一个选型原则,我会说:先决定你要用项目管理软件解决什么结构性问题,再决定工具。

1.团队规模与协作密度:人越多、角色越杂,“统一事实源”的价值越高;你更需要模板、权限、度量口径来保证一致性。ONES Project 的权限与模板思路就属于这种“治理能力”。

2.管理模式:敏捷、瀑布,还是混合:敏捷关注节奏与透明(看板/燃尽/复盘数据);瀑布关注计划、依赖、里程碑与基线偏差。能同时覆盖两者并可治理的项目管理软件,更适合现实中的混合项目。

3.组织文化:是“靠自觉协作”,还是“靠机制治理”:有的团队更适合轻量透明(靠共识驱动),有的团队必须靠流程与权限保证执行(靠制度驱动)。Jira Plans/Advanced Roadmaps 这类跨团队规划能力,更适合机制治理较强的组织。

4.我建议的试点三步走(很实战,也很省力)

  • 第一步:跑一个“最小闭环”项目(目标/需求 → 任务 → 验收 → 复盘)。
  • 第二步:固化三件事:工作项定义、状态机含义、度量口径。
  • 第三步:再谈扩展:权限、模板、集成、仪表盘。

这样工具不是“强推”,而是“先用出价值,再自然扩散”。

常见问题 FAQ:

Q1:如果我只做跨部门对齐,不追求重流程治理,项目管理软件怎么选?
优先看“状态更新 + 多视图 + 干系人可读性”。这类团队的瓶颈通常不是流程,而是信息不对称; ONES/Asana 的多视图与状态更新机制就是典型能力。

Q2:如果我需要把“需求—迭代—缺陷—复盘度量”放在一条链路里?
优先看是否能覆盖需求、迭代、缺陷、看板/燃尽与多维报表,并能在同一处追溯偏差与原因。ONES Project 对需求/迭代/缺陷、看板/燃尽、报表与集成的描述更贴这种诉求。

Q3:如果我要做 WBS、里程碑与基线对比(偏瀑布/阶段门)?
优先看是否支持 WBS、依赖关系、里程碑与基线对比,用来管理“计划 vs 执行”。ONES 的瀑布方案强调了里程碑基线与偏差识别。

Q4:如果我希望跨团队规划、依赖与产能更“可算、可模拟”?
优先看跨团队计划能力与依赖/产能管理。ONES/Jira Plans(Advanced Roadmaps)强调依赖映射、产能规划与场景模拟,并作为单一数据源的规划层。

时隔近三年,马斯克再次开源 X 推荐算法

 

刚刚,X 工程团队在 X 上发帖宣布,正式开源 X 推荐算法,据介绍,这个开源库包含为 X 上的“为你推荐”信息流提供支持的核心推荐系统,它将网络内内容(来自用户关注的帐户)与网络外内容(通过基于机器学习的检索发现)相结合,并使用基于 Grok 的 Transformer 模型对所有内容进行排名,也就是说,该算法采用了与 Grok 相同的 Transformer 架构。

 

开源地址:https://x.com/XEng/status/2013471689087086804

 

X 的推荐算法负责生成用户在主界面看到的“为你推荐”(For You Feed)内容。它从两个主要来源获取候选帖子:

 

  1. 你关注的账号(In-Network / Thunder)

  2. 平台上发现的其他帖子(Out-of-Network / Phoenix)

 

这些候选内容随后被统一处理、过滤然后按相关性排序。

 

那么,算法核心架构与运行逻辑是怎样的?

 

算法先从两类来源抓取候选内容:

 

  • 关注内的内容:来自你主动关注的账号发布的帖子。

  • 非关注内容:由系统在整个内容库中检索出的、可能你感兴趣的帖子。

 

这一阶段的目标是“把可能相关的帖子找出来。

 

系统自动去除低质量、重复、违规或不合适的内容。例如:

  • 已屏蔽账号的内容

  • 与用户明确不感兴趣的主题

  • 非法、过时或无效帖子

 

这样确保最终排序时只处理有价值的候选内容。

 

此次开源的算法的核心是系统使用一个 Grok-based Transformer 模型(类似大型语言模型/深度学习网络)对每条候选帖子进行评分。Transformer 模型根据用户的历史行为(点赞、回复、转发、点击等)预测每种行为的概率。最后,将这些行为概率加权组合成一个综合得分,得分越高的帖子越有可能被推荐给用户

 

这一设计把传统手工提取特征的做法基本废除,改用端到端的学习方式预测用户兴趣。

 

 

这不是马斯克第一次开源 X 推荐算法。

 

早在 2023 年 3 月 31 日,正如马斯克收购 Twitter 时承诺的那样,他已将 Twitter 部分源代码正式开源,其中包括在用户时间线中推荐推文的算法。开源当天,该项目在 GitHub 已收获 10k+ 颗 Star。

 

当时,马斯克在 Twitter 上表示此次发布的是“大部分推荐算法”,其余的算法也将陆续开放。他还提到,希望“独立的第三方能够以合理的准确性确定 Twitter 可能向用户展示的内容”。

 

在关于算法发布的 Space 讨论中,他说此次开源计划是想让 Twitter 成为“互联网上最透明的系统”,并让它像最知名也最成功的开源项目 Linux 一样健壮。“总体目标,就是让继续支持 Twitter 的用户们最大程度享受这里。”

如今距离马斯克初次开源 X 算法,过去了近三年的时间。而作为技术圈的超级 KOL,马斯克早已为此次开源做足了的宣传。

 

1 月 11 日,马斯克在 X 上发帖称,将于 7 天内将新的 X 算法(包括用于确定向用户推荐哪些自然搜索内容和广告内容的所有代码)开源。

 

此流程将每 4 周重复一次,并附有详细的开发者说明,以帮助用户了解发生了哪些变化。

 

今天,他的承诺再次兑现了。

马斯克为什么要开源?

 

当埃隆·马斯克再次提到“开源”时,外界的第一反应并非技术理想主义,而是现实压力。

 

过去一年里,X 因其内容分发机制屡次陷入争议。该平台被广泛批评在算法层面偏袒和助长右翼观点,这种倾向并非零星个案,而被认为具有系统性特征。去年发布的一份研究报告就指出,X 的推荐系统在政治内容传播上出现了明显的新偏见。

 

与此同时,一些极端案例进一步放大了外界的质疑。去年,一段涉及美国右翼活动人士查理·柯克遇刺的未经审查视频在 X 平台迅速传播,引发舆论震动。批评者认为,这不仅暴露了平台审核机制的失效,也再次凸显了算法在“放大什么、不放大什么”上的隐性权力

 

在这样的背景下,马斯克突然强调算法透明性,很难被简单解读为一次纯粹的技术决策。

 

 

网友怎么看?

 

X 推荐算法开源后,在 X 平台,有用户对推荐算法机制做了以下 5 点总结:

 

1. 回复你的评论。算法对“回复+作者回应”的权重是点赞的 75 倍。不回复评论会严重影响曝光率。

2. 链接会降低曝光率。应该把链接放在个人简介或置顶帖里,千万不要放在帖子正文中。

3. 观看时长至关重要。如果他们滑动屏幕略过,你就不会吸引他们。视频/帖子之所以能获得高关注,是因为它们能让用户停下来。

4. 坚守你的领域。“模拟集群”是真实存在的。如果你偏离了你的细分领域(加密货币、科技等),你将无法获得任何分销渠道。

5. 屏蔽/默不作声会大幅降低你的分数。要有争议性,但不要令人讨厌。

 

简而言之:与你的受众沟通,建立关系,让用户留在应用内。其实很简单。

 

也有网友发现,虽然架构是开源的,但还有些内容仍未开源。该网友表示,此次发布本质上是一个框架,没有引擎。具体少了啥?

 

  • 缺少权重参数 - 代码确认“积极行为加分”和“消极行为扣分”,但与 2023 年版本不同的是,具体的数值被删除了。

  • 隐藏模型权重 - 不包含模型本身的内部参数和计算。

  • 未公开的训练数据 - 对于训练模型的数据、用户行为的采样方式,以及如何构建“好”样本与“坏”样本,我们一无所知。

 

对于普通 X 用户而言,X 的算法开源并不会造成太大影响。但更高的透明度可以解释为什么有些帖子能获得曝光而另一些则无人问津,并使研究人员能够研究平台如何对内容进行排名。 

为什么推荐系统是必争之地?

 

在大多数技术讨论中,推荐系统往往被视为后台工程的一部分,低调、复杂,却很少站在聚光灯下。但如果真正拆解互联网巨头的商业运转方式,会发现推荐系统并不是边缘模块,而是支撑整个商业模式的“基础设施级存在”。正因如此,它可以被称为互联网行业的“沉默巨兽”。

 

公开数据已经反复印证了这一点。亚马逊曾披露,其平台约 35% 的购买行为直接来自推荐系统;Netflix 更为激进,约 80% 的观看时长由推荐算法驱动;YouTube 的情况同样类似,大约 70% 的观看来自推荐系统,尤其是信息流(feed)。至于 Meta,虽然从未给出明确比例,但其技术团队曾提到,公司内部计算集群中约 80% 的算力周期都用于服务推荐相关任务。

 

这些数字意味着什么?如果将推荐系统从这些产品中移除,几乎等同于抽掉地基。就拿 Meta 来说,广告投放、用户停留时长、商业转化,几乎都建立在推荐系统之上。推荐系统不仅决定用户“看什么”,更直接决定平台“如何赚钱”。

 

然而,正是这样一个决定生死的系统,长期面临着工程复杂度极高的问题。

 

在传统推荐系统架构中,很难用一个统一模型覆盖所有场景。现实中的生产系统往往高度碎片化。以 Meta、LinkedIn、Netflix 这类公司为例,一个完整的推荐链路背后,通常同时运行着 30 个甚至更多专用模型:召回模型、粗排模型、精排模型、重排模型,各自针对不同目标函数和业务指标进行优化。每个模型背后,往往对应一个甚至多个团队,负责特征工程、训练、调参、上线与持续迭代。

 

这种模式的代价是显而易见的:工程复杂、维护成本高、跨任务协同困难。一旦有人提出“是否可以用一个模型解决多个推荐问题”,对整个系统而言,意味着复杂度的数量级下降。这正是行业长期渴望却难以实现的目标。

 

大型语言模型的出现,给推荐系统提供了一条新的可能路径。

 

LLM 已经在实践中证明,它可以成为极其强大的通用模型:在不同任务之间迁移能力强,随着数据规模和算力的扩展,性能还能持续提升。相比之下,传统推荐模型往往是“任务定制型”的,很难在多个场景之间共享能力。

 

更重要的是,单一大模型带来的不仅是工程简化,还包括“交叉学习”的潜力。当同一个模型同时处理多个推荐任务时,不同任务之间的信号可以相互补充,随着数据规模增长,模型更容易整体进化。这正是推荐系统长期渴望、却很难通过传统方式实现的特性。

 

LLM 改变了什么?其实是改变了从特征工程到理解能力。

 

从方法论层面看,LLM 对推荐系统最大的改变,发生在“特征工程”这一核心环节。

 

在传统推荐系统中,工程师需要先人为构造大量信号:用户点击历史、停留时长、相似用户偏好、内容标签等,然后明确告诉模型“请基于这些特征做判断”。模型本身并不理解这些信号的语义,只是在数值空间中学习映射关系。

 

而引入语言模型后,这一流程被高度抽象。你不再需要逐条指定“看这个信号、忽略那个信号”,而是可以直接向模型描述问题本身:这是一个用户,这是一个内容;这个用户过去喜欢过类似内容,其他用户也对这个内容有正反馈——现在请判断,这条内容是否应该推荐给这个用户。

 

语言模型本身已经具备理解能力,它可以自行判断哪些信息是重要信号,如何综合这些信号做出决策。在某种意义上,它不只是执行推荐规则,而是在“理解推荐这件事”。

 

这种能力的来源,在于 LLM 在训练阶段接触过海量、多样化的数据,使其更容易捕捉细微但重要的模式。相比之下,传统推荐系统必须依赖工程师显式枚举这些模式,一旦遗漏,模型就无法感知。

 

从后端视角看,这种变化并不陌生。就像你向 GPT 提问,它会基于上下文信息生成回答;同样地,当你问它“我是否会对这条内容感兴趣”,它也可以基于已有信息做出判断。某种程度上,语言模型本身已经天然具备“推荐”的能力。

专家解读:工业界可参考,对学术价值不大

 

如果 X 的方向真是“让 Grok 成为算法本身”,那么这次开源事件的意义就不止是透明度提升,更像是把一场大模型化推荐的系统级改造公开摆到台前,接受开发者与行业的持续检视与解读。

 

借此机会,我们邀请到了搜推广资深算法专家,生成式推荐模型 OnePiece 作者,《业务驱动的推荐系统:方法与实践》作者傅聪,为大家解读这次开源事件。

 

InfoQ:从代码层面看,X 这套推荐系统中,大模型是否是已经进入核心决策环节?这与传统“LLM + 规则 / 特征管道”的推荐系统相比,最大的结构性变化是什么?是否只是替换了部分模块?

 

傅聪:从系统整体设计层面看,开源的代码依然遵从 recall -> rank 这样的多阶段漏斗筛选架构。新的 post 推送会从数亿 候选集合中 以传统的 双塔 向量召回,合并排序、去重等等环节,最后送给用户。grok 没有参与中间过程,只是给 post 做排序的模型采用了类似 grok 的模型架构,但远小于 grok 的参数量。

 

最大的结构变化在于他们用了一种纯 transformer(类 grok)的模型结构去做排序,其它差异不大。

 

InfoQ:从能力边界看,该如何看待“每日处理上亿条内容、并进行实时多模态理解”这一目标所带来的系统挑战?

 

傅聪:需要极其充足的 GPU 算力以及高并发的处理引擎,尤其是视频内容,其 token 消耗量巨大,因此计算量巨大。此外,模型还需要一个可以高速访问的大型文件系统,保证大量视频可以暂存、传递给 Grok 模型。而实际上 x 并没有真的让 grok 来做这个事情,应该是处于成本考虑。

 

InfoQ:传统推荐系统采用轻量级启发式算法,成本效益高,而 Grok 方法需要大量计算资源,那么您怎么看待成本和用户体验提升之间的收益比?在算力、成本和基础设施约束下,这种方式是否注定只属于极少数平台?

 

傅聪:Grok 消耗的算力是数千倍于传统的推荐系统的,这部分成本往往不能被平台的收益覆盖。尤其是 X 这样的平台,其收入核心来源是广告。只有做到延迟、体验都能对标原有系统,其广告收入才可以持平。但因为投入成本过高,这个 ROI 过低,目前来看只 X 自己也没有真的以这种规模使用 grok。

 

InfoQ:如果 Grok 真要“把帖子都读一遍、把视频都看一遍”再来做匹配,这是不是相当于把推荐系统推到了更强的“内容级监控”?平台不只是记你点过什么,还能在语义层面猜到你可能会被什么吸引,是否会带来新的以前没有的问题?

 

傅聪:Grok 读过并不一定会记忆。很多数据并不一定会被 Grok 用来训练

 

InfoQ:另外,传统推荐系统的信息茧房问题,语义理解方式是否能解决?是否更“中立”?(此前的争议有一部分在于认为 X 平台偏向马斯克个人账号和一些党派言论)。从系统机制上看,它最可能在哪些环节反而更容易固化偏好、放大偏差?

 

傅聪:大语言模型有它自己的 bias,以大语言模型为核心的推荐系统会根据它的语言偏好构建新的信息茧房。

 

InfoQ:从开源意义看,在推荐系统这种高度复杂、长期被视为“黑箱”的领域,这种“持续、周期性开源”代码的方式,实现起来的难度在哪里?

 

傅聪:难度在于只开源代码,不开源所有配套的系统和训练数据,就无法复现它的效果。这种开源,对学术研究价值不大,对工业交流有一定参考意义。但目前其架构来看,可参考的新东西不多。

 

InfoQ:您如何看待这次开源的影响?如果 Grok 这套思路跑通,这次开源是否会迫使其他内容平台跟进,从而引发推荐系统的一轮“范式迁移”?在这种趋势下,行业会不会弱化对行为数据(包括历史数据)的依赖,甚至调整数据收集与画像方式,进而重塑整个推荐系统生态?对广告行为的影响会是什么样的?

 

傅聪:即使 Grok 跑通,其它平台也不一定会跟进。第一其他平台没有属于自己的 Grok,第二,其它大部分平台不会在这里投入这么多算力。

 

行业也不会弱化对用户行为和画像的依赖,经验证明,用户历史行为才是实现个性化的数据根基,缺少这部分信息输入的推荐系统很难千人千面,而容易做成千篇一律。从开源代码看,ranking 模型依然在使用用户行为历史进行预测,这一点也符合预期。

 

嘉宾简介:

 

傅聪,搜推广资深算法专家、生成式推荐模型 OnePiece 作者,《业务驱动的推荐系统:方法与实践》作者,《生成式推荐系统算法与实践》作者。

 

参考链接:

https://github.com/xai-org/x-algorithm

https://x.com/XEng/status/2013471689087086804

https://x.com/BlockFlow_News/status/2013510113873813781

节点创建灵感

「资源」节点的创建灵感来源于这个主题:
https://www.v2ex.com/t/1186971

我们相信,有价值的分享不仅是资源的共享,更是思想与经验的传递。因此,我们建立了这个节点,期待它能汇集更多优质内容,展现 V2exer 们的智慧与力量!


🎁 奖励机制说明

基础奖励

在「资源」节点分享资源帖(包括工具、教程、信息或见解等),即可获得 10 V2EX 打赏。

优质奖励

如果分享的帖子引发热烈讨论或收藏,评论或收藏总数 ≥ 100 时,节点管理员将额外打赏 200 V2EX


📜 节点规则

  • 主题需为可复用的资源
  • 禁止纯引流或广告内容;
  • 附上使用体验更佳。


🌟 分享倡议

我们鼓励有深度、能启发思考、对他人真正有帮助的分享。
让我们在交流中共同成长,一起丰富每个人的资源库。期待你的精彩内容!


回复此主题的所有 V 友,将获得 1 V2EX 的打赏(请提前绑定钱包地址)

Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 

文章代表作者个人观点,少数派仅对标题和排版略作修改。


人生中的第一个独立开发的 APP 终于通过审核了,这篇文章的重心不在应用推介,更多是记录我作为一名运营独自一人开发应用上架的完整历程。年纪大了,如果当下的感受没有被及时记录,很容易会被时间冲淡。

虽然当前版本图标对不上,但能通过审核本身就是胜利了

文章不会涉及到太多专业术语露出,无论你对 AI 编程是否感兴趣,都可以把它当个有趣的故事看下去。

前言

我貌似一直对写应用 / 做产品有一种执念,尽管我连 GitHub 怎么用都一头雾水。

2014 年,因为经常要写 APP 推荐文的原因,为了丰富截图美观度,联合少数派的 Android 开发小哥倒腾了个【带壳截图】。当时的我,负责的只是想法、素材设计和宣传推广,没有参与过半行代码的编写。

2023 年,当时部门被公司一锅端,突然失业的我申领失业金频繁受挫,靠着每天把免费版 GPT 额度用完,很是艰难地倒腾了个如何申领失业金的微信小程序。这是我自己第一个手搓代码的的产品,这阶段的我开始掌握了「如何插入广告代码」这一核心技能。

2025~2026 年,因为工作缘故要经常输出鸿蒙相关的内容,我先是做了个缓解鸿蒙升级阵痛的小程序,后来在 Gemini 的帮助下,我正式提交了人生中第一款独立开发的 APP,一个能联网的、打通服务端和前端的、有实际功能的、不再是静态页封装的应用。

所幸每一个阶段的产品,我都在少数派写过文章,留下过印记。

使用 AI 编程的挑战

自我设限

早在去年鸿蒙推出开发者激励计划的时候,老麦就问过我能不能倒腾个鸿蒙应用,我说这超出了我的能力范畴。其实彼时的我已经写过好几个小程序了,然而在我的固有认知里,小程序和 APP 开发的区别应该比美图秀秀和 PS 还要大...... 加上现在鸿蒙编译工具和原生开发语言才推出市场没多久,可能 AI 都没有收集到足够的数据来应对。

事实证明一切都是借口,真正实践起来,我这个 GitHub 都用不明白的家伙,从 12 月 30 日配置到鸿蒙开发环境,到 1 月 5 号正式动工,最后 1 月 10 日提交审核,减去中间的元旦假期和周末,整个开发周期差不多就一个星期左右。

挣脱了思想的牢笼后,一切就豁然开朗了。

网络环境

无论是 Gemini、ChatGPT,还是其他更进阶的 AI 编程服务,对网络和地区的要求都是极高的。网络的波动,经常会导致「地区限制、IP 污染」等拒绝访问的情况发生,哪怕能顺利进入,也会有一定概率只能新建聊天但无加载历史对话。

付钱也是个大问题,搞定了网络,也舍得每个月掏出 20 美元甚至更高的费用去订阅,但如果没有一张境外发行的银行卡或海外账户,那么大概率无法完成关键的付款操作。当然,真想要给钱还是有路子的,只不过给个钱甚至比软件破解还要费劲,又会劝退很大一拨人。

技术门槛

社交媒体上铺天盖地的都是「不懂代码也能编程」的帖子和教程,但目前市面上一些主流的 AI 编程工具其实都是需要使用者具备一定专业技能的,强如 Cursor 一打开就让我关联 GitHub 的代码仓库,单就这一步就直接难倒我了。

同时,零代码基础,意味着你无法判断 AI 输出的方案优劣 / 对错 / 是否最优解,AI 会偷懒、会造假、会胡说八道、会消极怠工...... 没有专业能力去支撑你的判断与决策,一旦涉及关键模块的改动,轻则影响项目进度,重则前功尽弃,推倒重来。

备案和审核

大 Boss 藏在临门一脚的收尾阶段。

从 2025 年开始,所有联网的应用都需要进行 APP 备案。然后备案要买服务器,买完服务器提示要买域名,买好域名之后又提示域名也要备案,要域名和服务器备案好了 APP 备案才算完成。兜兜转转,搞了差不多 1 个月才搞定。所幸只是耗时长,过程并不复杂。

11.20 创建备案申请,12.17 备案审核通过

来到核心的应用审核环节,由于之前提交审核的版本功能实在过于简单(体验与小程序保持一致),多次上架驳回,让我下定心思真正做一个有实际功能用途的 APP。于是乎,我拾起了 10 年前的带壳截图项目,因为应用名称已经备案了,所以我还是沿用【NEXT 升级站】这个名称,在截图带壳的基础上,新增了图层顺序调整、设备素材云端下载与更新、添加贴纸、设备形态切换等功能。


1 月 10 日,我将重新构造的 NEXT 升级站提交到鸿蒙应用商店;1 月 16 日,经过了多次沟通和调整之后,NEXT 升级站终于顺利通过审核,正式登陆鸿蒙平台。得知应用审核通过的瞬间心情还是非常激动的,毕竟花了这么多心思去打造,肯定是想让它呈现在公众面前,供有需求的人去使用。

与 Gemini 的角色分工

因为 Chat 形态的 Gemini 不能直接操作项目,所以从配置环境的安装到最后的签名打包,涉及到开发环节的每一步,全都是 Gemini 输出文字指引,我来进行操作。虽然是原始了点,但一步一脚印,也不算是一件坏事。在这个鸿蒙应用开发项目里,我主要扮演产品经理和交付验收专员的角色,Gemini 则负责以下工作:

  • 产品项目 / 需求评估
  • 解决方案输出
  • 100% 代码编写
  • 问题定位与修复
  • LOGO 初稿输出与绘制教程
  • 机型素材整理方案输出
  • 快速生成图片配置文档

我不太清楚近期火热的 Vibe Coding 能否全自动地完成项目的代码编写和程序编译,因为我没真正使用过,一来是文章开篇提及到的网络问题,二来也是我自身专业度不足以支撑的问题,当然最主要的还是自我设限,认为自己驾驭不到。

有机会尝试的话,再给各位输出一篇关于 Vibe Coding 的体验文章。

擅长开新坑

Gemini 的靠谱程度,很大程度取决于你是「开新坑」还是「优化屎山代码」。如果是「开新坑」,决策准、速度快、效率高、完成度高,会是我对它的评价;一般这种情况下的需求指令都不会特别清晰或具体,这时候的它有足够的发挥空间,Gemini 擅长写半开放式作文。

一个具体的例子,10 月初我想把初始版本的【NEXT 升级站】小程序想快速移植为鸿蒙应用,在 GitHub 找到了滴滴出品的星河小程序转译鸿蒙应用的开源项目,专门请教了公司的开发同事,询问一下这件事情在技术层面的可行性,得到的结论是不行,斩钉截铁的不行。

随后,我将这个具体的想法交代给 Gemini 后,它给出的答案也是不行,但同时提出了另一种解决方案:因为我的产品架构很简单(本地搭好页面框架,从腾讯云读取数据),无需转译,直接用鸿蒙原生开发工具写一个更简单。

然后,它就手把手教我从如何安装配置鸿蒙开发环境、如何配置页面、如何调用组件、如何读取数据、如何解决编译报错、如何真机调试等等。因为我小程序已经写好了逻辑,所以它列了几个关键的 js 文件让我发过去,它就能复用对应页面的数据读取、字段展示、排序逻辑、元素布局等。

效果非常惊人,花了 1 天的下班时间,我就已经完成从搭建鸿蒙开发环境到输出 Demo 能在真机安装运行了。虽然一开始 Gemini 并没有告诉我 Beta 版编译工具签名的 APP 无法提交审核,但那是后话了......

优化能力不详,像鬼打墙


但场景一旦切换到「具体功能优化、Bug 修复」时,当需求越具体,它就会变得越固执、越短视、喜欢钻牛角尖、重复造轮子、简单的事情复杂化:

  • 能调用系统图标的它偏要自己画;
  • 在正常编译的云服务配置文档新增一个字段读取处理,它偏不按那个版本结构逻辑去写,硬是要自己优化,结果每个自作聪明优化的代码版本都不能编译;
  • 我说哪个功能上有问题,它就只是把这个问题修复好,全然不告诉我它为了修复这个问题,偷偷把其他能正常运行的功能删了,把数据读取逻辑从服务器端改成了本地虚拟数据......

诸如此类各种数不尽的骚操作,逐渐倒逼着我自己去管控整个项目走向。慢慢地,我这个毫无感情的代码复制粘贴机器,也开始系统性地判断 Gemini 输出的技术方案思路是不是可行的,给出的方案有哪些考虑不周到的地方,存在哪些风险,需要做哪些准备工作,备份哪些关键文件,实施过程中可能会发生的问题以及应对方案等:

  • 比如在进行一些关键页面/功能的修改时,是不是可以创建一个隔离环境,先验证功能可行性,再合并到正式页面里等;
  • 又比如在复制粘贴代码的时候会多留一个心眼,观察代码量变化,很多时候往往只是修改一个极小的细节问题,但输出的完整代码量和上一个版本竟然相差 200 多行,我就知道它又开始偷懒了。

见证我踩坑与进化的,是每次下达精准修改需求时越来越长的注意事项:

  1. 必须精准修改,不要动已有的功能布局与逻辑,尤其是不要自作聪明覆盖本地数据和功能 ,不要悄默默的删掉功能,你这是惯犯
  2. 输出方案之前,要严格关联上下文,涉及到需要验证的解决方案,必须要在最小单元内测试是否有效,再全面推广
  3. 优先使用系统组件、遵从鸿蒙设计/开发规范,不要简单的问题复杂化
  4. 涉及到需要修改的页面,需要输出完整代码,减少手动操作带来的误操作
  5. 不要偷懒,不要在不告知我的情况输出精简 DEMO 来替代我现有的功能界面和布局
  6. 一步步详细的列明每一个操作步骤,不要精简和省略,包括需要修改的文件具体路径,尤其是涉及到一些不可逆或容易误操作的地方,要特别标注出来
  7. 需要涉及需要在本地新增素材或引用云端字段/系统能力,要和我提前说,并告知具体的文件存放位置和作用,减少因为「资源缺/对不上」造成的编译错误,尽量做到每一次输出的方案都是不报错的;
  8. 输出方案的时候要明确说明思路、方向、修改了什么,可能会发生的问题,以及应对思路
  9. ......

背后的心酸,只有我和 Gemini 才能知晓。

虽然开发环节总是会出现这样那样的问题,但在整个应用构建过程,我始终保持着非常激动甚至亢奋的心情。关键的转变在于我从某个环节的螺丝钉变成了整个链条的掌舵手,提出想法的是我,需求评估的是我,原型设计的是我,敲定技术实现方案的是我,字段配置、代码编译、功能验收、BUG 修复、功能迭代的还都是我......

每天结束代码编译工作时,我都会和 Gemini 复盘一下今日的成果、踩过的坑、明天的计划、以及突然冒出来的鬼点子。看着应用从最初的原型图,到一步步完善,最后成为能在真机运行的应用,成就感可以用爆棚来形容。

主角登场:NEXT 升级站

NEXT 升级站

聚焦截图编辑与创作

铺垫了这么久,是时候要请出主角了。NEXT 升级站聚焦于截图编辑与创作,支持带壳截图、快速切换设备形态、添加贴纸、云端更新素材库等。应用支持联网更新,即使不更新应用,也能获取到最新的设备素材与贴纸。

在产品架构设计阶段,应用内几乎每个环节我都加上了支持运营控制的字段与配置入口。除了机型素材和贴纸中心,还包括创作页背景、机型默认壁纸,甚至连遮罩颜色和透明度等,都可以在云端直接修改更新。节假日定期换个应景的素材,或和其他应用联名搞搞活动,是我作为一名老运营的职业习惯。

核心的截图创作页上,我将「机型系列」作为一个最小单位,一个单元内对应多个 SKU,下载对应素材后,可以左右切换更换同系列的姐妹机型与颜色。如果是涉及到折叠屏这种多形态变化的产品,同样可以通过左右切换,快速更换设备形态。

同时,「贴纸中心」的加入,大大丰富了截图的可玩性,这也是 NEXT 升级站区别于同类应用的一大特色功能。支持图层顺序调整带来了无限大的拓展空间:除了常规的表情贴纸,它可以是画布壁纸,还可以是契合产品的具体使用场景、更可以是模特手持的特写海报。

一些遗憾

由于贴纸引入了图层概念,所以正常情况下只需新增一个图层字段或贴纸类型,就可以实现「图片背景」这一功能了,写好逻辑本地处理,当检测到图层字段等于 0 时,图片自动置底且铺满画框。道理是这个道理,但可惜,目前我的水平无法支撑这个需求的实现;不仅没有实现,还出现了同一个素材从创作页添加是正常的,但从贴纸中心添加就不能显示的奇特 Bug,折腾了好久才恢复到原样来。

此外,在原本的产品规划里,我是打算将 Navigation bar 和 tabBar 统一都设置为半透明的毛玻璃效果,让壁纸能够完整铺满整个屏幕,体验更加沉浸。但这涉及到全局组件的改动,加上当时风险管理意识不足,一番操作下来,布局全乱,软件元素和系统安全区叠加在一起,越改越乱,最后不得不代码回滚。

这也是这个版本里为数不多的遗憾。

图标绘制

我对图标尤为看重,7 天的开发周期,图标绘制就占了我整整一天的时间,可见重视程度之高。我希望 NEXT 的图标是有质感的、且符合应用使用场景的,在小红书找了几个我想要的效果素材发给 Nano Banana Pro,结果输出的第一个方案里就有对胃口的版本,这让我极其欣喜。

我完整阐述一下我的图标绘制操作和思路:

  1. 在 Gemini 工具栏里选择「生成图片」,输出详细设计需求并附上参考图,让它出 n 个方案;
  2. 从中选择合心意的版本,进行细致修改;
  3. 确定最终方案后,让 Gemini 输出 Figma 绘制教程;
  4. 根据教程重绘矢量图标。

为什么要重绘图标?

我个人不太建议直接使用 AI 输出的图片作为图标。

一来是 Gemini 无法输出透明背景的 png,虽然市面上大把移除图片背景的工具和插件,但移除背景这个动作本身就会对图片质量本身产生较大影响,如边缘锯齿、阴影裁切、残留白边等;

二来应用图标在软件项目构造里并不是一张单纯的圆角矩形图,它是由一张透明背景的主体图 + 一张保留直角的背景图组成的;

三是考虑到 AI 输出的图片可能存在的版权归属问题,以及后续图标的拓展延伸(如面向付费用户提供多种图标切换、应用周边制作、品牌宣传露出等),几乎每个场景都需要你有「源文件」在手,而不仅仅只是一张 AI 提供的固定分辨率、放大会有锯齿的位图;

所以让 AI 输出方案 + 重绘修改,会是一个相对稳健且方便后续运营拓展的方案。哪怕你是设计新手也不要紧,目前主流的 AI 基本上可以做到专属教程产出,发一张图片过去,询问如何在 Photoshop 或 Figma 上绘制出一模一样的效果,它就会输出详尽的教程,包含每个图层需要叠加的效果参数、渐变色值等。

当然,图标重绘并不意味着百分百的还原 AI 稿,更多是根据实际情况进行风格和元素的调整,毕竟是手把手操作,灵活度上还是要比输入关键词指令更精准一些。我对这个工作流输出的图标成品很是满意(目前应用商店显示的图标和实际图标对不上,我争取下个版本修复)

名字来源和背后故事

介绍完应用功能和图标,我想展开聊聊 NEXT 升级站名字的来源和背后的功能变更。

故事的开始是去年我主力使用的华为设备升级到鸿蒙 5,在日常使用中或多或少都会有一些困扰与不习惯,于是我针对常见痛点梳理了解决方案,拾起老本行做了个微信小程序承载。想着解决他人问题之余还能靠流量主赚点广告费,没成想鸿蒙版的微信小程序并不支持加载流量主广告 😂 路径依赖失效了~

NEXT 升级站小程序

但每个月 19.99 的腾讯云套餐是无论如何都节省不了的支出,怎么样才能把这 19.99 用回本成为了我的新课题。既然腾讯云能被小程序调用,是不是也能被第三方网站或 APP 调用?我向 Gemini 提出了这个问题,得到了肯定的答复,随后我就搞了个页面,通过云函数将小程序的内容同步展示到网页来。不过这个页面更多是技术验证,并没对外开放访问。

小程序导流网页

小程序有了,引流页面也有了,作为一个面向鸿蒙用户提供解决方案的产品,没有鸿蒙原生应用似乎说不过去。刚开始我是打算通过「小程序转译」的方式去实现,结果 Gemini 告诉我直接原生编译工具写更简单。接下来的故事前文也提及过了,初始版本的应用多次被驳回,一是联网应用没备案,二是功能实在太过简单。

NEXT 升级站首个鸿蒙版本,功能布局与小程序保持一致

应用审核被驳回,但耗时一个月的应用备案下来了,秉持着备案不能白白浪费的原则,我又硬着头皮搞了如今以截图编辑与创作为核心的【NEXT 升级站】并成功上架,也算是给 10 年前的【带壳截图】一次秽土重生的机会。

所以现在的 NEXT 升级站处在一个非常神奇的阶段,同一个名字在不同渠道是两个完全不同形态的存在。在微信小程序里,它是提供各种常见问题解决方案的实用工具箱;在鸿蒙原生应用里,它是可以实现以带壳截图为核心的截图创作工具。至于后面究竟是逐渐融合还是单独区分,就有待后续故事的发展了,现在的我也说不准。

回顾 NEXT 升级站每一次的更迭,基本上都是脑海里的灵光一闪在稍纵即逝之际被 Gemini 及时验证可行性并给出实施方案,我才得以踏出下一步的。我认为这是 AI 存在最大的价值,通过 AI 快速验证各种天马行空想法的可行性,并以最低成本踏出第一步,只要出发了,距离终点就不远了。

开发费用


我来简单盘点一下本次开发全链路的所需费用。

  • 腾讯云:¥19.9/月
  • 服务器:¥69/年
  • 域名:¥33/年

以一年时间为例,最基础的费用支出是 340.8 元。当然,实际上远不止这个价格, 正常情况下 Gemini 应该是最费钱的一项。除符合资格的学生优惠外,最近 Gemini 还推出了 $99.99/年的多人共享活动,就是对地区、账号和付款方式都有一定要求,感兴趣的可以去了解一下。

写在最后

这是 2026 年我送给自己的新年礼物,突破身为一个运营原定能力边界的礼物。

简单评价一下这个开发周期只有 7 天的应用,我认为功能完成度是大大超出我预期的。代码质量我不好评价,后续版本维护上我也比较担忧,但在产品架构、功能完善度、可玩性上,我有信心,NEXT 升级站起码是合格的,甚至是超过平均水平线的。

当然,初个版本还是有很多不足的地方,受限于技术水平与人力原因,很多东西距离「尽善尽美」还有很长一段距离,不过大框架搭好了,素材也能支持云端更新,后续保持一定的频率更新,问题也不大。

> 关注 少数派小红书,感受精彩数字生活 🍃

> 实用、好用的 正版软件,少数派为你呈现 🚀

    2026 势不可挡!融云开年便在产业、技术与生态多维度收获多重认可。

    前沿科技媒体的专业背书、开发者社区的口碑选择、全球生态伙伴的战略肯定,共同印证了融云的智能通信云服务已获得产业界、开发者与商业生态的全面肯定。

    行业媒体 | 2025 年度灯塔产品榜
    图片

    领先科技媒体“雷科技”发布 2025 年度灯塔产品榜,融云对话 Agent 登上“年度杰出产品榜单”。

    该榜单自 2017 年创办以来,始终坚持“专业编辑提报+千万粉丝投票”的评选制度,致力于记录时代创新。本次评选涵盖消费电子、家电、汽车出行及 AI 等四大领域,融云对话 Agent 与 Google、Kimi、快手、百度等科技大厂产品共同入选 AI 领域榜单。

    开发者社区 | 年度科技创新突破奖

    图片

    在硬核技术开发者聚集的领域,融云也赢得了关键认可。近日,国内领先的大数据与人工智能开发者社区 DataFun 揭晓“星空奖”年度榜单,融云对话 Agent 获评“年度科技创新突破奖”。

    作为行业权威的技术社区,DataFun 设置该榜单旨在表彰具备实质性突破与行业影响力的工程实践。融云此次获奖,核心在于其对话 Agent 实现了从技术到场景的工程化创新落地:通过深度意图识别能力,将 AI 对话转化为可触发业务逻辑、联动外部系统的自动化任务闭环。目前,这一方案已在社交、电商等场景中高效应用,实现了从技术创新到产业价值的转化。

    数字商业生态 | 最具行业影响力品牌

    图片

    在更广阔的商业生态维度中,融云同样展现了深远的品牌影响力,获评 360 智慧商业颁发的“2025 年最具行业影响力品牌”。该奖项重点关注品牌在所属行业内推动进步、建立标准及引领方向的能力。

    融云此次入选,标志着其“全球智能通信云”的专业地位以及“通信+AI”的战略布局,获得了数字商业生态的广泛认同。

    全球化生态 | 智创未来领军人物

    图片

    在全球化生态协作维度,融云 CEO 董晗获评数美科技“星辰奖·智创未来领军人物”。“星辰奖”旨在表彰在 AI 浪潮中通过技术创新驱动行业变革的领航者。
    融云此次获评,彰显了融云与全球化生态伙伴在技术互补与商业共建方面的深度互信,折射出共同推进全球数字化转型的生态力量。
    秉持“赋能千行百业智能化升级”的初衷,融云致力于打造全球化的智能通信云底座。我们正将硬核的技术能力转化为驱动商业模式重塑的工程化力量,协助开发者高效构建智能互动能力,将技术创新转化为实际的业务增长与运营效率。

    B2B 软件研发的难点不在“写完功能”,而在多干系人、强集成、强合规约束下,把不确定性转化为可预测交付。本文以项目风险管理为主线,给出一套可落地的研发项目风险管理闭环:统一标准、结构化风险识别、量化风险评估、工程化风险应对与节奏化监控复盘,并说明如何借助工具把风险登记册、触发器与跟踪动作真正嵌入日常研发系统。

    本文关键结论:

    研发项目风险管理的目标不是消灭不确定性,而是让不确定性“显性化、可度量、可治理”。

    • 项目风险管理闭环至少包括:标准 → 识别 → 评估 → 应对 → 监控 → 复盘与风险库沉淀(并贯穿沟通与记录)。
    • 高风险项目的关键差异在于:把 Top 风险变成里程碑交付,把应对动作嵌入工程系统(流水线门禁、灰度回滚、可观测性)。
    • 用交付指标做领先预警:交付吞吐与不稳定性趋势变化往往比“延期”更早暴露问题(可与持续交付数据联动监控)。

    为什么软件研发项目的风险密度更高

    一句话定义:研发项目风险管理(项目风险管理)就是在研发全生命周期内,持续识别、评估并处置那些会影响交付、质量、合规与商业结果的不确定因素。

    在我观察过的多数交付型团队里,风险之所以频繁“爆雷”,并不是团队不努力,而是不确定性被长期隐形化:需求变了但没有升级决策、接口不稳定却没有“买断未知”、合规介入太晚导致返工吞噬缓冲。

    B2B 场景风险更高,根源来自四个结构性特征:

    1. 验收由多方共同定义:范围漂移是常态,而不是例外。
    2. 集成耦合决定风险传播速度:外部系统/数据口径/权限体系变化会引发链式风险。
    3. 安全与合规是硬约束:一旦触发审计与监管,代价往往以“月”为单位结算。
    4. 交付失败外部性大:延期只是表象,真正损失是客户信任、续费风险与团队救火化。

    一个常见误区是:把风险当成“项目经理的表格”。成熟组织则会把风险当成一种经营变量:它决定交付节奏、资源配置与承诺可信度。实践上,我更倾向于把风险“放进系统”——例如把风险登记册做成可追踪的工作项,能关联需求、任务、缺陷与里程碑,而不是放在一个没人维护的 Excel 里(后面会讲怎么落地)。

    一套可落地的研发项目风险管理闭环

    在方法论层面,风险管理的闭环是共识:从识别、分析/评价到处置与监控,并强调沟通与记录。落到 B2B 软件研发,我建议用“闭环 + 治理 + 工程化”三层视角:
    闭环:风险从发现到处置必须有“输入—处理—输出—复盘”的循环。

    • 治理:红线与资源取舍属于管理层决策域,不是 PM 单点职责。
    • 工程化:最有效的风险应对不是口号,而是嵌入研发系统(流程、流水线、指标、权限与发布机制)。

    下面是一个可直接写进制度的 6 步闭环,并在每一步补上“用工具怎么让它更易执行”。

    1)定义“风险标准”:统一什么叫“高风险/必须升级”

    风险不是“感觉危险”,而是对项目目标产生不确定影响。第一步要建立统一口径,否则跨团队沟通会失真。

    • 目标维度:交付(范围/进度/成本)、质量(缺陷/稳定性)、安全合规、客户价值、商业结果(续费/回款)。
    • 风险偏好与红线:哪些风险必须规避(合规/安全红线),哪些可接受但必须有预案。
    • 升级阈值:例如“影响关键里程碑/关键客户窗口/合规审计”的风险必须进入管理层决策池。
    VP 视角的判断标准:我不会只看甘特图是否漂亮,我更关心“最大不确定性是否被买断,以及买断动作是否在节奏内发生”。

    2)结构化风险识别:用 RBS 把经验变成清单(并沉淀为风险登记册)

    仅靠头脑风暴会遗漏系统性风险。建议用 RBS 分类(需求与商业、技术与架构、交付与质量、安全合规、供应链与组织协同等),形成可复用的“风险词典”。

    建议输出物(强复用):

    • 风险登记册 Risk Register:风险描述、类别、概率P、影响I、暴露值、Owner、应对动作、触发器、残余风险。
    • 不确定性清单 Spike Backlog:所有“未知”必须对应一个“买断动作”,并被排进迭代。

    工具落地(实用型):

    ONES Project 里,你可以把“风险”作为一种工作项(或在项目中建立“风险组件/风险列表”),并通过自定义状态与属性字段把 P/I/暴露值、触发器、Owner 结构化下来,同时与需求、任务、缺陷、迭代关联,风险就不会脱离研发主流程。

    如果你的组织希望把风险词典、评估口径与复盘模板沉淀为知识资产,则可把模板放在 ONES Wiki,并与项目工作项双向关联,降低“制度写了但落不下去”的摩擦。

    3)风险评估:定性排序 + 定量暴露,让取舍可解释

    我推荐“两层评估”,避免走向“精算崇拜”:

    • 定性:概率×影响矩阵,快速锁定 Top 风险(例如 Top 10)。
    • 定量:对 Top 风险做“暴露值(Exposure = P×I)”,I 用人天、窗口、SLA/合规代价、收入影响等表达。
    • 关键点:评估不是为了“分数”,而是为了把讨论从“观点冲突”拉回“数据与取舍”。同时,风险评估必须随项目进展持续更新,尤其在 B2B 场景中风险会“漂移”。

    4)风险应对策略:把风险转成可执行动作(并用触发器驱动升级)

    应对策略可以用四类:规避、缓解、转移、接受。但真正有效的是让动作具备“五要素”:

    • Owner:谁对结果负责。
    • Action:可验证的动作(而不是“加强沟通”)。
    • Due:截止时间(与里程碑绑定)。
    • Trigger:触发条件(出现什么信号就升级/切换预案)。
    • Residual:残余风险(做完后还剩多少,是否可接受)。

    工具落地:

    很多组织在这里卡住的原因是“触发器写了但没人盯”。这类动作适合交给流程自动化:例如当风险暴露值超过阈值、或关键接口变更频率异常时,自动提醒 Owner、增加关注者、推动状态流转、把风险升级到评审队列。ONES Automation 提供基于触发事件/条件的自动化规则、预置模板与运行日志,适合把“制度动作”变成“系统动作”。

    5)风险监控与节奏:风险要“周更”,而不是“结项归档”

    风险会漂移,监控的意义在于让团队更早看到趋势,而不是更晚写总结。对高风险项目,我建议固定一个 30 分钟“短、硬、可决策”的风险例会:

    • 只看 Top 风险是否变化、动作是否完成、是否触发升级。
    • 输出必须是“变更记录”:新增动作、需要支持、风险关闭/升级。
    • 对高风险项目建议同步“风险燃尽图”(暴露值随迭代是否下降),让健康状态一眼可见。

    工具落地:

    在 ONES Project 里,团队通常会用看板、燃尽图等视图掌控迭代进度,并结合报表做进度与质量的可视化跟踪;这些视图对“风险是否在下降”同样有帮助(尤其当风险被结构化为工作项后)。

    如果你要从管理层视角看“多项目/多团队的风险态势与交付表现”,则可以把度量与可视化放到效能分析的统一入口,形成持续的“量化—分析—改进”闭环。

    6)复盘与风险库:把一次次踩坑变成组织资产

    复盘的价值不在总结,而在复用:把风险登记册与处置效果沉淀到组织“风险库/知识库”,形成下一次项目的默认起点。成熟组织的项目风险管理能力,往往体现在“踩坑次数是否随时间下降”。

    工具落地:

    复盘最怕“散落在群聊与个人文档”。把复盘模板、ADR、接口契约、合规清单沉淀到知识库,并与对应风险工作项/缺陷/迭代关联,会显著提升组织记忆。ONES Wiki 支持文档模板、版本控制、权限与全局搜索,并能与项目任务关联,这是把复盘变成资产而不是“情绪释放”的关键。

    研发风险识别清单:常见风险、早期信号、触发器与抓手

    这一节的目标是“拿来即用”:把风险写成“可观察的信号 + 可触发的阈值 + 可执行的抓手”。

    1)需求与商业风险(范围、验收、价值)

    1.范围漂移(Scope Creep):验收口径不清、需求持续追加。

    早期信号:同一需求反复评审仍无法落结论;验收标准缺失;变更请求密度上升。
    触发器示例:连续两周关键需求无完成标准;或变更导致关键里程碑受影响。
    抓手:冻结窗口 + 变更控制(CCB/Steering Committee);把验收拆成可验证 E2E 场景用例。

    2.价值错配:功能交付不少,但客户关键路径未跑通。

    • 早期信号:演示反馈“看起来都有,但业务走不通”;UAT 长期停留在局部模块。
    • 抓手:用“场景验收”替代“模块验收”,让关键用户参与验收链路。

    2)技术与架构风险(集成、依赖、债务)

    1.集成不确定性:外部系统接口、权限、数据口径不稳定。

    • 早期信号:联调环境不稳定;接口频繁变更;数据定义口径多版本并存。
    • 触发器示例:接口变更超过约定频率;联调阻塞超过约定时长。
    • 抓手:集成 Spike 前置;契约测试;联调 SLA 与升级通道。

    2.架构债务外溢:临时方案堆叠导致稳定性问题。

    • 早期信号:线上问题集中在同一模块;变更风险上升;回归成本持续增大。
    • 抓手:ADR + 架构守门;关键改动必须评审并评估残余风险。

    3)交付与质量风险(测试、发布、稳定性)

    1.测试不足导致返工:回归成本在中后期指数级上升。

    • 早期信号:缺陷在后期集中爆发;回归周期拉长;线上热修频繁。
    • 抓手:自动化测试分层 + 流水线质量门禁;把“不可回归”定义为发布阻断项。

    2.发布与变更失控:上线后故障频发,团队救火化。

    • 早期信号:变更影响范围难评估;监控与告警缺失;回滚不可用。
    • 抓手:灰度/回滚/特性开关;发布检查清单;上线前演练(含回滚演练)。

    小提示:如果你们已经在 ONES Project 里做缺陷与迭代管理,那么把“风险”工作项与缺陷/迭代关联起来,会让风险识别从“会议纪要”变为“可追踪链路”。

    4) 安全合规与供应链风险(红线、审计、第三方)

    1.合规迟到:等保、审计、隐私评估在中后期才介入。

    • 早期信号:法务/安全“只在最后签字”;验收条款含糊。
    • 抓手:安全与法务左移;把数据分级、威胁建模纳入需求与架构评审。

    2.第三方依赖风险:开源漏洞、供应商交付延误。

    • 早期信号:关键依赖无替代方案;组件版本长期不更新。
    • 抓手:SBOM/漏洞扫描;供应商里程碑化与违约约束。
    • 风险评估:把排序变成资源取舍语言

    评估不是为了“更复杂的表格”,而是为了回答一个管理层最关心的问题:在资源有限的情况下,我们应优先买断哪些不确定性,才能让承诺可信?

    1. 风险矩阵:统一概率/影响,形成红黄绿决策语义

    • 红:必须升级决策(范围、里程碑、资源、方案)。
    • 黄:必须有 Owner 与预案,纳入周节奏跟踪。
    • 绿:记录即可,避免噪声干扰。

    2. 风险暴露值与情景推演:把风险翻译成“成本/窗口/合规代价”

    对 Top 风险做情景推演:若发生,会影响多少人天?是否冲击关键窗口?是否触发合规审计?这类“可被决策”的表达,往往比单纯的风险描述更有力量。

    风险应对让项目风险管理可复制

    1. 四类策略:规避/缓解/转移/接受(并管理残余风险)

    四类策略的关键不是名称,而是是否能落到“动作与机制”。当风险进入红区,你真正需要的是:可执行、可追踪、可复盘。

    2. 三张清单:把“风险应对”嵌入研发系统

    • Spike Backlog(买断不确定性):所有未知必须进入迭代。
    • Pipeline Gates(质量门禁):把风险控制变成系统规则。
    • Release Checklist(上线准备):灰度、回滚、监控、告警、应急联系人齐备。

    工具落地:

    ONES Project 支持需求/任务/缺陷/迭代等全流程管理,并提供看板、燃尽图与报表;当风险应对动作被写成工作项并进入迭代,它就能自然进入团队的日常节奏,而不是“只存在于会议纪要”。

    另外,ONES Project 提到可结合 Code Integration 与 Pipeline Integration 在项目内监控持续集成与部署相关数据,这对“把交付风险前置”为监控信号很有帮助(尤其在发布频繁的团队)。

    案例与洞察:从“救火式交付”回到“可预测推进”

    我经历过一个典型集团客户项目:在既有 ERP 与身份体系之上建设统一权限与审计平台,并满足严格审计与合规验收。

    中期出现三类高风险信号:

    • 接口与数据口径频繁变更(集成不确定性);
    • 审计条款逐步细化且持续追加(合规迟到);
    • 临时方案越来越多,线上问题开始集中(架构债务外溢)。

    转折点不是“加班”,而是三项治理与工程化组合拳:

    • 把 Top 风险变成里程碑交付:先交付“可审计的最小闭环”,把合规买断前置。
    • 建立触发器驱动的升级机制:接口变更超过约定频率就触发升级评审,必要时冻结联调窗口。
    • 把风险控制嵌入系统:契约测试、灰度与回滚演练进入 DoD。

    在工具层面,我们更愿意把这些机制“固化”为团队习惯:风险登记册与应对动作作为工作项进入迭代;对触发器类事项用自动化规则做提醒与升级;复盘材料进入知识库并与风险/缺陷关联。这样做的收益不是“形式更好看”,而是下一次项目启动时,组织记忆真正可复用。

    项目风险管理的终点,是研发韧性与数字化领导力

    如果你是 CTO、研发负责人或 PMO 负责人,我建议用三个层次理解研发项目风险管理(项目风险管理):

    1.方法层:闭环治理
    标准、识别、评估、应对、监控、复盘,让风险管理成为持续循环。

    2.工程层:系统化前移
    把应对动作嵌入研发系统与交付链路:门禁、回滚、可观测性、自动化提醒。ONES Project 的全流程工作项管理与报表视图、以及与流水线数据的联动,天然适合承载这些“工程化动作”。

    3.战略层:承诺可信与组织韧性
    风险管理不是保守,而是让组织在不确定中仍能稳定兑现承诺——这本质上是数字化领导力:敢承诺、会取舍、能复用、可持续。

    当外部变化更快、客户诉求更复杂时,真正稀缺的是“持续交付能力”。而持续交付能力背后,靠的不是口号,而是一套能穿透组织、落到系统的项目风险管理能力。

    附录A:一页模板(落地版)

    • 风险登记册(Risk Register)字段建议
    • 风险ID / 类别(需求、技术、质量、合规、供应链…)
    • 风险描述(用“如果…将导致…”句式)
    • 影响目标(范围/进度/成本/质量/合规/商业结果)
    • 概率P(15)/ 影响I(15)/ 暴露值E=P×I
    • 早期信号(可观察)/ 触发器(阈值)
    • Owner / 需要支持的角色
    • 应对策略与具体 Action/Due
    • 残余风险与升级路径

    很多人第一次接触智能体,都会问同一个问题:
    “它是不是比以前的 AI 更聪明了?”

    但用过一段时间后你会发现,智能体真正厉害的地方,​并不是它更聪明,而是它开始做事了​。


    一、过去的 AI,停在“回答问题”这一步

    不管是搜索引擎还是聊天 AI,它们的共同点都是:

    你问一句,它答一句。

    即使回答得很好,事情还是要你自己去完成。
    查完资料还要整理,写完段落还要排版,想好方案还要执行。

    AI 只参与了“思考”,没参与“行动”。


    二、智能体的变化,是让 AI 参与整个过程

    智能体的出现,把 AI 从“回答者”变成了“执行者”。

    你只需要给目标,它就会:

    • 拆解步骤
    • 调用工具
    • 执行动作
    • 检查结果
    • 继续修正

    直到任务完成。

    这不是更聪明,而是​更完整​。


    三、智能体最先改变的,是普通人的效率

    对于普通人来说,智能体带来的不是能力飞跃,而是:

    • 减少重复操作
    • 降低精力消耗
    • 稳定产出节奏

    你不再被“流程”拖住,而是只需要关注“结果”。


    四、当执行被接管,人的角色会自然上移

    当智能体负责执行,人最自然的变化就是:

    • 不再纠结怎么做
    • 更关注做什么
    • 更关注是否值得做

    这会让人的角色,从执行者,变成决策者。


    五、智能体真正的价值,是让工作更接近“指挥”

    过去你在工作中,既要指挥,也要亲自干活。

    智能体出现后,你开始只负责指挥,执行交给系统。
    这种转变,会慢慢改变你的工作方式、时间分配和思考习惯。


    结语

    智能体不会替代人,但会替代大量低价值的执行工作。

    当你开始习惯把“做事”交给智能体,把“判断”留给自己,
    你会发现,工作的重心已经悄悄改变了。

    过去一年,越来越多的人开始频繁听到“智能体”这个词。

    它最早出现在技术圈,但现在,很多非技术用户也开始在日常工作中使用智能体,来整理信息、完成重复任务、协助思考。这种变化,正在悄悄发生。


    一、智能体不是聊天工具,而是执行系统

    很多人第一次接触智能体时,会把它当成更聪明的 AI 聊天工具。

    但真正用过之后会发现,智能体和普通 AI 最大的不同,不在于回答得多聪明,而在于它能​连续完成一整件事​。

    你只需要给出一个目标,智能体就会拆解步骤、调用工具、执行任务、检查结果,直到完成为止。这种能力,让它从“助手”变成了“执行者”。


    二、智能体最先改变的,是大量低价值工作

    在大多数人的工作中,有一类事情既不复杂,也不重要,但却非常耗时间,例如:

    • 信息搜索与整理
    • 内容初稿生成
    • 报告结构搭建
    • 重复修改与格式调整
    • 日常资料汇总

    这些工作长期占据时间,却很难体现个人价值。智能体的出现,正好接管了这些流程,让人把精力重新放在判断、决策与创造上。


    三、使用智能体的人,正在改变工作结构

    一些已经开始使用智能体的人,会发现自己的工作方式发生了变化:

    • 从“自己做每一步”,变成“给出目标”
    • 从“重复执行”,变成“检查结果”
    • 从“操作型工作”,转向“决策型工作”

    智能体并没有替代人,而是重新分配了人的角色。


    四、智能体降低了完成复杂任务的门槛

    过去,研究、分析、写作、整理等工作,往往需要较长时间的经验积累。现在,这些流程中的大量步骤可以被智能体接管,普通人只需清楚目标、判断结果,就能完成原本难以完成的事情。

    这种门槛的下降,让更多人拥有了“完成复杂工作的能力”。


    五、真正的变化,是工作方式而不是工具

    从工具到系统,是智能体与传统 AI 的最大区别。

    当人开始把执行交给智能体,把判断留给自己,工作方式本身就发生了变化。这种变化,比任何单一工具都更深远。


    结语

    智能体的出现,不是一种颠覆,而是一种渐进式的改变。

    它正在让普通人从大量低价值工作中解放出来,让时间重新回到思考、判断与创造上。

    这种变化,已经开始发生。

    过去几周,我对于 Vibe Engineering 的实践有了更多的体会, 今天再次总结一下。其实也能看出来我避免使用 Vibe Coding 这个词,是因为当下的重点已经不再是代码,而是一些更高维度的东西。另外,本文的 AI 含量我会尽量控制在 5% 内,可以放心阅读😄。

    之前我提到的我开始的 TiDB Postgres 重写项目已经不再在是个玩具。在前几天出差的路上, 因为长途飞行没有网络, 我仔细 review 了一下这个项目的代码, 虽然一些地方略有瑕疵, 但是总体质量已经很高, 我认为已经是接近生产水平的 rust 代码,和以前我理解中的早期原型的定义很不一样。

    顺便提一句, 我认为这个项目从一开始就选择 rust 是一个无比正确的决定, rust 的严谨性让 AI 能写出更接近 bug free 的 infra code (对比我另一个项目 agfs 的 shell 和它自带的脚本语言 ascript,由于这项目使用 python,项目变大后,可维护性就大大降低,但此时重写已经很困难,只能捏着鼻子慢慢重构),所以现在已经是 2026 年了, 如果你要再启动一个新的 backend infra 项目, rust 应该是你的第一选择。

    验证差不多后,我也邀请了几位我团队内的几个顶尖的 vibe coder 加入项目, 看看 100% 的 AI Native 研发模式能在多快把这个项目推进到何种程度,无论如何都很想看看,应该会很有意思。

    下面说说自己最近的一些感受。

    当前关于 Vibe Engineering 的所有的认知都会在 1 个月内严重过时

    并非危言耸听,哪怕我正在写的这篇文章,如果你是 2026 年 2 月看到,那么很遗憾,本文聊到的东西很可能已经过时,这个领域发展的太快,很多今天的 SOTA 也许下个月就过时了。而且很有意思,过去很多对 Vibe Coding 嗤之以鼻的大佬,例如 DHH,Linus,Antirez 等,在 2025.12 月开始纷纷改口,我觉得这是相当正常的,去年 12 月开始,AI 编程工具和头部的模型突然有一个跳跃式的进步,突然对于复杂任务和大型项目的理解,以及写出代码的正确率有了极大的提升。这进步大概来自于两个方面:

    一方面头部模型在长上下文(>256K) 的支持,尤其是关键信息的召回率提升惊人

    例如上面是 GPT-5.2 在长上下文的召回表现和 GPT-5.1 对比很明显,要知道对于 Agent Coding 的场景来说,通常是多轮次推理 + 长上下文(因为要放更多的代码和中间推理结果)才能更好的有大局观,大局观的正确是对于复杂项目起到决定性因素。在这种场景下,你可以做一个简单的计算,一个模型(类似 GPT-5.1) 每轮的召回率 50%,大概 3 轮后,正确的召回率就会降低到 12.5%, 而 GPT-5.2 仍然能保持 70% 以上。

    另外一个进步是主流的 Vibe Coding 工具的 Context Engineer 实践日益成熟,例如 Claude Code / Codex / OpenCode。从用户体验到最佳实践,肉眼可见的越来越好,例如对于 Bash 的使用,Subagent 等,这方面越来越多的资深 Engineer 的重度使用和经验分享会对这些工具的进化提供数据飞轮,尤其是 AI 也在深度的开发这些工具,迭代速度只会更快。

    其实这个进步也并不是去年 12 月那个时间点的突然什么黑科技爆发,其实前几个月一直在进步,不过还不能长时间离开人工干预,更像是那个时间点,主流 Coding Agent 的质量超过了一个临界点:100% 的无人工干预下完成长时间的 Agentic Loop 成为可能。

    Hire the best (model),否则就是在浪费生命

    上面所有提到的进步,我个人感觉只反映在了最顶尖的闭源头部模型中。我听到很多朋友和我反馈到:“我感觉 AI 编程还是很傻啊?并没有你提到那么聪明”,我首先会反问,你是不是只是用着 $20 一个月那种入门模型?如果是的话,那先去用一阵 $200 以上的 Pro Max 档次的,也许有惊喜。

    我个人认为,目前主流的模型,即使并非头部那档,作为 chatbot 处理大多数普通人的短上下文的日常工作是完全足够的,哪怕是 GPT-4 在和你讲人生道理的时候也已经足够把你说得一愣一愣了。

    作为人来说,我们的直觉或者是一些简单的 CRUD Demo 已经无法评估这些模型之间的智商差距了。但是在复杂的项目的开发中,这个差距是极端明显的。

    根据我个人的实践来说,当下能用来进行大型 Infra 项目(数据库,操作系统,编译器等)开发的模型大概就两个:GPT-5.2 (xhigh) + Opus 4.5,还有半个算是 Gemini 3 Pro。

    大概上个月我主要用着 opencode + oh-my-opencode + Opus 4.5 但是最近两周转向到了 codex + gpt-5.2 的组合,下面分析一下这几个模型的一些脾气和调性,仅仅是个人感受,而且是在后端 Infra 软件开发这个领域,仅供参考。

    Opus 4.5 的风格是速度很快,是个话唠,由于 Sonnet 4 有严重 reward hacking 问题,例如是在解决不了 bug 的时候会偷偷的构造作弊的测试然后糊弄过去,所以导致很长一段时间我都不太敢用 Sonnet 系列模型干复杂的事情,但是这点在 Opus 4.5 中解决得很好,即使在模型冥思苦各种尝试想都搞不定的情况下也没有选择作弊,让我放心不少,但是 Opus 的问题是 reasoning 和做 investigation 的时间太少,动手太快,以至于发现不对的时候,又返回头确认假设和研究,这样的特性催生了像 ralph-loop 这样的奇技淫巧。比方说,同样的一个 prompt 在 Claude Code 结束后又通过 stop hook 重新调用,再完整走一遍流程,不断地逼近最终的结果。

    相比之下,GPT-5.2 更像是一个更加小心谨慎、话不多的角色。我最开始用 Codex 的体验其实不算太好,因为我一直觉得它有点太慢了。主要是因为我习惯用它的 xhigh 深度思考模式,在真正开始写代码之前,它会花很长时间去浏览项目里的各种文件和文档,做很多准备工作。可能也是因为 Codex 的客户端不会告诉你它的计划和大概需要多久,所以就显得过程特别长。

    有时候一些复杂的任务,它前期的调查可能就要花上一到两个小时。但是经过长时间思考后它完成的效果通常是更好的,尤其是在一个项目的大体框架已经稳定,Codex 考虑得更周全,最终也体现出更少的 bug 和更好的稳定性。

    对于第三个顶级模型,也就是 Gemini 3 Pro。虽然我也知道它的多模态能力非常吸引人,但就复杂任务的 Coding 场景而言,至少从我个人的体验来看,它的表现并没有 Opus 4.5 和 GPT-5.2 那么强。不过它确实针对一些快速的前端项目 Demo 和原型制作做了一些优化,再加上它的 Playground 模式,让你在需要一些炫酷的小 Demo 或前端项目时能更快实现。

    其实一个比较反直觉的事情是,过去我们经常说 Vibe Coding 只能搞一些比较简单的事情,比如上面那些小 Demo 或 CRUD 项目,你会看到网上各种各样的 KOL 其实都在做这种小原型,反而大家觉得对于一些像后端这种核心的基础设施代码,当前 AI 还是搞不定的。我以前也这么想,但从去年 12 月份开始,这个结论可能需要修正了。

    这里面的原因是,其实这类基础设施的代码通常是由顶级工程师长期精雕细琢而成,它们有清晰的抽象、良好的测试,甚至代码本身经过多轮重构后也相当精炼。所以当 AI 具备足够的上下文空间 + 更好的推理能力 + 更成熟的 Agentic Loop + 高效的工具调用时,这类 Infra 代码的开发和维护反而是能最有效地利用这些顶尖大模型的智商的场景。

    在实际的工作中,我经常会让多个 Agent 互相协作,或者使用一些复杂的工作流来把它们编排在一起,并不会让一个模型来完成所有的事情。后面我会再分享一些我自己实践中的具体例子。

    人在什么时候进入?扮演什么角色?

    上面提到了,这些顶级模型再配合主流的 Vibe Coding 工具,基本上已经能超越大多数资深工程师的水平了。这不仅体现在能写出更少 bug 的代码,也体现在在 review 中能发现更多人类工程师可能看不到的问题,毕竟 AI 真的会一行一行仔细看。

    所以人在这个过程中扮演什么样的角色,哪些阶段只有人才能做?根据我自己的实践来说,第一当然是提出需求,毕竟只有你才知道你想要啥,这很显然,但是有时确实也挺难的,毕竟人很难从一开始就准确描述自己想要什么,这时候我会用一个偷懒的办法:让 AI 来角色扮演,比方说,我在开发 PostgreSQL 版本的 TiDB 时,我就让 AI 假设自己是一个资深的 Postgres 用户,从开发者的视角告诉我有哪些特性是非常重要、一定要实现而且 ROI 比较高的,让它列出 N 个这样的功能点,然后 AI 就会根据它的理解生成一个需求列表,接下来你再和 AI 对这些需求逐个打磨,这其实是一个高效冷启动的方法。

    第二是在需求提出后,现在的 Coding Agent 大多都会和你有一个规划阶段(Planning),会反复确认你的需求。在这个过程中其实有一些技巧,比如不要给 AI 太具体的方案,而是让 AI 来生成方案,你只需要关注最终你想要的结果;提前告诉 AI 有哪些基础设施和环境的问题,让它少走弯路。

    另外,我通常会在提出需求的第一阶段就要求 Agent 做的一些关键动作。比如无论接下来做什么,都要把计划和 todo 列表放在一个 work.md 或 todo.md 这类文件里。还有,每完成一个阶段的工作,就把上一阶段的经验教训更新到 agents.md 里。第三点是当一个计划完成并且代码合并后,把这个工作的设计文档添加到项目的知识库中(.codex/knowledge)。这些都是我会在一开始提需求时就放进去的内容。

    第二个阶段就是漫长的调查、研究和分析的阶段。这个阶段其实基本上不需要人做什么事情,而且 Agent 的效率比人高得多,你只需要等着就好。唯一需要注意的就是在 Research 的过程中,我通常会告诉模型它拥有无限的预算和时间,尽可能充分地进行调研。另外,如果你的模型有推理深度的参数的话,我建议在这个阶段把它们全部调到 xhigh 的级别。虽然这会让过程变慢,但在这个阶段多烧一些 token、做好更好的规划、了解更多上下文,对后续的实现阶段会更有帮助。

    实现阶段没什么特别好说的,反正我现在基本不会一行行去看 AI 的代码。我觉得在实现阶段唯一要注意的就是,要么你就让 AI 完全去做,要么你就完全自己做,千万别混着来,我目前是倾向于完全零人工干预的模式效果更好。

    第四个阶段人就变得非常重要了,那就是测试和验收结果的阶段。其实在我个人和 AI 开发项目的过程中,我 90% 的时间和精力都花在了这个阶段:也就是如何评估 AI 的工作成果,我觉得在 Vibe Coding 时:There's a test, there's a feature,你只要知道如何评估和测试你要的东西,AI 就一定能把东西给你做出来。另外值得注意的是,AI 在实现过程中会自动帮你添加很多单元测试,但说实话,这些单元测试在微观层面基本都能通过,毕竟 AI 写这种局部代码时已经很难出 bug。

    但 AI 不擅长的是集成测试、端到端测试。比如在开发一个 SQL 数据库时,哪怕每个细节的单元测试都没问题,但整合到一起时集成测试可能会出错。所以我在完成大目标前,我一定会先和 AI 一起做一个方便的集成测试框架,并提前准备好测试的基础设施,收集和生成一些现成集成测试的用例,尽量一键能运行那种,这样在开发阶段就能事半功倍,而且关于如何使用这些测试的基础设施的信息,我都会在正式开始前就固化在 agents.md 里,这样就不用每次沟通的时候都再告诉它该怎么测试了。

    关于测试从哪来的问题,我自己的经验是你可以让 AI 帮你生成,但一定要告诉它一些生成的逻辑,标准和目的,另外就是千万不要把生成测试的 Context 和实际进行开发工作的 Agent 的 Context 混在一起。

    第五个阶段是重构和拆分。我发现当前的 Coding Agent 在面对单一模块复杂度超过大约 5 万行代码之后,就开始很难在 1-shot 里把问题一次性解决掉(但反过来这也意味着,只要任务复杂度控制在这个阈值之下,在一个足够好的 first prompt 驱动下,很多事情确实可以做到 1-shot AC),Agent 通常不会主动去做项目结构和模块边界的治理,你要它把功能做出来,它恨不得把所有东西都写进几个几万行的大文件里,短期看似很快,长期就是债务爆炸。我自己在这个阶段的做法通常是先停下来,用自己的经验进行模块拆分,然后在新的架构下进行 1~2 轮的重构,之后又可以高并发度的进行开发了。

    多 Agent 协同编程的一些实践

    前面提到我现在使用 Coding Agent 的时候,通常不会只用一个,我自己的工作流会尽量让多个 Coding Agent 同时工作。这也是为什么有时候在一些项目上会花掉好几千美金,因为你必须把并发跑起来。当然,并发和吞吐是一方面,但另一方面我觉得让不同的 Agent 在不共享上下文的前提下互相 Review 工作,其实能显著提高质量。

    这就像在管理研发团队时,你不会让同一个人既当运动员又当裁判。相当于 Agent A 写的代码交给 Agent B 来 Review,往往能发现一些 A 看不到的问题。通过这样的循环往复,你就会更有信心。

    例如,我在实际工作中现在用得比较好的一个工作流是这样的:首先让 GPT-5.2 在 Codex 下生成多个功能的设计文档,做出详细的设计和规划,第一阶段把这些规划文档都保存下来。然后在第二阶段,依然用 Codex 根据这些需求文档一个一个去实现功能。在实现的过程中,就像我前面提到的那样,记录 To-Do、经验教训,并在接近完成的时候,在代码通过测试并准备提交之前停下,把当前的工作区交给另一个 ClaudeCode 或 OpenCode,在不提供上下文的情况下,让 ClaudeCode 来 Review 当前还未提交的代码,根据设计提出修改建议。然后再把这些建议发回给 Codex,让 Codex 来评论这些建议,如果有道理就修改代码。改完之后,再让 ClaudeCode (Opus 4.5) 那边再次 Review,直到双方都觉得代码已经写得很不错了,再提交到 Git 上,标记这个任务完成,更新知识库,然后进入下一个功能的开发。

    另外在一个大型项目中我会同时开多个 Agent (in different Tmux) 并行开发多个功能,但我尽量让它们负责完全不同的模块。比如一个 Agent 修改内核代码,另一个 Agent 做前端界面,这样就能分开进行,如果你需要在一份代码上做一些彼此不太相关的工作时,可以利用 git 的 worktree 让多个 Agent 在不同的 git 分支上各自工作,这样也能快速提升吞吐量。

    未来的软件公司和组织形态

    未来的软件公司会是什么形态呢?反正从我自己的实践和与一些朋友的交流来看,至少在当下,团队中用 Coding Agent 的 token 的消耗呈现出一个非常符合二八定律的分布,也就是说,最头部的用 AI 用得最好的工程师,他们消耗的 token 可能比剩下 80% 的工程师加起来还要多,而且 Coding Agent 对于不同工程师产出(质量,吞吐)的增益是不一样的,这个方差非常大,也就是对于用的最好的一群人,他们的增幅可能是 10x,但是普通人可能也就是 10%,而且唯一的瓶颈是人工的 code review 和一些无法被自动化的线上运维工作(我觉得也很快了)而且这样的特点能够让这些头部的工程师在 AI 的协助下可以无边界的工作,也就是会有越来越多的 one-man army 出现,只是目前我认为和 token 消耗是正相关的,你能花掉多少 token,大致代表你能做得多好。

    另外我发现一个很有趣的现象,同样是 10x 的工程师,他们各自的 Vibe Coding 工作流和最佳实践其实并不相同。也就意味着,两个顶尖的 Vibe Coder 是很难在一个项目中(的同一个模块)协作。这种工作方式更像是头狼带着一群狼群(Agents),在一片自己的领地里面耕耘,但是同一片领地里很难容纳两匹头狼,会造成 1+1 < 2。

    在这样的组织形态下,我觉得传统意义上的“团队协作方式”会被重新定义。过去我们强调的是多人在同一个代码库、同一个模块里高频协作,通过评审、讨论、同步来达成共识;但在 Vibe Engineering 这种模式下,更有效的方式反而可能是强解耦的并行。管理者要做的是把问题切分成足够清晰、边界明确的“领地”,让每一个头部工程师带着自己的 Agent 群,在各自的领域里做到极致。

    从管理的角度看,这其实是一个挺大的挑战。因为你不能再用统一流程、统一节奏去约束所有人。对顶尖的 Vibe Coder 来说,过多的流程和同步反而会显著拉低效率,甚至抵消 AI 带来的增益。管理者更像是在做“资源调度”和“冲突隔离”:确保不同头狼之间尽量少互相干扰,同时在必要的时候,能够通过清晰的接口、契约和测试来完成协作。

    因为上面的种种,AI-Native 的研发组织其实很难自底向上从一个非 AI-Native 的组织中生长出来,因为大多数开发者面对变革的时候的第一反应其实并不是拥抱,而是回避和抵触,但是时代的进步不会因为个人的意志转移,只有主动拥抱和被动拥抱的区别。

    大概就写到这里吧,总的来说,在这样一个大环境下,对个人而言意味着一场深刻的转变,就像我之前在朋友圈里提到的,我身边最好的工程师们有一些已经陷入了或多或少的存在主义危机。

    但是作为具体的 Builder 的我来说是兴奋的,因为造物,在当下,门槛变低了许多,如果你能从造物中能获得成就感和找到人生的意义,那恭喜你,你活在一个最好的时代。但反过来,作为一个抽象的 “人” 来说,我又是悲观的,人类是否准备好面对这样的工具?以及这样工具带来的对于社会和整个人类文明的冲击?

    我不知道。

    近年来,随着AI大模型、传感器技术和机器人硬件的进步,具身智能(Embodied AI)逐步从理论探索迈向实际部署。2025年后,行业进入“生态构建”关键期,企业与政府开始联合推进标准化、平台化和开放化发展 。2026年被视为具身智能实现多场景渗透与产业闭环验证的重要节点。OpenAtom openKylin(简称“openKylin”)社区作为以技术创新为目标的根社区也已经着眼布局此领域。

    在 Community SIG 的协调组织下,openKylin 社区 ROS SIG、OpenLoong SIG、RISC-V SIG、Release SIG 四大 SIG 凝心聚力、分工协作,正式启动 RISC-V 架构具身智能人形机器人适配计划,此次计划填补了社区在具身智能人行机器人领域的生态空白。
    联合SIG工作计划
    01openKylin适配运行
    在2026年2月上旬,基于openKylin桌面版本完成ros2 jazzy core/base/desktop 在超睿物理硬件平台上的可运行验证。确保核心包可以正常安装卸载,模拟程序(如 turtlesim)可以正常运行。
    02测试验证ROS软件包
    在2026年3月中旬,开始基于机器人真机和openKylin系统测试验证 ROS 软件包。并在3月下旬基于人形机器人进行功能演示。
    03贡献ROS代码和补丁
    完成所有功能测试和演示后按照社区规范向 openKylin 社区贡献 ROS相关代码和补丁。目前该计划聚集上海苦芽科技有限公司、先进计算与关键软件海河实验室、麒麟软件有限公司、OpenLoong社区、超睿科技(上海)有限公司。

    openKylin社区也欢迎更多对此计划感兴趣的组织加入,共同推动RISC-V架构具身智能人形机器人的生态繁荣!

    AI重构汽车制造业——从“制造”到“智造”的范式跃迁
    工业AI正在深刻改变汽车制造业的面貌,推动行业从传统的“中国制造”向“中国智造”迈进。这种变革不仅仅是技术层面的进步,更是整个产业生态的重构。在研发设计阶段,AI大模型的应用使得车辆设计从概念到落地的时间大幅缩短。例如,造型设计、仿真建模、工艺规划等环节,通过AI的深度学习和推理能力,可以快速生成优化方案,减少对传统经验的依赖。
    在生产制造环节,工业AI的深度应用则体现在对生产流程的实时监控和优化上。传统制造中,生产过程往往依赖人工经验,而工业AI通过数据驱动的方式,能够动态调整工艺参数,提升生产效率和质量控制水平。
    政策与技术双轮驱动——中国车企的AI突围之路
    在工业AI与汽车制造业深度融合的背景下,政策的支持无疑为企业提供了重要的方向指引。2026年,工业和信息化部等八部门联合印发的《“人工智能+制造”专项行动实施意见》,明确提出要培育3-5个工业通用大模型、打造100个高质量工业数据集,并推广500个典型AI应用场景。这一政策不仅为汽车制造业的AI转型提供了明确的目标,也为企业之间的合作与创新创造了有利条件。
    中国车企在政策的引导下,正积极探索AI技术的落地应用。例如,吉利集团通过整合旗下品牌(包括吉利汽车、极氪、领克等),构建了覆盖全业务流程的AI智能体矩阵。这些智能体不仅能够辅助生产调度,还能优化供应链管理,甚至在售后服务中提供智能化支持。在某整车基地,这套系统成功将新车型投产周期缩短了30%,缺陷识别准确率提升了40%。
    与此同时,其他车企也在AI领域取得了显著进展。比亚迪自研的“天神之眼”高阶智驾系统,通过引入端到端大模型,实现了复杂路况下的智能驾驶决策。
    工业AI的实际案例——多家企业的实践
    工业AI在汽车制造业的应用不仅停留在理论层面,更在多个企业中取得了实际成效。以广域铭岛为例,该公司凭借其完备的工业AI+解决方案,成功助力多家工厂实现智能化升级。例如,在衢州极电三电智能制造工厂,广域铭岛的QAL质量分析平台将全工序97项容量相关参数进行全面排查,有效解决了以往依赖人工手动追溯导致的低效问题。
    东风汽车通过与华为的合作,将AI技术深度集成到其生产线中,实现了生产过程的实时监控和优化。
    广汽集团则借助其在智能驾驶领域的积累,推出了多款搭载L3级自动驾驶技术的车型,标志着中国车企在智能化领域的领先地位。