mac-space-cleanup skill:让 agent 在确保安全的前提下,自助判断每一个可疑文件,最大限度清理 mac 的磁盘空间

主打安全,省心,因地制宜~

开源、免费、免安装,欢迎大家试用和反馈~

#macspacecleanup #skill

图片和链接可以到 x 上看一眼: https://x.com/i/status/2046400360844022085

也请大家关注一下我的 x 账号,会持续分享我的最新想法和产品!

利益相关声明:文中包含营销(如促销活动)和推广(如返利链接)信息

Quote/0 上线快一年了。 

这个功能简单的小组件,意外成为了几万人的桌面伴侣。有人把它放在工位,工作焦虑时看一眼;有人把它挂在包上,作为日常的随身点缀。

我们从用户的反馈中读懂了大家喜欢它的原因:它不争夺注意力,没有信息流,只提供一份简单的确定感。 现在,我们推出了 Quote/0 的延续新品——口袋先知

口袋先知是什么

口袋先知是一款专为日常决策和轻量陪伴打造的包挂,它采用不发光的墨水屏和极简交互逻辑,体积小巧,可以随手放进口袋、挂在包上或摆在桌角,无缝融入你的日常,也可以随时拿起来把玩。

核心能力

我们将实用与趣味结合,内置了以下功能:

  • 人格指南:基于 MBTI 的专属指引。不同于随机的文字,它的表达更贴合不同人格的频率(如给 INFP 的温柔提醒,给 ENTJ 的行动指令),还能解锁匹配人格的提示。
  • 答案之书:内置 350 条中英文随机答案。在你犹豫不决时,给你一个行动的出口。
  • 时势运势:提供每日幸运色和「宜 / 忌」,为生活增加一点仪式感。

口袋先知同时也内置了大量实用工具:

  • 翻页遥控:蓝牙连接,可控制电子阅读器翻页。
  • 掷骰子:感应电子骰子,支持 1、3、5、9 个数量切换。 
  • 快速决策:1 秒给出结果,解决纠结。 
  • 日历与时间:Wi-Fi 自动校时。
  • 自定义锁屏:支持上传照片转换为 4 灰度显示(预计上市两周内公测)。
  • NFC:目前添加 NFC 卡片功能,同时我们将会在产品包装内放置专属二维码,更低门槛上手 NFC 门禁、电梯卡添加功能(预计上市两周内公测)。

设计的取舍

为了让它能真正进入日常,我们对形态做了克制的选择: 

  • 体积:极致控制体积,造型圆滑,手感轻便,无需专门腾出位置存放。 
  • 屏幕:坚持使用墨水屏。不刺眼、不主动干扰,静静待在角落。 
  • 交互:最大程度简化。两个按键(短按/长按)配合「摇一摇」触发,用干脆的物理动作打断纠结。 
  • 长效:保留 Wi-Fi、蓝牙和 OTA 升级能力,支持多语言切换,它也可以是你手里持续更新的电子卡片。

最后,我们也为Quote/0 摘录、Rand/0 口袋先知开启产品讨论专区,欢迎前往讨论。

「口袋先知」众测招募开启

在这里,我们也想邀请 30 名少数派用户参与「口袋先知」的社区众测,我们将为大家提供「口袋先知」产品免费体验资格,测试后无需寄回产品。

如果你感兴趣,请在 2026 年 4 月 27 日 23:59 前扫描下方二维码填写申请表单。我们将通过站内信或你提供的联系方式发布入围通知并联系邮寄。

直播开售预告

我们也将于本周四在小红书@少数派共创、视频号@少数派、抖音@少数派 开启直播预售,关于产品的任何问题也欢迎大家前往直播与我们共同探讨。

  • 直播时间:2026.4.23(周四)晚 19:30
  • 直播嘉宾:MindReset 思维重置团队

> 下载 少数派 2.0 客户端、关注 少数派公众号,解锁全新阅读体验 📰

> 实用、好用的 正版软件,少数派为你呈现 🚀

    📢提示:资源链接地址放在文章结尾👇👇,往下翻就行

    📢提示:资源链接地址放在文章结尾👇👇,往下翻就行

    《高压监狱》是一部法国电影,以独特的视角揭示监狱环境中的权力斗争、人性挣扎与对自由的渴望。影片背景设定在戒备森严的监狱,囚犯们在压抑与欲望中挣扎。女记者安娜为揭露监狱腐败深入调查,与囚犯皮埃尔从敌对到建立信任,共同策划越狱。电影通过细腻的镜头语言和真实的场景再现,展现了囚犯们在高压环境下的生存状态及对自由的追求。影片不仅是一部紧张刺激的越狱片,更深刻探讨了人性、压迫与救赎等主题,揭示了社会中的阶级不公和制度性压迫,引发观众对自由与选择的思考。

    《高压监狱》(尽快保存,随时失效)

    链接:https://sourl.cn/RmgRF9

    (手机用户长按复制打开即可)

    复制上方网盘链接到浏览器搜索打开即可保存观看,资源完全免费,集于互联网公开分享资源

    前置准备

    • 一台 iPhone 或 iPad
    • 一个可用的电子邮箱( Gmail 、Outlook 等)
    • 一个可以接收短信或者接听电话的电话号码
    • ⚠️ 注意:注册地区 = 当前装置的系统地区设定,请在注册前先确认装置地区是否正确


    第一步:确认装置地区

    前往 设置 → 通用 → 语言与地区 → 地区,语言无需修改,确认地区与你想注册的 Apple ID 地区一致。

    例如:想注册美区 Apple ID ,请将装置地区设为「美国」,尼日利亚同理。


    第二步:进入邮件账户设置(重要‼️)

    1. 打开设置 App
    2. 向下滚动,点击「邮件
    3. 点击「账户
    4. 点击「加入新账户
    5. 在列表中选择「iCloud


    第三步:创建 Apple ID

    在 iCloud 登录页面,点击「创建 Apple ID


    第四步:填写基本资料

    栏位 说明
    生日 填写生日日期
    姓名 填写姓与名


    第五步:使用现有邮箱注册

    1. 选择「使用现有的电子邮件地址
    2. 输入你的邮箱地址(如 Gmail / Outlook )
    3. 点击「继续」


    第六步:设置密码(需要记住)

    • 密码需包含:大写字母、小写字母、数字
    • 长度至少 8 位
    • 设置完成后点击「继续」


    第七步:同意条款

    • 系统会自动带入装置地区(即注册地区)
    • 阅读并点击「同意」服务条款


    第八步:验证手机号码

    1. 输入你的手机号码
    2. 选择接收方式(短信 SMS 或电话)
    3. 输入收到的验证码,完成验证


    ✅ 注册完成后——前往 Apple 网站激活并绑定邮箱

    注册完成后,必须登录 Apple 官网完成邮箱绑定激活,否则帐号功能可能受限。

    操作步骤:

    打开浏览器,前往 👉 https://appleid.apple.com

    右下角地区选择你需要注册的地区(比如美区 USA ,尼日利亚区 Nigeria )

    使用刚注册的 邮箱 + 密码 登录

    登录后系统会发送验证码到你的邮箱(可能会直接弹出 6 位数验证码 到屏幕)

    打开邮箱,找到来自 Apple 的验证邮件,将 6 位数验证码 输入完成验证

    进入帐号页面后,确认「联络资讯」中邮箱显示为已验证状态

    检查帐号地区是否正确显示

    完成以上步骤后,Apple ID 即正式激活,可用于 App Store 、iCloud 等所有 Apple 服务。


    ⚠️ 常见注意事项

    • 注册期间不要更改装置地区,否则可能导致注册地区与预期不符
    • 邮箱验证码有效期较短,请尽快填写
    • 若注册后无法登录 App Store ,检查付款方式是否需要设置为「无」

    如需转载请注明出处。


    来自 Tim 的一封信
    https://www.apple.com.cn/community-letter-from-tim/

    尼日利亚区 6.2 折购买 Claude Pro 的讨论👇

    https://www.v2ex.com/t/1201760

    关于土耳其区的讨论👇

    https://www.v2ex.com/t/1206961

    当国产替代进入下半场,CRM的竞争焦点正在从功能覆盖转向场景深耕和智能赋能。

    近几年,国内CRM市场经历了从“怀疑观望”到“积极拥抱”的转变。根据IDC发布的《2025年中国CRM应用市场跟踪报告》,全年市场规模已达678亿元,超过83%的企业在选型时会优先考虑适配本土场景的国产方案。市场共识已经形成:国产CRM不再是国际巨头的廉价替代品,而是更适合中国商业土壤的数字化工具

    然而,当“替代”成为常态,新的问题随之而来:面对数十家本土厂商,企业如何才能选到真正“好用”的CRM?本文将从行业视角出发,拆解国产CRM从“能用”到“好用”的关键跨越,并结合典型厂商实践,探讨一条切实可行的选型路径。

    一、为什么很多企业卡在“能用但不好用”的困境?

    不少企业都有类似体验:系统上线时轰轰烈烈,销售培训也全员到位,但三个月后一线使用率断崖式下跌。管理者打开后台,看到的依然是大量空白的跟进记录和过期的商机提醒。这种“用起来了,但没用好”的状态,根源在于三个核心矛盾尚未解决:

    1. 标准化产品与个性化业务的冲突:通用流程无法覆盖企业特有的报价逻辑、审批链条和业绩分配规则。
    2. 数据录入负担与业务赋能期待的错位:系统要求销售花时间“填表”,却没能告诉他下一个订单该从哪里来。
    3. 工具思维与增长思维的落差:系统只做记录和统计,缺乏主动洞察和预警能力。

    因此,CRM从“能用”到“好用”的跨越,本质上是从“流程记录工具”向“业务增长引擎”的进化。这一进化依赖三个关键能力:行业化适配、AI场景融合、以及贴身服务。

    二、行业化深耕:告别“万金油”,走向“专用工具”

    国际CRM之所以在中国市场屡屡水土不服,很大程度上源于其“一套架构打天下”的产品哲学。而中国企业千行千面的特点决定了——没有行业Know-how沉淀的CRM,落地效果必然打折

    当前,头部国产CRM厂商普遍选择走“行业化”路线,针对不同垂直领域提供预配置的专属方案。以国内厂商珍客AI CRM为例,其行业化策略具有一定代表性:

    • 制造业场景:针对非标产品报价复杂、产销协同困难的问题,系统预置了CPQ(配置-定价-报价)引擎,并与主流ERP系统实现库存、生产进度数据的双向同步。销售在手机端即可完成精准报价,AI辅助推荐最优物料组合,从源头降低“接单后无法交付”的风险。
    • 高科技/SaaS场景:聚焦线索质量评估和转化效率提升,内置基于历史成交数据训练的线索评分模型。新线索进入系统后,AI自动输出优先级和跟进建议,帮助销售把精力聚焦在高意向客户身上。
    • 专业服务场景:围绕项目制业务的管理痛点,打通“立项-工时-报销-开票”全链路,项目毛利率、回款进度等核心指标实时可查,帮助服务型企业实现业财一体化管理。

    这种行业化思路的核心价值在于:交付给客户的不再是一个空白的通用平台,而是一套经过同行业实践验证的“最佳业务实践模板”。企业上线时无需从零配置,实施周期和试错成本显著降低。

    三、AI能力:从功能点缀到工作流嵌入

    如果说行业化解决的是“业务适配”问题,那么AI要解决的就是“效率倍增”问题。当前不少CRM产品的AI功能仍停留在“独立对话框”或“一键总结”的阶段,与核心业务流程存在割裂感。

    真正的“AI原生”设计,应当让智能能力像水电一样,在用户需要的场景中自然浮现。继续观察珍客AI CRM的产品逻辑,其做法是将AI能力拆解后嵌入具体的工作节点:

    工作场景AI介入方式产生的业务价值
    客户沟通后自动转录电话/会议录音,生成结构化跟进摘要销售每天节省30分钟文书时间
    商机推进中分析停留时长、互动频率、竞品提及等信号,动态计算“赢率指数”低于阈值时自动预警,防止商机“沉睡”
    新人培养期根据当前客户画像,推送相似场景下的成功话术和案例新人上手周期从3个月缩短至2周
    合同签订前自动校验信用额度、库存状况、价格政策减少人工复核环节,规避履约风险

    这种“场景触发、主动服务”的AI模式,让一线人员感受不到“我在用AI”,只感觉到“这个系统挺聪明的,知道我需要什么”。这才是AI在B端软件中应有的落地姿态。

    珍客AI CRM

    四、服务与安全:国产软件的本土化优势再审视

    服务响应速度,历来是国产软件相较于国际竞品的突出优势。但在国产厂商内部竞争中,服务能力的差异同样明显。优秀的厂商不仅提供技术支持,更能提供业务咨询服务

    目前,部分头部厂商已建立起“行业专家+技术顾问”的复合型服务团队。例如珍客CRM的服务体系强调“懂行业”属性——制造业的实施顾问拥有多年生产管理背景,SaaS行业的客户成功经理自身就是增长运营出身。这种配置意味着在系统实施过程中,厂商不仅能教会客户“怎么用”,还能协助梳理业务流程、给出优化建议。

    在数据安全层面,合规已是基础门槛。更值得关注的是部署灵活性:是否支持公有云、私有云、本地化多种部署模式?是否提供字段级权限控制?是否具备国密算法加密能力?这些细颗粒度的安全能力,才是强监管行业(金融、国央企、拟上市公司)选型时的核心考量点。

    五、从“替代”到“首选”:选型逻辑正在被重塑

    回顾国产CRM的发展轨迹,早期打动客户的是性价比和合规性——比国际品牌便宜,数据不出境。但当下,让越来越多企业将国产CRM作为首选的,是产品力、行业理解力和AI融合能力的综合胜出。

    当企业寻找的不再是“Salesforce的平替版”,而是一个能真正帮业务增长的数字化伙伴时,选型标准自然升级。那些在特定行业有深度案例、AI能力真正融入业务流程、服务团队具备咨询能力的厂商,会更容易获得客户信赖。

    六、给企业的三点选型建议

    基于以上分析,建议正在选型的企业从以下三个动作入手:

    1. 带着真实业务场景做POC:不要只看厂商的标准演示,拿自己公司的一笔典型业务(从线索到回款)完整跑一遍流程。观察系统在非标报价、审批流转、跨部门协同等关键节点是否流畅。
    2. 重点考察厂商的行业标杆案例:要求提供同行业、同规模客户的详细案例,并与对方的客户成功负责人直接交流,了解上线后的真实使用情况和遇到的坑。
    3. 评估AI能力是否“即插即用”:询问AI功能的训练周期和冷启动方案。一个好的AI系统应该能在短时间内基于企业历史数据产出可用模型,而非要求企业投入数月进行数据清洗和标注。

    结语

    从“能用”到“好用”,国产CRM正在经历一场深刻的质变。这场质变的核心,不是营销概念的更迭,而是产品哲学从“功能覆盖”向“价值交付”的回归。对于企业而言,选型时少一分对品牌光环的迷信,多一分对业务适配和实际落地效果的审视,才能找到那个真正能让销售团队“用起来、离不开”的数字化伙伴。

    站友们在上班 / 放假中,闲下来了会做些什么打发时间呢?感觉没有兴趣爱好之后一到空闲时间就有点发慌sobbing

    AI 时代的“开发者圣地”:深度解读 Hugging Face 与魔搭社区

    大家好,我是彪哥。

    在传统的编程时代,GitHub 是所有人的信仰。但到了 2026 年,如果你只盯着 GitHub,

    就像是在工业时代只盯着打铁铺,却没看到不远处的发电厂。

    AI 的爆发让软件开发从“逻辑驱动”转向了“模型驱动”。

    在这种大环境下,Hugging Face和魔搭应运而生。

    它们不再仅仅是存代码的地方,而是 AI 的“兵工厂”和“武器库”。

    本文将带你深入这两个社区,看清它们是如何重塑我们这些“硬核开发者”的生产力的。


    一、 Hugging Face:AI 界的“瑞士”与全球标准

    image-20260421015721004

    如果说 AI 圈有一位“带头大哥”,那一定是 Hugging Face。

    1. 从“库”到“生态”的华丽转身

    最初,Hugging Face 只是因为开源了 Transformers 库而走红,让大家能一键调用 Google 和 Facebook 的模型。

    但现在,它已经成了 AI 界的“基础设施”。

    它的核心魅力在于三个词:开放、标准、共享。

    2. 三大核心功能

    Models(模型库): 这里是全世界最全的“脑子”仓库。无论是 Meta 的 Llama 系列,还是 Google 的 Gemma,发布后的第一站一定是这里。

    image-20260421015820945

    Datasets(数据集): AI 的成长离不开“投喂”。这里存储了海量的多模态数据,是模型训练和微调的原材料基地。

    image-20260421015837202

    Spaces(创空间): 这是最让开发者省心的功能。它利用 Docker 和 Streamlit 这种技术,让你能在几分钟内把一个死冰冰的模型,变成一个能跑、能点、能互动的网页 Demo。

    image-20260421015951120

    3. 商业逻辑:做中转站和储存商

    Hugging Face 现在的生意做得很聪明。它不仅存模型,还通过 Inference API 把模型“跑起来”卖给你。

    你不需要昂贵的显卡,只需要接通它的 API,就能拥有顶级的 AI 能力。它已经从一个社区,变成了一个全球模型分发的中转站。

    他还提供模型储存服务,主要是面对企业的。


    二、 魔搭社区(ModelScope):中国开发者最强“算力后盾”

    image-20260421020203525

    如果说 Hugging Face 是全球标准,那么阿里做的魔搭社区,就是中国开发者最实在的“算力加油站”。

    1. 本土化优势:更懂中国心

    魔搭最大的优势在于它对国产大模型的深度支持。

    比如通义千问(Qwen)DeepSeek 等在国内爆火的模型,在魔搭上不仅资源全,而且还有大量的中文教程和应用案例。

    image-20260421020304731

    2. 暴力美学:大方的算力馈赠

    对于咱们这些“抠门”但好学的开发者来说,魔搭最香的地方莫过于它的算力平台

    在海外平台,你可能为了几小时的 A100 显卡额度还要绑定信用卡、排队。但在魔搭,它经常提供免费的 GPU 实例,这种“算力普惠”的打法,直接降低了普通人玩 AI 的门槛。

    image-20260421020340476

    3. MCP 广场“即插即用”

    它出了一个 MCP 广场,是可以“拿来就用”的。

    不管是抓数据的、查资料的,还是调 API 的,各种节点都已经标准化了。

    你不需要去研究复杂的协议底层,直接像“堆乐高”一样把这些技能塞进你的 AI 里,分分钟就能跑出一个能干活的 Agent。

    image-20260421020450837


    三、 深度解读:全球视野 vs. 本土实战

    把这两个平台放在一起看,你会发现它们其实是互补的关系。

    1. 资源布局对比

    Hugging Face: 它是“学术和创新的尖端”。最前沿的论文代码、全球性的开发者讨论都在这里。如果你的目标是“出海”或者做全球化软件,这里是必经之路。

    魔搭: 它是“落地的先锋”。它解决了国内访问慢、算力贵、中文支持差的痛点。如果你的业务是在国内,或者你需要高性价比的算力支持,魔搭是首选。

    2. 开发者生态

    Hugging Face 的社区更像是一个极客广场,大家更关心协议(如 MCP)、标准和通用性。

    魔搭 的社区更像是一个实战训练营,大家更关心怎么把 Qwen 部署到本地,怎么用低显存跑大模型,非常务实。


    四、 为什么开发者必须同时占领这两个高地?

    作为一名硬核开发者,如果你只守着其中一个,那就是在自断双臂。

    1. 消除信息差

    通过 Hugging Face,你可以第一时间感知到硅谷在发生什么。

    比如MCP,你可以在这里找到最原始的 Server 实现。

    2. 算力成本优化

    你可以把项目代码放在 GitHub,把国际版 Demo 放在 Hugging Face 积累名气,而把真正耗资源的生产、抓取和重度测试任务放在魔搭上。这种“跨国套利”的思路,能让你用最少的钱办最牛的事。


    五、 未来展望:当 AI 变成“乐高插件”

    随着 MCP 协议的普及,未来的 Hugging Face 和魔搭将不再仅仅是仓库,它们会变成 AI 的“插件中心”

    以后,我们写的爬虫、写的分析脚本,都不再需要写 UI。我们只需要按照标准写成一个 MCP Server,部署在魔搭或 Hugging Face 上。

    全球的 AI 软件(如 Cursor, Claude Code)都能通过一个 URL 直接调用我们的能力。

    这就是“万物皆可 MCP”的时代。 软件开发的门槛被极大地拉平了,拼的不再是谁的界面好看,而是谁的底层逻辑更硬,谁的数据抓得更准。


    结语:彪悍的人生,不需要解释

    无论是在 Hugging Face 上跟老外卷 Star,还是在魔搭上薅阿里的显卡羊毛,本质上都是在 AI 的浪潮中寻找自己的位置。

    对于我们这些写代码的人来说,工具在变,平台在变,但“用技术解决问题”的内核永远不会变。

    推开那扇“翻墙”的窗,你会发现外面不是荒野,而是一个充满了算力和模型的无限海洋。

    别在门口张望了,赶紧注册个账号,把你的代码扔上去跑一跑。AI 时代,慢一秒就是落后一个世纪。

    抱拳了

    感谢各位朋友捧场!要是觉得内容有有点意思,别客气,点赞、在看、转发,直接安排上!

    想以后第一时间看着咱的文章,别忘了点个星标⭐,别到时候找不着了。

    行了,今儿就到这儿。

    image-20260421021118032

    论成败,人生豪迈,我们下期再见!

    之前在这里发过一次,收获了 500 个用户,见: https://www.v2ex.com/t/1202739

    被喷的也很惨,比如很多场景不支持如云服务器续费场景、自动续费多少期、平均花了多少钱都不清楚

    也有用户认真提建议的,比如希望增加 AI 识图,这样方便从其他 App 拍个照就迁移过来,不用一个一个手动输入了

    也有用户说交互不好的,比如希望添加订阅界面能左右滑动来切换分类。

    都听进去了,都改了,AI 识图用的是 Qwen3-VL-flash ,效果很不错。

    下面是新的界面截图,有兴趣的佬可以试试

    注:旧数据会在你点进详情的时候自动迁移,无需手动操作。

    欢迎反馈,也可以在 设置-用户反馈 直接给我留言,我接了企业微信 webhooks ,发一条通知一条~

    采纳的建议我都给了 1 年的 Pro

    现在某数字货币交易所前端,女,35 ,工作 996 。现在有个军工国企航天系 offer ,但是劳务派遣签航天人才,现在有点纠结要不要去,本来为了稳定想去,但劳务派遣不知道怎么样,而且工资也要降一些。有了解国企劳务派遣的吗?

    金融注册、登录、转账、提现、授信环节的欺诈,大多能通过IP维度提前拦截。技术人员可直接通过IP查询获取属地、网络类型、代理标记、机房网段等真实字段,搭配固定风控规则、接口对接、网段黑名单,快速落地轻量化反欺诈策略,不用复杂开发,就能减少盗刷、批量养号、跨地作弊等实际问题。

    金融线上业务攻击多以批量脚本、代理伪装、异地接管账号为主,很多研发只依赖设备指纹和行为检测,缺少IP层面的基础拦截。实际风控落地中,IP维度门槛低、接入快、误可控,是技术团队最容易落地的补充手段。日常做金融风控规则迭代时,我们通常会选择接口稳定、支持高并发与批量查询的专业IP查询工具,比如IP数据云,其可直接输出结构化查询字段,覆盖属地、运营商、网络环境、风险标签,能很好适配支付、信贷、理财类业务的线上风控调用需求。

    一、金融业务中,需要拦截的4类高风险IP(实操识别标准)

    不用抽象概念,直接按技术识别维度划分,日常可直接作为拦截依据,具体汇总如下表:

    高风险IP类型识别标准风控处理方式
    跨省跨城异地IP用户常驻城市固定,出现跨省、跨大区IP登录/交易触发人脸、短信二次核验
    代理/VPN/中转IPIP被标记为代理、匿名网络、跨境中转限制注册、大额转账、授信申请
    数据中心机房IP属于云服务商、机房专属网段禁止新用户注册与实名绑定
    虚拟运营商/共享蜂窝IP多用户共用动态网段,常用于黑产批量养号做风控权限降级处理

    二、技术实操:IP查询工具4个落地用法(可直接上线)

    2.1 调用IP接口,实时解析关键字段

    业务层对接IP接口,用户每一次登录、提交订单、发起提现时,采集公网IP,实时获取核心数据:归属地省市、运营商、网络类型、机房标识、代理风险标记。无需自建IP库,减少运维更新成本,适合中小金融团队快速上线。

    2.2 配置属地强校验规则(零开发快速落地)

    结合业务场景配置硬性风控规则

    • 个人用户:登录IP与常用登录城市不一致→弹窗二次验证
    • 借贷授信:IP属地与身份证户籍地、工作地严重不符→拦截申请
    • 大额转账:短时间多地IP切换登录→临时冻结转账权限

    企业有个性化地域风控需求时(如重点风控某几个省份、区分城乡网段),可在对接IP查询工具时开启定制化服务,比如我们常用的IP数据云,可按自身业务覆盖省份、重点风控区域,自定义属地白名单、异地风险等级,适配不同金融产品线的差异化需求,不用额外开发适配代码。

    2.3 网络环境分层管控,精准降低误杀

    按IP查询返回的网络类型,做分层权限管控,避免一刀切拦截:

    • 可信环境:家庭宽带、普通4G/5G手机网络 → 正常放行
    • 风险环境:企业专线、公共WiFi → 限制敏感操作
    • 高危环境:机房IP、代理IP、境外IP → 直接拦截注册与授信

    这套分层逻辑简单易维护,运维可直接在网关、风控后台配置生效。

    2.4 搭建本地IP黑名单,联动网关拦截

    长期沉淀已核实的欺诈IP、批量作弊网段、高频攻击IP,形成内部黑名单。通过IP查询工具批量导入网段数据,同步至防火墙、Nginx、业务网关,实现访问层前置拦截,减少无效请求进入业务系统,降低接口压力与风控审核量。

    三、落地必避坑(技术实际踩坑总结)

    3.1 不单独以IP做永久拦截

    手机流量跨省漫游、出差异地登录属于正常场景,是网络使用常态。技术落地时,IP只做风险评分+预警+二次校验,不单独封号、永久拦截,避免大规模误杀正常用户。

    3.2 拒绝使用免费老旧IP库

    三大运营商每月都会调整IP网段分配,免费工具数据库更新滞后,会出现属地错乱、网段误判。金融业务对准确性要求高,建议选用定期自动更新的专业IP解析服务,保证规则判断稳定。

    3.3 风控数据合规调用

    仅在安全风控场景下调用IP解析数据,不收集、不滥用用户位置信息,符合金融隐私监管要求,做到风控与合规并行。

    四、运维长期维护方案(稳定运行实操方法)

    1. 接入标准化HTTP/HTTPS查询接口,支持毫秒级响应,适配金融高并发交易峰值;
    2. 每周导出异常IP报表,复盘误判案例,放宽出差、漫游等合理场景;
    3. 定期同步全网新增机房网段、代理池IP,保持风控规则时效性;
    4. 内网办公IP、专线网段加入全局白名单,防止内部测试、办公被误拦。

    五、总结

    对技术人员而言,IP反欺诈不是复杂架构改造,而是低成本、快落地的基础风控补充。依靠IP查询工具字段解析、环境识别、属地校验,就能解决金融场景里大部分批量作弊、异地盗刷、代理伪装等实操问题。想要长期保证解析稳定、规则可定制、高并发不掉线,可选择适配金融场景的专业IP查询工具,其高频更新的IP数据库、业务化定制配置、金融级稳定接口,能帮助技术团队用轻量化方式补齐反欺诈能力,实实在在降低线上欺诈工单与资金风险,我们目前使用的IP数据云就具备这些特性,可直接对接现有风控系统,无需额外改造。

    前面的话:

    作为长期关注 Voice Agent 的开发者社区,大家最近可能会好奇:为什么我们开始将目光投向了 Visual Agent?答案其实很直觉:在下一代 AI 终端的交互界面里,「说」与「看」最终一定会融为一体。

    随着多模态模型的逐渐成熟,我们看到像 Chance AI 这样的先锋团队,正在和一群被称为「Vision Native」的年轻新用户,共同探索这种全新的交互可能。

    如果你对 Visual Agent 的认知,还停留在「像 Google Lens 那样拍照找同款」,或者认为它只是 ChatGPT、Gemini 附带的一个通用图像识别功能,那你大概率会错过下一个时代的重要入口。

    为什么要做一款垂类的视觉 Agent 产品?这篇访谈把背后的认知说得极其透彻,推荐阅读。

    不仅要读,我们更欢迎你来现场一起思考。

    这周六(4 月 25 日)下午,我们将在杭州云谷中心举办一场以「Visual Agent 和 Context Awareness」为主题的 meetup。届时,Chance AI 的联创也会加入讨论。

    同期参与讨论的,还有深耕大模型、视觉理解、语音以及物理 AI 硬件的朋友们。嘉宾阵容包括蚂蚁百灵大模型、声绘未来、湃启科技、Rokid、Cerul.ai 以及 Agora。

    无论这周六你能不能来现场,这篇长文都值得你花十分钟仔细看完。👇


    一款 AI 产品出现在了国际顶级的艺术展览中,而且是充当解说员的身份。

    上周,亚洲当代艺术博览会 Art Central 落幕。Chance AI 作为这届博览会官方引入的首个 AI 产品,负责帮观众解读艺术品。观众举起手机,对准一幅画,拍照即交互,听 AI 解释:这件作品为什么成立,它背后意味着什么。

    创始人曾熙给这套系统起了个名字「Visual Agent」。核心逻辑是,让 AI 先看懂,再开口。

    认知科学 PhD 背景的曾熙,曾在一加、OPPO 和字节跳动做过十多年的产品与设计。他相信,尤其是 Z 世代的年轻人,天然地习惯通过图像和直觉去理解世界。

    「AI 与人类不应该是一个输入框的关系。更直觉的方式是:我一看,AI 就已经理解我需要什么。」

    Chance AI 第一次把这套人类认识世界的方法,带进了 Agent 的 Harness Engineering 里。在视觉理解的核心 Benchmark MMMU 上,Chance AI 目前排名世界第一,准确率 86.07%,超过了人类评分(85.4%)和所有主流大模型。

    以 Visual Agent 为切入点,Chance AI 发布后在推特上引起了 AI 行业不少硅谷大 V 的讨论,AK、Robert Scoble、Rohan Paul、Madza、Parul Gautam 等大佬都点赞转发。产品目前已有 20 万用户,高校 Z 世代人群居多。

    再往下一步,Chance AI 想让 Visual Agent 成为下一代的 AI 终端入口。「视觉,才是人类最直觉的操作系统。」

    以下是 Founder Park 与 Chance AI 创始人曾熙的对话,经编辑整理。

    产品官网:

    https\://www.chance.vision/

    采访 | 万户

    编辑 | 夏天

    01 产品最初的 MVP 验证,是一款导览小程序**

    Founder Park:简单介绍一下团队和你个人的过往经历。


    曾熙: 我过去在一加、OPPO 和字节跳动工作,做了十几年的产品和设计,主要都是在做消费电子方向。从手机硬件到手机操作系统,再到 AI 应用,加起来做过差不多近 6 亿级别用户规模的产品了。也是在字节的那一段时间,我开始更深入地参与 AI 产品的构建,尤其是多模态相关的探索。

    我自己的学科背景其实有一点不一样,PhD 研究方向是认知科学。我一直在思考一个问题:人是如何最直觉地理解这个世界的?这也是我后来做 Chance AI 的起点,不是说 AI 能做什么,而是反过来推导:AI 如何帮助人们更好地在现实生活中去理解世界,然后进入下一步决策。

    团队方面,大部分是我在这三段经历里认识的、合作特别好的同事。尤其是负责视觉推理和算法的、海外增长的同学,都是之前共事的同事。

    Founder Park:什么契机决定离开大厂,全身心投入 Chance AI?当时看到了什么机会?


    曾熙: 主要是有三个时刻。第一个是我在字节做豆包的时候。2024 年的时候发现很多人喜欢在豆包里上传图片,然后和豆包聊。当时隐约觉得一种新的交互习惯要出现了。

    第二个时刻是 VLM 的出现。GPT-4o 第一次有了很强的多模态能力。我们当时就在思考,基于 VLM 能不能做出应用层的东西?很多人基于 LLM 做东西,但还没有人基于 VLM 做东西。

    第三个是真正让我们下定决心的时刻。2024 年底,我们几个朋友在深圳做了一次 Andy Warhol 的展览。我们做了一个 AI 导览小程序,所有人进来后扫描会场里的画,然后与作者进行对话。展览结束三个月后,我们发现竟然还有 1500 个用户持续地用这个小程序去看生活中的东西。我们去回访这些用户,发现他们用来给小朋友看花草、看名胜古迹、看收藏的球星卡和潮玩,或者看想买的东西。

    当时我们认为这是真实存在的需求。从那之后,到了 2025 年初,我从字节离开,决定全职做这件事。

    Founder Park:怎么介绍目前你们的这款产品?


    曾熙: Chance AI 是一款视觉 Agent 产品。打开 App 之后,没有输入框,只有一个相机。拍照即交互——对准花草、名胜古迹、球星卡,或者任何你感兴趣的东西,AI 就开始工作。

    我们不叫自己「AI 相机」或者「视觉搜索」,而是 Visual Agent。因为在我们理解里,它是一个更主动的、和你一起参与的系统——它不是等你输入再响应,而是参与你整个看世界的过程。核心逻辑是:让 AI 先看懂,再开口。

    02 Visual Agent 的核心,是帮用户构建一套理解世界的系统

    Founder Park:Chance AI 提出了「Visual Agent」这个概念,它和传统的视觉识别工具,比如 Google Lens 的区别是什么?


    曾熙: 简单来说,Google Lens 或者别的工具,比如关于识别花草的、鸟的、红酒的,统称为「识别工具」。它们的目标是把东西识别清楚以后,把你带到搜索或带到交易。Google Lens 一开始就是为了电商而生的产品,找同款,所以它的结果就是链接和价格。

    我们观察到的问题是:用户很多时候并不是想知道这个东西是什么,而是想知道为什么它长这个样子?它为什么有意思?它跟什么样的文化、历史故事有关?所以我们把重点放在解释层上面,不是描述层面


    假设你的偶像是乔布斯,我跟你说「这是乔布斯最喜欢的某个厨房料理机,因为他小时候家里就是用的这个款式,后来影响了他做 iPod 的经历」,这个时候你的感受会区别于讲表面信息的时候。这个我们已经验证过了,尤其是潮玩,都是塑料,为什么某些潮玩卖得特别好而某些就一般?因为某个潮玩代表了某种情绪,但那个情绪是需要被诱导出来的。

    这是下一个时代新用户的行为模式,所以我们是为这群新用户做的新产品形态。它不仅仅是识别,它需要把感知、上下文、社会共识全部连接起来。

    Google Lens 是一个工具,我们是在帮用户构建一个理解系统。因为我们相信一切行动都是建立在理解之上的。 一个你不理解的东西,你不可能想要买它、拥有它或者想去那个地方。这是很大的区别。


    Founder Park:那 Chance AI 和普通 ChatBot 的区别是什么?


    曾熙: 这些通用模型的视觉能力,本质上对它们来讲是一个附加能力。它们没有针对多模态能力做任何优化,核心仍然是对话,输入框,用户先提问,再调用部分视觉作为输入的一部分。我们认为这是不合理的,因为真实世界不是这样的。真实世界是你看到一个东西,你甚至都不知道该怎么问,你只是觉得「我想关注这个东西了」,有一瞬间的好奇心。

    我们的做法是贴近真实世界,从你看到的世界开始,而不是从问题开始、从输入框开始。这带来一个很本质的区别:对 Chatbot 来讲,一进去必然是一个输入框;对我们来讲,一进去就是相机,要么你就拍,要么你就上传图片。本质上它不是能力的差别,而是产品方向的选择。

    Founder Park:相当于 ChatBot 里的视觉识别只是文字交互中的附加功能。但对你们来说,视觉本身就是用户理解世界的最主要方式。


    曾熙: 对。如果做类比的话,有点像 ElevenLabs。今天 Gemini、GPT、豆包全部都可以生成音乐了,为什么 ElevenLabs、Suno 还是能获得非常好的表现?因为它们起步早,有非常垂直的定位,然后随着月活越来越多形成正向飞轮。对我们来说也是一样,今天比如用户要看穿搭、看审美、看艺术品或看潮玩,已经没有任何通用模型能比我们更强。

    Founder Park: 也就是说你们已经基于用户迭代出来了很多场景,比如 OOTD 穿搭、看肤色这些,涌现出了很多用户自己建的场景。

    曾熙: 没错,而且这些用户的需求是大厂不会干的事。所以我们一定得绕开大厂的辐射范围,离用户很近、对用户的反应更快,这也是我们的「护城河」之一。

    03 Z 世代天然更习惯用视觉去表达和理解世界

    Founder Park:Chance AI 面向的核心目标人群是 Gen Z,你们当时是怎么确定他们是第一批用户的?


    曾熙: 还是一个被选择的过程。我们有很多假设,最后是因为这批人的表现最好,所以圈定他们作为早期种子用户。我们发现他们有一个共同点,给他们一个标签叫「艺术的生活家」。他们不是那种艺术家,但一定是那种对生活很有追求、很有品质的人,很在意自己的 Image。

    我们发现这群人都有这个特性,我们叫做视觉驱动型用户。大部分是艺术学院或文理学院的学生。他们很喜欢用表情包、meme 图片、视频沟通,而不是通过邮件或长文本。很多时候他们不是在表达一个问题,更多是在表达那个 vibe,特别抽象,但又特别能引起共鸣。

    这是我们最后沉淀下来发现表现最好的用户群。比较有优势的是,这群用户恰好又是在社交媒体上比较活跃发声的用户,自然就给我们的增长带来了助力。所以我们并不是把 Gen Z 广泛地定义为目标用户,而是因为这群人更习惯用视觉去理解世界。


    我们在产品上也往这群人靠拢,很注重审美、文化风格这一类的东西,而不是告诉你一个客观参数。当他们使用我们产品的时候就觉得很自然,不需要去想,因为一想就变理性了,一旦触动思考、要想怎么组织一句话,就变得很理性,跟他们追求感性、追求 Vibe 的特质是违背的。所以这群人使用我们产品的学习成本几乎为零,这也是为什么他们很自然地成为了我们的种子用户。


    Founder Park:你们现在的用户规模大概是多少?增长主要靠什么?


    曾熙: 我们现在大约 20 万用户,其中差不多 15 万是 25 岁以下的年轻用户。

    最主要的增长来源是校园计划,靠学生的口碑传播。我们会鼓励不同校园里的活动。比如 sponsor 一些资金支持,二三十个学生一起去逛某个地方,逛的过程中使用我们的产品,最终坐在一起在咖啡店里分享发现了什么有趣的东西。


    Founder Park:你们的预期是一直服务大学生群体,还是陪伴他们进入社会后继续服务?


    曾熙: 我们服务的是 Visual Native 的人群,没有那么明显的年龄界限,只是现阶段他们正好处在 18 到 25 岁这个年龄段。我相信即使他们步入社会以后,也还是保留这个用户习惯的。接下来可能 15、16 岁的人也会更加 Digital Native。

    Chance AI 的各类线下校园活动


    Founder Park:不同地区的人群在使用场景上会有区别吗?


    曾熙: 会有,但差异体现在看什么,而不是怎么看。美国用户大部分看穿搭购物、化妆品、潮玩。欧洲用户很喜欢看艺术品、建筑、展览、书籍封面,一个法国学生可能会拍意大利语的书籍封面,然后去读内容。拉美用户更偏神秘学,看手相、看面相,每天出门前拍一拍来决定今天要注意什么。而且他们会把穿搭和神秘学联系在一起,根据今天的运势决定要戴什么颜色的首饰。

    Founder Park:如果想从现在的 20 万到 100 万、500 万,大概是怎样的增长路径?核心靠什么实现用户增长?


    曾熙: 短期以产品驱动为主。口碑传播在达到 100 万用户以前可能都不会改变。因为这个产品的核心不是获取流量,而是需要帮助用户形成一种新的使用习惯。如果习惯没有建立,去做投流、买量是没办法放大的。

    增长路径现在比较清晰,把核心场景打透。除了日常的视觉理解以外,比如穿搭场景、神秘学场景、旅行场景、购物场景,我们要围绕这些场景把它做深。现在只能说有一个苗头,看到了努力的方向,但还没有拼尽全力去做深。

    然后再通过内容和社交去做扩散。比如我们现在穿搭场景里有直接一键帮你生成 Instagram Story 的模式,除了给你打分、给你颜色搭配建议、饰品建议以外,更重要的是有一键变成 Ins Story 图片的功能。

    04 不是效率工具,是 lifestyle 的视觉伴侣

    Founder Park:一开始预想产品要做成什么样?早期优先解决什么问题?


    曾熙: 很坦白地说,当时是没有的,我们只是知道「看世界」是一个比较具体的需求,但具体看什么我们完全不知道。我们认为要做好的事情就是把架构做好,用户会告诉我们他们选择看什么东西,看得多了以后再针对性地优化。

    比如穿搭这件事,我们一开始并没有帮用户看穿搭的 Visual Agent,而是穿搭照片的占比多了以后,我们才专门针对穿搭去做优化,是这种反哺回来的形式。这来源于我在一加时候的社区共创基因。我觉得这教会了我非常多,如果你还没想清楚,没关系,最重要的是赶紧先把你的能力丢出去,用户会告诉你他们需要什么。


    Founder Park:你们最初上线的版本,先解决的是让用户能拍照跟世界进行交互,这个交互形式是从一开始就确定了吗?


    曾熙: 对,这个架构从一开始就确定了。我们有一段时间在首页加了输入框,结果那段时间产品的表现特别差。


    Founder Park:加输入框反倒效果差了?


    曾熙: 对。我们加输入框加得很次要,作为搜索框的形式存在,结果让用户失焦了。很多人直接把它当成 Chatbot 来用。所以我们把输入框去掉之后,这群用户离开了,但反而长期留存变得更好了。

    Founder Park:你之前提到「提示词是为懒惰的 AI 准备的」,那在图片生成后的追问环节,这种「基于单图的对话」与传统 Chatbot 的区别是什么?


    曾熙: 所有后续追问都是基于同一个主题的。就像我所有追问都是基于「我今天穿什么衣服」这个主题,所以它会针对这个有很强的上下文,它知道我前面试了多少套、每一套之间细微的区别是什么,从而判断你是不是正在犹豫去的场合不知道穿什么。我们认为这是很天然的、直觉的。别的 Chatbot 里开一个对话框是一个主题,对我们来讲每张图片就是一个主题。

    Founder Park:那不同的图片,比如看手相、OOTD 这些,是直接上传一张看手相的图就可以,还是需要选一个场景才会进入对应的功能?


    曾熙: 两种都有。有些强风格化的东西会给你推荐,比如你把某个产品丢进去,有可能是想买它、想吐槽它、想给它写一首诗,这时候我们会做推荐。但有些很特定的场景,比如拍一朵花或拍手纹,我们就很确定地知道该导入到哪个功能。你问的这个问题其实很本质,本质上我们不应该再有推荐,但限于 VLM 的能力,目前不得不有一个过渡状态。

    Founder Park:如果用户输入的信息只有一张图,你们怎么去理解用户的意图?


    曾熙: 这又回到我 PhD 研究的课题上了。视觉一定先于语言,当你看到一个东西的时候,你可能都没想好怎么组织语言,但你已经有一个念头了。所以我们认为,你跟看到的东西的交互发生在后面,输入框是发生在追问里,而不是你产生意图的那个瞬间。


    当你看到一个东西的时候,至少百分之八九十的意图已经能命中,你看到一套衣服,大概率想买它或想知道适不适合自己,可能有百分之一二十的概率是你想把它买给你的女朋友。这就需要长时间的交互,我才知道你是男生还是女生,为什么一个男生要拍女装?随着第二次、第三次交互,我就能知道原来你是在帮别人挑礼物。

    所以意图在你看到图片的瞬间,以及长期交互的过程里,会变得越来越准、越来越懂你,是一个收缩的状态


    Founder Park: 所以,拍的时候用户自己可能也没有很明确的意图,更多是直觉。拍完之后的下一步交互,是用户在明确自己的意图,Chance AI 也在更明确地理解用户。后面的交互是大家逐渐把意图收敛的过程。


    曾熙: 没错。分享一个核心用户群数据:我们有一个指标叫单次核心任务流的交互时长,是 6.4 分钟。也就是说,当用户上传一张图片触发一个任务流后,他跟这张图片的交互时长是 6.4 分钟,基本上每个人会进行 3 到 5 轮对话。

    Founder Park:所以,Chance AI 瞄准的用户不是那种「我很明确地要做什么」的用户?


    曾熙: 对,所以它并不是一个效率工具,更偏 lifestyle,是一个视觉伴侣。我们的用户都是北美的年轻人。他们可能上课的时候用 GPT 写课件、写论文,但出去玩、跟小姐妹喝下午茶、跟兄弟逛球鞋店,基本上都是 Chance AI 的场景。

    Chance AI 是一个 lifestyle 的 companion,会陪你一起看世界,「看」是它最重要的能力。


    Founder Park:你们会怎么定义这个产品最终给用户的价值?


    曾熙: 它是一个非效率场景的、帮你赋能生活方式的 AI 产品。分享一个例子,产品在去年年底迎来了一波增长,原因是快到圣诞节的时候,非常多人要挑礼物,就用 Chance AI 给自己的男女朋友或家人挑礼物。

    05 把人类看世界的方法 带到 Harness Engineering 里

    Founder Park:在技术架构方面,你们是怎么做的?


    曾熙: 我们 post-training 了一些开源的 VLM,用在不同的场景里。但对我们来说更宝贵的还是我们做了一套 visual 的 harness engineering。

    我们这套技术架构,本质上是从人类如何真实地看世界出发,然后把这个过程映射到我们的 Visual Agent 里。在人类的认知过程中,其实有一条非常清晰的处理链路:

    首先是视觉信号的采集——通过眼球和视网膜接收外界的光信号;随后,这些信号通过视神经被转化为神经信号并传递到大脑;接着进入视觉皮层(visual cortex),从初级视觉区(V1)到更高层区域逐级处理,完成对形状、结构、语义、空间关系等信息的整合与理解;最后才进入决策,这个东西我要不要拿起来?我是一只手拿还是两只手拿?它烫不烫?

    你会看到分了四层:信号采集、信号传递、视觉皮层处理、大脑决策。现在其他 AI 产品的问题是,他们想让眼睛做思考,把这些步骤混在一起,想用一个模型实现从看见到思考的全链路。

    我们的 visual agent 在技术上没有什么秘密,就是把这四个链路拆开做。难的是我们第一次把人类认识世界的方法带到了 agent 的 Harness Engineering 里面。


    Founder Park:每一步都会有一个大模型来处理?


    曾熙: 对,它会根据看到的物体在每一步决定是调用云端模型还是我们自己的 post-train 的模型,调用哪个 skill。比如发现用户看的是衣服,衣服对趋势比较敏感,就会去调用一个能找到 Instagram trending hashtag 的 skill。每一层都发生自己的判断。它是一个工程能力,不是把所有东西做到一个模型上面。

    这才是我们理解的 AI,因为人就是这么看世界的,我们只是把人看世界的方法复制到了技术实现上。我们一开始花了很多时间,来摸清楚这件事。


    Founder Park:中间走了什么弯路?


    曾熙: 走了特别大的弯路。我们一开始也想用一个模型做所有事情,然后发现怎么设计都有问题,理解能力强了,就调用不了 skill;skill 强了,视觉理解的本质又没了。特别难,中间发生了非常多这种事情。

    最后主要还是我 PhD 在认知科学方面的知识启发了我,为什么我们要期待把眼睛和大脑做成一个东西?这可能一开始就是错的。


    Founder Park:感觉比起你们现在的模型架构,底层的 VLM 反倒不是核心优势?


    曾熙: 没错。这就是为什么我们在 MMMU Benchmark 上能做到全世界第一。对我们来说,VLM 用谁家的都不重要,哪个便宜就用哪家,无论用哪家都能达到那么好的效果。我觉得这才是我们在技术层面有价值的地方。


    Founder Park:你们大概什么时候摸索清楚这个架构确实能跑通了?


    曾熙: 从 2025 年初到 2025 年中,我们一直都在研究这个问题,都没做产品。而且 2025 年初 VLM 能力更差,凭什么我们视觉理解能力能比别人好?真的就是后面做的这套 Harness。


    Founder Park: 感觉这个 Harness Engineering 有点类似于把人类本能的看东西、理解东西的逻辑复用到了 AI agent 的流程里面。复用的是人类本能的流程,而不是我们自己的实践 SOP。


    曾熙: 是的。为什么烫杯子不能碰?你什么时候决定要不要联想回以前的记忆?这个判断逻辑很重要。如果判断要联想,可能要花很多时间和 Token,怎么判断联想还是不联想?要不要在过往的 Visual Memory 里做匹配?这又得回到用户,靠用户反馈,我们才能有一个阈值去调整什么情况下要联想、什么情况下不联想。

    我们做的事情在 LLM 领域不是什么新鲜的事情,但的确是第一个把这些方法带到视觉领域的公司。


    Founder Park:所以在这套 Visual Agent 里,有 VLM 也有 LLM,互相搭配最终产出结果?


    曾熙: 是的,每个节点里最终看到的结果,最多的时候能调用 6 到 8 个模型。

    甚至结果会因为每个用户的品味不同而异。我们有一个功能,是根据你看到的图片来给你推荐音乐。这是很多人用的一个场景:我要发一个 Instagram Story,要配一个背景音乐,怎么知道我看到的东西跟音乐之间是正相关的?比如我看到一个洛杉矶的落日,它就给我配了一首落日飞车那种很舒缓的 City Pop 音乐。看上去很直觉,但我们在里面做了大量的工程,怎么把一个图像找到很适合这个图像 Vibe 的音乐,然后推荐出 Spotify 链接。虽然它只是结果页里的一个小框框,但真的很不容易。

    最后产出的结果也很偶然,相当于我们做好了一套 Skill Set,让模型自己决定要调用什么。


    Founder Park:最近流行的 OpenClaw 是用 MD 文件来储存 context。你们是怎么存储、管理用户的 memory 和 context 的?


    曾熙: 我们没办法用单一的文件来做用户的记忆存储。在视觉记忆方面,我们并不是把每一张图都变成你的记忆。我们会把图片分成三个级别的不同像素。比如一张图片,在后台会被压缩成 100x100 的小方框,人眼看上去是没有意义的东西,但模型之间能理解。我们要确保 agent 内部之间用最小单元进行沟通,传输的只是 100x100 的像素就能完成信息传递。

    某些场景下我们会用中等尺寸的图片,比如 500x500,进行思考部分,到展示给用户时才回到原尺寸。


    Founder Park:所以你们是用视觉图片的形式在不同 agent 之间做信息传达,不是在一开始就转译成语义文本来传播?


    曾熙: 我们去年做 memory 的时候,就是把图片拿掉变成纯文本,结果发现效果特别差。纯文本是累积型数据,越用越多,可能就有几百个 MD 文件了。效果差,沟通效率也低。

    后来我们发现,把文字大量压缩成低像素图片之后,模型间的沟通效率反而提高了,效果又变好了。

    我们发现一个很哲学的问题是,视觉才是最高效的沟通媒介。DeepSeek 发过一个 OCR 的模型,相同的 100 比特信息,变成文字传输快还是变成一张图传输快?他们的结论是变成图传输快,跟我们的结论完全一样。但他们主要聚焦 OCR,把文献语言图片化,我们面对的可能更复杂一点,除了 OCR 类图片,更多的是那种说不清道不明的 Vibe。

    06 你必须离用户很近,才知道产品下一步是什么

    Founder Park:Visual Agent,跟 Manus 或 Claude Code 这类生产力、工具型 Agent 有什么区别?


    曾熙:我们把它定义成 Visual Agent,最重要的点在于它是一个能和你一起看世界的 Agent。我们不叫自己 AI 相机或视觉搜索,而是叫 Visual Agent,因为在我们理解里它是一个更主动的、和你一起参与的系统,它不是一个响应式的输入,而是参与你整个看世界的过程。


    具体来说有两个很大的变化。第一是连续性:不是一次性的识别,而是一个持续的理解过程。它知道你上周的穿搭、三天前的穿搭、你买过什么东西。它会建议「你可以试一下刚买的那双蓝色鞋子,更配你这套蓝色西装」。

    第二是它具有行动能力。比如我看到一个活动海报,它可以帮我加到日历里;看到一个菜单,它可以帮我点菜;看到一个商品,它可以全网比价找到最合适的购买链接。具有行动能力对我们来说非常重要。真正的闭环是要完成一个行动。


    Founder Park:对 Agent 来说,看懂可能只是第一步。那看懂之后,接下来要提供什么价值,你们有判断或者预期吗?


    曾熙: 举个具体的例子。有用户开始用我们看球星卡来了解卡的稀有度和历史。但他看懂之后想炫耀给自己的圈子,所以我们给球星卡做了一张海报式的电子证书。然后他说「我要发到 Instagram story 和 WhatsApp 群组里」,我们又加了一键分享功能。最后他甚至想看看别的网站上它值多少钱,可能有一天想卖掉。

    它是一个你必须离用户很近,才知道下一步是什么的过程。


    Founder Park:怎么定义离用户很近?


    曾熙: 我们现在和美国 6 所大学里的不同协会,都有很紧密的合作关系,所以能很及时的通过调研了解他们的场景,从醒来到睡觉前什么时候打开摄像头、每次打开摄像头干什么、预期完成什么任务、哪些是我们能做的、哪些现在做不了但以后有可能做。这种敏感度也是我认为我们现在最大的护城河。

    07 和 AI 一起看,天然就是下一个时代的 AI 终端入口

    Founder Park:Chance AI 目前有十几个功能模块,从艺术分析、穿搭、菜谱,再到看面相。哪些场景做,哪些场景不做,你们是怎么取舍的?


    曾熙: 首要考虑的因素还是用户。用户会告诉我们,我们最主要做的是把能力架构做好,确保你扫的时候不会崩,10 秒钟就能出结果而不是等一分钟。里面涉及不同的数据、不同的搜索能力、不同的 RAG、不同的 MOE,都已经在那了,但怎么用靠用户的想象力。


    用户需求和我们能实现的能力之间有「重合点」,这个重合的地方就是我们会去做的功能。


    Founder Park:那你们观察到用户在 Chance AI 主要在做什么?


    曾熙: 现在的用户行为前三,第一是和你的图片互动,大概占到差不多一半的时间,拍一张图以后不断追问上下文、跟它说话,从而形成判断、形成行动;第二是看首页内容,会跟内容互动、留评论、回复,更多的是学习,看别人怎么用。原来这个东西也能拍飞机,能拍护肤品,能看艺术品,它起到了一个低成本教育用户的展示区作用;第三是看自己拍过的内容。

    现在的用户行为跟我们现在产品形态的设计是完全符合的:第一拍照交互,第二看首页探索别人拍的和不同玩法,第三看自己过去看过的东西。

    Founder Park:用户看自己过去拍的东西是高频行为?


    曾熙: 是的,有点出乎我们意料。我们发现有的同学已经把它当成一个专属剪贴本来用了。比如有一个日本用户,很神奇,他喜欢收藏昆虫标本,有一天拍了 180 次,第二天拍了 160 次,把自己收藏的所有标本都输进去了。

    有点像 AI native 的 Pinterest,Pinterest 是根据像素决定分类,我们是根据图义来分类的。它能自动把每个类别的上下文拉过来,比如「这是什么亚热带的什么虫,它跟你收藏里的某个虫是同一个产地的」。Memory 部分的使用时长越来越多,使用时长多的用户留存极高。

    Founder Park:现在有一批人群在高频使用这个产品,你们会把它定义成 AI 时代的一款社交产品吗?


    曾熙: 社交可能是它的某一个过渡态,因为它确实能帮助相同兴趣的人连接到一起。这是我们很开心看到的,现在很多人在社交平台上大部分内容是被动接收的,算法决定了你看到什么。但我们更鼓励的是,先主动去发现真实世界里的东西,然后我帮你找到也喜欢这个东西的人,你们之间产生交流。

    在这个阶段,社交不是我们最重要的东西,可能用户达到 100 万之后,社交会形成一个很重要的形态。

    Founder Park:你们会怎么看待这批用户对 Chance AI 的定位?


    曾熙: 渐渐地它会变成一个习惯。我们想培养的是用户习惯,当他未来想到要看什么的时候,先想到和 Chance AI 一起看。我们希望在这个阶段尽量多地让他们给我们反馈,无论是产品上的、数据上的还是模型能力上的,有了这种反馈我们的飞轮才能转起来。

    对我们来讲最宝贵的是「和 AI 一起看世界」这个行为,在手机上它是不太自然的,但到了下一个时代的 AI 终端,它就会变得非常自然。想象一下你戴着 Ray-Ban Meta Glasses,很自然地问你「你怎么看那个?」AI 因为很懂你,「我觉得你穿那个不好看,你家里已经有个类似的了,再买很多余。但刚刚那个我觉得挺好看的,你怎么不考虑一下?」就开始跟你聊。这个场景就很自然了。

    08 Visual Agent 最终会成为一个新的操作系统

    Founder Park:在下一阶段,AI 硬件天然就有视觉入口,甚至 Visual Agent 本身也能成为一个新的 AI 入口。你觉得这件事真正发生,还需要哪些条件?


    曾熙: 这个问题我们也经常在思考。首先能确定的是,未来 AI 硬件的终端形态一定是和用户一起看世界,根据你看到的东西来进行交互, 这是确定的,不确定的是时机。

    我们认为目前的卡点在三个地方。第一是基础技术,VLM 今天已经有了,但还没办法做到超级实时,或者在很低成本的情况下瞬间完成电影里那种感觉,这部分我们一直在关注,也一直在等待;第二是硬件供应链的成熟,目前我们判断还没到爆发的周期。即使 Meta Glasses 已经卖了 200 万台,但离真正成为每个人日常使用的、像手机一样级别的产品,还有一定距离;第三是用户习惯,用户有没有养成和 AI 一起看世界的新习惯。年轻用户其实已经有了,但要扩展成大众市场,主要还是看那群习惯了文本交互的用户,他们切入视觉交互会不会有阻碍。

    这三个考虑点是我们正在观察的。我们很开心地看到这件事其实已经正在发生了,只是近还是远,现在还在观察中。

    Founder Park:你觉得 Visual Agent 最终会是一个什么形态?硬件、操作系统、还是 APP?


    曾熙: 我们理解它一定是一个操作系统,就是电影《Her》里的那个 Samantha。


    Founder Park:如果最终形态是操作系统,会不会更依赖于 LLM 的智力提升?


    曾熙: LLM到今天已经很成熟了,基本没有什么卡点。反而要回到生活场景上,是有困难的,Claude Code 很难帮你一起去买一个雪糕,或者跟你一起看落日。生活场景,才是大众市场的最主要场景。

    我们的判断是:今天文本场景很成熟,很多大厂在里面解决基础问题。反而是文本之上的视觉层面,目前还没什么人看到,也没什么人在上面努力。

    Founder Park:Visual Agent 和 ElevenLabs 这样的 voice agent,是什么关系?


    曾熙: 互补。我相信最终是没有模态之间的区分的。对用户来说,不会分什么是文字、什么是语音、什么是图片,最终都会混合成为一个正常的输入输出系统。有点像看电影,你不会在意是声音让你笑还是台词让你笑。

    Founder Park: 那未来你们会做硬件吗?


    曾熙: 迟早会做。做硬件对我们团队来说反而是舒适区,供硬件产品定义、软硬结合用户体验、全球市场产品 GTM、生命周期管理等,团队有丰富经验。难的是现在这个阶段,先把这一套视觉思考的大脑搭建好。比如 Meta Glasses 你现在戴着看黑色水壶问「这是什么?」,它跟你说「这是一个黑色的圆柱形物体」,这是无用信息。它们离真正的价值差得太远了。

    09 FOMO 的是效率不够快,而不是终点方向

    Founder Park:现阶段,Chance AI 的竞品是什么?


    曾熙: 如果一定要选的话可能有三类:第一类是上一个时代的各种垂类识别软件,植物、花鸟那种,技术上的竞品;第二类是入口型产品,像 Google Lens 这种;第三类可能是 AI 硬件,像 Looki 这种 Always-on 的设备。

    我们最关注的还是入口型产品。我们希望用户拿起摄像头的时候,最先想到的是用我们。如果他拿起摄像头用了别的 App,那个 App 就会被我们视为潜在竞品。

    Founder Park:你们自己核心的壁垒是什么?或者说别人做不到、你们跑得更快的是什么?


    曾熙: 前边也提到了。我们离用户很近,这种「敏感度」是我们现在最大的护城河。我们有能接住用户的工程能力,有把在美国真实生活的年轻人每天的需求转化为功能的流程,有跟他们直接沟通的渠道和分发能力。有了这些以后,我们就有自己的飞轮,Harness Engineering 的飞轮。

    Founder Park:作为创业者,你今年会 FOMO 吗?


    曾熙: 只要在这个行业里就会 FOMO,因为变化太快了。三个月前你讲 OpenClaw,可能没人知道是什么,现在全民 OpenClaw,这也是让人兴奋的地方。

    我们可能会 FOMO 一些技术实现的效率、对工具的选择,这个很常见,我们很害怕自己正在使用的工具不是世界上最先进的。

    但在产品方向上我们是很有自信的。我们认定视觉这件事很直觉,人类跟世界就是这么交互的,这不是这几年的事情,是好几百万年的事情,这是不变的。变的是怎么让速度加快、怎么让它发生。我们担心的是,如果实现效率不够快,可能站在船头的人就不是我们了。

    Founder Park:所以还是会有各种技术、效率上的焦虑?


    曾熙: 在 How 上面是有焦虑的,但在 Why 上面是没有的。我们现在很确定一定会在牌桌上,只是不确定是牌桌的上位还是下位。


    阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

    24 年原公司给出两种选择,裁员或转外包,作为补偿底薪+1500 绩效+400
    25 年以外包公司倒闭为由,转入另一家外包公司
    25 年年底,原公司注销,原公司业务归入原公司的母公司。
    今天,通知,当初转入外包的补偿从下月取消。

    查询了半天发现进入死循环了
    投诉原公司,原公司已注销
    找外包公司,外包公司啥也不知道
    找母公司,母公司表示不接受就退回外包


    6 年时间从 20 多岁到了 30 多。
    以前我性格还是很温和的,
    但现在,我有一种强烈的冲动,找个老式的公厕淘点恶堵物,浇到区域总的头上

    Github Copilot Pro 的 Claude Opus 4.6 熄火了, 天才程序员一夜陨落.
    39.9$ 7.5x 4.7 冲不冲,兄弟们. 过几天浑身蚂蚁爬的时候我怕忍不住.

    2025 年 4 月 21 日,刘强东痛斥幽灵外卖,宣布京东正式进入入外卖赛道,
    2026 年 4 月 17 日,市场监管总局公布对 7 家电商平台幽灵外卖行政处罚结果,总计 67604 家。
    京东平台的幽灵店铺数量最多,达到 43190 家,超哦 63%。

    团队学习氛围怎么培养?本文从项目管理实践出发,系统拆解知识分享机制的搭建方法、落地场景与团队复用路径,帮助项目经理、PMO 和团队负责人把学习真正嵌入日常协作。

    团队学习氛围,靠的不是口号,而是机制

    先给一个结论:团队学习氛围不是鼓励出来的,而是设计出来的。
    再说得更直接一点:如果团队里没有心理安全,没有固定复盘场景,没有清晰的知识沉淀规则,也没有让经验进入工作流的使用路径,那么再多分享会,也很难真正形成学习型团队。
    所以,讨论团队学习氛围怎么培养时,真正应该问的不是大家为什么不爱分享,而是:

    • 团队是否敢暴露问题?
    • 经验是否有固定场景被记录?
    • 知识是否能被找到、被复用、被更新?
    • 分享行为是否真的被组织看见?

    这四个问题,基本决定了一套知识分享机制能不能活下来。

    什么是知识分享机制?

    知识分享机制,不是多开几场分享会,而是让经验能够被记录、被找到、被复用、被更新的一套团队协作安排。这句话里有四个关键词:

    • 被记录:经验不能只停留在口头;
    • 被找到:知识库不是仓库,找不到就等于没有;
    • 被复用:只有进入真实工作场景,知识才有价值;
    • 被更新:过期经验不但无用,还会误导团队。

    所以,判断一套知识分享机制有没有真正成立,不看分享次数,也不看文档数量,而要看三个结果,如果这三个结果逐渐出现,学习氛围通常也会跟着出现:

    1. 新项目启动时,能不能快速找到类似经验;
    2. 相似问题出现时,团队会不会优先查已有判断;
    3. 新同事加入后,是否能更快进入工作上下文。

    很多团队真正缺的,不只是写知识的地方,而是一个能把知识和执行现场连起来的承载层。像 ONES 这样的研发效能管理平台,就适合放在这个位置被理解:不是多了一个单独的知识工具,而是让项目、任务、缺陷、文档和数据留在同一个协作上下文里。这样一来,经验就不容易漂在工作之外,而更容易回到项目语境里。

    团队学习氛围怎么培养?

    如果你是项目经理、团队负责人、PMO 或中层管理者,我更建议把问题拆开来做。一套真正能落地的知识分享机制,至少要解决四件事:

    • 在哪些场景里必须发生分享;
    • 哪些内容值得沉淀;
    • 谁来产出、维护和使用;
    • 怎样让大家愿意持续参与。

    第一层:先固定场景,让学习不再靠想起来再说

    很多团队不是没有复盘,而是复盘太随机;不是没人愿意分享,而是没有明确的发生时机。所以第一步不是建知识库,而是先把哪些时刻必须学习固定下来。我通常会建议至少保留四类场景:

    1. 项目启动后的认知对齐
    启动会不只要讲目标和分工,更要讲清楚背景假设、边界条件、关键风险和当前仍不确定的判断。很多返工,根本不是执行差,而是起点认知没有对齐。

    2. 里程碑前后的阶段复盘
    不要把复盘只留到项目结束。阶段复盘的价值,在于及时把偏差暴露出来:这阶段最关键的判断是什么?哪个地方顺得出乎意料?哪个地方开始失真?如果不在中途梳理,很多问题到最后已经分不清根因。

    3. 关键故障或重大偏差后的无责复盘
    这类场景最能检验一个团队有没有真正的学习文化。很多团队也开复盘会,但本质上是换一个房间继续自证和防御。这样的复盘开得再勤,也不会有真正的组织学习。只有当团队逐渐形成共识:复盘是为了理解系统问题,而不是寻找最该负责的人,经验才会开始流动。

    4. 项目收尾时的经验交接
    结项汇报不等于经验交接。真正有价值的交接,不是我们做了什么,而是哪些判断以后还会用到哪些坑别人最容易重踩哪些模板可以直接复用。

    场景固定下来,学习才会从偶发动作变成团队默认动作。在实际落地里,这一层最怕的是复盘和项目推进分家。如果团队已经有统一的平台,比较自然的做法不是把复盘另起一套孤立文档,而是尽量让阶段复盘、会议纪要、决策记录和当期项目互相关联。ONES Wiki 比较适合承接这一层的地方,是它支持模板库、页面树组织、文档关联任务,以及在文档中嵌入任务进度和报表。对团队来说,价值不在于文档更完整,而在于复盘不再脱离现场。

    第二层:明确内容,知道什么值得沉淀

    很多团队的知识库之所以越做越乱,不是因为工具不好,而是因为没有边界。什么都记,就等于什么都没记。从项目管理视角看,最值得沉淀的内容通常有四类。

    1. 决策类内容:最值得留下来的,往往不是最终选了哪个方案,而是当时为什么这么选。因为真正会被后来者复用的,不只是答案,而是判断逻辑、约束条件和取舍依据。
    2. 过程类内容:比如流程步骤、协作接口、检查清单、风险提示、评审规则。这类内容看起来没那么有故事,但最能帮助团队减少重复犯错。
    3. 项目类内容:包括项目计划、阶段状态、重要变更、问题闭环、里程碑总结。它们的价值,在于帮助后来者迅速建立上下文,而不是重新从碎片信息里拼图。
    4. 复盘类内容:复盘不是把过程复述一遍,而是把因果链条写清楚:问题怎么发生、哪些信号被忽略、什么机制失效、后续动作由谁负责验证。写到这个程度,复盘才会成为组织资产,而不是会议留痕。

    可以把这层理解成一句话:知识沉淀不是为了记录很多信息,而是为了让未来少重新摸索。

    第三层:明确角色,解决谁来写、谁来管、谁来用

    这是很多团队最容易忽略,但又最影响成败的一层。很多知识库建不起来,不是因为没人认同它的重要性,而是大家默认谁都可以做。现实里,只要职责没有明确,最后要么没人做,要么落到少数责任心强的人身上,久了自然失衡。

    一套能跑起来的知识分享机制,至少要有三类角色:

    • 产出者:在关键场景中把经验和判断写出来的人;
    • 维护者:负责归档、整理、更新、清理过期资料的人;
    • 使用者:在项目启动、评审、复盘、交接时必须查阅和反馈的人。

    如果只有产出者,没有维护者,知识很快过期;如果只有维护者,没有使用者,知识库会变成陈列架;如果没有反馈者,团队就不知道哪些内容真正有价值。真正好的机制,不是靠少数人高觉悟,而是让责任边界足够清楚,让每个人知道自己在这个系统里承担哪一段。

    第四层:让经验被看见,让分享者感到我做这件事是有意义的

    很多管理者说我们鼓励大家分享,但组织真正奖励的,可能仍然只是短期交付。一旦评价信号如此,团队自然会把时间放到更显性的事上。所以激励层最重要的,不是做复杂积分,而是让成员感受到:愿意留下经验、帮助别人少踩坑,是团队真正重视的行为。

    可以先做三件很轻的事:

    • 在周会或月会上公开表扬高质量复盘和高复用模板;
    • 在骨干评价中加入帮助团队减少重复犯错的维度;
    • 当新项目复用旧经验时,明确让原贡献者被看见。

    这类激励不一定轰轰烈烈,但它会慢慢改变团队对分享这件事的心理定位:从额外付出,变成对团队真的有价值。

    而对 PMO 或团队负责人来说,分享有没有真正转化成组织改进,最好不要只靠体感判断。更稳妥的方式,是把复盘之后的变化放到可追踪的数据里去看:交付效率有没有改善,缺陷分布有没有变化,完成情况是否更稳定。如果团队本身已经在用 ONES,这时候可以用 Wiki 沉淀复盘和规范,用 Project、TestCase 串起任务与缺陷,再用 Performance 回看交付效率、交付质量、资源效率和完成情况这些变化。这样产品露出的重点就不是多了一个系统,而是经验有没有真的变成组织改进。

    知识分享机制如何落地?

    我带过一个团队,最初的状态很典型:项目很多、节奏很快、协作关系复杂。大家都很努力,也都很负责,但同类问题总在重复发生。

    需求评审开过,结论没有留下来;风险有人提过,但没有进入可追踪事项;某个阶段延期以后,所有人都知道不顺,可一旦要总结,往往只能说出一些很笼统的话。新同事接手项目时,也常常只能靠问人;人一忙,交接质量就迅速下降。

    后来我们没有先做大而全的知识库,而是只做了三件小事。

    第一步:把复盘从项目结束前移到阶段结束

    每个阶段结束后,用 30 分钟回答四个问题:

    • 这阶段最关键的判断是什么?
    • 哪个地方比预期更顺,为什么?
    • 哪个地方失真了,根因是什么?
    • 下阶段要保留什么、避免什么?

    这个动作最大的变化,不是文档变多了,而是团队开始慢慢习惯谈方法和判断,而不只是谈结果和责任。

    第二步:用轻模板降低知识沉淀门槛

    很多人不写,不是因为懒,而是不知道怎么写,或者担心写起来太费劲。所以我们把模板做得很轻,只保留几个字段:

    • 适用场景
    • 问题背景
    • 当时怎么判断
    • 最后怎么处理
    • 下次提醒

    模板越轻,越容易被团队真的使用。知识沉淀一旦变成顺手动作,而不是正式任务,它才会慢慢活下来。

    第三步:让知识真正进入项目流程

    这是最关键的一步。新项目启动前,默认先查相似项目复盘;排期评审前,先看历史延期原因;跨部门协作前,先调出既有接口清单和常见风险。

    当经验真正进入使用场景之后,团队对知识沉淀的态度会发生变化:它不再是写给别人看的东西,而是帮自己少踩坑的工具。

    几个月后,团队会出现一种很微妙但很重要的变化:大家开始更自然地说这个地方我还没想透我之前踩过类似的坑这件事可以先看一下上次的处理方式。这时候,团队学习氛围其实已经开始形成了。

    写在最后

    回到文章开头的问题:团队学习氛围怎么培养?

    我越来越觉得,这件事的答案不在多鼓励大家学习,而在于管理者有没有意识到:

    团队成长不是自动发生的,经验也不会天然沉淀。如果没有一套清晰、轻量、能复用的知识分享机制,很多宝贵经验最终都会随着忙碌、换岗和项目结束一起流失。
    对项目经理、团队负责人、PMO 和中层管理者来说,这件事的真正价值,不只是让团队看起来更爱学习,而是让组织少重复犯错、少依赖个别关键人、少在相似问题上消耗信任与情绪。

    一个成熟的团队,未必是从不犯错的团队。但它通常是那个愿意把错误讲清楚、把经验留下来、把方法交给后来者的团队。

    如果你的团队正好也在经历这些问题,也许下一步不必急着办更多分享会。更值得先做的,是回答三个问题:

    • 哪些场景必须固定下来做复盘?
    • 哪些经验最值得优先沉淀?
    • 哪些知识,应该在下一个项目里被默认复用?

    当学习开始在日常协作里自然流动,成长这件事,才会真正发生。

    Lab4AI大模型实验室是面向AI开发者、科研党与学习者打造的一站式AI实践平台,深度绑定高性能弹性算力,支持模型复现、训练、推理全流程,以按需计费、低价高效破解高端算力紧缺与成本高昂难题;同步Arxiv前沿论文并提供翻译、导读、分析服务,支持各类大模型一键复现与数据集微调,对接孵化资源助力科研成果转化;同时搭载多样化AI在线课程,实现理论学习与代码实操同步推进,全方位覆盖AI研发、科研创新与技能学习全场景需求。

    大模型实验室官网链接: https://www.lab4ai.cn/arxiv?utm_source=sf_daily_paper

    作者信息

    南京大学新型软件技术国家重点实验室、南京大学智能科学技术学院、阿里巴巴高德地图

    研究背景

    1. 大语言模型正从被动对话系统演进为可自主调用工具、完成复杂推理的智能体系统,模型行为从单轮回复转变为包含用户输入、推理、工具执行与环境反馈的轨迹序列。
    2. 传统基于人类反馈的强化学习(RLHF)中,奖励模型(RM)是模型对齐的核心信号源,但现有奖励模型评估基准存在明显缺陷:

      • 主流基准仅聚焦短上下文场景下的单轮回复偏好评估,缺乏对复杂推理过程与多轮交互的覆盖;
      • 长上下文奖励模型研究多依赖人工扩展上下文,无法刻画智能体工作流的自然复杂度与动态依赖关系;
      • 专用工具使用基准仅验证单轮原子动作正确性,忽略连贯的长时序规划行为评估;
      • 现有方案无法在工具集成环境中,对奖励模型区分优质与劣质智能体轨迹的能力进行严谨测评。
    3. 智能体奖励建模需同时评估最终结果与中间步骤的合理性、一致性与安全性,现有评估体系无法满足该需求。

    研究目的

    1. 填补工具集成环境下轨迹级奖励模型专用评估基准的空白,解决现有基准无法测评长时序、多步骤智能体轨迹奖励建模能力的问题。
    2. 构建覆盖复杂工具使用场景的轨迹级偏好基准,精准测评奖励模型在智能体规划逻辑、工具使用保真度、安全拒绝、错误恢复等维度的判别能力。
    3. 提供可复用的智能体偏好数据构建方案,为判别式奖励模型(DRM)、生成式奖励模型(GRM)与智能体强化学习提供高质量训练信号。
    4. 诊断现有奖励模型在轨迹级评估中的失效模式,为下一代规划中心型智能体的对齐研究提供方向。

    本文核心贡献

    image

    1. 提出首个面向复杂工具智能体的轨迹级偏好基准Plan-RewardBench,覆盖安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复四大任务家族,可高分辨率测评奖励模型的轨迹判别能力。
    2. 设计可复用的多源智能体偏好数据构建流程,融合多模型自然推演、规则扰动、最小编辑扰动三种方式,为轨迹级奖励模型训练提供标准化数据方案。
    3. 构建包含高质量标注与高难度负样本的数据集,通过多LLM评审团+元评审过滤+人工审核保证标签可靠性,严格控制长度、格式偏差以隔离语义失效问题。
    4. 完成主流奖励模型(判别式、生成式、LLM评判器)的统一测评,揭示不同模型在长时序轨迹下的性能退化规律与典型失效模式,验证专用轨迹级奖励建模训练的必要性。

    研究方法

    1. 任务设定

    将基准定义为轨迹成对偏好任务,每个样本包含工具环境、多轮用户交互、两条候选轨迹,依据规划质量、工具接地性、恢复行为、拒绝质量等标准给出金标准偏好标签,支持成对比较与单点打分两种评估模式。

    2. 数据来源与构建

    1. 种子数据:基于Toucan项目的真实MCP工具注册信息与工具执行结果;
    2. 候选轨迹生成:使用Qwen-Agent、OpenAIAgent运行多模型、多采样参数推演,获取自然成功与失败轨迹(占比70%);
    3. 高难度负样本构建:

      • 规则扰动:注入约束丢失、参数错误、盲目重试等可控失效;
      • 最小编辑扰动:对高分轨迹小幅修改,保留风格同时引入特定缺陷;
    4. 轨迹过滤:剔除格式错误、执行失败等异常样本,统计长度、轮数等特征用于分层分析。

    3. 场景家族与标注

    1. 四大场景:安全拒绝、工具无关/不可用、复杂规划、鲁棒错误恢复,各场景设计专属评判规则与负样本类型;
    2. 标注流程:多LLM评审团1-5分打分→元评审处理分歧→人工分层审核→成对组装(控制难度与偏差)→独立成对校验确认标签。

    4. 评估方案

    1. 测评模型:判别式奖励模型(DRM)、生成式奖励模型(GRM)、通用LLM评判器;
    2. 输入表示:统一提供工具环境、对话历史、完整轨迹,固定环境与用户意图,仅对比智能体轨迹差异;
    3. 指标与偏差控制:核心指标为成对准确率,采用A/B交换缓解位置偏差,按轨迹长度、轮数、场景难度分层分析。

    研究结果

    1. 整体性能:Plan-RewardBench是严苛测评基准,无模型在所有维度占优,最优模型Qwen-Plus整体准确率69.96%,长时序复杂规划任务上模型普遍难以突破70%。
    2. 模型类型差异:

      • 通用LLM评判器整体表现最优,但长上下文退化最明显;
      • 大参数量判别式奖励模型(Inf-ORM-Llama3.1-70B)竞争力强,准确率69.21%,在错误恢复场景表现突出;
      • 开源判别式奖励模型在安全拒绝场景接近随机水平。
    3. 场景表现:

      • 安全拒绝场景极化最严重,模型准确率跨度40.69%–84.80%;
      • 工具无关场景易受“努力偏差”影响,偏好冗余工具调用;
      • 复杂规划场景随轨迹长度增加,模型难以跟踪动态约束更新;
      • 错误恢复场景模型难区分盲目重试与智能修复。
    4. 长度敏感性:轨迹长度小于4k tokens时性能稳定,超过32k tokens后准确率急剧下降,部分模型低于随机水平;成对LLM评判器退化比单点判别式模型更剧烈。
    5. 下游验证:在BFCL v4工具调用任务的best-of-N重排序中,Plan-RewardBench上表现更好的评判器,下游任务提升更显著。

    总结与展望

    本研究提出Plan-RewardBench轨迹级奖励建模基准,填补了工具型智能体长时序轨迹奖励模型评估的空白,通过严谨的数据集构建与统一测评,证实现有奖励模型在轨迹级判别上存在显著缺陷,长时序规划、动态约束跟踪、安全拒绝等能力亟待提升,为智能体对齐研究提供了关键测评与数据支撑。

    局限性

    1. 复杂规划的金标准标签存在一定主观性;
    2. 工具注册库未覆盖所有专有API;
    3. 场景分布非均匀,安全拒绝样本量较小;
    4. 当前仅支持英文、纯文本工具轨迹。

    未来展望

    1. 拓展至多模态、多智能体场景的轨迹级奖励建模;
    2. 基于本基准训练专用轨迹级奖励模型,提升长时序智能体对齐效果;
    3. 完善更多工具环境与任务家族,扩展基准覆盖范围;
    4. 结合本基准的难度分级,设计课程学习式奖励模型训练方案。

    在数字化转型的浪潮中,企业对于管理软件的需求已从单一的“客户记录”转向全流程的“业务闭环”。面对市场上琳琅满目的CRM及企业管理软件,如何选择一款既能深度覆盖业务场景,又能实现底层数据打通的系统,成为企业决策者的核心难题。

    本文选取了具有代表性的超兔一体云(代表“大底座”全流程架构)、WORKetc/Keap/Agile CRM(代表国际轻量级SaaS)、以及快启CRM、红圈CRM、微盟CRM(代表国内垂直或生态型CRM),基于BI 数据分析 、合同订单管理、进销存、权限管控、多端协同五大核心维度进行深度横向评测。

    一、 品牌定位与核心能力图谱

    为了直观展示各品牌在市场中的定位与核心侧重,我们通过以下脑图进行梳理:

    mindmap
      root((CRM市场格局))
        超兔一体云
          ::icon(fa fa-cubes)
          核心定位: 全流程业务闭环
          核心能力: 业财一体化/智能进销存/OpenCRM
        国际轻量级SaaS
          WORKetc
            核心定位: 基础项目管理
          Keap
            核心定位: 营销自动化
          Agile CRM
            核心定位: 社交销售
        国内垂直/生态型
          快启CRM
            核心定位: 销售效能提升
          红圈CRM
            核心定位: 项目型销售管理
          微盟CRM
            核心定位: 私域流量运营

    二、 五大核心维度深度横评

    1. BI数据分析:从“静态报表”到“决策大脑”

    BI数据分析能力直接决定了企业能否从海量数据中提炼出黄金。

    • 超兔一体云: 超兔的BI不仅仅是报表,而是基于“自定义引擎”的动态决策系统。其核心亮点在于RFM模型自动化计算目标分解逻辑。系统能自动扫描全量客户,依据消费时间、频率、金额进行算法打分,自动归类客户层级。同时,采用“4倍目标法”将公司年度目标层层拆解至个人,并实时对比应收款、商机数据,生成红黄绿预警。这种“业务驱动数据”的逻辑,使得BI不再是事后诸葛亮,而是过程的监控者。
    • WORKetc / Keap / Agile CRM (品牌1) : 这类国际SaaS普遍提供基础的报表生成和可视化功能。WORKetc支持基础数据展示,但缺乏深度挖掘;Keap聚焦于销售漏斗和营销行为分析,适合营销导向但缺乏全链路数据整合;Agile CRM提供销售管道分析,但在预测性分析上表现平平。总体而言,它们多停留在“描述性分析”阶段。
    • 快启 / 红圈 / 微盟(品牌2) : 国内品牌在可视化层面表现较好。快启强调业绩进度的动态呈现;红圈提供客户经营数据的聚类分析,辅助经营决策;微盟则结合DMP数据中台,在客户标签分群和行为分析上具有极强的优势,特别是在私域流量分析方面独树一帜。

    深度点评:超兔胜在业务逻辑的深度嵌入(如自动RFM、目标拆解),微盟胜在营销数据的广度,而国际品牌则显得功能较为基础。

    2. 合同订单管理:从“单据记录”到“多态模型驱动”

    订单是企业的造血中心,不同业务模式(标准、非标、租赁、服务)对订单系统的要求截然不同。

    • 超兔一体云: 超兔采用了独特的“多态订单模型逻辑”,内置6大类30种订单模型(如租赁单、维修工单、非标定制单)。在创建订单时,系统自动调用对应的校验规则,如租赁单自动触发档期检查。更关键的是其业财一体化联动:订单确认后自动触发应收账款拆分,建立“订单-发票-回款”的三角关联,支持复杂核销,并能反向触发采购计划。这种全链路触发能力极大地减少了人工干预。
    • WORKetc / Keap / Agile CRM (品牌1) : WORKetc提供标准订单流程和电子签名,但对非标场景适配性弱;Keap侧重简化的报价和跟踪,缺乏复杂财务联动;Agile CRM仅为标准流程。它们普遍难以处理复杂的“订单-财务-供应链”联动场景。
    • 快启 / 红圈 / 微盟(品牌2) : 快启实现了订单与回款的可视化关联,支持自定义回款计划;红圈覆盖从线索到回款的全流程,支持复杂业务需求;微盟适配多业务场景,特别是与微信生态内的交易打通。但在多模型适配和复杂的财务反向控制上,不如超兔深入。

    深度点评:超兔的多模型适配业财强 耦合能力在复杂贸易和服务型企业中具有极高的护城河。

    3. 进销存(PSI):从“简单库存”到“智能供需闭环”

    对于涉及实物交付的企业,进销存是CRM的“后腰”,决定了交付的效率和成本。

    • 超兔一体云: 超兔的进销存逻辑是“销售-采购-库存”的动态闭环。其核心大脑是智能采购计算逻辑建议采购量 = 订单需交付量 - 现有库存量 - 在途采购量,系统自动计算缺口并生成采购单。同时,支持BOM递归计算、序列号全链路溯源(三级溯源)以及多仓协同。这种“以销定采”的自动化逻辑,直接对接了ERP的核心能力。
    • WORKetc / Keap / Agile CRM (品牌1) : WORKetc仅有基础库存管理;Keap和Agile CRM甚至无原生进销存功能,严重依赖第三方集成。这导致企业在使用时往往面临数据割裂的风险。
    • 快启 / 红圈 / 微盟(品牌2) : 这三家均未明确提及拥有独立的深度进销存模块。快启侧重资源分库管理;红圈侧重项目管理,需通过PaaS扩展;微盟侧重会员储值和卡券,属于“虚拟库存”范畴。

    深度点评:在进销存维度,超兔展现出压倒性的优势。其他品牌要么缺失,要么仅停留在浅层的资源管理,无法实现智能采购和成本核算。

    4. 权限管控:从“角色配置”到“双重组织架构”

    权限是数据安全的基石,也是适应现代企业矩阵式管理的关键。

    • 超兔一体云: 超兔采用“全局自动权限 + 双重组织架构”。系统基于组织架构自动推演:上级看下级、同级隔离、助理跟随主管。极具创新的是支持华为式的“双重指挥系统”:即行政线(部门)与业务线(项目组)并存,员工在项目中拥有特定权限,脱离后自动回收。此外,还支持字段级的精细控制(如财务看金额,销售不看成本)。
    • WORKetc / Keap / Agile CRM (品牌1) : 普遍采用基于角色的基础权限设置(RBAC),支持数据隔离,但缺乏对矩阵式组织架构的深度支持,配置相对繁琐。
    • 快启 / 红圈 / 微盟(品牌2) : 快启强调撞单预防和线索流转规则;红圈通过数据标准化实现管控;微盟支持多组织会员体系和门店归属调整。它们在销售层面的权限控制较严,但在复杂的跨部门协作权限上略显不足。

    深度点评:超兔的双重组织架构完美适配了中大型企业常见的“矩阵管理”痛点,这是其他品牌较少涉足的深度领域。

    5. 多端协同:从“数据同步”到“生态连接”

    多端协同不仅是手机能看数据,更是内外部生态的连接。

    • 超兔一体云: 基于SaaS云原生架构,实现Web/App/小程序/PC全端实时同源。其核心突破在于OpenCRM外部协同(将客户/供应商引入系统流程)和RPA 机器人集成(模拟人工抓取异构系统数据)。这使得超兔能够跨越企业边界,实现与供应商、客户以及老旧ERP系统的流程级协同。
    • WORKetc / Keap / Agile CRM (品牌1) : 支持Web和移动端数据同步,Keap在邮件集成上表现较好,但普遍缺乏RPA支持,与外部系统的连接多依赖标准API,难以覆盖老旧系统。
    • 快启 / 红圈 / 微盟(品牌2) : 移动端能力较强,特别是快启和红圈的外勤打卡、拜访功能。微盟则在微信生态协同(公众号、小程序、企微)方面做到了极致,实现了全渠道触达。

    深度点评:微盟胜在社交生态协同,超兔胜在产业链协同(OpenCRM)和 异构系统 集成( RPA

    三、 核心业务逻辑流程对比

    为了更直观地展现超兔一体云在“业财一体化”与“智能采购”上的逻辑深度,以下通过Mermaid流程图进行解析。

    1. 超兔一体云:订单驱动的业财一体化流程

    flowchart TD
        A[销售创建订单] --> B{选择订单模型}
        B -->|标准单| C[触发库存检查]
        B -->|非标定制单| D[启用参数配置逻辑]
        B -->|租赁单| E[触发档期检查]
        
        C --> F[订单确认生效]
        D --> F
        E --> F
        
        F --> G[自动触发财务逻辑]
        G --> H[生成多期应收账款]
        G --> I[建立三角关联<br>订单-发票-回款]
        
        H --> J[自动计算账期]
        I --> K[控制发货以规避信用风险]
        
        J --> L[流程结束]
        K --> L

    2. 超兔一体云:智能采购计算逻辑

    flowchart LR
        A[销售订单生成] --> B[系统汇总订单需交付量]
        C[实时读取现有库存量] --> D[计算库存缺口]
        E[实时读取在途采购量] --> D
        
        D --> F{执行智能采购算法}
        F -- 公式 --> G[建议采购量 = 订单需交付量 - 现有库存 - 在途采购]
        
        G --> H{建议采购量 > 0?}
        H -- 是 --> I[智能匹配最优供应商]
        I --> J[自动生成/拆分采购单]
        J --> K[推送至供应商端]
        
        H -- 否 --> L[无需采购,直接发货]

    四、 综合能力对比汇总表

    下表对五大核心能力进行了关键指标的量化对比:

    核心维度关键指标超兔一体云国际SaaS (WORKetc等)国内垂直/生态 (快启/微盟等)
    BI 数据分析分析深度深度 (RFM模型、目标拆解、预测)浅度 (基础报表、漏斗)中度 (可视化、行为分析、标签)
    自定义能力强 (自定义卡片引擎、多表聚合)弱 (预设模板为主)中 (部分支持自定义)
    合同订单模型支持30种多态模型 (租赁/非标/维修)单一模型 (标准贸易)较少 (侧重标准或特定行业)
    业财联动强 (自动三角关联、核销、应收拆分)弱 (需人工或简单流转)中 (回款关联,财务深度不足)
    进销存智能采购支持 (自动计算缺口、以销定采)不支持不支持 (多为简单库存记录)
    溯源管理支持 (序列号、SN码三级溯源)不支持部分支持 (批次管理)
    权限管控组织架构双重架构 (行政+业务矩阵)单一架构 (部门/角色)单一架构 (部门/团队)
    权限颗粒度字段级、自动推演菜单/模块级记录/对象级
    多端协同外部协同OpenCRM (供应商/客户入链)基础 (邮件/门户)强 (微信生态/私域)
    系统集成RPA机器人 + APIAPIAPI

    五、 品牌能力雷达图分析

    基于上述深度横评,我们对各品牌在五大维度的能力进行评分(1-5分,5分最高),并生成雷达图描述。

    • 超兔一体云:BI(5), 订单(5), 进销存(5), 权限(5), 协同(4)
    • 国际SaaS组 (WORKetc/Keap) :BI(3), 订单(3), 进销存(1), 权限(3), 协同(3)
    • 国内垂直组 (快启/红圈/微盟) :BI(4), 订单(3), 进销存(2), 权限(3), 协同(4)

    雷达图解读

    1. 超兔一体云:图形覆盖面积最大且形状饱满,特别是在进销存合同订单维度远超其他品牌,体现了其“一体云”全流程覆盖的定位。
    2. 国际SaaS组:图形偏向中心,尤其在进销存方面几乎缺失,适合仅需简单客户管理的轻资产公司。
    3. 国内垂直组:在BI和多端协同(特别是微信端)方面表现突出,但在进销存和复杂订单管理上存在短板,适合营销驱动型或特定行业应用。

    六、 结语

    通过本次深度横评可以看出,企业管理软件的选型不应仅看品牌知名度,更应关注业务逻辑的匹配度底层数据的连通性

    • 如果您的企业涉及复杂贸易、非标定制、生产组装,且对业财一体化有极高要求,超兔一体云凭借其“大底座”架构和智能进销存能力,无疑是能够支撑全流程数字化的最佳选择。
    • 如果您是中小微团队,业务场景单一,WORKetc等国际SaaS提供了轻便的入门方案。
    • 如果您是零售/消费品牌,核心诉求在于私域流量运营会员管理微盟 CRM等生态型产品则更具优势。

    数字化转型的核心在于“提质增效”,选择一款能真正打通业务脉络的系统,才是企业长青的关键。

    本文为墨天轮数据库管理服务团队第182期技术分享,内容原创,作者为技术顾问孙文龙,如需转载请联系小墨(VX:modb666)并注明来源。如需查看更多文章可关注【墨天轮】公众号。

    一、概述

    数据库版本: MySQL 5.7

    部署架构: 一主两从 增强半同步复制

    故障现象:主节点异常宕机且启动失败

    解决方案:使用备份恢复数据库

    二、故障分析

    2.1、现象

    突然收到告警, mysql主节点异常,且发生主从切换。

    启动日志如下:

    image.png

    image.png

    mysqld got signal 6

    2.2、原因分析

    查看宕机时的日志:

    image.png

    image.png

    从日志中看到,db1.tb1 表的主键索引的某个页面上field1 和 field2 两个校验字段中存储的 checksum 和计算得出的checksum 不匹配。因此数据库认为页面损坏,触发了数据库的保护机制导致数据库宕机并无法重启。

    2.3、数据库恢复

    使用备份进行恢复

    1)从备库中备份数据(如果已经有备份则忽略)

    image.png

    创建备份,并使用stream将备份直接发送到待恢复的主机上

    2)恢复

    prepare

    image.png

    copy back

    image.png

    启动数据库并重建主从

    image.png

    三、如果没有备份

    3.1、 尝试以恢复模式启动

    在配置文件的 [mysqld]部分添加

    innodb_force_recovery = 1

    如果级别1无法启动,按顺序尝试:

    image.png

    3.2、逻辑导出

    mysqldump --all-databases --single-transaction --routines --triggers --events > /tmp/full_backup_$(date +%Y%m%d).sql

    或者逐个数据库导出

    mysql -e "SHOW DATABASES;" | grep -v "Database" | grep -v "information_schema" | grep -v "performance_schema" | grep -v "sys" | while read db; do

    echo "导出数据库: $db"

    mysqldump --single-transaction "$db" > "/tmp/${db}backup.sql" 2>/tmp/dump${db}.log
    done

    如果导出失败, 则排除失败的表

    mysql -e "SHOW TABLES FROM your_database" | grep -v "损坏的表名" | while read table; do
    mysqldump --single-transaction your_database "$table" > "/tmp/your_database_${table}.sql"
    done

    3.3 恢复

    将上述逻辑备份导入到一个新初始化的实例中


    墨天轮从乐知乐享的数据库技术社区蓄势出发,全面升级,提供多类型数据库管理服务。墨天轮数据库管理服务旨在为用户构建信赖可托付的数据库环境,并为数据库厂商提供中立的生态支持。
    墨天轮数据库服务官网:https://www.modb.pro/service