2026年3月

去年十一,同学路过深圳去香港办卡,我陪着一起去了。
我也办了中银香港的银行卡。现在实体卡已收到,周末去香港玩时也顺便存了一些钱。
但是发现中银香港的定期存款利率只有 1.5 ,现在很迷茫这个卡有什么价值。

目前手持 M1 Air ,16+2T 。
在家合盖外接显示器当台式机用,出门直接拿走。需要更换 M5 么?

感觉 M5 没有太吸引我的。无非就是加了

*Liquid 视网膜显示屏*
*升级前置摄像头*
*芯片更快,* 苹果宣传大语言模型 (LLM) 提示词处理性能比 M1 Air 快 9.5 倍
*增加了 MagSafe 接口*

简介

为 AI Agent 时代重新思考 UI

几十年来,用户界面一直专为人类设计——图形化、可交互,GUI 服务于人类视觉和双手。但随着大语言模型(LLM)作为新型用户出现,我们面临一个根本性问题:

当用户不是人类时,用户界面应该是什么样的?

这正是 面向 Agent 的 TUI(AOTUI) 要回答的问题。


是什么:一种新的界面范式

面向 Agent 的文本用户界面(AOTUI) 是一种以 LLM Agent 为一等公民 的界面范式。

它不为人类眼睛去渲染像素,而是为 LLM 上下文窗口渲染语义化 Markdown 文本。没有鼠标点击,Agent 调用Tool/Funtion。没有视觉提示(颜色、布局、头像),数据通过文本引用来引用。

简言之:AOTUI 就是当你为模型而非人类设计时,用户界面的样子。


为什么:根本性的不匹配

传统 GUI 中的每个设计决策都是为人类的三种特有能力服务的:

人类能力在 GUI 中的作用
视觉感知颜色、布局、空间关系、图标
双手通过鼠标和键盘进行点击、拖拽和输入
持续感知体验持续流动的 UI——悬停状态、动画、实时反馈

CSS 的存在是因为人类能看到。鼠标事件存在是因为人类有双手。动画的存在是因为人类持续地感知变化。

LLM 不具备这些能力。

LLM 缺少什么影响
没有视觉CSS、颜色和布局不可见——完全是无意义的 token
没有双手无法悬停、点击或拖拽
没有持续感知不会体验流动的 UI 流——只能在每个时刻读取一个静态快照

核心洞察:人类和 LLM 通过根本不同的模态感知现实。这种差异要求一种全新的界面范式。


怎么做:从约束到设计

让我们逐一审视每个约束——你会发现大多数其实是好消息

没有视觉 → 不需要渲染复杂性

不需要为人类眼睛生成像素,就不需要完整的渲染引擎、像素级精确的布局或 CSS。语义化文本格式既足够又更好。我们不抵抗这个约束,而是拥抱它:渲染 Markdown,而非像素

没有持续感知 → 更简单的状态模型

LLM 不会观看 UI 随时间变化。它读取当前状态的完整快照,推理,然后行动。这实际上大大简化了状态模型——没有动画、没有部分状态、没有过渡。每次交互都是一个干净的读取 → 推理 → 行动循环。同样是好消息。

没有双手 → 真正的问题

这里变得困难了。

没有键盘? 实际上不是问题。键盘给人类提供了输入文本的方式。LLM 原生输出文本。它们不需要键盘——它们就是键盘。

没有鼠标? 这才是真正的问题。 没有鼠标,LLM 无法在任何传统 UI 中指向、选择或触发操作。这就是 AOTUI 要弥合的能力差距。

要理解原因,我们需要看看鼠标实际上做了什么


鼠标实际上做了什么

每次鼠标交互本质上都是两种操作之一:

  1. 选择 —— 选择要操作的哪些数据
  2. 触发 —— 调用一个命令

让我们追踪一个具体例子。

你想在微信上给 JY Chen 发消息。

  1. 识别:微信渲染了 JY Chen 的头像和名字。你通过应用提供的视觉表现识别出那是 JY Chen——不是通过任何内部 ID,而是通过视觉表现。
  2. 选择:你点击了联系人卡片。视觉上是点击了一个 UI 元素。但幕后实际发生的是:应用将底层数据对象绑定到你当前的上下文——JY Chen 的内部用户 ID、服务器地址和其他你从未见过也不需要关心的元数据。
  3. 触发:你输入"你好!"然后点击发送。应用使用第 2 步捕获的数据作为参数构造函数调用——你提供了消息文本,应用提供了其他所有信息。

在底层,你的交互转化为类似这样的操作:

// 第 2 步:点击卡片默默绑定了这些数据
selectedContact = { id: "jy_chen_id_392", serverId: "sz-01", encryptKey: "..." }

// 第 3 步:点击发送调用了这个函数——使用绑定的数据
sendMessage(recipient: selectedContact, message: "你好!")

你只看到了一个名字和一个头像。你从未接触过用户 ID 或服务器地址。视觉界面捕获了复杂性并将其隐藏——只呈现你做决定所需的信息,默默绑定其余部分。

LLM 没有这样的桥梁。 它看不到头像,也无法点击。AOTUI 的工作就是在文本中重建这座桥梁。


AOTUI 如何重建桥梁

AOTUI 为没有鼠标的 Agent 解决了问题的三个部分——识别、选择和触发。

1. 识别:在文本中标注数据

AOTUI 不渲染头像,而是将数据以标注文本的形式暴露在结构化的 View 中:

<view id="contacts" type="ContactList" name="联系人列表" app_id="wechat">
  ## 联系人

  - [Wills Guo](Contact:contacts[0]) — 在线
  - [Emma Chen](Contact:contacts[1]) — 离开
  - [JY Chen](Contact:contacts[2]) — 在线
</view>

View 是一个边界清晰、自包含的上下文单元——屏幕或面板的文本等价物。LLM 通过阅读标签"识别"JY Chen,就像人类通过看到头像识别他一样。

2. 选择:类型化引用

光有标签还不够。LLM 还需要一种方式在调用操作时引用所选数据。AOTUI 将类型化引用直接嵌入每个标签旁边:

[JY Chen](Contact:contacts[2])

格式是 [人类可读标签](类型:引用路径)。当 LLM 想要"选择"JY Chen 时,它使用引用 contacts[2] 作为参数。在执行时,运行时根据其索引解析这个路径——检索完整的底层数据对象(user_idserverIdencryptKey 以及应用需要的其他信息)——并传递给函数。

LLM 永远看不到这些。就像你永远看不到 jy_chen_id_392AOTUI 将 LLM 无需关心的实现细节屏蔽在外,同时仍然给它精确、无歧义的引用来执行操作。

3. 触发:Tools 作为类型化函数调用

LLM 原生产生结构化函数调用——这正是 tool-calling 的设计目的。AOTUI 将每个交互元素映射为一个类型化的 Tool,LLM 可以调用:

### 可用工具
- `open_chat(contact: Contact)` — 打开对话
- `send_message(recipient: Contact, message: string)` — 发送消息

不需要鼠标。LLM 调用函数即可。

<Callout type="default">
设计原则:Tool 触发状态转换;它们不返回大量数据。数据始终通过下一个 Snapshot 中的 View 更新流动——而非通过 Tool 调用结果。
</Callout>


完整示例:给 JY Chen 发消息

让我们在 AOTUI 中重放微信场景。

第 1 步 — 应用发送 Snapshot

<view id="contacts" type="ContactList" name="联系人列表" app_id="wechat">
  ## 联系人

  - [Wills Guo](Contact:contacts[0]) — 在线
  - [Emma Chen](Contact:contacts[1]) — 离开
  - [JY Chen](Contact:contacts[2]) — 在线

  ### 可用工具
  - `open_chat(contact: Contact)` — 打开对话
  - `send_message(recipient: Contact, message: string)` — 发送消息
</view>

第 2 步 — LLM 接收指令"给 JY Chen 发送'你好!'"

LLM 阅读快照,识别 contacts[2] 是 JY Chen,构造调用:

{
  "tool": "send_message",
  "arguments": { "recipient": "contacts[2]", "message": "你好!" }
}

第 3 步 — 应用解析并执行

contacts[2]{ id: "jy_chen_id_392", name: "JY Chen" } → 消息发送。

第 4 步 — 更新后的 Snapshot 到达

<view id="chat_jy" type="ChatDetail" name="与 JY Chen 的对话">
  ## 与 [JY Chen](Contact:contacts[2]) 的对话

  - [你](User:currentUser): 你好! — 刚刚

  ### 可用工具
  - `send_message(message: string)` — 发送另一条消息
  - `close_view()` — 关闭此对话
</view>

LLM 现在在全新的上下文中操作。没有渲染像素。没有鼠标。没有 CSS。只有干净的结构化文本和类型化函数调用——通过读取 → 推理 → 行动的循环流转。


实现架构

你可能会问:"如果我们是为纯文本的 LLM 构建,为什么还要用 HTML 和 JavaScript?"

因为 Web 生态系统是成熟的。AOTUI 使用 HTML 作为中间表示——开发者编写熟悉的 JSX/Preact 组件,在轻量级虚拟 DOM 中渲染为 HTML,然后转换为 LLM 可读的 Markdown:

开发者编写:              运行时渲染:              LLM 接收:
Preact JSX 组件      →   Worker DOM 中的 HTML  →   Markdown Snapshot
<View id="contacts">      <div data-view="...">    <view id="contacts">
  {useViewTypeTool(...)}    <span data-tool="...">  ## 联系人
</View>                   </div>                    </view>

这个架构让开发者使用熟悉的工具,而框架处理语义文本生成的复杂性。


总结

GUI 概念AOTUI 对应物
可视页面View(语义容器)
CSS / HTML 渲染Markdown 文本
头像 / 颜色 / 位置文本引用(Type:reference
鼠标点击Tool(函数调用)
持续的 UI 流离散的 Snapshot
屏幕空间上下文窗口 token

AOTUI 不会缩小 GUI 或移除 CSS。它构建了一种不同类型的界面——一种 LLM 可以像人类操作图形应用一样自然地操作的界面。

下一步:认识 Agentina → — 基于 AOTUI 构建的 Agent 应用宿主。

这篇文章为大家介绍如何在 OpenClaw 中加载 seekdb Agent Skills,让它能够随时基于 seekdb 官方文档回答开发者有关 seekdb 部署、向量搜索、混合搜索、集成方式等常见问题。

什么是 OpenClaw ?

OpenClaw 实在太火了,其实可以不介绍。但为了保证内容的完整性,还是象征性地介绍下~

OpenClaw 是一款运行在你自己设备上的个人 AI 助手。它在你已有的沟通渠道上与你对话(如 WhatsApp、Telegram、Slack、Discord、Signal、iMessage、WebChat 等),也支持通过本地 TUI 或 Web 界面直接聊天。

特点概览:

  • 本地优先:数据与对话由你掌控,可完全在本地或自建环境中运行。
  • 多渠道:同一助手可接入多种即时通讯与开发工具。
  • 可扩展:通过 Skill(技能) 为助手注入领域知识或工具能力。

什么是 seekdb ?

seekdb 是 OceanBase 推出的 AI 原生数据库,可以运行在各种设备上。

它将关系型数据、向量、全文、JSON、GIS 等多种数据类型统一在单一引擎中,支持通过一条 SQL 完成向量搜索 + 全文搜索 + 关系查询的混合操作。

特点概览:

  • AI 原生:内置 embedding 生成、重排序、LLM 推理能力,数据库内完成 RAG 工作流。
  • 混合搜索:向量搜索 + 全文搜索 + 关系查询,一条 SQL 搞定所有。
  • 轻量易部署:最低 1 核 CPU + 2GB 内存即可运行,支持嵌入式、Docker、RPM 多种部署方式。
  • MySQL 兼容:兼容 MySQL 语法与生态,支持完整 ACID 事务,学习成本低。
  • 开源免费:Apache 2.0 许可,代码开源在 GitHub。

什么是 seekdb Agent Skill

seekdb Agent Skill 是一组与 seekdb 向量数据库相关的 Agent 技能,用于增强 AI 助手在 seekdb 场景下的能力。本 Skill 包由 seekdb 生态插件 提供,支持多种 AI 工具(如 OpenClaw、Claude Code、Cursor、Codex 等)。

当前主要包含三类技能:

  1. seekdb-docs(文档技能)

    • 内置 seekdb 官方文档知识库,支持基于内容的语义检索。
    • 涵盖快速入门、开发指南(向量搜索、混合搜索、AI 函数等)、SDK/API 参考、多模型数据、集成与部署运维、实践教程等。
    • 助手在回答「如何部署 seekdb」「如何使用向量搜索」等问题时,会优先查阅远程文档,失败时回退到本地文档。
  2. importing-to-seekdb(导入技能)

    • 将 CSV/Excel 导入 seekdb,支持可选列向量化(如 all-MiniLM-L6-v2),便于后续语义搜索。
    • 支持预览、批量导入与集合管理。
  3. querying-from-seekdb(查询技能)

    • 对 seekdb 进行标量/混合搜索,支持元数据过滤与 RRF 排序,并可导出为 CSV/Excel。

本文以 OpenClaw + seekdb 文档技能 为例,介绍如何安装、加载技能并通过自然语言向助手提问(如「how to deploy seekdb」等),助手会基于该 Skill 检索文档并给出解答。


安装 OpenClaw

小编的 OpenClaw 是让 Qwen Code 直接替我安装的。

Qwen Code 是 Claude Code 的平替产品 ,默认的 Qwen3-Coder 模型免费额度是每日 2000 次请求,正常使用场景都够用,顺带在这里一起推荐给大家。

环境要求:Node.js ≥ 22

  1. 一键安装脚本
curl -fsSL https://openclaw.ai/install.sh | bash
  1. 先选择 QuickStart,后面有需要可以再手动配置

  1. 选择一个 provider,在下一步输入 API Key,并选择一个模型

  1. 目前用不到,可以先跳过

  1. 选择不配置 skill,后面再配置。这里显示的几个配置信息很重要:
  • openclaw.json:OpenClaw 的配置文件,所有的配置都写入了这个文件,可以手动编辑这个 JSON 文件来修改配置
  • Workspace 路径:~/.openclaw/workspace,OpenClaw 的默认操作目录,后面的 skill 也要放到这个文件夹下
  • sessions:是与会话持久化有关的目录,OpenClaw 的会话在关闭终端时不会结束,当你再次打开终端时会继续上次的会话,除非输入「/new」,才会开启一个新会话

  1. Hooks 是 OpenClaw 在执行特定操作(如启动、开启新会话)时运行的指令,可以在每个上面敲击空格多选,进行开启

  1. 这里选择使用 TUI,也可以使用 http://127.0.0.1:18789?token=... 打开 Web UI

  1. 输入「what skills do you have?」,可以看到这里并没有 seekdb 相关的 skill。输入「/exit」,先退出。

更多细节见官方:快速入门、安装说明。

通过 pip 安装 seekdb Agent Skill

seekdb Agent Skill 以 Python 包形式发布在 PyPI,通过 pip 安装后,运行交互式安装器将技能安装到 OpenClaw 的工作区。

  1. 安装 Python 包

注意:Ubuntu 等系统可能无法直接运行下面的命令,如果有报错,请先创建虚拟环境

pip install seekdb-agent-skills
  1. 运行交互式安装器
seekdb-agent-skills
  1. 在安装器中操作

  • 选择工具:在列表中选择 OpenClaw
  • 确认安装路径:安装器会将技能安装到 ~/.openclaw/workspace/skills,确认即可。
  • 选择技能:默认勾选了 seekdb(文档技能),可以直接点击 Enter 键确认。
  • 用方向键与 Space 多选,Enter 确认,安装器会把对应技能目录复制到 OpenClaw 工作区。

安装完成后,如果在 Web 页面需要点击「New session」,如果在 TUI 需要输入「/new」,以便加载新技能(OpenClaw 会扫描 ~/.openclaw/workspace/skills 下的技能)。

  1. 确认技能是否已安装,有多种确认方式

命令行中确认:

openclaw skills

预期输出如下:

Web UI 确认:

点击 SKills 选项卡,输入 seekdb 进行查询

通过 ClawHub 安装 seekdb Agent Skill

除 pip 外,你也可以通过 ClawHub 安装 seekdb Agent Skill。

两种安装方式的区别在于: ClawHub 不支持下载大量文件,在 ClawHub 上的 seekdb Agent Skill 仅提供远程模式(从 GitHub 拉取文档),不包含本地文档,使用前需能访问 GitHub;而通过 PyPI 安装的版本则同时支持本地模式远程模式,可在无网络或 GitHub 不可用时回退到本地文档。

  1. 安装 clawhub
npm install -g clawhub
  1. 安装 seekdb-docs 技能
clawhub install seekdb-docs

安装完成后,验证技能是否已安装的方式与 pip 相同:可在命令行执行 openclaw skills 查看技能列表,或在 Web UI 中点击 Skills 选项卡、输入 seekdb 进行查询。

开始对话

说明:这里 OpenClaw 的实际表现,会和模型的选择有较大的关系。

1. 查看下当前都有什么技能

输入「what skills do you have?」,显示了 seekdb-docs 的技能

2. 再打开 TUI

因为 OpenClaw 的 Web UI 页面和 TUI 指向的是同一个会话,这个问题我们打开 TUI

输入下面的命令:

openclaw tui

我们并没有输入任何问题,打开 TUI,就把在 Web UI 上问的问题带进来了

3. 询问如何部署 seekdb

输入「how to deploy seekdb?」,它正确回答了 seekdb 的部署方式。

你还可以继续追问,例如:

  1. 「how to use vector search in seekdb?」
  2. 「seekdb 支持哪些 AI 框架集成?」
  3. 「如何在 seekdb 中实现混合搜索?」等等。

只要问题与 seekdb 文档相关,OpenClaw 都会优先使用这套 Skills 来进行解答和执行相关的任务。

相关资料

智能客服新体验:访答如何改变企业服务

从传统客服到智能助手的转变

记得去年冬天,我拜访了一家小型科技公司。他们的客服部门只有两名员工,却要处理来自官网、邮件和电话的各种咨询。每当有新功能上线,客服人员就需要花费大量时间学习,然后才能回答用户的问题。这种模式不仅效率低下,还常常因为信息更新不及时导致回答错误。

直到他们发现了访答,情况才彻底改变。

什么是真正的智能客服

访答并不是简单的聊天机器人。它基于深度优化的中文RAG技术,能够真正理解用户的问题意图。与传统客服系统相比,访答最大的优势在于它能够深度学习并解析官网的全部内容,构建专属知识库。

想象一下,当用户询问某个产品功能时,访答不是从预设的回答库中机械地挑选答案,而是基于官网的实际内容给出精准回复。这种基于真实内容的问答方式,让回答更加准确、可信。

技术背后的温暖

很多人担心智能客服会让人机交互变得冰冷。但访答的设计哲学恰恰相反。它支持多模态内容识别,不仅能理解文字,还能识别图片、图文混排等内容。当用户询问产品外观时,访答可以关联展示产品图片;当用户咨询活动详情时,它能直接调取官网的活动海报。

这种全方位的理解能力,让对话变得更加自然、生动。用户感受到的不再是机械的问答,而是真正有帮助的服务体验。

简单却不简单

最让我惊讶的是访答的部署 simplicity。企业只需要将一段代码嵌入网站,无需技术团队介入,5分钟内就能上线专属的智能客服。这种零开发成本的接入方式,让中小型企业也能享受到顶级的智能客服服务。

但简单并不代表功能简陋。访答提供了完整的后台管理功能,网站内容更新后,知识库可以一键同步更新。这种设计既保证了服务的时效性,又大大减轻了企业的维护负担。

信任的建立

在数字化时代,建立用户信任至关重要。访答的溯源参考导航功能,让每个回答都有据可查。当访答回答问题时,会自动提供对应的官网参考链接,用户可以直接跳转到原文页面验证。

这种透明化的服务方式,不仅增强了回答的可信度,还引导用户深度浏览官网,提高了网站的留存率。从商业角度看,这无形中创造了更多的转化机会。

未来的服务模式

随着人工智能技术的不断发展,智能客服正在重新定义企业的服务边界。访答代表的不仅是一种技术解决方案,更是一种服务理念的革新。它让企业能够以更低的成本提供更高质量的服务,让用户在任何时间都能获得及时、准确的帮助。

在这个快节奏的时代,访答为企业与用户之间架起了一座永不关闭的沟通桥梁。或许不久的将来,这种智能、贴心、高效的服务模式,将成为每个企业的标准配置。

毕竟,最好的服务,就是当用户需要时,永远有人在。

在金融科技(FinTech)应用的开发中,行情数据的实时下发一直是考验前端渲染与后端架构协同能力的核心模块。无论是对内提供支持,还是对外输出服务,数据的流畅性都是第一用户体验。

系统需求定义与业务场景
无论是开发一款小型的行情监控Dashboard、一个微信小程序报价板,还是构建一套复杂的服务器端策略回测引擎,第一步永远是解决数据的持续、稳定输入问题。尤其是在港股这样交投活跃、受外围市场影响大的市场,开发者需要将行情数据无缝、低延迟地嵌入到核心业务逻辑流中。

传统方案的工程劣势与技术债
如果仅依靠前端JavaScript定时刷新页面,或后端使用BeautifulSoup/Cheerio暴力解析HTML标签,系统很快就会遇到性能瓶颈。这种方案在架构设计上是极不优雅的,它不仅浪费了大量的计算和网络资源(无用的HTML冗余数据),而且目标网站的解析规则一旦变更,整个数据拉取服务就会瞬间停摆,维护成本极高,属于典型的“高技术债”做法。

基于标准API的数据流转与重构
作为金融IT从业者,业界的最佳实践是直接调用标准化的金融数据网关。在技术选型时,集成AllTick API这种支持多协议(HTTP/WebSocket)的行情网关,可以大幅降低研发周期。通过API,剥离了视图层,数据以纯净的JSON格式返回,直接进入业务系统的反序列化流程,清晰且高效。

获取历史及实时K线序列的REST化请求示例如下(Python演示):

import requests

TOKEN = "your_api_token_here"

url = (
    "https://quote.alltick.co/quote-stock-b-api/kline"
    f"?token={TOKEN}"
    "&query={\"data\":{\"code\":\"00005.HK\",\"kline_type\":1,"
    "\"kline_timestamp_end\":0,\"query_kline_num\":1,\"adjust_type\":0}}"
)

resp = requests.get(url)
print("实时行情数据JSON流:", resp.json())

对于深度分析模块或订单簿重建(Order Book Reconstruction),系统需要高频订阅Tick级别的逐笔数据。

import requests

TOKEN = "your_api_token_here"
tick_url = (
    "https://quote.alltick.io/quote-stock-b-api/tick"
    f"?token={TOKEN}"
    "&query={\"data\":{\"code\":\"00005.HK\"}}"
)

r = requests.get(tick_url)
print("Tick 成交明细序列化:", r.json())

架构设计考量与性能调优
在实际的微服务架构中,我们需要对数据获取方式进行严格的场景解耦。对于定时触发的批处理任务(如日终结算、特征生成、历史K线补全),REST API的按需拉取(Pull)最为稳妥;而对于毫秒级响应的告警系统或实盘交易模块,则应采用WebSocket保持长连接监听(Push)。同时,Token鉴权隔离、全局的限流器(Rate Limiter)配置、以及优雅的断线重连逻辑(Heartbeat监测),是保障整个行情微服务健壮性,防止雪崩效应的关键。

(声明:本文有感而发,一气呵成,完全没有使用 AI ,文字流程与排版清晰完全归功于笔者。)

投资者通常喜欢以“大盘”为基准,每当谈起操作逻辑,必以“能否跑赢大盘”诘问之。其实,盲目追求跑赢大盘,会使人迷失在股海之中,遭遇巨大风险而不自知。下面进行具体说明。

买沪深 300ETF ,不可能跑赢沪深 300 指数

首先必须满仓。半仓或者低仓位买沪深 300ETF ,收益率只是自欺欺人。
满仓,最多也只能做到与沪深 300 指数平手,不可能超越。
想要超越,必须在高点减仓,然后在低点加仓。但每次都卖在高点,是不可能的。也就是说,一旦减仓,大盘继续涨,那就连与沪深 300 指数打平手都做不到,只能跑输。

想要跑赢沪深 300 指数,就不能买沪深 300ETF

如上一节所述,反证之,必须跳出沪深 300 之外,才可能打败沪深 300 。那么我买纯债行不行?显然不行,风险低了,收益就低。道理非常简单,需要买比沪深 300 更高风险的品种,才可能跑赢沪深 300 。

迷路的原因

正如本文开篇所说:盲目追求跑赢大盘,会使人迷失在股海之中,遭遇巨大风险而不自知
原因就在于很多人的风险偏好很低,心理需求却是跑赢大盘,这必然造成:

  1. 买入高于自己风险承受能力的品种
  2. 虽然暂时还没买高风险品种,但内心备受煎熬,常常责怪自己

解药

打破迷思,走出误区。别再盲目追求跑赢大盘,炒股不是为了攀比。反求内心,认识自己,通过谨慎的实践与积极的复盘来看清自己的真实风险偏好。能冒高风险就冒高风险,不能冒高风险就坚守底线,拒绝高风险操作。不要做攀比收益率的幼稚行为。

最近有看 v 友提到 polymarket,比较好奇注册了账号上去看了看,感觉挺有意思的,昨晚下班冲了 300u ,玩五分钟 btc 猜大小,一开始只敢 2-10u 投,两小时后到了 350u ,感觉自己行了,下了 100u ,没了,上头了剩下 250u 全投进去,又没了,300u 亏得不算多,但是给我的冲击比前天 A 股账户绿五位数还大,都说 A 股是赌场,跟真赌场还是差远了。珍爱生命,远离赌博。

本人劳动合同签到第三方公司,现在第三方公司公司要我裁掉,给出的解决方案是:N+1 或調岗到异地(工资下降了 53%)
在工作期间本人 5 险一金存在未按实发工资上缴的情况,本人主张在解除劳动关系之前,公司补缴 5 险一金和 N+1 ,公司不同意补缴 5 险一金,下面是第三方公司的邮件回复内容

需要说明:

  1. 你的劳动关系自始属于我公司(第三方公司),而不是某某公司,并不存在派遣的情况。

  2. 我公司在某省已没有任何项目,无需再多次说明,你所说的某某公司也与我公司终止项目合作。

  3. 公司再次向你明确,公司已尽可能地为你提供与你岗位具备相关性的岗位,此前向你提供的调整后的新工作岗位内容与薪资待遇,是基于客观情况影响下能为你匹配到的唯一岗位。

  4. 你至今没有接受公司的岗位调整,后续公司将依法妥善处理与你的劳动关系。

5.您提出的社保、公积金缴纳问题,上次已回复,公司按照国家及地方相关规定合规操作,您有问题也可以向相关部门咨询。

本邮件系对你此前提出问题的最终回复,后续将不再对同一事由一一进行回复。

论文名称:Bridging the Copyright Gap: Do Large Vision-Language Models Recognize and Respect Copyrighted Content?
论文作者:Naen Xu, Jinghuai Zhang, Changjiang Li, Hengyu An, Chunyi Zhou, Jun Wang, Boyu Xu, Yuyuan Li, Tianyu Du, Shouling Ji
作者团队-中文:浙江大学
发表时间:2025年12月26日
发表会议:AAAI
Github地址(demo):https://github.com/bluedream02/CopyGuard
论文链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...

1.论文简介

大型视觉语言模型(LVLMs)在多模态推理领域成果显著,但广泛应用中存在严重的版权侵权风险,而当前缺乏针对其多模态场景版权合规能力的系统评估与有效防护方案。为此,该研究构建了含50,000个查询-内容对的大规模基准数据集,覆盖书籍摘录、新闻文章等4类版权内容,包含有无版权声明的双场景及4类侵权任务,首次系统评估12款主流LVLMs的版权合规表现。研究发现,11款模型即便面对明确版权声明仍存在显著合规缺陷,仅GPT-4o表现相对较好。针对这一问题,提出工具增强型防御框架CopyGuard,通过版权声明识别、版权状态验证、查询风险分析及合规提示四大组件,在不影响模型合法任务性能的前提下,大幅提升模型版权拒绝率(重复任务中超82%),有效降低侵权风险。该研究填补了LVLMs版权合规评估的空白,为模型的合法合规部署提供了关键技术支撑。## 1. 研究背景
大型视觉语言模型(LVLMs)在多模态推理任务中取得显著进展,但广泛应用引发潜在版权侵权风险。现有研究多聚焦纯文本模型的版权问题,而LVLMs需同时处理文本和图像形式的受版权保护内容,版权识别与合规难度更高。当前缺乏针对LVLMs版权合规能力的系统评估基准,且现有模型即便面对含版权声明的内容,也常因缺乏版权意识而违规生成,存在严重法律与伦理隐患。

2. 研究目的

针对LVLMs在多模态场景下的版权合规短板,本研究旨在:系统评估主流LVLMs对受版权保护内容的识别与合规能力;探究版权声明对模型合规行为的影响;提出有效的防御框架,提升LVLMs在各类场景下的版权合规性,降低侵权风险。

3. 本文核心贡献

  • 构建首个大规模多模态版权合规基准数据集,含50,000个查询-内容对,覆盖4类侵权场景、4类版权内容及有无版权声明的双场景,填补评估空白。
  • 首次对12款主流LVLMs开展全面版权合规评估,揭示多数模型存在显著合规缺陷,明确版权声明形式与模型架构对合规性的影响规律。
  • 提出工具增强型防御框架CopyGuard,通过版权声明识别、版权状态验证等四大组件,有效提升模型版权合规性,且不影响合法任务性能。

4. 研究方法

  • 数据集构建:从书籍摘录、新闻文章等4类真实版权材料中采集内容,生成重复、提取等4类侵权查询,设置有无版权声明及多种声明形式的子场景。
  • 评估设计:选取12款不同类型的LVLMs,采用相似度指标(ROUGE-L、BERTScore等)与拒绝率双维度评估模型合规性,利用GPT-4辅助判定拒绝行为有效性。
  • 框架开发:CopyGuard整合OCR识别、谷歌搜索API等工具,实现版权声明检测、版权状态验证、查询风险分析及合规提示四大功能,无需修改模型参数。
  • 实验验证:在基准数据集及4个通用多模态基准上验证框架有效性,通过消融实验与案例分析验证各组件作用。

5. 研究结果

  • 12款LVLMs中11款存在明显版权合规缺陷,仅GPT-4o表现相对较好,多数模型即便面对含版权声明的内容,拒绝率仍低于5%。
  • 详细版权声明比通用声明更能提升模型合规性,文本形式声明对部分模型效果更优,API类模型合规性整体优于开源模型。
  • CopyGuard能显著提升所有模型的版权拒绝率(重复任务中拒绝率超82%),且不影响模型在通用任务上的性能,无虚假阳性拒绝情况。

6. 总结与展望

总结

研究系统揭示了LVLMs在版权合规方面的普遍短板,通过构建专用基准与提出CopyGuard框架,为解决多模态场景下的版权侵权问题提供了有效方案,验证了工具增强型方法在提升模型版权合规性上的可行性与优越性。

局限性与展望

  • 局限性:依赖在线服务进行版权状态验证,可能受缓存数据时效性影响;框架运行存在一定额外成本与延迟。
  • 未来方向:拓展数据集至更多类型版权内容与地区法规场景;优化框架以降低运行成本与延迟;探索将版权意识融入模型预训练过程,从根源提升合规能力。

一、背景简介

近年来,搜索/推荐/广告系统在粗排(Pre-ranking)与精排(Ranking)阶段的模型训练中,呈现出一个明确的趋势:从单目标优化转向多目标建模 + 多目标融合。模型目标多、融合公式复杂,给工程维护、算法迭代效率都带来了挑战。

为了明文化直白展示公式全景、方便决策调参方向,直接配公式、线上自动算(既支持精排预估目标融合、也支持业务条件boost)。我们设计并落地了加乘树调参框架。从1.0优化至3.0,我们提供了:一个调参框架(Java版、同时引擎基建同学落地了C++版)能支持不同算法环节“公式即配即用”,一个打通AB实验的一站式产品化平台,支持一站式“辅助配置->调试->开实验->变更管控”。

带来收益:无论是粗排还是精排,“训多目标、融公式” 已成为工业界标准范式。在得物社区搜索、推荐的模型迭代实践中,我们也确实走“模型多目标训练 + 融合公式调参”范式,2025在社区推荐、社区搜索落地了几十次LR(社区推荐内外流精排、粗排,社区搜索精排)、近百次加乘树推全。

二、即配即用:算法爆发的催化剂,工程稳定的绊脚石?

在算法领域,“即配即用”的工程框架多次成为推动算法快速迭代甚至“爆发式增长”的关键基础设施。面对粗、精排“多目标建模 + 多目标融合”这一建模范式,社区算法和工程提出了如下基建目标:

即配即用提人效: 实时调整配置、线上就能自动生效数学逻辑,使算法工程师从过去几天才能完成一次调参,转变为一天内可进行多次迭代,从而将精力集中在模型和融合公式本身。

全量配置+增量配置范式: 实验只配要改的几行,降低配错风险。全量配置不动,形成天然降级能力。

DSL可解释性强: 粗、精排的融合公式配置量大,数学变换复杂,容易配错。我们提供的DSL让算法同学直接写数学公式/逻辑表达式。明文公式形成策略全景,方便算法同学决策调参方向。

编译校验与降级体系筑牢稳定性防线: 即配即用+数学公式DSL的需求,给工程稳定性带来极大挑战。我们采用“编译语法校验 + 自动用全量配置降级 + 手动切换编译/解释模式”三位一体保障稳定性。

三、可信赖底座:让复杂公式配置既灵活又可靠

全量配置+增量配置范式

传统的KV、JSON 或 YAML等配置格式在面对上百行数学公式时已显乏力:一方面配置体量大、人工修改易出错且缺乏容错机制;另一方面可读性差,难以维护和审查。

我们采用“全量配置+增量配置”的设计,天然解决了使用门槛&自动降级问题:

  • 只配增量,让使用更轻松、出错更可控: 全量配置锁定为只读,确保基线稳定;算法同学只需声明需要新增或修改的增量配置(upsert)。系统在运行时将增量动态合并到全量配置中,生成最终生效的实验配置——既简化了操作;又避免了误改全局参数的风险。
  • 增量可试,基线兜底: 增量配置有误,自动回退至基线,形成天然降级机制。

给一个社区搜索主搜精排的样例:

DSL接近数学公式/逻辑表达式明文

社区搜索、社区推荐的精排融合公式,服务了“多目标融合+业务boost调权”,语义包含:数学变换、逻辑判断、自定义UDF。当算法写下一串sin(log(max(UDF(x), y))),框架能否接住?框架必须托底,正确校验与执行,杜绝“配错即崩”。

从加乘树1.0到3.0,公式解析统一选用 ANTLR。相比手搓“逆波兰表达式”或“Flex & Bison”,它基于AST校验更可靠,且Java开发门槛低。实际加乘树的配置结构里,公式按KV配置(Key 为结果名,Value 为表达式),支持跨行引用——前序公式的输出可作为后序公式的输入,形成可串联的计算链,直至得出最终结果。

  • 公式链转DAG: 在加乘树3.0中,有相互依赖关系的多行公式,被框架解析成DAG。每个item都通过这套DAG计算融合分,1个item可能有多个融合分、每棵DAG的根结点对应1个融合分。
  • AST驱动逐行校验: 每行公式都依托编译原理,校验&解析为抽象语法树(AST)。结构化的AST可支撑后续可靠计算。
  • 加乘树3.0把DAG和AST直接翻译成代码: 框架将公式链直接翻译成可执行代码,用字节码技术加载到JVM中。每个item直接计算即可。

编译校验与降级体系筑牢稳定性防线

即配即用给算法同学迭代提效带来便利,同时给工程维稳带来挑战。尤其加乘树面临的配置是可自由组合、千变万化的数学公式时,绝对不能出现“配错即崩”的情况。我们做了如下一整套安全设计:

  • 编译原理强校验: 如何应对无限组合的公式配置?加乘树选择了编译原理强校验,用了ANTLR框架,把公式校验&解析成严谨的可访问结构(AST)。
  • DAG强校验公式链: 加乘树3.0初始化阶段自动解析公式链间的依赖关系,一边将公式链解析成DAG、一边强校验。能通过校验、最终编排成DAG的公式,才会进入实际计算;不能通过校验的危险配置(漏配公式、公式配错)都会在初始化阶段就被拦截,不会进入实际计算。
  • 自动降级范式: 加乘树设计了一套自动降级范式,方便“前置拦截错误、事中有效托底、后置发出告警”。一旦有错误的实验开流量,加乘树初始化阶段就会校验出错误,当次请求忽略AB实验配置、直接用全量配置计算,并及时发出“实验配置有误”的告警。
  • 串行重算托底: 如果有“编译原理校验”、“DAG校验”没有校验出的意外怎么办?如果框架仅仅是高峰期计算超时失败了怎么办?加乘树最后一层安全托底是“用全量配置串行重算”。无论如何保证线上效果。

四、核心攻坚:加乘树3.0升级编译执行

加乘树2.0在社区搜索落地后,“每次请求3000个item、线程并发拆的多”的情况,暴露出加乘树耗CPU、耗线程的弱点。C++版加乘树替换了计算引擎,没有采用antlr visitor解释执行数学运算的方式,而是用exprtk框架、收获了更高的性能。

受C++版加乘树的启发,我们计划替换Java版加乘树的计算引擎,降CPU消耗、降执行平响。加乘树3.0变成“直接将配置翻译成代码,字节码加载,直接计算”的编译执行形态。

极致性能:配置直译硬代码,零中间损耗 + 最优 JIT

Antlr翻译&Javassist加载,直接“公式翻译成可执行代码”: 包括多行公式的依赖关系、数学计算&UDF调用,直接拉平成硬代码。硬代码执行效率最高,没有map缓存、递归调用栈等损耗。

多行公式传递中间结果,map换POJO: 每个item维护自己的缓存map,高并发put/resize,造成明显的CPU消耗、youngGC压力。本次会初始化时决策缓存POJO,避免resize、且读写更高效。

核心Javassist管理类借鉴Dubbo写法: Dubbo的ClassGenerator写法,对内存管理考虑比较完善。本次借鉴ClassGenerator,把动态生成代码收入唯一管理单例类。

性能收益

晚高峰模块平响、CPU火焰图消耗和内存分配火焰图消耗均显著降低。

典型踩坑

字节码加载不容忍语法糖:

动态生成的字节码必须严格遵循JVM 范,平时习惯手写的Java法糖是不容忍的。例如,Float a = (float) b; 在源码中合法,但若b是Double类型,该语句涉及拆箱 + 窄化转换 + 装箱,而字节码层面需显式插入doubleValue() → (float) cast → Float.valueOf() 等指令。若直接按表面类型生成字节码,将触发VerifyError。

OOM在多处需要关注:

Javassist使用不当容易OOM:Javassist 在生成和操作字节码时(如通过 CtClass),因为其缓存机制,需要开发者主动管理资源释放。每次parse字节码的CtClass要及时释放,否则高频生成字节码容易触发OOM。这一点上,加乘树参照了Dubbo的ClassGenerator写法,创建、销毁内聚在同一个类里,即用即释放。

动态生成ClassLoader/Class/Instance要能GC:Instance能GC,ClassLoader/Class能GC吗?答案是能,只有从ClassLoader -> Class -> Instance全链路都GC Root不可达了,这一串才能GC。所以用Spring的ClassLoader这类常驻ClassLoader加载动态生成类是不行的,必须用即用即弃的自定义ClassLoader,并注意全链路的强引用问题。


我们实际验证了动态生成的类确实能被GC掉。

多重护航:防止非法Java字节码引发线上问题

ASM + Javassist双重检验: 翻译生成的代码,经Javassist生成字节码后,除Javassist .toClass()的自检验,我们还让字节码过了ASM的字节码静态校验(会运行类似JVM的类型推断验证,确保每条指令执行前后,局部变量表和操作数栈的状态是类型安全的)。

沙箱加载: 我们将加乘树管理平台封装成了一个沙箱,算法同学调试公式点击“校验”,平台会用同一套SDK模拟线上全套加载流程:“AST强校验 -> DAG强校验 -> 真实翻译代码 -> Javassist & ASM 双校验 -> 反射调用构造器创建实例”,一整套无误后才往线上推配置。

线上异步加载,任何问题自动降级: “可执行代码(执行器)初始化”读写分离,新配置上线是异步刷新,刷新错误只会造成线上流量过来找不到执行器,自动降级走全量配置(并发出告警),不影响效果。

可回退解释执行: 加乘树2.0、1.0的解释执行能力十分稳定、只是性能略差,3.0可以一键回退解释执行。

加乘树管理平台:一站式配置、调试与实验平台

面向算法同学: 做了一套一站式“辅助配置->校验->实时调试->开实验->变更管控”的使用体验,告别繁琐配置、体感更丝滑。

面向系统稳定: 加乘树管理平台把自己封装成了一个沙箱,如上一个模块所述,一切风险都拦截在沙箱爆炸。

五、稳扎稳打:从1.0到3.0的演进

加乘树1.0: 支持配公式、框架直接算公式,支持UDF,解释执行。加乘树2.0: 少量性能优化,抽象成SDK。加乘树3.0: 升级为编译执行,外观简化为只需要配公式、框架自动解析DAG。

加乘树1.0和2.0都是用的解释执行,antlr visitor遍历AST做“数学/逻辑/if判断”运算。加乘树3.0升级成了编译执行,多行公式解析DAG、每行公式用antlr解析AST时,直接翻译成Java执行代码,用字节码技术把执行代码加载进JVM直接执行。同时加乘树3.0也支持降级至解释执行。

加乘树1.0

解决:落地即配即用公式,解决手搓硬代码迭代效率低、代码腐化导致生效逻辑不清晰的问题。缺陷:费线程&CPU。

加乘树1.0于2025年1月在社区推荐外流精排落地,配法(使用外观)、降级机制是后续迭代不变的:

  • 配法:1): “全量配置+叠实验改动”的配置机制 2)配置总共分 consts(输入物料)、paramBranch(条件分支替换参数)、formulas(公式)、root(融合结果字段名)。
  • 降级机制:1): 初始化阶段就检测公式配错、漏配公式等,一旦检出就自动降级走全量配置、并发出告警 2)少量运行时才能发现的问题,串行重算、降级算全量配置。

当时是从手搓硬代码做公式融合,无DIFF迁移过来,解决了如下2个迭代痛点:

  • 迭代效率: 除调参是可配,调公式形态、调生效条件等都需要开发&上线。
  • 逻辑黑盒: boost、融合公式迭代复杂之后,生效逻辑变得黑盒,不容易分析调参方向。

加乘树1.0的实现要点

纯item维度(请求维度的公式也会每个item重复计算)。consts->paramBranch->formulas串行计算。antlr解析单行公式成AST,框架递归解析树依赖,antlr visitor解释执行。

为什么用antlr

DSL语法校验: 我们需要一种配置设计,能尽可能简洁地表征模型融合公式(支持逻辑判断/复杂数学变换/UDF)——接近Java语法&数学公式的DSL(当时有对标字节的配置外观)。我们需要准确校验DSL配置正确、并正确解析DSL配置——在antlr、手搓逆波兰表达式、flex&bison里,选了用antlr校验、解析DSL(用AST校验原理可靠,Java上手难度低)。

antlr visitor解释执行: 依靠AST解析计算是一种可靠的计算逻辑。我们需要稳定靠谱的计算引擎,因为算法同学大规模使用后、会出现大量千变万化的公式组合——依靠AST解析计算是一种可靠的计算逻辑。

类SIMD设计使性能可接受: antlr解析AST非常耗时,必须一次parse多次复用,不能在item维度重复parse。一般用antlr visitor做线上实时计算,性能是不可接受的。我们采用了一种类SIMD的代码写法,使落地性能可接受——类SIMD的设计,一次antlr visitor算一批item。最终落地的性能、没有因为antlr visitor拖过多后腿,性能比旧版硬代码融合公式还要好。


antlr语法定义文件

visitor如何通过访问AST计算1行公式

加乘树2.0

解决:抽象成SDK;执行计划自动识别请求维度公式、便于序融合等逻辑写UDF。缺陷:受限于解释执行,仍然比较耗线程。

加乘树2.0于2025年9月在社区搜索落地。优化点如下:

  • 使用体验: 配置json结构简化,只需要配递归的一组公式即可(砍掉了consts、paramBranch)。if()的配法简化:旧版编译器设计的简单,将 “logic表达式”与“math表达式”分别放在2个编译器里,使用者不允许if里嵌套函数,加乘树2.0合并了编译器,if()里可以嵌套函数。支持“隐式item正排”。

  • 性能: 框架自动识别Req维度的公式,全局只计算1次。执行计划加缓存,砍掉“每次请求都重新build执行计划”,平响降低。
  • 横向扩展: Java版加乘树抽象为SDK,方便扩场景直接引用。

加乘树3.0

解决:升级为编译执行,性能大幅提升。

加乘树3.0于2026年1月在社区搜索落地。之前“核心攻坚”模块有提到,高并发&计算量大的情况下,暴露出加乘树耗CPU、耗线程的弱点(类SIMD设计虽然能让性能可接受,但毕竟antlr visitor计算方式需要升级)。

加乘树3.0替换了执行引擎。我们观察火焰图发现“按公式逻辑直接裸写的java代码”性能最高效,但是迭代效率最低。加乘树为了即配即用公式,性能却打了折扣。为了平衡“即配即用”的迭代效率问题和“性能”,我们“将配置公式直接翻译成可执行代码,用字节码技术加载到JVM中直接计算”,这让加乘树从解释执行升级为编译执行。

六、还能更好

多语言 & 模块化: 加乘树有Java版,同时有C++版,是引擎同学创新实现的另一个高性能版本。支持多种业务场景及模块(如粗排、精排),可灵活接入 Java 业务引擎或 C++ 高性能引擎。欢迎其他场景和模块接入。

稳定性 & 产品化: 重点打磨“加乘树管理平台沙箱拦截 -> 线上容错降级 -> 失败监控告警发现 -> 解释执行托底” 的有效性,定期演练降级、验证算法效果。增强“加乘树管理平台”DIFF能力,扩展展示“调试DAG”、“可DIFF动态生成的代码”,打通实时debug平台,可以“DAG展开看计算的中间结果”。


多层公式组成DAG(打磨中)

配置生成的可执行代码做DIFF(建设中)

打通模型调用自动化: 在加乘树这里打通精排模型调用,对精排模型的调用也高度抽象,一配即用、一配即可加入公式融合。

往期回顾

1.深入剖析Spark UI界面:参数与界面详解|得物技术

2.Sentinel Java客户端限流原理解析|得物技术

3.社区推荐重排技术:双阶段框架的实践与演进|得物技术

4.Flink ClickHouse Sink:生产级高可用写入方案|得物技术

5.服务拆分之旅:测试过程全揭秘|得物技术

文 /啊俊 风林 益嘉

关注得物技术,每周更新技术干货

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

未经得物技术许可严禁转载,否则依法追究法律责任。

千问 3.5 开源四连发,马斯克点赞:智能密度令人印象深刻
在这个刚刚过去的春节,阿里巴巴在 AI 领域打出了一套令人眼花缭乱的“组合拳”。

首先是品牌上的“大一统”。3 月 2 日,阿里正式宣布,将旗下大模型的 B 端品牌与 C 端应用全面统一命名为“千问(Qwen)”。原有的“通义千问”成为历史,“千问大模型”和“千问 APP”将分别扛起阿里在底层基座与 C 端旗舰应用上的大旗。

紧接着,在 3 月 3 日晚,阿里再度抛出重磅炸弹:开源了千问 3.5(Qwen 3.5)系列的四款小尺寸模型(0.8B、2B、4B、9B)。

这套“用极小参数实现极大性能”的技术打法,不仅引爆了国内 AI 开发者社区,甚至引来了硅谷科技狂人马斯克(Elon Musk)的亲自下场。他在社交媒体上转发并点赞了阿里千问模型,留下了一句极高评价:“智能密度令人印象深刻(Impressive intelligence density)。”

一、 剑指端侧与 IoT:千问 3.5 的“小模型战略”

这次开源的四款 Qwen 3.5 新模型,虽然尺寸小,但全部具备原生多模态能力,其应用场景非常明确,直指当前 AI 落地的最后十公里:

  • 0.8B 和 2B 模型:极致轻量化。推理速度极快,专为手机、平板、IoT 边缘设备等资源极度受限的场景设计,能够满足低延时的实时交互需求。
  • 4B 模型:性能与能耗的完美平衡。它非常适合作为手机端或 PC 端的轻量级 Agent(智能体)的“核心大脑”,在不需要联网云端算力的情况下,也能完成复杂的规划和执行。
  • 9B 模型:性价比之王。官方表示其性能足以媲美拥有 1200 亿参数的开源模型(GPT-OSS-120B)。它适合部署在显存资源受限的服务器端,提供极高的通用智力水平。
【笔者观点:大模型正在疯狂“减肥”,端侧 AI 迎来爆发前夜】
如果说 2024 年大家还在拼谁的参数大(动辄千亿、万亿),那么到了 2026 年,顶级大厂的比拼已经完全转向了“智能密度”——即如何用最少的参数、最小的内存、最低的功耗,跑出最聪明的效果。
阿里的这波操作极其敏锐。未来,不可能所有的 AI 请求都发往云端(成本太高且存在隐私风险),真正的 AI 革命一定发生在端侧(手机、汽车、家电)。千问 3.5 这几款小模型,实际上是在为未来的“万物皆 AI”提前修筑基础设施。

二、 技术底座:混合注意力与高稀疏 MoE 架构

马斯克口中的“智能密度”,并非凭空而来,其背后是阿里在模型架构上的底层创新。

据官方透露,千问 3.5 模型采用了混合注意力机制,并深度结合了高稀疏的 MoE(混合专家)架构。更关键的是,它是在更大规模的“文本+视觉”混合 Token 上进行训练的。

这种架构的精妙之处在于:它能够在大幅降低模型“总参数量”和“激活参数量”的同时,实现能力的跨级提升。

实际上,这并不是千问 3.5 第一次展现这种“跨级打怪”的能力。在除夕夜,阿里开源了 3.5 系列的首款模型 Qwen3.5-397-A17B(参数不到 4000 亿),其性能直接超越了上一代万亿参数的 Qwen3-Max 模型;随后在 2 月 25 日开源的 35B 等中等规模模型,更是直接将部署门槛拉低到了普通消费级显卡级别。

【笔者观点:MoE 架构红利被中国大厂彻底吃透】
从春节前 DeepSeek 靠 MoE 架构震撼全球,到如今阿里千问 3.5 频频上演“以小博大”,我们可以清晰地看到:中国大厂在 MoE 架构的工程化落地和训练效率上,已经走在了世界最前列。
用更小的激活参数,换取比肩 GPT-4 甚至更强的性能,这不仅解决了中国企业面临的“算力紧缺”问题,更在商业化层面上,将大模型的推理成本打到了“白菜价”(例如 Qwen3.5-Flash 每百万 Token 输入仅需 0.2 元),这将极大地加速 AI 应用的商业化繁荣。

三、 结语:开源生态的“全面战争”

截至目前,千问 3.5 家族已经开源了 8 款模型,而整个千问家族迄今为止已经开源了超过 400 款大模型。

这不仅是一场涵盖了语言、编程、数学、语音、视觉理解、图像生成等“全模态”的开源盛宴,更是一套从 0.5B 到万亿级参数的“全尺寸”产品矩阵。

对于全球的开发者和企业而言,无论你面临的是手机端的极限优化,还是云端的复杂推理,几乎都能在千问的“开源超市”里找到最适合的那一款。

【笔者总结:重塑品牌,再战全球大航海时代】
将 B 端和 C 端品牌统一为“千问”,看似只是一次名字的变更,实则是阿里在 AI 战略上的一次“收拳与出击”。去掉了略显学术的“通义”二字,品牌更加聚焦、更具 C 端穿透力。

面对海外 Llama 的步步紧逼和国内 DeepSeek 等新贵的强势崛起,阿里选择用“全尺寸、全模态的开源矩阵”来构建自己的技术护城河。马斯克的点赞只是一段插曲,真正能够证明“智能密度”价值的,将是未来几个月内,基于这些小模型在千行百业中生长出来的无数创新应用。


👇 欢迎关注我的公众号

在 AI 爆发的深水区,我们一起探索真正能穿越周期的技术价值。
微信搜索 【睿见新世界】 或扫描下方二维码,获取每周硬核技术推文:

微信图片_20260301232734_225_35.jpg

欢迎关注【睿见新世界】!

3 月 4 日凌晨,千问核心负责人林俊旸突然在 X 发文称要将卸任:me stepping down. bye my beloved qwen.(我卸任了。再见了,我亲爱的千问。)

 

根据晚点报道,3 月 3 日下午,林俊旸已正式向阿里提出辞职。有 Qwen 同事得知他将离职的消息后难掩情绪,“伤心地哭了”。公开资料显示,林俊旸,93 年人,阿里巴巴最年轻 P10 级技术专家,本科与硕士均毕业于北京大学。本科阶段,他就读于计算机科学专业,系统接受了算法与编程训练,打下扎实的技术基础。随后在硕士阶段,他转入北京大学外国语学院,攻读语言学及应用语言学方向。

 

2019 年毕业后,林俊旸加入阿里巴巴达摩院,担任高级算法工程师,正式开启职业生涯。

 

2020 年,随着 OpenAI 发布 GPT-3 并引发全球关注,阿里巴巴迅速启动内部大模型研发的“赛马机制”,同时推进两条技术路线:一条是以文本为核心的 AliceMind 项目,另一条是侧重多模态融合能力的 M6 项目。凭借“语言学 + 技术”的复合背景,林俊旸被分配到周靖人领导的智能计算实验室,成为 M6 模型团队的重要开发者之一。

 

2022 年,阿里巴巴开始整合内部 AI 资源。在这一轮技术路线竞争中,AliceMind 团队逐渐退出核心方向,M6 路线被确立为集团通用大模型的基础技术。凭借在模型架构设计和工程化落地方面的突出表现,林俊旸在团队中迅速成长,从核心开发者晋升为项目主管。

 

在这一阶段,他主导研发了多个关键项目,包括通用统一多模态预训练模型 OFA(One-For-All,一体化多模态预训练框架),以及中文视觉—文本匹配模型 Chinese CLIP。这些技术成果显著提升了阿里在多模态预训练领域的能力,也为后续大模型产品奠定了重要技术基础。

 

2022 年底,阿里巴巴对 AI 组织结构进行调整,将达摩院的语言、视觉等相关团队整体并入阿里云,并成立通义实验室。林俊旸被任命为通义千问系列大模型的技术负责人,全面负责核心模型研发与技术战略规划,成为阿里大模型体系中的关键人物之一。

 

据报道,在他的推动下,阿里推出 Qwen3 系列开源模型。林俊旸此前在社交平台上写道,团队为此花费近一年时间,攻克了三项核心难题:“让强化学习框架能稳定支撑长时序推理,平衡跨领域数据分布以避免模型偏科,并强化多语言能力以服务全球开发者。

 

2025 年 10 月 8 日,林俊旸在社交媒体上发布动态称,已在 Qwen 团队内部亲自组建机器人与具身智能小组,显示出团队在大模型之外,开始向具身智能与机器人方向拓展。林俊旸宣布离开后,外界猜测其下一步动向或将继续围绕大模型与具身智能展开。

 

除此之外,外界传闻阿里云 CEO 正在对 Qwen 采取更直接的管理与监督,同时公司引入了一位新的负责人,可能来自 Gemini 团队,并将其安排在现有 Qwen 领导层之上,这也被认为是近期出现一系列离职潮的原因之一。

 

因此,有网友猜测,如果这些消息属实,那么未来更先进的 Qwen 模型可能会逐渐转向闭源,认为阿里可能正在尝试复制 Google Cloud 与 Gemini 的商业模式。

根据 36 氪报道,在林俊旸提出离职后,阿里高层召开会议,围绕团队调整、战略方向等关键议题,包括阿里巴巴董事长兼 CEO 吴泳铭,阿里巴巴首席人才官蒋芳、阿里云 CTO 周靖人做出多个回应。对于此次调整,阿里高层给出的核心定性是:Qwen 没有收缩,这是一次团队扩张,无关任何政治斗争,反而需要投入更多资源。有传言称周浩将直接领导林俊旸及其相关团队,但据了解,包括周浩的接任职位,汇报线,尚在讨论中。

 

会上,阿里高层强调多次,千问基础模型是集团当前最重要的事情,大模型的竞争不仅仅是 Qwen 团队的事,而是整个阿里集团的事。无论是基础模型研发,还是底层 infra 建设,都将在集团层面统筹推进,“一定要超越”。

阿里云 CTO 周靖人则回应了包括招聘名额、算力短缺等尖锐问题:为何外部客户(如大模型创业公司)购买阿里云算力用得顺畅,内部团队反而在算力、招聘名额上捉襟见肘?他表示,团队处于“资源紧张状态”,内外差异有很多历史原因,未来正在做整体规划,但没有进一步展开说明。

昨天下午 2 点左右,林俊旸再度发布朋友圈,表示“qwen 的兄弟们,按照原来安排继续干,没问题的”。林俊旸并未明确是否回归,而阿里会上也并未讨论。

“一个时代的结束”

 

林俊旸的离职也引起了业内广泛关注。

 

Hyperbolic labs 联合创始人 Yuchen Jin 发推直接称这是“一个时代的结束”。“Qwen 失去了它的技术负责人。当我们和林俊旸以及他的团队一起,在 Hyperbolic 上发布 Qwen 3 Next 的 API 端点时,北京时间早上六点,他们依然还在线忙碌。感谢你为推动开源 AI 向前发展所做的一切。祝你一切顺利。”

 

社区也很认可他的工作,网友 Aabid Hameed 表示,“很难夸大林俊旸为开源社区所做的一切。

在其他人逐渐收紧开源时,他和 Qwen 团队却通宵达旦地工作,只为证明:开放权重的模型同样可以与那些投入上千亿美元的实验室保持竞争速度。那次在 Hyperbolic 上北京时间早上六点发布的上线事件,就是最典型的例子。”

甚至有网友称,“Qwen 回不到过去了”。在林俊旸评论区一度被“Qwen is nothing without its people”刷屏。还有网友评论道,“阿里跌回 80 不是梦,幸好没买他家股票。”

 

此前参与过 Gemini 3 的感知能力研发、目前在 xAI 任职研究员 Yao Fu 发推称,“林俊旸是我在整个 AI / 大语言模型发展史中见过最杰出的领导者之一。他是一位传奇研究者,对整个世界和人类社会都做出了重要贡献。在他的领导下,Qwen 成为最优秀的开源模型之一,并推动了整个科技行业的进步。很难想象这一切真的能够实现。”

 

田渊栋也发推称,“听到这个消息真令人难过!向 Qwen 团队致敬!”

 

 

前阿里云副总裁贾扬清也在社交媒体上写道:

 

关于 Qwen 与 林俊旸相关消息,我有几点个人看法:

1. 首先要为 Qwen 的开源努力以及林俊旸的巨大贡献点赞。开源能够把最好的技术与最好的初衷带到全球社区。Qwen 一直是这种开源精神的真实践行者之一。

2. 对公司来说,在开源与商业之间找到平衡确实非常困难。我们见过成功案例,比如 Databricks 和 Redis Labs;但也见过警示案例,比如 RethinkDB,这是一款深受开发者喜爱的开源数据库,尽管技术出色,却在 2016 年关闭。开源理想与商业优先级之间是否存在摩擦?这只能是猜测,但如果完全没有摩擦,那反而才是例外。

3. 我们正在进入一个“人和影响力”比以往任何时候都更重要的时代。构建一个能够让别人共同参与的使命,本身就和执行这个使命同样重要。能够凝聚社区的技术领导者极其稀缺。无论这些领导者未来走向哪里,社区往往追随的是使命,而不仅仅是公司的标志。

4. 在这些被看见的名字之外,其实还有无数默默无闻的贡献者。当年在阿里巴巴工作时,我认识过很多优秀工程师,他们在外界几乎没有名气,但对项目却至关重要。除了聚光灯下的领军人物,也应该感谢那些打下技术基础的人。

5. 在信息传播极其迅速的时代,平台的重要性被进一步放大。我们也看到 Google 曾经经历过一些挫折后仍能恢复,其中很大一部分原因在于其世界级的基础设施,以及背后的团队。

6. 对企业而言,保持创新能力并留住创新人才并不是“可选项”,而是“生存问题”。关于人才,有一句老话现在比任何时候都更真实:

CFO:如果我们投入资源培养员工,但他们离开了怎么办?

CEO:那如果我们不培养,而他们留下来怎么办?

声明:以上观点完全基于公开信息,仅代表个人看法。我对阿里巴巴始终心怀尊重与感激。正是在那里,我学会了如何既做技术管理者,也做业务负责人,并最终有信心创立自己的公司。

 

在评论区,面对网友对他阿里任职期间表现质疑,贾扬清表示,“我曾把一个长期难以产生收入的 AI 与数据部门,带成了阿里云增长最快的业务单元。同时,我还负责运营系统 AI 实验室,该实验室为早期模型训练提供 AI 基础设施支持,包括 M6 和 AliceMind 等项目,这些工作最终也为 Qwen 的诞生奠定了基础。不过,无论如何,真正的功劳属于那些才华横溢的研究人员。我很高兴自己曾有机会为他们提供支持。”

近期可以观测到对 DNS 的劫持污染名单增加了很多
除非用加密 dns 方案, 否则每次都会得到不同的 ip, 并且从归属上看, 都是解析向了 twitter 之类的

nslookup chatgpt.com
服务器:  public1.alidns.com
Address:  223.5.5.5

非权威应答:
名称:    chatgpt.com
Addresses:  2a03:2880:f127:283:face:b00c:0:25de
          202.160.129.6
          
https://www.ip138.com/iplookup.php?ip=202.160.129.6&action=2
nslookup mql5.com
服务器:  public1.alidns.com
Address:  223.5.5.5

非权威应答:
名称:    mql5.com
Addresses:  2a03:2880:f102:183:face:b00c:0:25de
          199.59.149.230
          
https://www.ip138.com/iplookup.php?ip=199.59.149.230&action=2

这些被 DNS 污染的域名导致了大量网站无法访问, 很多人的梯子没有针对 DNS 进行"优化", 导致即便能扶墙, 也访问不了某些网站.

如题,

  • 内存和硬盘
  • air m3 24+512 ,去年 6799 左右就能买,今年至少得 7x99
  • 树莓派 5 2g 版本,去年才 380 ,现在 1g 版本都要 400 ,2g 得 500
  • 这半年发布和很多手机要么同配置影像和去年持平或者降低
  • 软路由,去年起码 500-600 多还能买个 n5105 ,n100 类似性能的准系统(不含内存硬盘),现在准系统至少 900+
  • window 二合一平板,像 h3c 最开始 16g 的才卖 4799 ,现在卖 5999 ,而且新出的 panterlake 的普通本才卖 6k 多,更不想买了
  • 华硕 rog 的幻 x 一年了也没降价意愿,aimax392 的天选才卖 8k 多,390 好歹降个 1k 吧

在数字化销售管理体系中,公海管理、360°客视图、流程审批、销售预测、团队协作是CRM系统的五大核心支柱,直接决定了企业客户资源利用率、客户全生命周期管理能力、业务流程规范性、销售决策科学性及团队协同效率。本文针对超兔一体云、Freshworks、Odoo CRM、YetiForce、Copper CRM、Creatio、八百客CRM七大主流CRM系统,从五大核心维度展开横向深度对比,剖析各系统的实现逻辑、优势与适用场景。

    • *

一、核心能力总览表

品牌公海管理核心能力360°客视图核心能力流程审批核心能力销售预测核心能力团队协作核心能力
超兔一体云全流程闭环+数据驱动优化多模块全量数据整合+智能分析+实时同步自定义流程+全链路跟踪+数据化优化多模型支持+数据迭代优化+人工调整全场景协同+权限管控+激励体系
Freshworks未提及原生功能AnyCross工商整合+销售服务数据全链路打通轻量级邮件/日程集成+复杂流程薄弱Freddy AI成交概率预测+行为分析复购推荐销售服务数据协同+工单同步复购信号
Odoo CRM自定义线索池分配/回收规则多渠道客户数据统一视图BPMN引擎支持复杂多级审批流销售漏斗可视化+AI线索评分辅助预测未提及核心协作功能
YetiForce开源自定义公海规则多维度客户互动数据整合自定义工作流与审批节点配置未提及原生预测功能任务分配+日程共享+基础内部沟通
Copper CRM原生功能弱,依赖Google生态补充Google生态同步+客户画像维度单一无原生模块,需第三方插件实现无明确预测,依赖销售管道可视化辅助判断深度Google Workspace集成+项目互动联动
Creatio低代码客池分层+自动流转规则全维度信息整合+自定义字段扩展视图低代码支持复杂业务场景审批流AI线索评分+机会阶段跟踪+销售趋势预测AI任务分配+跨部门流程联动
八百客CRM全操作支持+自动回收规则全量客户数据整合+字段级精细化共享自定义表单+微信审批+风控支撑销售进展跟踪+漏斗分析辅助预测项目共享+企业社交云+全流程任务管理
    • *

二、分维度深度对比

(一)公海管理:客户资源高效流转的核心保障

公海管理的核心是实现客户资源的公平分配、动态流转与价值最大化,避免资源闲置与浪费。

1. 超兔一体云:全流程闭环+数据驱动优化

超兔构建了“资源整合-认领释放-监控再分配-数据分析”的完整闭环:

  • 整合百度、抖音、官网等多渠道线索至公海,按规则分类至专属公海区域;
  • 设置领用上限,支持主动认领/释放,系统实时监控跟进状态,对长期未跟进客户自动回收;
  • 通过来源、认领、跟进结果数据分析优化分配策略。 优势:全流程覆盖,数据驱动持续优化,最大化资源利用率;不足:开源自定义灵活性弱于YetiForce等开源系统。

2. Odoo CRM/Creatio/八百客CRM:自定义规则适配个性化需求

  • Odoo CRM:支持线索池分配与回收规则自定义,适配企业个性化资源管理需求;
  • Creatio:通过低代码实现客池分层管理,支持线索自动分配、回收规则的可视化配置;
  • 八百客CRM:覆盖领取、分配、自动回收、退回、转移全操作,自动回收规则保障闲置资源回流。

3. YetiForce:开源属性下的高度自定义

作为开源CRM,允许企业从代码层面完全自定义公海规则,适合有技术开发能力的低成本需求企业。

4. Freshworks/Copper CRM:能力缺失或薄弱

Freshworks未提及公海功能;Copper CRM无原生公海模块,需依赖Google生态第三方工具补充。

超兔公海管理流程

flowchart LR
    A[多渠道客户资源整合] --> B[预设规则分类筛选]
    B --> C[分配至专属公海区域]
    C --> D{销售主动认领/系统分配}
    D --> E[跟进客户+状态实时监控]
    E --> F{有效跟进/成交?}
    F -->|否| G[主动释放/自动回收至公海]
    F -->|是| H[转化为私有客户]
    I[公海数据统计分析] --> J[优化公海规则与分配策略]
    J --> B
    • *

(二)360°客视图:客户全生命周期的全景洞察

360°客视图核心是整合多维度客户数据,为销售提供客户全景信息,支撑个性化跟进与决策。

1. 超兔一体云/八百客CRM:全量数据+精细化权限

  • 超兔一体云:整合客户中心、跟单中心、订单管理、财务模块全量数据,关联形成全景视图,支持多级分类汇总与RFM智能分析,数据实时同步更新;
  • 八百客CRM:整合客户信息、联系记录、合同、订单等全量数据,具备字段级共享功能(可仅共享部分字段),与CRM其他模块互通同步。

2. Freshworks/Creatio:数据打通与自定义扩展

  • Freshworks:通过AnyCross整合工商数据,打通销售与服务模块数据,提供客户全链路互动视图;
  • Creatio:原生整合联系人、互动、偏好等全维度信息,支持自定义字段扩展视图,适配个性化需求。

3. Odoo CRM/YetiForce:基础数据整合

整合多渠道/多维度客户数据形成统一视图,但智能分析与可视化展示能力弱于头部系统。

4. Copper CRM:维度单一

仅支持Google Contacts同步与基础互动记录抓取,客户画像维度单一,需外接工具完善。

360°客视图数据整合流程

flowchart LR
    A[客户中心:基本信息] --> C[数据关联与清洗]
    B[跟单中心:跟进记录] --> C
    D[订单/财务模块:交易/应收应付] --> C
    C --> E[形成360°统一客视图]
    E --> F[多级分类汇总展示]
    E --> G[RFM/行为智能分析]
    H[业务数据实时更新] --> E
    • *

(三)流程审批:业务规范与风险管控的关键抓手

流程审批核心是通过标准化流程规范业务操作,降低运营风险,提升协作效率。

1. Odoo CRM/Creatio:复杂流程强支撑

  • Odoo CRM:基于BPMN引擎支持复杂审批流配置(如大额订单多级审批),适配中大型企业复杂业务规范;
  • Creatio:通过低代码平台可视化配置审批流程,支持订单、报价等复杂业务场景。

2. 超兔一体云/八百客CRM:全流程管理+轻量化落地

  • 超兔一体云:支持自定义审批节点/人员/条件,自动流转申请,实时跟踪进度,通过消息/邮件提醒,统计分析审批效率优化流程;
  • 八百客CRM:通过自定义表单与工作流引擎满足个性化需求,支持微信审批,保障审批及时推进。

3. YetiForce/Freshworks:基础流程支持

YetiForce支持自定义工作流与审批节点;Freshworks仅支持轻量级邮件/日程集成,复杂流程处理能力不足。

4. Copper CRM:原生能力缺失

无原生审批模块,需依赖Google Workspace插件或第三方工具实现。

    • *

(四)销售预测:业务决策的数据化支撑

销售预测通过分析历史与实时数据,预判未来销售趋势,为资源配置、目标制定提供依据。

1. 超兔一体云/Creatio:多维度+AI驱动精准预测

  • 超兔一体云:整合历史销售、市场、客户多维度数据,提供时间序列、机器学习等多模型选择,支持人工调整与模型持续优化;
  • Creatio:结合AI线索评分模型与机会阶段跟踪,生成数据驱动的销售趋势预测。

2. Freshworks/Odoo CRM:AI辅助基础预测

  • Freshworks:通过Freddy AI分析客户行为,提供成交概率预测与复购推荐;
  • Odoo CRM:通过销售漏斗可视化与AI线索评分辅助预测,适合业务稳定的企业。

3. 八百客CRM:业务进展驱动预测

基于销售进展跟踪(跟进情况、业绩数据、漏斗转化率)与历史数据,辅助管理层作出销售预测。

4. YetiForce/Copper CRM:能力缺失

YetiForce未提及预测功能;Copper CRM无明确预测模块,依赖销售管道可视化辅助判断。

    • *

(五)团队协作:跨角色高效协同的核心引擎

团队协作核心是打破信息壁垒,实现任务、项目的高效协同,提升团队整体效率。

1. 超兔一体云/八百客CRM/Copper CRM:场景化协同突出

  • 超兔一体云:提供消息、讨论区、文档共享等沟通工具,支持任务分配/跟踪、项目协同,全局自动权限管控,喜报激励体系激发团队活力;
  • 八百客CRM:支持项目组共享商机,全流程任务管理,内置企业社交云促进员工协作;
  • Copper CRM:深度集成Google Workspace,支持项目关联互动记录与任务分配,适合Google生态企业。

2. Creatio/Freshworks:智能化/数据化协同

  • Creatio:通过AI代理自动分配跟进任务,支持项目级协作与跨部门流程联动;
  • Freshworks:实现销售与服务数据协同,服务工单同步复购信号至销售团队。

3. YetiForce:基础协作支持

提供任务分配、日程共享、内部沟通功能,满足基础协作需求。

4. Odoo CRM:协作能力缺失

未提及核心团队协作功能。

    • *

三、品牌适用场景总结

  1. 超兔一体云:适合追求全流程闭环管理、数据驱动优化的中小微至中大型销售型企业,尤其是需要提升客户资源利用率与团队协同效率的企业;
  2. Freshworks:适合依赖AI辅助销售预测、注重销售与服务协同的轻量级协作企业;
  3. Odoo CRM:适合需要复杂审批流程、有自定义业务规则需求的中大型企业,尤其是已有Odoo生态布局的企业;
  4. YetiForce:适合有技术开发能力、需要高度自定义公海与流程的低成本中小微企业;
  5. Copper CRM:适合重度依赖Google Workspace生态、注重轻量化项目联动协作的海外或Google生态企业;
  6. Creatio:适合需要低代码自定义配置、复杂业务审批与预测的中大型企业,尤其是个性化需求强的行业;
  7. 八百客CRM:适合注重企业内部社交化协作、字段级数据安全共享、全流程任务管理的中大型团队。
    • *

四、选型建议总结

企业选型CRM需结合业务规模、技术能力、核心需求优先级三大维度精准匹配:

  1. 全流程闭环管理需求:优先选择超兔一体云或八百客CRM,二者在五大核心能力上覆盖全面,数据驱动优化与落地执行能力突出,适配中小微至中大型销售型企业;
  2. 复杂业务+自定义需求:Creatio(低代码可视化配置)、Odoo CRM(BPMN引擎支撑复杂流程)更适配,可满足个性化客池分层、多级审批等定制化场景;
  3. 生态绑定需求:重度依赖Google Workspace的海外/国际化企业,Copper CRM的深度集成能力可显著降低协作成本;
  4. 低成本+技术自主需求:具备开发团队的中小微企业可选择YetiForce,开源属性支持从代码层面自定义全模块规则;
  5. AI辅助+轻协同需求:注重销售预测与销售-服务数据打通的轻量级企业,Freshworks的Freddy AI与跨部门信号同步能力可快速落地。

通过锚定核心需求匹配系统能力,企业可最大化发挥CRM价值,实现客户资源高效流转、销售决策数据化、团队协同一体化的业务升级。

大家好,我是 Vue Print Designer 的作者。

之前做企业业务系统时,总被打印需求折磨:要么手写复杂的分页逻辑,要么用的插件耦合性高、扩展难,尤其是表格分页、静默打印、云打印这些场景,踩了不少坑。索性自己造了个轮子,现在开源出来,希望能帮到有同样需求的同学。

这个工具核心解决「可视化设计」和「低成本集成」两个问题:

  1. 可视化设计器:拖拽就能做表单/标签/快递单模板,支持文本、图片、条码、表格等元素,表格会自动分页(表头/表尾可重复),不用再手写分页逻辑;
  2. 跨框架易集成:基于 Web Components 封装,Vue/React/Angular/原生 HTML 都能直接用,提供完整的 API 对接模板 CRUD 、变量赋值、打印/导出;
  3. 企业级打印能力:除了常规的 PDF/图片导出、打印参数配置,还做了配套的 PrintDot Client 桌面端,支持静默打印(本地直打不用确认)、云打印(远程下发打印任务),Windows/macOS/Linux 都能用。

集成起来也很简单,不管是想二次开发改源码,还是直接 npm 装 Web Components 组件用,文档里都写清楚了。我还准备了 Vue 3 + Element Plus 的集成示例供大家参考。

这个项目主要面向企业业务场景,可能不如通用工具受众广,但如果你们团队也在做打印相关的需求,比如表单、票据、快递单打印,希望能少走点弯路。如果觉得这个工具能解决你的痛点,还请顺手给仓库点个 Star ✨,这对我是很大的鼓励~

有问题可以提 Issue ,也欢迎大家提 PR 一起完善~

设计器
PrintDot 主界面

2026 年 2 月 27 日, CarryCode 发布 v0.6.9 版本, 新增对阿里云 CodingPlan 的原生支持;

具体内容:

  1. 新增对阿里云编码计划的支持,支持型号包括 glm-5 、glm-4.7 、kimi-k2.5 、MiniMax-M2.5 、qwen3.5-plus 、qwen3-coder-next 、qwen3-coder-plus 和 qwen3-max-2026-01-23 ;

  2. 新增对令牌使用情况统计的支持,命令为“/usage”,可根据不同型号执行统计,并支持缓存使用情况统计;

  3. 优化阿里云 Coding Plan 的编码体验流畅性, 大家反馈比较多的问题, 如在 Claude Code, OpenCode 等其他三方客户端中容易卡住, 频繁会话中断等问题, 在 CarryCode v0.6.9 中得到优化;

欢迎交流

CarryCode 是一款基于 CLI 的 AI 编程智能体,通过自然对话帮你编写、重构、调试和理解代码。它接入了 17+ 个大模型服务商,支持 MCP 协议扩展,并提供精美的终端 UI ,包含主题切换、语法高亮和代码 Diff 预览。

/model

CarryCode Alibaba-cloud-coding-plan

/usage

CarryCode Alibaba-cloud-coding-plan