标签 RAG 下的文章

检索是 RAG 系统的搜索引擎,分块则是这个搜索引擎的基础。分块太长、太短、有噪声、切错了位置——随便犯哪个错LLM 都会有问题。行业里有句话流传很广:"分块决定了 RAG 质量的 70%。"

这个说法不夸张:好的分块让检索器拿到完整、有上下文、真正相关的信息;差的分块把文档打成碎片,上下文断裂,LLM 只能靠"编"来填补空白。

什么是分块?

RAG 的起点是文档收集与摄取:把所有原始材料(文档、文章、知识库条目)汇聚到一起。在进入检索环节之前,这些文档要经过文本分块处理也就是切分成更小的、有意义的片段。

每个分块应当是连贯且自包含的,这样检索器才能在面对查询时快速定位、排序,并返回最相关的信息。

分块就是在生成 Embedding 之前,把大段文本拆成更小语义单元的过程。检索器真正搜索的对象而不是整篇文档就是这些分块。

分块做得好,文档中的内容就能被干净地捕获,上下文得以保留LLM 能做出有意义的推理。分块做得差,语义被割裂检索充满噪声。向量存储、Embedding 模型、Reranker——这些统统排在分块之后,分块才是真正的起点。

固定大小分块

这是最简单的方式。按预设的字符数或 Token 数直接切分,比如每 500 个 Token 一块完全不管句子和段落的边界在哪。

速度快,行为可预测,处理大规模、结构混乱的数据集时很实用。但缺点也很明显——语义经常被拦腰切断。一个句子在这个分块里开了头,到下一个分块才结束,Embedding 的语义表达力就会打折扣。

实践中一般会在相邻分块之间设置一定的重叠来缓解这个问题:

 from langchain.text_splitter import RecursiveCharacterTextSplitter  

splitter = RecursiveCharacterTextSplitter(  
    chunk_size=500,  
    chunk_overlap=50  
)  

 chunks = splitter.split_text(long_text)

切分文本时,连续的分块之间通常会加入一小段重叠区域来维持上下文的连贯。所谓重叠,就是前一个分块的尾部几句话,在下一个分块的开头再出现一次。

这么做是为了防止跨越分块边界的关键信息丢失。没有重叠的话,检索器可能只拿到部分内容LLM 因此漏掉了关键上下文,给出残缺甚至误导性的回答。重叠量一般控制在分块长度的 10% 到 20%,在冗余和效率之间找一个平衡点。

固定大小分块适合的场景包括日志文件、邮件、代码仓库,以及结构参差不齐的大型语料库。

基于句子的分块

这种方式按完整句子来划分文本,而不是按任意长度一刀切。每个分块至少包含一个或多个完整的句子,语法完整,语义连贯。

好处是每个分块都是一个有意义的思想单元。检索器向 LLM 返回的信息更精确、更易理解,碎片化回答的风险降低不少。实际使用中通常也会搭配小幅重叠,进一步保证分块之间的衔接。

基于段落的分块

以完整段落为单位切分,不再拘泥于单个句子或固定 Token 数。这种方式天然保留了文档的结构和行文节奏,检索器更容易抓到完整的想法。

每个分块往往对应一个独立的主题或子主题,LLM 处理起来更从容,也更容易给出准确的回答。对长篇文档、研究论文、综述类文章来说,段落级分块效果不错。和句子级分块一样,也可以加重叠来保持连贯。

语义分块

语义分块的切入点不是长度,而是语义本身。它利用 Embedding 或相似度分数来识别文本中天然的断裂点——主题切换、上下文转折、章节边界。

产出的分块语义清晰度更高,边界和语义对齐,检索质量有明显提升,尤其在知识库、技术文档、结构化文章这类内容上效果突出。代价是计算开销更大而且分块长度不一致,后续处理需要额外考虑。

 from langchain_experimental.text_splitter import SemanticChunker  
 from sentence_transformers import SentenceTransformer  
   
 model = SentenceTransformer("all-MiniLM-L6-v2")  
 chunker = SemanticChunker(model, breakpoint_threshold=0.4)  
   
 chunks = chunker.split_text(long_text)

如果文档质量高、主题流转有明确脉络,语义分块往往是精度最高的选择。

递归分割

递归分割是固定大小和语义分块之间的一个折中方案。核心思路是优先尊重文档结构,只有在必要时才进一步拆分。

具体做法是先尝试按标题切分。如果某个章节还是太长,就按段落切。段落还不够就按句子。句子仍然超限,最后才按字符兜底。这样得到的分块既保有语义完整性,尺寸也在可控范围内。

 recursive_splitter = RecursiveCharacterTextSplitter(  
     separators=["\n## ", "\n### ", "\n", ". ", ""],  
     chunk_size=600,  
     chunk_overlap=80  
 )  
   
 chunks = recursive_splitter.split_text(long_doc)

开发者文档、技术手册、学术论文、研究报告——凡是层级结构明确的内容,递归分割都很适合。

滑动窗口分块

有些文本的语义天然是跨句分布的。法律合同、科学论文、长段论证,一个完整的意思可能横跨好几个句子。滑动窗口就是为这种场景设计的。

它不生成彼此独立的分块,而是创建相互重叠的窗口。比如窗口大小 400 Token,每次滑动 200 Token,这样相邻的分块之间有一半的内容是共享的,语义在边界处不会断裂。

上下文保持得很好,但分块数量会膨胀,存储和检索的成本都会上升。

法律 RAG、金融分析、医学文献检索、合规审查——这些领域用滑动窗口的比较多。

层次化分块

层次化分块是一个多层级的架构:小分块负责细粒度精确检索,中等分块支撑平衡的推理,大分块维持全局上下文。

检索时,系统先用小分块锁定精确位置,再把关联的大分块拉进来补充完整上下文。这种组合能有效压制幻觉,提升推理的深度。

企业级 RAG 系统和 LlamaIndex 这类多粒度检索框架,背后都有层次化分块的影子。

实践中常见的分块失误

多数 RAG 项目翻车根源都是分块层面的问题。分块过大模型被不相关的细节淹没。分块过小语义丧失殆尽。句子被拦腰切断、不相关的段落被混到一个分块里,Embedding 质量直接垮掉。没有重叠,上下文断裂。没有元数据,检索器找不到方向。还有一个常见错误——所有类型的文档套用同一种分块策略。

分块没有万能方案。政策文件和教科书不一样,通话记录和研究论文不一样。策略必须跟着文档类型和检索任务走。

总结

分块不是一个可有可无的预处理环节,它是 RAG 管道的脊梁。好的分块是一个有意义的、自包含的知识单元;差的分块是一个孤零零的碎片,把 LLM 带向歧途。

检索是引擎分块是燃料。燃料的质量决定了整个系统是输出干净、可靠的结果,还是不断产出噪声和幻觉。LLM 本身再好,也救不了烂分块。

https://avoid.overfit.cn/post/e6520bd283254415ae61cfa28fb2ef32

作者:Abinaya Subramaniam

随着企业数据库规模持续膨胀,运维复杂度呈指数级上升。慢SQL排查、参数调优、主备切换根因分析、集群健康巡检等任务不仅耗时耗力,更高度依赖DBA的经验积累。然而,专业数据库人才稀缺、响应滞后、人为误判等问题,已成为企业稳定高效用云的瓶颈。

为破解这一难题,阿里云PolarDB基于瑶池数据库Agent,正式推出智能运维辅助工具 PolarDB AI助手(PolarDB Copilot)。PolarDB AI助手深度集成于PolarDB 控制台,实现资源统一管理,基于大语言模型与PolarDB专家知识库,融合智能问答、智能诊断、智能感知三大核心能力,以自然语言交互为入口,实现“会说话的数据库”,显著降低使用门槛,提升运维效率与系统稳定性。

一、技术原理解析

1.1 PolarDB AI助手技术架构

PolarDB AI助手基于大语言模型(LLM)构建,融合了自然语言理解、意图识别、上下文管理、工具调用与技能演化等能力。它通过开放接口(OpenAPI)与用户交互,支持多轮对话式问题解决,并结合 RAG、SKILL 管理和持续优化机制,实现从“被动响应”到“主动感知”的智能化演进。

PolarDB AI助手的整体技术架构分为三个层次:

  • 接入层:提供用户入口与安全控制;
  • 核心处理层:包含智能推理引擎、技能调度与上下文管理;
  • 底层支撑层:依赖 LLM 模型服务与外部工具集成。

整个系统围绕“自然语言 → 意图识别 → 技能调用 → 工具执行 → 结果反馈”的闭环流程设计,具备可扩展性、安全性与自进化能力。
图片
PolarDB AI助手技术架构

其中,核心处理层是系统的“大脑”,由多个子模块协同构成。
1.Context管理 + Query改写 + 意图识别 + Agent(主控逻辑)
该模块构成一个递进式推理链路:

  • Context管理:维护会话上下文,整合历史对话、当前任务状态与全局信息。
  • Query改写:对原始自然语言查询进行语义规范化与结构化转换,提升后续理解精度。
  • 意图识别:判断用户请求类型(如故障排查、性能优化、备份恢复等),并匹配相应处理路径。
  • Agent 主控单元:基于识别结果,动态决策是否加载特定 SKILL 并触发工具调用。

2.RAG知识库

  • 内置领域知识库,支持检索增强生成(Retrieval-Augmented Generation)。
  • 在处理复杂问题时,自动检索相关文档、最佳实践或历史案例,为回答提供事实依据。
  • 有效缓解幻觉问题,提高答案可信度。

3.SKILL管理

  • SKILL 是预定义的“能力模板”,以 Markdown 文件形式封装,包含指令、工具列表、权限配置等。
  • 支持动态加载 SKILL:仅在需要时注入上下文,避免冗余信息干扰。
  • 具备渐进式披露特性:先展示简要描述,被选中后才加载完整内容,提升效率与安全性。

4.会话管理

  • 支持多轮对话状态跟踪,维持上下文一致性。
  • 记录用户行为轨迹,用于后续分析与优化。
  • 与 Case 评测联动,输出高质量数据样本。

5.Tool & MCP(AK Proven)

  • Tool:封装实际操作接口,如执行 SQL、查看日志、调用 API 等。
  • MCP(AK Proven):作为身份凭证代理,确保每个工具调用都经过合法授权,实现“最小权限原则”。

6.LLM模型服务

  • 所有推理、生成、决策依托于阿里云百炼千问大模型。
  • 当前采用SOTA大模型Qwen3-Max。
  • 支持模型切换与版本升级,满足不同场景需求。

1.2 自动迭代闭环:从经验到能力

此外,PolarDB AI助手通过持续的反馈闭环机制,不断提升对数据库场景的理解与响应能力。关键流程包括:

  • 效果评估:对用户交互中未达预期的对话进行自动化分析,借助前沿大模型能力识别潜在改进点。
  • 专家诊断:由数据库领域专家对Bad Case进行归因分类(如意图理解偏差、工具调用缺失、知识覆盖不足等),明确优化方向。
  • 知识沉淀:
    Bad Case用于优化系统响应策略或改进SKILL;
    Good Case纳入优质案例库,支撑自动化验证或辅助知识提炼。
    SKILL演进:基于用户反馈动态更新SKILL内容,包括优化提示词、调整权限、增加新脚本等,实现技能体系的持续完善。
  • 能力升级:结合新增知识与优化策略,定期对AI助手整体推理与服务能力进行增强,提升准确率与用户体验。

    二、技术亮点

    相较于传统的数据库运维工具,PolarDB AI助手的核心突破在于将阿里云多年积累的数据库专家经验(涵盖故障诊断、性能调优、高可用保障等数千个真实运维场景)系统性地提炼为结构化的 SKILL(技能)单元。
    每个 SKILL 以轻量级 模板形式封装,包含意图描述、执行工具链、权限声明与最佳实践示例,既保留了专家知识的完整性,又具备高度可复用性。
    该机制实现了两大关键优势:

  • 动态按需加载:Agent 仅在识别到匹配意图时激活对应 SKILL,有效管理context,提升推理效率;
  • 持续进化能力:通过自动化评测与人工反馈,不断优化或新增 SKILL,使系统能力随实践经验的积累而自我演进。

得益于这一设计,Agent 能力随使用而越用越聪明,形成正向反馈循环。每一次用户交互都可能沉淀为更精准的技能模板,每一次问题解决都推动整体智能水平提升。由此,PolarDB AI助手不再依赖单一静态模型,而是构建了一个由真实专家经验驱动、可扩展、可验证、可持续进化的智能运维能力生态,真正实现从“模型智能”到“专家智能”的跃迁。

三、自然语言驱动:让数据库“听得懂人话”

传统数据库运维依赖精确的SQL、命令行或繁琐的控制台点击路径,对非资深用户很不友好。PolarDB AI助手彻底改变这一范式。
开发者或运维人员只需在控制台右侧边栏输入自然语言,

如:“帮我查一下华北2地域下所有运行中的PolarDB集群。

”AI助手即可自动解析意图,调用元数据接口,返回结构化列表。再如:

“集群 pc-xxx 最近一小时有没有性能异常?”

系统将自动关联该集群的CPU、内存、磁盘、IOPS等监控指标,结合日志事件,输出综合健康评估。
这种“对话式运维”不仅替代了跨页面跳转、手动筛选的低效操作,更让初级工程师也能快速完成复杂查询,真正实现零SQL门槛的数据库交互。

四、上下文感知诊断:从“泛泛而谈”到“精准把脉”

PolarDB AI助手的智能不止于问答,更在于深度集成关键运维场景,实现上下文关联的精准诊断。
在 【慢日志明细】页面,用户选中一条耗时184秒的SQL,点击“AI分析”按钮,助手将自动:

  • 解析执行计划(EXPLAIN)
  • 识别缺失索引、全表扫描等性能瓶颈
  • 给出优化建议(如“建议在name 字段添加索引”,“避免动态UUID生成”)

在 【主备切换日志】页面,若发生主备切换,AI助手可结合切换时间点的负载、日志、内核事件,判断是“主实例CPU资源耗尽触发HA切换”还是手动触发的正常操作,并提供规避建议。
在 【参数列表】页面,用户输入“max_connections”,AI将解释该参数的作用、内存占用风险及推荐设置范围,避免盲目调参引发故障。
这种场景化、上下文绑定的智能诊断,将专家经验产品化,让每一次运维操作都有据可依。

五、主动式异常感知:从“被动响应”到“主动预警”

传统运维往往是“问题发生 → 告警触发 → 人工排查”的被动链路。PolarDB AI助手引入智能感知能力,实现主动运维。
当集群出现 CPU突增、流量激增、连接打满 等异常时,AI助手可自动识别,并通过事件中心推送告警。更重要的是,它同步提供初步根因分析和告警,例如:

“检测到实例pc-xxx在XX年XX月XX日(UTC+8)出现回话突增与工作负载变化的异常事件(trace_id: xxxxxxxx),当前告警级别为Warn。”

这一能力将大幅减少故障发生概率,从“救火”转向“防火”。

六、版本灵活,安全合规

PolarDB AI助手提供标准版(免费)与专业版(付费) 双模式:

  • 标准版:面向中小客户,支持单集群智能问答与诊断,完全免费。
  • 专业版:面向大型企业,支持批量集群一键巡检、钉钉/飞书告警集成、API调用,并可通过加购 AI容量包 提升并发能力。

安全方面,AI助手严格遵循最小权限原则:

  • 仅读取元数据、监控指标与日志,不执行任何DDL/DML;
  • RAM子账号需显式授权(AliyunPolardbFullAccess + AliyunYaoChiAgentAccess);
  • 所有数据访问受阿里云隐私政策保护,不用于模型训练,不外泄。

结语

目前,PolarDB AI助手已在阿里云中国站上线。用户只需登录 PolarDB控制台,在集群列表页点击右侧边栏的
图片
图标,即可开启智能对话。如您在使用过程中有任何问题,可以在钉钉里搜索群号【171685003044】加入“PolarDB专家面对面 - AI助手”群进行咨询。PolarDB AI助手通过大模型与数据库内核知识的深度融合,将复杂的运维操作转化为自然语言交互,实现了从“工具辅助”到“智能协作者”的跃迁。无论是初创团队还是超大规模企业,都能从中获得效率提升与风险降低的双重价值。

随着大模型能力从以内容生成见长,逐步扩展至复杂任务推理与多步骤协同,2026 年被普遍视为企业级 AI 应用形态发生结构性变化的关键节点。在行业实践中,AI 正从独立能力模块,转变为嵌入业务系统内部的基础性认知组件。

这一变化的核心,并非模型参数规模的增长,而是 AI 与工作流(Workflow)的深度融合方式发生了本质转向


一、应用形态演进:从外置工具到内生系统

早期阶段,AI 多以独立入口存在,用户需要主动切换场景进行调用。这种模式在知识问答和内容生产中有效,但在复杂业务中难以形成持续价值。

当前主流实践更强调 内生型架构,其特征主要体现在两个方面:

嵌入式智能(Embedded Intelligence) AI 能力被拆解为可复用的推理与生成模块,直接嵌入邮件系统、数据分析平台、研发工具链等既有软件环境中。系统可基于上下文自动触发智能响应,交互不再依赖显式指令。

流程级重构(Workflow Re-engineering) 企业不再将既有流程简单交由 AI 执行,而是围绕模型的不确定性处理能力重新设计流程结构。在这种模式下,人类负责目标设定与价值约束,AI 负责在非结构化节点中进行推理与执行。


二、深度融合的工程共识:三项核心支柱

在工程实现层面,工作流与 AI 的深度结合,已逐步形成稳定的技术范式,主要依托以下三项能力。

状态保持与上下文感知 系统需具备跨阶段的任务状态管理能力,能够理解任务所处阶段、前序动作及预期结果。通过持续更新的任务状态视图,AI 可参与长周期项目,而非一次性响应。

领域知识的动态注入 通用预训练模型难以覆盖企业级专业需求。行业实践普遍采用检索增强生成(RAG)架构,将内部文档、业务规则与实时数据作为推理输入,以保证执行结果的准确性与可追溯性。

跨系统工具调用能力 AI 不再局限于生成建议,而是通过标准接口调用外部系统完成实际操作,包括数据写入、流程触发及结果回传。在这一阶段,智能体来了 被视为系统从“辅助认知”迈向“可执行认知”的标志性现象。


三、落地路径:拆解、增强与重组

在实践中,企业通常遵循一条相对稳定的引入路径。

原子化拆解 将复杂流程拆分为最小可执行单元,并区分为规则明确、半结构化与决策导向三类节点,分别由自动化系统、AI 模块与人工负责。

异步协同机制 改变同步指令模式,允许 AI 在后台持续处理数据准备与信息整合,并在关键节点触发人工确认,提高整体流程吞吐效率。

反馈闭环制度化 将人工修正与评价结果系统化沉淀,用于持续优化提示结构或模型微调,使 AI 对特定业务环境的适配能力不断增强。


四、组织价值层面的结构性变化

从系统视角看,工作流与 AI 的深度结合,使企业数字化能力从“流程在线”迈向“认知在线”。

维度传统工作流AI 深度融合工作流
交互逻辑步骤驱动目标驱动
数据角色事后记录实时推理输入
异常处理依赖人工介入具备逻辑弹性
价值重心合规与效率决策质量与交付结果

行业共识正在形成:长期竞争力并不取决于模型数量,而取决于企业能否将推理能力系统性编排进核心业务流程中。在这一范式下,AI 已成为流程内部的认知单元,而非外部工具。
(本文章内容和图片由AI辅助生成

摘要:
中国联通使用的传统集中式数据库面临高并发、扩展难、运维复杂等痛点,于是其与 OceanBase 构建“企业版核心承载 + 社区版自主创新” 双轨体系,现已全面覆盖联通 B 域(业务支撑)、O 域(运营支撑)、M 域(管理支撑)全场景。其中,OceanBase 企业版攻克运营商最核心的B域40% 生产系统,支撑全球最大规模 “全国大集中” 核心业务。

当超 4 亿用户的通信消费、5G 服务、政企业务全部汇聚于 “全国一套系统”,当传统数据库的性能瓶颈,遭遇数字时代的 “数据海啸”,自研数据库如何扛起全球最复杂的电信核心业务?

近日,中国联通软件研究院(简称 “联通软研院”)与 OceanBase 的四年深度合作交出了震撼行业的答卷:

双方打造的 “企业版核心承载 + 社区版自主创新” 双轨体系,已全面覆盖联通 B 域(业务支撑)、O 域(运营支撑)、M 域(管理支撑)全场景,累计部署节点超 1000个。其中,OceanBase 企业版攻克运营商最核心的 B 域 40% 生产系统,支撑全球最大规模 “全国大集中” 核心业务;基于OceanBase 社区版自研的 CUDB 数据库规模化上线数百套系统,更以 AI 向量数据库创新应用 ChatDBA,为运营商智能化转型提供了可复用的创新方案。

这场合作见证了自研数据库技术从 “入局” 到 “破局” 再到 “引领” 的华丽转身。

破局 “全国大集中”:超 4 亿用户核心系统的分布式升级革命

在电信行业 “省集中” 为主流的格局下,中国联通率先推行 “全国大集中” 战略,以一套 cBSS 系统承载 31 省全业务、全客户、全渠道服务,支撑超 4 亿用户的 CRM、计费、结算等核心场景 —— 这是全球电信行业单体承载用户最多、集中化程度最高的业务支撑系统,其技术升级难度堪称 “在飞行的飞机上换引擎”。

此前,该系统长期依赖传统集中式数据库,即便后续升级为 “中间件 + 数据库” 架构,仍面临高并发性能瓶颈、扩展性不足、运维复杂等致命痛点:月初缴费高峰时 “一省慢、全国卡”,5000 万用户基数就触达集中式数据库性能上限;31 省业务 “共性收敛与个性保留” 难以平衡;复杂存储过程与多数据库类型导致升级改造难如登天。

OceanBase 的分布式架构成为破解困局的关键。作为 “全国电信唯一大集中核心业务支撑系统国产升级” 案例,OceanBase 企业版通过三大核心能力实现突破:

一是 “两地三中心” 部署模式,以Paxos 协议分布式一致性机制,实现 RPO=0(数据零丢失)、RTO<30秒的金融级容灾,相比传统集中式数据库的主备架构,容灾建设成本降低 50% 以上,支撑核心业务全年 7×24小时无间断运行;

二是多租户弹性扩缩容技术,将全国上千个节点物理资源池化,按业务需求动态分配 CPU、内存、IO,彻底解决资源争抢问题,计费中心查询性能提升 60%,政企中台并发处理能力翻倍,资源利用率从不足 40% 跃升至 80% 以上,硬件成本降低 60%;

三是深度兼容特性,完美适配 MySQL 与 Oracle 语法,让复杂存储过程、冷僻 SQL 语句无需大幅改写,实现 ERP 系统零改造平滑升级,B 域核心系统整体升级改造成本降低 70%。

更具创新性的是,基于 OceanBase 多租户能力构建的 “一库多服” 架构:通过镜像库将 10 余个业务中心的高负载查询请求从生产库剥离,既保障 “全国一套账” 的统一管理,又能灵活响应各省 5G 用户增长分析、政企客户关联图谱等个性化需求,仅用 1 周就完成所有数据库升级同步,成为支撑业务运营的数据枢纽。

自主创新加码:CUDB 引领开源生态规模化落地

在核心业务升级的同时,联通软研院并未止步于 “使用者” 角色,而是向 “开发者”“创新者” 转型。

2021 年 OceanBase 开源后,联通软研院仅用 13 个月就完成社区版深度优化,打造出分布式 HTAP 数据库产品分布式 CUDB,成为基于 OceanBase 社区版的最大规模应用案例。截至 2025 年 6 月,分布式 CUDB 已承载数百个业务应用,部署节点超 200 个,管理原始数据量近 300TB,广泛覆盖 O 域、M 域各类场景。

为解决传统 MySQL 多版本分散、升级低效的痛点,自研 MySQL 与分布式 CUDB 双向数据迁移工具,实现 10 万条 / 秒的升级速度 —— 这是社区版 OMS 的 3 倍、同类产品 DataX 的 5 倍,已累计完成 25TB + 数据升级,兼容性与效率均处于行业领先水平。

同时,分布式 CUDB 全面接入联通云,实现 “一点开通、一点交付、一点监控、一点运维、一点操作” 的一站式服务,大幅提升云租户使用体验与运营效率。更值得关注的是,联通软研院在合作中累计向 OceanBase 开源社区贡献代码超万行,输出数据库事务日志精准恢复、云存储备份对接等核心能力,实现 “使用开源、贡献开源” 的良性循环,推动数据库生态协同进化。

AI + 数据库融合:ChatDBA 树立智能化转型新范式

2025 年,AI 成为数字化转型的核心驱动力,中国联通软研院聚焦 AI 向量数据库等前沿领域,基于 OceanBase 完成数据库智能专家 ChatDBA 的底层架构升级,破解了大模型落地的关键痛点。作为基于 RAG(检索增强生成)技术构建的 AI 应用,ChatDBA需整合海量数据库专业知识与运维经验,传统架构存在扩展性不足、运维复杂、资源利用率低等问题。

经过对主流向量数据库的全面测评,OceanBase 的一体化能力脱颖而出:其支持关系型数据、向量数据等多类型数据混合存储查询,可处理最高 16000 维稠密向量,在 768 维 100 万数据集下检索性能是主流向量数据库的 3-6 倍;分布式架构保障高并发与故障自动恢复,多租户技术实现资源隔离,搭配完善的管控与迁移工具,大幅降低运维成本。

依托这些优势,ChatDBA 仅用两周就完成适配改造,硬件资源成本直降 30%,运维人力成本同步降低,问题解决效率显著提升,成为运营商领域 “AI + 数据库” 深度融合的标杆范例。

从核心业务分布式升级的 “破冰”,到开源生态自主创新的 “深耕”,再到 AI 一体化架构的 “引领”,中国联通软研院与 OceanBase 的合作不仅实现了量化的降本增效,更构建了 “自主创新、安全稳定、智能高效” 的数字基建新范式。

联通软研院相关负责人表示,未来将持续扩大合作范围,深化向量数据库、多模数据融合等领域创新。OceanBase 也将以此次合作为基础,持续迭代升级,适配电信行业核心需求。

这场跨越四年的深度合作,不仅为中国联通 “数字服务使能者” 转型筑牢技术底座,更向全行业证明:自研数据库已具备支撑全球最复杂核心业务的能力。

这一点在 OceanBase 过去五年的实践中得以充分验证:自 2020 年商业化以来,OceanBase 已在运营商领域实现从“点上突破”到“面上开花”的转变,深度服务中国联通、中国移动、中国电信三大运营商,覆盖 B/O/M 全业务域。在今年 9 月举行的中国通信展上,凭借在通信行业扎根沉淀的实践优势和技术创新能力,OceanBase 联合运营商打造的五个标杆案例获得由中国通信企业协会评选的“一等案例”荣誉。这些成绩的背后,是 OceanBase 作为运营商“可信赖基石”地位的奠定。

当每一通电话、每一笔交易、每一次 AI 交互都运行在自主研发的数据库上,我们看到的不仅是技术自立自强的硬核实力,更是数字化的坚实底气 —— 自研数据库正在从幕后走向台前,重新定义数字时代的数据库核心标准。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/


摘要

随着大模型在真实业务中的应用不断深入,单纯依赖模型参数内知识已难以满足需求。检索增强生成(RAG,Retrieval-Augmented Generation)成为连接大模型与外部知识的重要方式。
本文从 0 到 1 系统讲解 RAG 的核心原理、系统结构及落地步骤,帮助读者构建一个可用、可扩展的 RAG 检索增强系统,为智能体和企业级 AI 应用提供可靠基础。


目录

  • 一、什么是 RAG
  • 二、为什么需要 RAG
  • 三、RAG 系统核心架构
  • 四、从 0 到 1 搭建 RAG 系统
  • 五、一个典型 RAG 流程示例
  • 六、常见问题与优化经验
  • 七、总结
  • 参考文献

一、什么是 RAG

RAG(检索增强生成)是一种将信息检索与文本生成结合的技术框架。

简单理解:

RAG = 先检索资料,再让大模型基于资料生成答案

传统大模型的问题在于:

  • 知识存在时效性
  • 无法访问私有数据
  • 容易产生幻觉

RAG 的出现,本质上是为大模型接入“外部大脑”。


RAG 的基本流程

通常包括三步:

1️⃣ 从知识库中检索相关内容
2️⃣ 将检索结果作为上下文输入模型
3️⃣ 大模型基于上下文生成回答

这使得模型回答更可信、更可控。


二、为什么需要 RAG

在实际应用中,仅依赖大模型参数知识存在明显局限。


1. 解决知识时效性问题

大模型训练数据具有截止时间。
而 RAG 可以连接实时或持续更新的知识库。


2. 支持私有数据访问

企业数据、内部文档、业务资料无法进入模型训练。

RAG 可以:

  • 接入内部知识库
  • 保障数据安全
  • 提供定制化答案

3. 降低幻觉风险

当模型基于真实检索内容回答时:

  • 胡编概率显著下降
  • 可追溯性增强
  • 结果更可信

4. 成本可控

相比微调大模型:

  • RAG 成本更低
  • 维护更简单
  • 迭代更灵活

因此,RAG 已成为企业落地大模型的主流方案之一。


三、RAG 系统核心架构

一个标准 RAG 系统通常包含以下模块。


1. 文档处理模块

负责数据准备:

  • 文档清洗
  • 分段切分
  • 去噪处理

高质量数据是 RAG 效果的基础。


2. 向量化模块

将文本转换为向量表示:

  • 使用 Embedding 模型
  • 保留语义信息
  • 支持语义检索

这一步决定检索质量上限。


3. 向量数据库

用于存储和检索向量数据:

  • 支持相似度搜索
  • 高效索引
  • 可扩展存储

常见做法是使用专门的向量数据库。


4. 检索模块

根据用户问题:

  • 向量化查询
  • 找到最相关内容
  • 返回 Top-K 结果

这是 RAG 的“信息入口”。


5. 生成模块

将检索结果与问题一起输入大模型:

  • 构建 Prompt
  • 引导模型基于资料回答
  • 控制生成范围

生成阶段决定最终体验。


四、从 0 到 1 搭建 RAG 系统

下面给出一个通用落地路线。


第一步:确定应用场景

先明确目标:

  • 客服问答
  • 企业知识库
  • 文档助手
  • 智能搜索

场景不同,设计重点不同。


第二步:准备数据

数据来源可以包括:

  • PDF 文档
  • 网页资料
  • 内部知识库
  • 产品文档

建议优先保证数据质量,而非数量。


第三步:文本切分策略

常见方法:

  • 按段落切分
  • 固定长度切分
  • 语义切分

合理切分可显著提升检索效果。


第四步:生成向量并入库

流程包括:

  • 选择 Embedding 模型
  • 批量生成向量
  • 存入向量数据库

这是 RAG 的核心基础设施。


第五步:构建检索逻辑

关键参数包括:

  • Top-K 数量
  • 相似度阈值
  • 混合检索策略

需要通过测试不断调整。


第六步:设计 Prompt

常见模板:

  • 指定仅基于提供资料回答
  • 要求引用来源
  • 限制自由发挥

Prompt 设计直接影响稳定性。


五、一个典型 RAG 流程示例

以“企业知识问答”为例:

用户提问
   ↓
问题向量化
   ↓
向量数据库检索
   ↓
返回相关文档片段
   ↓
构建 Prompt
   ↓
大模型生成回答

这一流程已被广泛用于:

  • 企业知识助手
  • 客服机器人
  • 文档问答系统

六、常见问题与优化经验


1. 检索不准怎么办?

优先检查:

  • 文本切分是否合理
  • Embedding 模型是否匹配领域
  • 是否存在噪声数据

2. 幻觉仍然存在?

可能原因:

  • 检索内容相关度低
  • Prompt 约束不足
  • 返回文档过少

3. 如何进一步提升效果?

常见优化方向:

  • 重排序(Rerank)
  • 混合检索(关键词 + 向量)
  • 查询改写
  • 多轮检索

成熟系统往往结合多种优化手段。


七、总结

RAG 并不是让大模型变得更聪明,而是让大模型​获得可靠的信息来源​。

从 0 到 1 构建 RAG 系统,核心在于:

1️⃣ 高质量数据
2️⃣ 合理检索策略
3️⃣ 清晰 Prompt 约束

当这三点做到位,RAG 系统即可在真实业务中发挥稳定价值。

可以说:

RAG 是连接大模型与真实世界知识的重要桥梁。

参考文献

  1. 中国信息通信研究院:《生成式人工智能应用发展报告》
  2. 中国信通院人工智能研究中心:《大模型技术与产业发展白皮书》
  3. 百度智能云:《知识增强大模型技术实践》
  4. 阿里云研究中心:《大模型 RAG 应用架构实践》
  5. 腾讯云开发者社区:《基于向量检索的知识问答系统实践》
  6. CSDN 技术社区:《RAG 检索增强生成技术实战》

一、背景与愿景

以飞猪为例,生活服务类应用的 C 端的业务质量保障,往往面临业务快速迭代、技术架构复杂,多端场景覆盖难等多重挑战:

  • 业务层面:受旅行行业“七节两促”特性的影响,在高频营销活动驱动下,往往伴随着较为快速的发布节奏;如何在快节奏中构建稳定的 C 端质量保障体系,与安全生产能力成为关键问题。

  • 技术层面:C 端系统采用 Native、Flutter、Weex、DX、H5 等多技术栈混合架构;同时,测试回归需覆盖飞猪 App、手淘飞猪 Tab,及淘、支、微、红等多平台小程序入口,这导致测试回归复杂度指数级上升;此外,功能回归与用户体验提升需协同产研推进,进一步加剧了发布小窗口期下的质量保障难度。

UI 自动化作为 C 端质量保障的切口之一,而 AI 能够在现有场景下,为自动化赋予新的机遇,解决业界 UI 自动化的普遍挑战与共性问题:

  • 用例维护成本高:业务快速变更导致失效率持续攀升,人工投入占比过大;

  • 断言有效性不足:多端入口交互逻辑差异使覆盖不全,问题漏检风险存在;

  • 多端兼容性问题突出:多端差异和逻辑定制,易引发测试盲区,易触发线上故障;

针对这些痛点,我们计划通过 AI 技术,结合并优化现有自动化测试体系:降低用例腐化率以减少人工成本,提升断言精准度以增强问题发现能力,从而在保障质量的同时提效。

图片

图 1:飞猪多端 - 流量入口示意图

二、挑战

在“AI + X”的落地实践中,应用的技术演进大多遵循一条较为清晰的技术路径:从基础提示工程(Prompt Engineering)起步,到检索增强生成(RAG)、记忆体(Mem)、智能体技能(Agent Skills)和多智能体系统(Multi-agent Systems / Sub-agents),最终监督微调(SFT)、GPO/GRPO 等模型层的策略优化方法。

然而当时,我们在技术调研时发现,AI 自动化领域在当时深入借鉴的参考标杆偏少。在开源技术论坛中的技术分享,大多数文章仍聚焦于 0-1 阶段的试用与调研,缺乏对成熟技术路径的规模化应用验证。同时,外部的开源范例(如:阿里 Mobile-agent、微软 playwright-mcp、字节 midscene.js)也都是更聚焦模型 / 框架层面的基础能力建设,而缺少整体的能力串联、使用效果、演进路线上的实践范式。

如何将 “凭借 AI 可以快速入门的能用” 变成 “可支持月均 10 万 + 构建,稳定、快速运行的好用、易用” 是我们在这个技术演进路线上的最大挑战。

三、策略与思路

3.1、做好评测体系的先行建设,用数据指引应用迭代效果

核心原则:在 AI 自动化开发启动阶段,即需要同步建立与目标对齐的效果评测体系,将效果验证从“事后补救”前置为“设计输入”,确保技术演进始终服务于质量保障目标,避免因缺乏量化依据导致的无效迭代。

行业验证与内部实践依据

  • Gartner AI 的研究报告指出,73% 的 AI+X 项目因评测体系缺失而无法规模化落地,表现为技术优化与业务效果脱节。

  • AI 自动化的前期探索中,常见的技术挑战,往往会遇到的典型问题:

    提示工程(PE)优化后:执行效果异常,AI 幻觉问题频发,导致 PE 紧急回滚;

    RAG 知识库迭代后,关键业务数据召回率显著下降;

    模型切换后:本地调试结果与线上实际效果存在偏差,导致整体效果质量下滑,case 失败率增高。

实施要点

我们从应用 workflow Benchmark 评测集建设、“渐进式消融评测机制”:基座模型 →  Prompt → RAG → Agent 分阶段验证效果等方式作为评测体系的基准,每次技术调整(提示工程优化、知识库更新、模型切换)均需通过真实业务数据验证端到端效果,结合自动化测试数据与人工路径验证,确保评测结果反映真实用户体验。

价值体现:先行评测体系为 AI+X 实践提供客观决策依据,有效规避“技术优化但业务效果下降”的风险。为实现从“能用”到“可靠规模化”的关键跨越提供了数据支撑。

3.2、通过工作流设计,避免模型流程死循环(break cycle),提升故障恢复与自检能力

核心原则:在 AI 工作流设计中嵌入防死循环机制与故障恢复路径,确保系统在异常情况下能主动退出无效循环、回退至安全状态,而非陷入无限尝试。聚焦业务连续性保障,避免因局部故障导致整体流程失效。

问题依据与内部实践痛点

  • 行业共性问题:多智能体系统普遍存在流程死循环风险(如 Cursor 等工具中模型反复执行相同操作),在 AI 自动化场景中尤为突出。例如,当用户未填写必选 SKU 时,系统通常触发 toast 提示,但 AI 在截图 / 操作过程中可能无法捕获此类信息,导致模型陷入“尝试 - 失败 - 重试”的无限循环。

  • 动态死循环检测机制

  • 基于 History 和 Memory 设计算法,实时分析操作序列相似度(如连续 3 次相同点击指令,及相似参数返回,即触发预警);

  • 设定阈值规则:当操作重复率≥60% 或单节点耗时超时,自动判定进入死循环。

  • 分层恢复路径设计

    一级自检:轻量级模型(如 Qwen3-VL-7B)快速扫描历史操作,通过 ReAct 逻辑判断根本原因(例:识别“未捕获 toast”后触发跳过指令);

    二级升级:对复杂循环(如多端交互差异),临时调用高参数模型(qwen3-vl-235b-a22b-thinking)进行深度推理,结合 RAG 补充行业知识库(如“下单页 SKU 选择死循环通用处理方案”)检测到连续 N 次无效点击,workflow 自动调用 RAG 获取“必填项缺失”处理方案;;

    安全回退:强制回退至最近稳定检查点(如“度假搜索 Listing 页”),避免全流程重启。

价值体现:工作流设计的本质是赋予 AI 系统“自省能力”——通过防死循环机制与分层恢复策略,将故障转化为可自动修复的常规操作,使技术演进真正服务于业务稳定性目标。

3.3、通过 RAG、记忆体与子智能体补充业务垂类知识,保障高 UV 页面路径的精准覆盖

核心原则:将业务垂类知识深度嵌入 AI 工作流,确保模型理解真实用户行为路径与行业术语逻辑,使测试覆盖严格对齐核心业务流目标,避免因知识缺失导致的路径偏差与漏检风险。

问题依据与内部实践痛点

  • 用户路径覆盖失准:模型对业务高频路径的理解存在偏差。例如,当指令为“订北京中关村附近,500 元预算,下个月 1 号大床房”时,实际用户 90% 通过“酒店金刚”或“猪搜”入口操作,但自动化测试常误判至其他资源位(如活动页),导致核心 UV 页面链路覆盖准确率不足,无法有效验证真实用户高频场景。

  • 行业术语理解缺失:模型对垂类术语(如“交通 OD”指交通出行数据、“OTA 页面”指在线旅游平台)存在歧义,引发测试用例生成逻辑错误。例如,在航班测试中,“OD”被误识别为“订单”,导致关键流程验证失效。

实施策略

  • RAG 业务知识库定制:

    构建飞猪专属知识库,整合用户行为热力图(如酒店金刚点击路径)、行业术语词典(如“OD=Origin-Destination”),在 Prompt 生成前动态注入上下文。

    例如,当检测到“订酒店”指令,且无其他特殊要求时,RAG 自动匹配“酒店金刚”作为首选入口,确保测试路径与真实用户行为一致。

  • 记忆体(Mem)动态优化:

    设计短期记忆模块,实时记录用户历史操作特征(如连续 3 次从“搜索模块”进入酒店列表),在决策时应该优先调用高频路径逻辑。

    针对大促营销活动期,记忆体自动识别新增入口(如“双 11 特惠”标签),动态调整测试优先级。

  • 子智能体(sub-Agent)分工协同:

    路由 Agent:专责解析指令并匹配高频用户路径(如识别“订酒店”自动路由至酒店金刚);

    术语 Agent:实时校正行业黑话(如将“交通 OD”映射为交通数据模块),确保测试逻辑无歧义;

    验证 Agent:在关键节点(如支付前)交叉校验路径是否覆盖核心 UV 页面,触发偏差预警。

价值体现:业务垂类知识是 AI 自动化测试的“导航仪”——通过 RAG、记忆体与子智能体的协同设计,将抽象指令转化为精准的业务路径验证,确保技术服务于核心用户场景的质量保障目标。

3.4、持续跟进前沿技术,动态演进应用能力,优化整体链路效果

核心原则:将技术演进,视为应用体系的有机组成部分,通过持续跟踪 AI 能力边界拓展与生态创新,实现测试链路与业务复杂度的动态适配,避免技术滞后成为效果瓶颈。

问题依据与内部实践痛点

AI 技术的演化迭代速度日新月异,在 AI 自动化的基座模型下,我们从最初 gpt3.5 只能写文字、到 gpt4 可以多模态传图片,到 qwen-vl-max-latest 能够在点击、滑动时,精准给到像素级别的操作 的 pixel point,都表明了技术能力的演进速度,已经远远超越我们去思考如何 fix issue 的迭代速度了。

通过建立与 AI 技术发展同频的升级机制,技术底座持续吸收 AI 的开源演化成果,并高效整合开源生态创新,使测试体系始终具备精准匹配业务迭代的适应性。

3.5、拓展 AI 泛化检查能力,加强视觉智能感知与断言,降低漏测概率

核心原则:突破操作意图识别的局限,将 AI 能力延伸至对视觉界面的动态理解与泛化校验,使测试体系从“执行动作”转向“结果验证”,确保系统能自主感知 UI 状态变化并判断业务逻辑一致性。

问题依据与内部实践痛点:现有测试过度依赖操作指令解析与“编码形式的断言”,难以应对多端 UI 差异场景下的隐性问题。例如,小程序中优惠券弹窗样式,可能只断言了弹出是否弹出,或者弹窗文案是否正常展示,但是如果弹窗局部出现了空坑,或者渲染异常,通过 “编码形式的传统断言” 是无法及时感知与相应的,如此就产生了漏测的可能。

而 AI 本身的图片解析与研判能力,就可以很好的处理这些问题,即可以判断单张图片上的泛化异常问题,也可以在多张图片的链路上,去分析判断一致性等相关问题。又或者结合实事、工单、可诉等相关外部数据,给出非逻辑 BUG 的风险提醒。

价值体现:AI 泛化检查是质量保障的“视觉神经”——让测试能力从机械执行转向智能感知,确保技术演进始终服务于用户体验的核心目标。

四、效果展示

从几个橱窗场景,进行 AI 智能化效果展示。

4.1、对于异常弹窗的静默处理

图片

4.2、对于异形元素(无文字)的像素级坐标感知

图片

4.3、对于连续逻辑的动态自检与判断能力

图片

4.4 对于循环操作的短期记忆

图片

4.5 对于死循环场景的脱困能力

图片

4.6 对于截图的泛化检查能

图片

五、思考总结

AI 技术的深度引入,有效解决了 C 端 UI 自动化质量保障体系普遍存在的通用问题,推动测试能力实现较大的提升:

  1. 用例维护成本显著降低通过 AI 语义化改造,系统能够动态理解业务变更逻辑(如营销活动入口调整),自动适配用例,大幅减少因业务快速迭代导致的人工维护投入,使团队精力从重复性调整转向测试策略优化。

  2. 测试覆盖深度切实提升泛化检查能力突破了传统编码断言的局限,使验证从操作指令延伸至结果状态。系统可自主识别多端 UI 差异中的隐性问题(如弹窗渲染异常、元素空坑等),有效弥补了人工难以覆盖的视觉类风险盲区。

  3. 多端兼容性问题系统性改善基于 RAG、记忆体与子智能体的协同设计,AI 深度融入业务垂类逻辑(如高频用户路径、行业术语校正),确保测试流严格对齐真实用户行为,显著降低了因端侧差异引发的漏检风险。

本质价值:AI 不是简单替代人工,而是将测试工程师从机械执行中解放,使其聚焦于质量策略设计与业务风险预判。当系统能自主完成弹窗处理、像素级操作及死循环脱困时,质量保障真正实现了从“执行工具”到“智能伙伴”的转变——技术价值的体现,在于让专业能力更高效地服务于用户体验本质。

2026 年,大模型已经不再稀缺,但它在中小企业的办公环境中处境却很骨感。市场部用通用聊天机器人写促销文案,结果因工具不理解“BOM 表”“良品率”等术语,导致员工反复返工;法务人员还在逐字比对几十页合同,在密密麻麻的条款里找差异;客服团队被重复问题淹没,而公司花了几万元采购的 AI 工具,始终没能真正嵌入业务流程。

问题在于工具离场景太远。当算力和模型能力变得普及,企业要的不再是“更强的大模型”,而是一个能理解自己业务、快速跑起来、带来实际收益的智能助手。

行业正在悄然转向。AI 算力需求从训练转移至推理,推理算力需求增长 4 倍;算力消费模式从买卡转移到买 Token,Token 消耗量增长 53 倍;几乎所有企业都在通过智能体的方式消费 Token。华为云和华为云伙伴都观察到,客户不再纠结参数规模,反而关心“它能帮我解决什么具体问题”。

华为云看准了这个拐点。今年 1 月 23 日,华为云在“华为云中国区销售伙伴产品方案发布会”上,隆重介绍了 Flexus AI 智能体——一个专为中小企业设计的轻量化、场景化智能体平台。它聚焦于更专业的场景、追求更精准的效果,并致力于实现极简部署。

Flexus AI 智能体依托华为自研的搜索大模型,攻克了搜索精度的关键难题。在企业知识问答、智能数据查询等高频场景中,其准确率领先业界平均水平 2 至 9 个百分点。在发布会现场的实时对决中,面对权威数据集的严格考验,Flexus AI 智能体更以 100%的准确率胜出,充分证明了其性能的领先性。

该平台重点覆盖互联网、金融与保险、医疗健康、制造业、零售/电商、专业法律服务及教育等行业。其创新的 “Solution as Code” 功能,能将企业级应用场景打包成“即取即用”的模板,这使 Flexus AI 智能体超越了工具属性,成为优秀实践经验的高效载体。此外,华为云的“天筹 AI 求解器”还能为工业、物流等复杂场景提供最优决策支持,切实帮助企业降本增效。

Flexus AI 智能体的目标十分明确:让即便没有专职 AI 团队的中小企业,也能在几天内部署一个真正“懂行”的智能助手。这背后,折射出华为云对 AI 商业化下半场的核心判断——最终的战场,在于帮助客户实现业务价值。

为中小企业制造的 AI 智能体

过去十年,云计算在中小企业中完成了从“可选项”到“必选项”的演进。如今,人工智能正经历相似的关键跃迁。然而对广大中小企业而言,这场技术浪潮并非坦途:它们并不缺乏拥抱 AI 的意愿,却普遍困于三大现实挑战——应用场景模糊、技术门槛高企、投入产出难以量化。

华为云敏锐捕捉到这一结构性变迁,依托在工程化落地、场景理解与企业级服务领域的长期积累,将 Flexus AI 智能体定位为通向长尾市场的“轻量化入口”。产品设计源于对典型中小企业客户的深度洞察:预算有限、缺乏专业 IT 团队、需求表达不清晰,却对数据安全与成本控制高度敏感。其目标清晰而务实——回应中小企业“用得起、用得上、用得好”的朴素诉求,同时在 AI 商业化深水区开辟差异化增长路径。

作为面向泛行业中小企业的轻量化平台,Flexus AI 智能体以“开箱即用、高性价比、安全可控”为核心理念,通过四大能力直击 AI 落地痛点:

  • 丰富模板库:提供 40 余个源自真实企业实践的预置场景,覆盖舆情监测、报告撰写、客服问答、知识检索等通用与行业需求,大幅降低启动成本;

  • 一站式平台:支持可视化编排与一键部署,无需编码即可完成智能体构建与发布,数日内即可上线业务助手;

  • 安全可控:支持公有云调用与私有化部署双模式,保障数据主权与合规要求;

  • 底座协同:深度集成华为云 Tokens 服务与昇腾 AI 算力,保障高并发稳定性,并自然带动 ECS、数据库、KooSearch 等云资源的协同消耗。

相较于华为云生态内面向大型企业、强调深度定制的平台,Flexus AI 智能体聚焦轻量化通用场景,在办公、营销与服务等高频领域追求极致的简便与实用,形成清晰的差异化定位。

尤为关键的是,该产品精准破解了 AI 落地的“最后一公里”难题——企业知识问答。当前,企业普遍采用“检索增强生成(RAG)”技术赋予大模型专业知识,但效果瓶颈往往不在模型本身,而在于前端检索精度不足:传统关键词检索难以理解语义,易在海量知识库中漏检或错检,导致智能助手“答非所问”。

对此,Flexus AI 智能体内置的企业级搜索服务成为破局关键:以华为自研的中文文本向量大模型为底座,具备出色的语义理解能力;其检索引擎在权威基准测试中表现优异,实现精准高效的语义匹配;通过架构优化,关键性能指标显著优于主流开源方案,同时有效控制成本。最终,企业获得的不再是一个“听起来聪明”的对话机器,而是一位真正精通业务、检索精准、响应迅捷的可靠数字助手。

这一能力已在多行业实战中快速验证:

  • 互联网与出海企业:用于语义级信息检索、舆情监测及动态视频生成,一键部署覆盖电商、科研与物流的 AI 工具链;

  • 金融与保险:实现研报自动生成、财务风险预算、智能审计及反欺诈风控,部分保险场景复用自医疗行业的成熟实践;

  • 医疗健康:深入辅助诊疗、影像分析与报告解析,为医疗机构提供研发助手;

  • 制造业:应用于工业质检、包装检查、生产安全检测、设备预测性维护、高炉工艺控制和性能预测等领域;

  • 零售与电商: 场景涵盖用户运营、门店巡检等。某国内头部奶茶品牌一周内所有门店系统均上线智能体,月付费仅 4 万元;

  • 教育行业:可用于内容生成与学术支持、教学辅助等;

  • 法律行业: Flexus 企业搜索服务在中国法律智能技术评测中斩获类案检索一等奖;某住宅设计公司已将 Flexus AI 智能体深度用于合同风险条款识别与合同比对中。

这些案例背后,是一套真正为中小企业量身打造的 AI 落地路径:无需技术积累、不必重金投入,只需聚焦自身业务,就能快速用上 AI。Flexus AI 智能体以“场景更专、效果更精、使用更易”为原则,提供开箱即用的模板和零代码操作体验,配合免费调优支持,真正做到“一天出 Demo、一周上线见效”。

全流程测评:智能体如何进入内容生产?

作为专注于科技行业的内容创作者,我们始终在寻找能够提升信息处理深度与效率的工具。内容创作,尤其是科技领域,面临着信息过载、源头繁杂、热点更迭迅速的常态挑战。在策划一个深度选题时,从海量噪音中快速梳理出主线、定位核心矛盾,往往消耗大量精力。

因此,我们对华为云 Flexus AI 智能体进行了体验。我们最近正在研究中国 AI 硬件出海战略与挑战,这个方向既涉及复杂的技术趋势研判,又牵涉多变的国际贸易政策环境。为此,我们尝试使用华为云 Flexus AI 智能体矩阵辅助完成前期调研。

我们的测试分两步走:先让“深度研究报告撰写”智能体勾勒全球产业趋势图谱,再请“国家政策研究与比较”智能体扫描关键市场的准入壁垒。

当我们要求“深度研究报告撰写”智能体研究 2020-2026 年 AI 智能硬件的行业发展趋势时,智能体并未直接输出结论,而是首先展示其思考路径——将问题拆解为市场规模、产品形态、技术演进、竞争格局和应用场景五个维度,并据此构建报告结构。

这种结构化处理带来了三个实际价值:

  • 节省框架搭建时间:几分钟内生成的研究提纲,覆盖了边缘 AI 设备渗透率、AI PC 出货量、NPU/GPU 融合架构等关键议题,避免了从零开始的信息筛选。

  • 聚焦核心变量:通过数据表格(如各细分市场 CAGR、厂商份额预测)和趋势关键词,帮助我们快速识别哪些是驱动变化的关键因子。

  • 提供可扩展基础:输出内容并非封闭结论,而是带有明确数据来源提示和逻辑节点的“半成品”,便于后续人工验证与观点深化。

紧接着,我们请“国家政策研究与比较”智能体“研究美国、欧洲和印度,在进口中国 AI 智能硬件时不同的海关政策。”

智能体没有给出模糊或笼统的结论,而是立即先建立了一个清晰的四维比较分析模型:关税结构与 HS 编码、技术性贸易壁垒(认证)、国家安全审查、政策演变趋势。这直接对应了企业出海实操中必须面对的四大关卡。

差异化逻辑的提炼:在反馈中,智能体不仅罗列了 FCC、CE、BIS 等认证差异,更尝试归纳出不同市场的核心监管逻辑:美国的“科技遏制与长臂管辖”、欧盟的“规则主导与伦理审查”、印度的“贸易保护与产业替代”。这种对政策背后战略意图的解读,远比单纯列举条款更有洞察力。

这些归纳虽需进一步验证,但已为后续针对性调研提供了清晰的问题清单和方向指引。

综合来看,Flexus AI 智能体的核心优势不在于“给出答案”,而在于“组织问题”。它通过结构化拆解,将模糊、宽泛的研究需求转化为可操作的分析路径,显著缩短了从信息搜集到洞察生成的链条。

这一能力不仅适用于科技内容创作,在财经报道、政策简报、市场进入评估等需要快速处理多源信息并输出逻辑清晰内容的场景中,同样具备实用价值。

Flexus AI 智能体的价值不在于炫技式的能力,而在于将 AI 真正嵌入中小企业的业务流。在 AI 从技术热词走向商业落地的关键阶段,华为云选择以轻量化、模板化、安全可控的方式切入长尾市场,既回应了中小企业“用得起、用得上、用得好”的核心诉求,也重新定义了 AI 产品的价值标准:不是参数多大,而是离业务多近。

原文链接:https://www.nocobase.com/cn/blog/6-best-open-source-ai-ticket...

之前的文章中,我们梳理了一些可以替代 Zendesk 的开源与自托管 AI 工单系统方案。在文章撰写和资料调研的过程中,我们也持续关注了社区里对相关话题的讨论。 从实际使用体验来看,传统工单系统本质上只是一个记录与流转工具,记录问题、改变状态、最后关闭。至于问题是否被快速理解、是否被正确分派、是否能少走弯路,几乎完全依赖人工经验。 在 Reddit 的技术社区中,有两条讨论引起了我们的注意。

TicketingSystems1.png!

TicketingSystems2.png

越来越多的团队开始尝试引入所谓的 “AI Helpdesk”,希望借助 AI 来缓解支持压力。但在 Reddit 的讨论中,我们看到的反馈却相当一致,也非常直接:

  • AI 往往只是生成一段看起来很聪明的回复
  • 对实际处理效率的提升非常有限
  • 整体流程并没有发生变化,只是在原有系统上多了一个 AI 按钮

如果 AI 只是停留在回复层,而没有真正进入工单流程本身,那它对团队的帮助是非常有限的。


💬 嗨!你正在阅读 NocoBase 博客。NocoBase 是一个极易扩展的 AI 无代码/低代码开发平台,用于构建企业应用、内部工具和各类系统。它完全支持自托管,基于插件架构设计,开发者友好。→ 欢迎在 GitHub 上了解我们


也正是在这样的需求和反馈之下,我们认为,“AI 工单系统”已经不再只是一个简单的产品分类,而更像是一个需要被重新定义的解决方案层级。它不应只是一个会生成回复的系统,而应当是一个能够真正介入流程、自动理解与分派工单、基于知识库给出可用建议,并且能够与企业内部业务系统深度结合的 AI 工单系统。

本文将从 AI 工单系统在 2026 年应具备的核心能力出发,系统性梳理这些能力可以如何在不同系统中实现,帮助你和团队在选型时跳出“是否带 AI”的表层判断,回到效率和结构本身。

2026 AI 工单系统的必备能力

1. 自动理解与摘要 AI 工单系统需要准确理解工单内容,从自然语言描述中提取关键信息,减少人工反复阅读和上下文确认的成本。

2. 智能分类与路由 真正有效的 AI 应当能够自动完成初步分类与优先级判断,并将工单分派给合适的团队或角色,而不是把这些决策继续留给人工处理。

3. 基于知识库的回复建议 AI 的价值在于复用已有知识,通过历史工单和文档给出可编辑的处理建议,而不是直接“自动结案”或输出脱离上下文的通用回答。

4. 流程中的 AI 介入点 AI 应当贯穿工单的完整生命周期,在建单前、处理过程中以及关闭与总结阶段持续发挥作用。

5. 可控、可扩展、可自托管 在企业场景下, AI 工单系统必须支持数据主权和模型可替换,避免被单一 SaaS 锁定,才能在长期发展中保持可控性和扩展空间。

开源 AI 工单系统选型清单

1.NocoBase

官网链接:https://www.nocobase.com/

GitHub 链接:https://github.com/nocobase/nocobase

GitHub Star 数:21.4k

核心定位 NocoBase 是一套以数据模型为核心的开源业务系统平台,通过插件化架构扩展业务能力,并将 AI 能力深度融入系统的核心模块之中。工单、知识库、流程、内部服务台都是其可以构建的业务模块。

🎉基于 NocoBase 2.0 构建的智能工单系统

适合场景

  • 希望高度自定义工单流程的 IT / 内部支持团队
  • 不满足于标准流程,需要结合内部业务系统的组织
  • 对数据主权、自托管、AI 模型可控性有明确要求的企业
  • 希望将工单系统逐步升级为内部智能服务平台的团队

AI 扩展方式

NocoBase 的 AI 能力不是附加功能,而是通过 AI 员工深度融入业务系统。

  1. 自动理解与摘要
  • AI 员工可以理解工单的自然语言描述
  • 结合数据模型与字段结构,自动提取关键信息
  • 支持生成摘要并写回工单字段,减少人工阅读和上下文确认成本

NocoBase1.png

  1. 智能分类与路由
  • AI 可作为工作流中的决策节点
  • 根据工单内容、字段信息和历史数据进行自动分类
  • 计算优先级并分派给对应团队、角色或 SLA 流程

NocoBase2.png

  1. 基于知识库的回复建议(RAG)
  • 工单解决过程可以自动转为知识条目
  • 新工单创建时可基于已有知识推荐相似解决方案
  • AI 员工可以辅助查找已有知识,并生成建议回复

NocoBase3.gif

  1. 流程中的 AI 介入点
  • AI 可介入建单前(表单填写辅助)
  • 处理过程中(分析、建议、补充信息)
  • 关闭阶段(总结工单、沉淀知识)

NocoBase4.gif

  1. 可控、可扩展、可自托管
  • 100% 开源、完全自托管
  • 支持多种 AI 模型(OpenAI、Claude、本地模型)
  • 插件化架构,可基于企业业务灵活调整系统

NocoBase5.png

2. Frappe Helpdesk

官网链接:https://frappe.io/helpdesk

GitHub 链接:https://github.com/frappe/helpdesk

GitHub Star 数:2.9k

核心定位 Frappe Helpdesk 并不是一个孤立的工单系统,而是 Frappe 业务平台中的一部分,天然与 ERP、CRM、项目管理等模块共享数据模型,更偏向业务系统一体化的服务支持方案。

适合场景

  • 已经在使用 ERPNext / Frappe 平台的组织
  • 希望将工单与业务数据、客户、订单、资产等信息打通的团队
  • 对“系统一致性”和内部数据联动要求高,而非只关注客服功能的企业
  • 内部 IT 支持、业务支持型 Helpdesk 场景

AI 扩展方式

Frappe Helpdesk 的可以作为业务平台的一部分,能够让工单自然融入企业已有的数据与流程体系。对于已经使用 ERPNext 的团队来说,它更像是一个业务支持入口,而不是独立的 AI 工单系统产品。

  1. 自动理解与基础分类(可扩展)
  • 可结合 Frappe 平台已有的数据结构
  • 通过外部 LLM 或自建 AI 服务,对工单描述进行基础理解

Frappe Helpdesk1.png

  1. 基于业务数据的辅助建议
  • 工单可直接关联 ERP / CRM 数据
  • AI 可基于已有业务记录,给出处理参考或背景说明
  • 更适合“业务支持型”场景,而非高并发客服场景

Frappe Helpdesk2.png

3. Chatwoot

官网链接:https://www.chatwoot.com/

GitHub 链接:https://github.com/chatwoot/chatwoot

GitHub Star 数: 27.1k

核心定位 Chatwoot 可以统一承载来自不同渠道的对话,并将这些对话转化为可处理的支持请求或工单。

适合场景

  • 需要统一管理 Web Chat、Email、社交媒体、IM 等多渠道支持入口的团队
  • 将“对话”作为服务起点,而不是先生成工单的组织
  • 希望在支持流程前端引入 AI,减轻人工接待和初步沟通压力的团队

AI 扩展方式

Chatwoot 并不以复杂的工单生命周期管理见长,其 AI 能力更多集中在沟通与入口层。

  1. 自动理解与摘要
  • Chatwoot 天然以“对话”为核心对象
  • 通过接入外部 LLM,可实现:

    • 对话摘要
    • 回复草稿生成
    • 常见问题自动应答

Chatwoot1.png

  1. 工单触发与前置分流
  • 对话可根据规则或 AI 判断转化为工单
  • 在建单前完成初步筛选和分流
  • 减少无效或重复工单进入后端系统

Chatwoot2.png

4. Zammad

官网链接:https://zammad.com/

GitHub 链接:https://github.com/zammad/zammad

GitHub Star 数: 5.4k

核心定位 Zammad 以完整的工单生命周期管理为核心,强调多渠道接入、状态流转、权限与 SLA 管理,是一款流程导向非常明确的 Helpdesk 工具。

适合场景

  • 需要一套成熟、结构清晰的 Helpdesk 系统的 IT 支持团队
  • 对工单生命周期、权限和 SLA 管理有明确要求的组织
  • 希望在稳定工单流程之上,引入 AI 做辅助判断与建议的团队
  • 以 Helpdesk 为核心,而非平台化重构的场景

AI 扩展方式

Zammad 本身并不内置 AI 功能,但其规则引擎与 API 设计,使其非常适合在既有流程上叠加 AI 能力。

  1. 自动理解与摘要(可扩展)
  • 可通过 API / Webhook 接入外部 LLM
  • 帮助支持人员快速把握问题核心,减少人工阅读成本

Zammad1.png

  1. 规则驱动的分类与分派
  • Zammad 拥有成熟的规则系统
  • AI 可辅助完成主题识别、优先级判断
  • 结合现有规则,实现更智能的分派与升级逻辑

Zammad2.png

  1. 基于知识库的回复建议
  • Zammad 支持知识库模块
  • 可通过外部 AI 服务,基于已有知识内容生成回复建议

Zammad3.png

5. FreeScout

官网链接:https://freescout.net/

GitHub 链接:https://github.com/freescout-help-desk/freescout

GitHub Star 数:4k

核心定位 FreeScout 可以提供一个简单、可控的共享收件箱与工单管理工具,功能聚焦、学习成本低,更接近“开源版 Help Scout”。

适合场景

  • 中小团队或初期阶段的支持团队
  • 以邮件工单为主要支持渠道的组织
  • 预算敏感、希望避免复杂系统引入成本的团队
  • 对流程复杂度要求不高,但希望逐步引入 AI 辅助的场景

AI 扩展方式

FreeScout 本身并不内置 AI 能力,但其插件机制和简单的数据结构,使其可以在有限范围内叠加 AI 辅助功能。

  1. 基于知识库的回复建议(可扩展)
  • 结合已配置的知识库内容、历史工单或预设回复模板
  • 利用 LLM 生成可编辑的回复草稿,供支持人员参考和调整
  • 更适合处理常见问题或重复性场景,而非复杂、多轮上下文的推理

FreeScout1.png

  1. 基于规则的初步分类
  • 可结合规则与 AI 辅助判断结果
  • 对邮件工单进行初步分类或标签标记

FreeScout2.png

6. Faveo Helpdesk

官网链接:https://www.faveohelpdesk.com/

GitHub 链接:https://github.com/faveosuite/faveo-helpdesk

GitHub Star 数:1.2k

核心定位

Faveo Helpdesk 是基于 Laravel 生态的开源 Helpdesk 系统。内置工单、知识库与基础流程管理能力,强调可读性与可扩展性,适合进行二次开发和功能增强。

适合场景

  • 使用 Laravel / PHP 技术栈的团队
  • 希望在 Helpdesk 基础之上,逐步引入定制功能或 AI 能力的组织
  • 对知识库建设与内容复用有明确需求的支持团队
  • 不追求平台级重构,但需要一定扩展空间的场景

AI 扩展方式

Faveo Helpdesk 的 AI 扩展主要依托其知识库结构清晰、代码可扩展的特点,更适合从“内容与建议层”引入 AI。

  1. 基于知识库的回复建议
  • 内置知识库模块,结构清晰
  • 可结合外部 LLM,对知识库内容进行检索与生成
  • 为支持人员提供可编辑的回复建议

Faveo Helpdesk1.png

  1. 自动理解与摘要(可扩展)
  • 可通过 Laravel 生态中的 AI 服务
  • 对工单描述进行基础语义理解与摘要
  • 帮助支持人员更快把握问题背景。

Faveo Helpdesk2.png

结语

在选型过程中,比起功能数量,更应该关注 AI 能够在多深的程度上参与到你的工单流程中,系统是否具备持续扩展这些能力的空间。

随着使用场景的变化,工单系统的边界也在不断延展,从最初的问题记录工具,到内部服务台,再到如今的 AI 驱动的业务支持平台,新一代的工单系统正在逐步成为企业内部协作与服务交付的重要基础设施。

💕如果你在工单系统选型或 AI 工单系统实践中有类似困惑,希望这篇文章能带来一些参考,欢迎分享给更多感兴趣的朋友。

相关阅读:

作者:傅榕锋,OceanBase 高级技术专家

AI 开发者需要什么样的数据库

在开始正式话题前,我们不妨先思考一个问题: AI 时代下开发者需要什么样的数据库?

自本世纪初以来数据库需求的演变历程。Web 2.0及业务在线化的时代,强调的是一个可靠、精确的记录系统,能够精准地记录每一笔交易数据,满足典型的事务处理(TP)需求。进入移动互联网和数据智能化时代后,随着数据量的爆发式增长,海量数据分析的需求成为主流。这时,分析型(AP)数据库开始占据重要位置。AI 时代的真正到来,驱动数据库不仅要支持查询和分析功能,更需具备理解和推理的能力。

快来关注我,获取 OceanBase 第一手的产品信息和技术资源,与行业大咖 “唠” 出真知!

AI 时代开发者的痛点

作为数据库从业者,我们需要深入分析 AI 时代下开发者对数据库的具体需求。

数据类型的多维化:在传统数据库中,图片、视频、音频仅能被存储而难以有效利用。借助 AI 模型的帮助,这些非结构化数据可以转化为可检索的形式,如通过嵌入模型转换为向量,或使用大语言模型提取文本描述和标签,从而将非结构化数据转变为结构化或半结构化数据以实现高效检索。

性能与规模的极致化:鉴于向量数据对内存和磁盘资源的高占用特性,在成本与性能之间寻求最佳平衡显得尤为关键。为此,亟需采用高效的算法,以优化召回率与资源成本之间的权衡关系。

智能处理的内生化:例如,在 RAG 场景中,文档需先进行切片并生成向量,这通常涉及向量数据库、文档型数据库以及事务型数据库的联合使用。为了简化这一流程,理想的解决方案是让数据库自身承担更多的标准化数据处理任务,减少开发者的负担。

开发流程的敏捷化:目标是让开发者更加专注于业务逻辑本身,而非陷入复杂的数据处理流程之中。

AI 时代的理想数据库

基于上述痛点,AI 时代的理想数据库应具备以下四个特征。

  • 多模态支持:提供统一的平台,支持多种数据类型,包括但不限于向量、全文、标量、 JSON 格式。
  • 高性能引擎:针对 AI 工作负载进行优化,确保在控制成本的前提下实现最优性能表现。
  • 智能化集成:内置 AI 运行时环境,使数据库可以直接执行复杂的智能处理任务,减少对外部系统的依赖。
  • 简易操作:设计直观易用的界面和工具,降低非专业开发者的使用门槛,促进更多领域专家参与到数据处理工作中。

综上所述, AI 时代我们期待的数据库应该是强大、智能、一体化的,是数据与 AI 融合的平台。

AI原生的一体化数据库是否存在

正所谓“需求决定市场”,契合AI时代理想数据库特质的产品必然会出现。而就目前来看,OceanBase 新发布的 seekdb 已率先落地,不仅具备了相关核心能力,更在快速迭代中持续进化。

混搜架构的轻量级、多模态的AI原生数据库

OceanBase seekdb 是一款面向 AI 场景的轻量级、多模态的原生数据库,专为支持混合搜索、上下文理解与智能数据处理而设计。其整体架构分为五个核心层级,实现从数据存储到查询执行的全链路优化。

1. 统一应用接口层。

seekdb提供基于 SQL 的统一查询语言,兼容标准 SQL 语法,支持多模态数据的联合查询。同时,提供面向开发者的 Python SDK,具备简洁易用的 API 接口,支持 skip-by-list 等高效检索模式,显著降低开发者使用门槛。

2. 支持混合负载的多模计算层。

继承自 OceanBase 的成熟优化器体系,seekdb具备强大的查询规划与执行能力,在混合检索场景中,会自动进行自适应执行和查询优化,能够根据查询条件自动选择最优执行路径。同时,支持混合负载自适应执行、AI 函数调用、ACID 事务保障及灵活 UDF 扩展,满足复杂业务需求。

3. 多模数据层。

支持多种数据类型统一存储,实现“存即能检”,打破传统系统中不同数据类型需分库管理的局限。包括:

  • 关系表(传统结构化数据)
  • 向量(Embedding 向量)
  • 文本(原始文本内容)
  • JSON(半结构化数据)
  • GIS(地理空间数据)
  • 数组、位图等扩展类型

4. 多模索引层。

构建业界领先的多模索引体系,支持的索引类型如下。

  • 向量索引:高效支持近邻搜索(ANN),兼顾精度与性能。
  • 全文索引:支持中文分词与语义匹配。
  • 混合索引:结合向量与标量条件进行联合检索。
  • JSON 索引:加速嵌套字段查询。
  • 二级索引、GIS 索引:满足多样化查询需求。

支持多索引协同查询,在一次请求中完成跨模态数据的融合检索。

5. 部署模式层。

  • 服务器模式:传统集群部署,适用于高并发、大规模生产环境。
  • 嵌入式模式:以库的形式内嵌于应用程序中,生命周期与应用一致,适合边缘计算、AI 应用快速构建等轻量化场景。

OceanBase seekdb 通过“统一接口 + 多模存储 + 智能索引 + 灵活部署”的一体化设计,实现了对 AI 工作负载的端到端支持,真正做到了“一个数据库,搞定所有数据”。

快速构建:更灵活、更轻量、不止于 SQL

OceanBase seekdb 不仅具备强大的功能,更在易用性和部署灵活性上进行了深度优化,助力开发者快速构建 AI 应用。

1. 更灵活:双运行模式,适配多样场景。

  • 服务器模式:适用于企业级、高可用、分布式部署。
  • 嵌入式模式:直接集成到 #Python 应用中,无需独立部署数据库服务,极大简化开发流程,特别适合 RAG、Agent、智能问答等轻量级 AI 应用。

2. 更轻量:极简资源占用,轻松跑起基准测试。

单实例仅需 1C2G 内存即可运行 VectorDBBench 基准测试,相比传统数据库,资源消耗更低,启动更快,非常适合本地调试、原型验证和边缘部署。

3. 不止于 SQL:引入 Schemaless SDK。

引入 Schemaless SDK,开发者无需定义表结构即可直接插入和查询数据,提升开发灵活性。

使用seekdb快速创建RAG应用

下面我们演示一下如何使用 seekdb 快使创建一个 RAG 应用。

第一步:三行代码快速创建一个知识库(SETUP)

  1. 导入 pyseekdb 模块,启用 seekdb 的 Python SDK。
  2. 初始化客户端实例,参数为空表示采用嵌入式模式,数据库生命周期与应用绑定,无需独立部署服务。
  3. 创建知识库并定义为 Collection。

第二步:批量插入文档片段(INSERT)

功能说明:

  • 调用 upsert() 函数批量插入文档内容(documents)。
  • 同时关联元数据(metadatas),包括分类、内存、存储、价格等结构化信息。
  • 显式指定文档 ID(ids),便于后续检索与更新。

关键特性:

  • 用户仅需提供原始文本和元数据,无需手动调用嵌入模型生成向量。
  • 数据库内部自动调用内置的嵌入模型,将文本转换为向量并存储。

AI 能力下沉至数据库,开发者无需关注向量化过程,seekdb 自动完成文本 → 向量的转换,实现“透明化”处理。

第三步:混合检索,精准召回(QUERY)

查询维度分析:

  • query_texts:输入自然语言文本,触发向量检索,用于语义匹配。
  • where:设置关系型过滤条件,如 category == laptop 和 ram >= 16,实现精确筛选。
  • where_document:基于全文索引进行关键词匹配,要求文档内容包含 “RAM”。
  • n_results:限制返回结果数量为 2 条。

实现机制:

  • 查询时,seekdb 内部自动将 query_texts 输入传递给嵌入模型,生成查询向量。
  • 结合向量索引、全文索引、二级索引等多种索引执行混合检索。
  • 最终返回满足所有条件的最相关结果。

第四步:效果展示

输入检索条件为:需要一个 12 GB 内存以上的高性能笔记本。运行后输出结果如下图所示,

召回结果分析如下。

  • 第一条:16GB 内存、512GB 固态的专业笔记本,完全满足“高性能 + 16GB 以上内存”的要求。
  • 第二条:32GB 内存、1TB 固态的游戏本,虽非专业用途但性能卓越,符合语义意图。

该案例模拟了典型的 RAG 场景,用户只需输入自然语言问题,系统即可自动完成文本向量化、多条件联合检索、高精度召回。全流程由数据库内核统一处理,极大简化了开发复杂度,真正实现“让开发者专注于业务,而非数据处理”。

欢迎亲自上手试用:https://github.com/oceanbase/seekdb。当前版本支持 Linux 平台下的嵌入式模式运行,Windows 和 macOS 版本将在近期和大家见面。可访问 oceanbase.ai 获取样例代码,支持本地测试与快速验证。

SQL 直接调用 AI 的原生体验

OceanBase seekdb 不仅是一个支持多模态数据存储与混合检索的数据库,更致力于将 AI 能力深度集成于数据库内核,实现“SQL 直接调用 AI”的原生体验。

seekdb AI Inside 的内置处理除了 AI_EMBED 方法外,还引入 AI_RERANK 和 AI_COMPLETE,可以实现数据分析自动化、特征提取、智能内容生成、语义搜索增强、结果优化等效果。在 seekdb 中使用可以构建从粗排到精排的高效分层混合检索处理流程。该流程分为四个阶段。

阶段1:标量过滤(Scalar Filtering)。在全量数据集上首先执行关系型条件过滤(如 category = 'laptop', ram >= 16),缩小候选集过滤范围。

阶段2:向量搜索(Vector Search)。对过滤后的候选集执行向量相似度检索,基于语义匹配找出最相关的文档,使用近邻搜索算法(ANN)高效完成高维向量比对。

阶段3:全文搜索(Full-text Search)。在候选集中进一步执行关键词匹配,确保结果包含用户关心的关键信息(如 "RAM"),支持中文分词与模糊匹配,提升召回精度。其中标量、向量、全文的过滤顺序取决于优化器。

阶段4:粗排 → 精排 → 大模型重排。经过以上过滤后得到粗排的结果,此时再去调用 AI_RERANK,数据库会直接调用 RERANK 模型进行精排,精排结束后,通过调用 AI_COMPLETE 即可调用大模型,大模型会直接进行回答。以上所有的 AI 标准操作流程都在数据库中进行,开发者只需在查询中添加相应函数,即可让数据库自动调用大模型对数据进行处理,显著提升用户体验。

OceanBase seekdb 适用场景

OceanBase seekdb 作为一款轻量级、多模态、AI 原生的数据库,凭借其统一存储、混合检索、内嵌 AI 能力 和嵌入式部署支持,在多个新兴与传统智能化场景中展现出显著优势。以下是其典型的适用场景。

1.替代“三库并行”,降本增效

在 RAG 架构中,传统方案通常需要同时维护三类数据库。

  • 向量数据库存储文本嵌入向量。
  • 文档数据库保存原始文本内容。
  • 关系型数据库管理元数据(如分类、时间、权限等)。

这种“三库并行”模式不仅带来高昂的运维复杂度,还导致资源重复占用(三份独立实例),难以在资源受限的本地或边缘环境中落地。seekdb 通过单一数据库统一承载向量、文本与结构化元数据,实现一次写入,多路索引(向量索引 + 全文索引 + 二级索引)、统一查询接口,支持混合条件过滤、极低资源开销(1C2G 即可运行),适合个人本地知识库、中小企业内部知识管理系统、边缘侧智能问答应用等。

2.语义搜索引擎,打破模态壁垒

seekdb 的多模态能力使其天然适配跨模态语义搜索场景。无论是文本、图片、音频还是视频,均可通过嵌入模型转化为统一的向量表示,并结合元数据进行联合检索,通过统一向量 + 元数据 + 全文的混合检索框架,打破模态壁垒。典型应用包括:以图搜图、音频内容检、视频片段语义匹配、多媒体资产管理系统。

3.Agentic AI 应用,保证数据一致性

在 Agentic AI(智能体)场景中,Agent 需要频繁执行上下文感知的混合检索,比如结合用户历史行为(标量过滤)、匹配任务目标语义(向量搜索)、检索相关文档片段(全文匹配)。seekdb 的原生混合检索引擎与内嵌 AI 函数能够高效支撑此类复杂查询,避免外部服务调用带来的延迟与一致性问题。适用于任务型对话系统、自主决策机器人、智能工作流引擎等应用场景。

4.AI 辅助编程,提升质量,降低成本

AI 编程助手存在云端 + 客户端双端检索需求,传统方案面临两大挑战。

  • 架构割裂:云端使用多源召回(向量+全文+语法树),客户端依赖轻量插件(如 SQLite + 向量扩展),两套系统逻辑不一致。
  • 性能瓶颈:通用数据库缺乏专业向量索引与优化器,召回效果与效率受限。

seekdb 提供统一的 SDK 与查询接口,可使云端与客户端使用同一套 API,且客户端在嵌入式模式下仍具备专业级向量检索能力。seekdb还支持代码语义搜索、API 推荐、错误修复建议等高级功能。通过这些能力统一技术栈,提升召回质量,降低双端开发与维护成本。

5.企业应用智能化丝滑升级

对于大量仍在使用 MySQL 的传统企业应用,seekdb 提供了一条平滑演进路径:

  • 高度兼容 MySQL 协议,现有应用可无缝迁移。
  • 迁移后即可获得 向量检索、全文搜索、JSON 支持等 AI 原生能力。
  • 为未来引入 RAG、智能报表、自动化分析等 AI 功能奠定数据基础。

因此,MySQL 到 OceanBase 的迁移是“最丝滑”的路径之一。seekdb 作为其轻量化延伸,进一步降低了企业智能化转型的技术门槛。

6.端侧应用智能化的理想选择

随着终端设备算力提升,越来越多智能应用向端侧迁移。seekdb 的嵌入式部署能力使其成为端侧智能数据库的理想选择:

  • 资源占用极低(1C2G 可运行)。
  • 支持离线向量检索与语义理解。
  • 生命周期与应用绑定,无需独立服务进程。
  • 让端侧应用具备“本地大脑”,减少对云服务的依赖。

典型场景包括:

  • 智能家居设备中的本地知识问答。
  • 工业机器人中的实时故障诊断。
  • 移动端个人助理的上下文记忆管理。
  • 车载系统的本地语义导航。

从轻到重、从简到繁: AI 应用快速迭代的理想基础设施

在 AI 应用快速迭代的背景下,开发者面临从原型验证、开发测试到生产部署的多阶段需求。OceanBase 与 seekdb 的深度融合,构建了一套覆盖全生命周期、支持平滑演进的弹性数据库架构,能够满足不同阶段、不同规模场景下的灵活部署需求。

原型验证与开发测试阶段:嵌入式模式(seekdb)

在项目初期,开发者通常需要快速验证 AI 模型效果或构建最小可行产品(MVP)。此时可采用 seekdb 嵌入式模式:

  • 将 libseekdb.so 动态库直接集成至应用中,作为本地数据库运行。
  • 数据库生命周期与应用绑定,启动即用,关闭即销毁。
  • 无需独立部署服务,极大简化环境搭建流程。
  • 支持向量、文本、JSON 等多模态数据存储与混合检索。

嵌入式模式适用于个人开发者快速原型开发、端侧智能应用(如移动端、机器人)、本地调试与算法验证等场景。

测试与小规模生产环境:单机部署模式

当应用进入测试或小规模上线阶段,可迁移到单机部署模式:

  • 启动独立的 seekdb 进程,提供服务端接口。
  • 支持多客户端连接,适合团队协作开发。
  • 可通过配置文件管理数据路径、内存参数等。
  • 仍保持与嵌入式模式的 API 兼容性,代码无需变更。

单机部署模式适用于小型工作负载、测试环境与生产环境、多租户需求等场景。

生产环境:多租户与高可用架构

随着业务稳定运行,需考虑资源隔离、高可用性和容灾能力,此时可选择以下两种生产级部署方式。

  • 单机多租户模式(OceanBase 单机部署) :

    • 使用 OceanBase 单机实例,通过多租户机制实现多个业务之间的资源隔离。
    • 适用于多个业务共享同一数据库实例但需独立管理资源的场景。
    • 支持独立的配额控制、备份策略和监控告警。
  • 主备模式 / 三副本模式(OceanBase 高可用架构):

    • 采用主备架构或三副本(2F1A)架构,保障数据高可用。
    • 支持自动故障切换与读写分离。
    • 适用于对稳定性要求较高的中小规模业务系统。

多租户与高可用架构适用于中小规模工作负载、对容灾和高可用有明确要求的业务、多租户共用数据库的 SaaS 平台等场景。

大规模与高性能场景:分布式集群架构

当业务持续增长,数据量和并发请求激增时,可进一步扩展为分布式集群架构。

  • 无共享分布式集群 :

    • 由多个 OBServer 节点组成,支持水平扩展。
    • 支持大规模工作负载、关键业务高并发访问。
    • 具备强一致性、线性可扩展性与动态扩容能力。
  • 基于对象存储的存算分离集群:

    • 存储层使用对象存储(如 OSS),计算层由 OBServer 提供。
    • 实现“冷热数据分离”,降低存储成本。
    • 适用于海量非敏感数据分析场景(如日志分析、历史归档)。
    • 提供更高的性价比与更强的扩展能力。

分布式集群架构适用于大规模工作负载、关键业务系统、高性能高并发、更高性价比的大数据处理任务等场景。

OceanBase 与 seekdb 的组合形成了一个 “从轻到重、从简到繁” 的完整弹性架构体系,核心优势有如下三点。

  • API 完全兼容:无论选择哪种部署模式,业务代码无需修改;
  • 配置驱动升级:只需更改连接地址与配置参数,即可完成架构迁移;
  • 平滑演进路径:支持从个人开发到企业级生产的无缝过渡。

这使得 OceanBase + seekdb 成为 AI 应用快速迭代的理想基础设施,真正实现了“一次开发,全栈适配”,助力企业在 AI 时代加速创新落地。

当然,在AI时代,AI数据库不足以支撑应用所需的完整基础设施能力,因此,OceanBase构建了上下文工程体系中的关键能力。让我们敬请期待下一篇文章。

在人工智能从“感知智能”迈向“行动智能”的过程中,智能体(AI Agent)被普遍视为复杂任务自动化的关键形态。随着智能体能力逐渐外溢到真实业务场景,一个共识正在行业内形成:限制智能体从 0 到 1 的关键因素,往往不是模型能力本身,而是业务被理解和结构化的程度。

一、重新理解智能体:不是程序,而是决策执行体

在工程语境中,智能体通常被定义为: 能够感知环境、进行推理决策,并通过工具执行动作以达成目标的计算实体。

与传统软件不同,智能体并不依赖预先穷举的流程路径,而是通过“思考—行动—反馈”的循环方式动态推进任务。这一特性决定了,智能体建设的重心已从代码实现转向决策逻辑的定义与约束。

二、第一道门槛:从流程控制到目标约束

传统软件强调确定性,工程师通过规则覆盖所有路径,系统行为可预测、可复现。但智能体的运行逻辑本质上是概率性的,其价值恰恰来自对不确定环境的适应能力。

从 0 到 1 的第一道门槛,是放弃对“过程正确”的执念,转而追求“目标对齐”。

  1. 任务拆解能力决定上限 模糊目标无法驱动可执行行为。真正可用的智能体,依赖对目标的多层拆解:

    • 明确子任务边界
    • 定义每一步的输入输出
    • 约束可调用工具的作用范围
  2. 容错不是缺陷,而是设计前提 在智能体系统中,错误并不等同于失败。关键在于是否具备:

    • 环境反馈机制
    • 中途修正能力
    • 失败可回滚或可中断的安全边界

三、场景解构的难点:业务并未为智能体准备好

智能体的能力高度依赖其所处的业务环境。当业务知识无法被机器理解时,模型能力再强也无法转化为生产力。

核心问题不在“有没有数据”,而在“业务是否被结构化”。

  • 隐性经验尚未显性化 大量关键判断仍依赖个人经验,缺乏可传递的规则或案例沉淀。
  • 知识源质量决定上限 如果企业内部文档存在冲突、过期或逻辑断裂,RAG 机制只会放大错误。
  • 工具接口是行动能力的边界 没有清晰权限、规范接口和可回溯执行结果,智能体只能停留在“建议层”。

四、评价体系的重构:什么才算“好用的智能体”

智能体不同于传统系统,无法仅通过“是否输出正确结果”进行评价。

更贴近实际的评估维度包括:

  • 任务完成稳定性:在不同输入条件下是否保持逻辑闭环
  • 推理路径合理性:中间决策是否符合业务认知
  • 工具使用效率:是否存在无效调用或循环行为

在实践中,人机协同往往是从 0 到 1 阶段最稳妥的形态。关键并非是否“全自动”,而是人工介入点是否被合理设计。

五、结论:智能体的门槛,本质是业务认知能力

智能体能否跨过 0 到 1,并不取决于模型参数规模,而取决于构建者是否真正理解业务问题,并将其转化为机器可执行的决策结构。

当业务被拆解为清晰的目标、规则与反馈回路时,智能体才能从概念演示走向真实生产力。

在生成式人工智能向 AI 智能体(AI Agent) 演进的过程中,技术社区往往将目标放在更高的自主性、更强的推理能力上。

但当智能体真正进入 电力、制造、金融、能源、医药等传统行业 时,一个反直觉却极其现实的结论浮现出来:

传统企业并不优先追求“最聪明的智能体”,而是“最可控的智能体”。

这并非技术保守,而是由 物理风险、合规压力与业务确定性 共同决定的理性选择。


一、核心定义:什么是传统行业语境下的“智能体可控性”?


在工业与严肃商业环境中,智能体的可控性(Controllability) 并不等同于“能不能关掉它”,而是一个系统级概念:

可控性 = 行为可预测 + 决策可解释 + 异常可接管

具体可拆解为三个维度:

1️⃣ 边界可控(Boundary Control)

  • 智能体能做什么 / 不能做什么是明确的
  • 工具权限、数据访问范围、操作级别均被限制

2️⃣ 逻辑可控(Logic Transparency)

  • 决策过程可以被复现与审计
  • 不只是“给结果”,而是能说明依据了什么规则 / 文档 / 条款

3️⃣ 安全可控(Fail-safe Control)

  • 在异常输入、极端场景下
  • 系统可自动降级,或由人工即时接管(Human Override)

二、为什么“可控性”是传统行业的生命线?

1️⃣ 容错成本具有极端非对称性

在互联网产品中,智能体犯错的代价通常接近于零;
而在传统行业中,一次错误可能意味着:

  • 设备损坏
  • 生产事故
  • 合规违规
  • 财务或人身风险

因此现实选择是:

智能体更适合作为“决策辅助者”,而非“最终执行者”。

这也是为什么多数传统企业会保留人类终审权


2️⃣ 合规与审计要求无法妥协

金融、医药、能源等行业的共同特点是:

  • 每一个决策必须可追溯
  • 每一个结论必须有明确依据

但大模型天然存在随机性与幻觉风险(Hallucination)。

因此:

如果智能体无法解释“为什么这么做”,
那它在合规体系中就是不可用的。

3️⃣ 传统业务偏好“确定性而非创造性”

传统企业的竞争力,往往来源于:

  • 数十年沉淀的 SOP
  • 高度结构化的业务流程

他们真正需要的不是“灵光一现”,而是:

**90% 场景下像老员工一样稳定,
10% 场景下才体现智能。**

在实践中,一些团队会选择成熟的智能体平台,通过低代码工作流 + 强规则约束的方式,让智能体“聪明但不越界”,显著降低落地风险。


三、实践范式:如何构建“可控的智能体系统”?


当前行业的共识路径是构建一种:

“受限自主系统(Constrained Autonomy)”

核心做法包括:

✅ 1. RAG(检索增强生成)

  • 将企业私有知识库作为唯一可信信息源
  • 限制智能体输出范围,降低幻觉概率

✅ 2. 工作流编排(Workflow Orchestration)

  • DAG 工作流 拆解任务
  • 每一步都有明确输入、输出与校验规则

✅ 3. 人在回路(Human-in-the-Loop)

  • 在关键节点设置人工审核断点
  • 涉及资金、合规、客户沟通时必须人工确认

四、核心结论:可控性不是限制,而是入场券

对传统行业而言:

  • 没有可控性,就没有规模化
  • 没有审计能力,就没有商业落地
可控性决定了:
智能体是“实验玩具”,还是“生产工具”。

本质上,这是一种新的人机契约关系

  • 人类定义规则与边界
  • 智能体承诺在规则内高效执行

未来传统企业的真正竞争力,不在于谁的模型参数更大,而在于谁先构建出一套“可控、可审计、可接管”的智能体体系。
本文章由AI辅助生成

在智能体系统的早期实践中,开发工作往往从解决单一问题开始:一个场景、一个目标、一次交付。这样的方式能够快速验证模型能力,却难以支撑长期演进。当系统从实验性 Demo 走向真实业务时,一个决定性指标会迅速浮现——可复用性(Reusability)

在智能体工程中,可复用性并非附加属性,而是判断系统是否真正完成从 0 到 1 跨越的核心标准。不可复用的智能体,本质上只是一次性消耗品;而具备复用能力的系统,才能成为可持续演进的数字资产。


一、从烟囱式实现到模块化系统:可复用性的工程定义

在智能体架构中,可复用性并不等同于“代码能拷贝”,而是系统在不同任务、不同模型、不同业务之间迁移的能力。

1. 模块化是可复用性的前提

一个具备工程化潜力的智能体系统,通常被拆解为若干相互解耦的核心模块:

  • 任务编排(Workflow):定义清晰、可配置的执行路径
  • 工具接口(Tools):遵循统一输入输出规范的能力单元
  • 提示词模块(Prompt Modules):可组合、可替换的指令片段

这种拆解方式,使系统从“一次性实现”转向“能力积木化”。

2. 从 0 到 1 的分水岭效应

  • 0 阶段
    每新增一个需求,就需要重新设计提示词、重写工具调用逻辑、调试完整流程。模型版本一旦变化,系统稳定性迅速下降。
  • 1 阶段
    系统已具备标准化组件库。新任务更多是“重新编排”,而非“重新实现”。开发工作从解决问题转向构建系统能力。

这一步的跨越,标志着智能体真正进入工程化阶段。


二、可复用性带来的三层工程价值

1. 逻辑层复用:认知模式的标准化

尽管业务表象差异巨大,但智能体的底层认知结构高度一致,例如:

  • 任务拆解
  • 多步推理
  • 校验与反思
  • 结果汇总

当这些认知模式被沉淀为可复用的流程模板或元提示词时,它们就不再服务于单一场景,而成为组织级资产。

2. 工具层复用:接口规范释放规模效应

智能体的能力边界由其工具集决定。工具是否可复用,取决于接口是否稳定、规范是否统一。

  • 采用结构化输入输出
  • 明确参数约束与返回格式
  • 避免隐式上下文依赖

当工具具备标准协议后,同一能力可以被多个智能体并行调用,而无需重复开发。

3. 知识层复用:长期记忆的通用化

基于检索增强生成(RAG)的知识系统,其核心价值在于索引的通用性。

一个结构良好的知识库,应当能够同时支持客服问答、分析决策、内容生成等多种智能体形态。知识一旦完成结构化沉淀,便可以在不同智能体之间流转,而不再被绑定在单一应用中。


三、实现高可复用性的关键工程挑战

1. 结构化通信而非自然语言耦合

模块之间的通信必须可解析、可验证。
这意味着关键节点输出应采用稳定的数据结构,而不是依赖模型生成的自由文本。

只有当输出具备确定性,模块才能真正被复用。

2. 状态与执行逻辑的解耦

可复用系统必须将:

  • 任务状态
  • 执行逻辑
  • 历史记忆

进行明确分离。
这样,同一逻辑模块才能被并行调用,避免上下文相互污染。


四、结论:可复用性决定智能体系统的生命周期

在智能体工程实践中,是否具备可复用能力,直接决定系统能否长期存在。

核心结论可以概括为:

  • 可复用性是区分原型与系统的关键指标
  • 模块化、标准化、结构化是实现复用的必要条件
  • 真正的竞争优势,将来自可持续积累的组件资产

在行业实践中,智能体来了往往不是指模型能力的突然跃迁,而是系统工程范式的成熟。当每一次能力建设都能为下一次应用提供杠杆,智能体的商业价值才具备指数级放大空间。

在 AI 技术日新月异的今天,AI Agent(智能体)正逐渐从概念走向落地。它不仅能进行对话,更具备了思考、规划和执行任务的能力。然而,构建一个成熟的 Agent 系统,并非简单的 API 调用,而是多种核心技术协同工作的结果。

在深入开发之前,理清这些基础概念,有助于我们更好地理解 AI 系统的底层运行逻辑。


一、 智能的内核:大语言模型与交互边界

1. LLM(大语言模型):通识大脑

LLM 是 Agent 的核心引擎。它拥有强大的语言理解能力,但它是一个“静态大脑”,其知识停留在训练截止的那一刻,无法感知企业内部的私有数据。

2. Context Window(上下文窗口):短期记忆

这是模型单次交互能处理的信息上限。

  • 局限: 即使窗口再大,也不能盲目塞入所有数据。正如在数学题中加入无关的干扰信息会降低准确率一样,过长的背景会导致模型“注意力不集中”,甚至产生幻觉。

3. Prompt Engineering(提示工程):沟通的艺术

  • Zero-shot(零样本): 不给示例,直接下指令。这要求指令必须高度具体(如:从“写个政策”优化为“写个 200 字符合 GDPR 标准的隐私政策”)。
  • Few-shot(少样本): 提供几个理想的问答示例,这能有效地规范 AI 输出的语气(Tone)和特定格式。
  • Chain of Thought(思维链): 引导 AI 展示推理步骤,强制模型分配更多计算资源在逻辑推导上,从而处理复杂问题。


二、 知识的扩展:从“翻书”到“记忆”

为了让 AI 访问私有数据,我们需要构建一套“外挂硬盘”。

4. 向量数据库 vs 传统数据库

传统的 SQL 数据库是基于值或关键词的匹配(如 LIKE %vacation%)。而向量数据库(如 ChromaDB, Pinecone)则是基于含义(Meaning)的匹配。即使搜索词不一致,只要语义接近,系统就能精准定位。

5. Embeddings 与数据预处理

  • 数据切分(Chunking): 我们不能将 500GB 的文档直接塞给 AI。必须将其切成小块。
  • 重叠(Overlap): 在切分时,通常会保留一定的文字重叠。这能防止上下文在切分处丢失,从而大幅提升检索的准确性。
  • Embeddings: 将切分好的文本块转化为高维数字向量,让计算机能够以数学方式计算语义的相关性。

6. RAG(检索增强生成):知识的补丁

RAG 是目前解决 AI 幻觉的最优方案。它通过“检索 -> 增强 -> 生成”的流程,让 AI 像是在参加开卷考试:先去数据库里“翻书”找到事实,再根据事实组织答案。


三、 行动的逻辑:框架、编排与协议

7. LangChain:开发的“胶水”层

LangChain 是一个强大的抽象层,旨在简化开发流程。

  • 核心价值: 它像管道一样将模型、提示词模板和向量库连接起来。有了它,你从 OpenAI 切换到 Google Gemini 可能只需要更改一行代码,极大地提高了系统的灵活性。

8. LangGraph:有状态的“总导演”

当任务需要循环和决策时,简单的线性管道就不够用了。

  • 节点与边: LangGraph 通过节点(步骤)和边(路径)构建工作流。
  • 共享状态(State): 这是它的核心。它维护着一个在各节点间传递的“字典”,记录着当前的文档、评分等信息。基于这个状态,系统可以执行复杂逻辑:例如“如果合规分数低于 75 分,则循环回退到搜索节点重新查阅”。

9. MCP(模型上下文协议):标准化的“USB 接口”

这是连接外部工具(如 GitHub、数据库)的通用标准。它让 AI 具备了“即插即用”的能力,开发者无需为每个工具编写特定的硬编码集成,只需符合 MCP 协议,Agent 就能自主调用。


四、 总结:各组件是如何协同工作的?

构建一个完整的 AI 系统,本质上是让这些组件各司其职、形成闭环:

  1. 准备: 文档经过切分与重叠处理,通过 Embeddings 存入向量数据库
  2. 触发: 用户提问,LangChain 调度 RAG 流程,根据语义意图找回知识。
  3. 决策: LangGraph 根据当前状态判断:是直接回答,还是需要循环修正?
  4. 执行: 如果需要实时数据,通过 MCP 协议调用外部工具。
  5. 产出: LLM 结合所有事实与逻辑推理,输出最终方案。

理清了这些基石,你就已经掌握了从“对话机器人”跨越到“全能 Agent”的底层蓝图。

本文由mdnice多平台发布

2026年1月,我实操后最推荐的6个AI开源项目(上)

不是n8n,不是langchain,不是dify。这6个项目是我陆陆续续在一两周的时间里,从十几个项目中筛出来的——解决真实痛点、上手门槛低、社区活跃。

为什么我要写这篇"非主流"推荐

打开任何一个AI技术社区,你都能看到铺天盖地的教程:n8n工作流搭建、langchain入门、dify部署指南……

这些项目当然好。但说实话,它们太"烂大街"了。

不是说用的人多就不好,而是:当一个工具变成"标配",你用它已经不算优势,只是及格线。

我在过去一段时间,常常带着一个问题去GitHub和Hacker News上翻项目:有没有那种"知道的人不多,但用过的人都说好"的AI开源项目?

翻了十几个,最后留下了6个。它们的共同特点:

解决一个明确的痛点,不是"有了更好",而是"没有不行"

上手门槛低,基本pip install就能跑,环境配置很简单

社区活跃,issues会有人关注并回复,且迭代频繁

平常业务太忙,先抽时间写了这一篇讲前3个,下一篇我们讲后3个,欢迎关注。

第一个:Browser-Use(让AI操作浏览器的"手")

场景:我需要自动化填写表单、抓取动态渲染的页面、模拟用户登录。传统爬虫要么被反爬拦住,要么一改页面结构就废了。

Browser-Use解决的问题很直接:让LLM直接操作浏览器,像人一样点击、输入、导航。

其实算是个manus的开源小平替。

你给它一个任务,比如"去某个网站搜索XX,把前10条结果的标题和链接存下来",它会自己打开浏览器、输入搜索词、翻页、提取内容。不需要你写XPath,不需要分析网页结构。

数据:76k stars,283位贡献者,几乎每天都有更新。

适用场景

需要模拟用户操作的自动化任务

动态渲染页面的数据采集

需要登录、点击、填表的流程自动化

局限:对延迟敏感的场景不适合(毕竟要启动浏览器);而且反爬特别严格的网站可能还是会被拦。

规避动作:先小规模测试;考虑云端沙箱方案。

第二个:Mem0(给AI装上"长期记忆")

场景:大模型的长上下文场景下效果差算是个老生常谈了。对话一长就"失忆",或者对需求不明晰,每次都要重复上下文。用户说"我上周跟你说过我喜欢简洁的回答",它一脸茫然。

这是所有做AI产品的人都遇到过的问题:上下文窗口是短期记忆,但用户需要的是长期记忆。

Mem0就是解决这个问题的。它给Agent加了一层持久化的记忆层,能跨会话记住用户的偏好、历史信息、重要事实。

技术上,它不是简单地把对话存数据库。它会自动提取"值得记住的信息",做去重、更新、关联。你可以理解为:如果上下文窗口是便签纸,Mem0就是一个会自动整理的笔记本。

官方数据:集成Mem0后,Agent的回答准确率提升26%,响应速度快91%(因为不用每次都塞一大段历史上下文)。

数据:45.8k stars,YC S24孵化,2025年底刚发布1.0正式版。

适用场景

需要跨会话记忆的AI助手

个性化推荐、用户画像

多轮对话的复杂任务

局限:对实时性要求极高的场景还是会有一定延迟;数据隐私敏感的场景需要评估本地部署选项。

规避动作:评估本地部署选项;敏感数据做脱敏。

第三个:PageIndex(不用向量数据库的RAG)

场景:我用传统RAG做文档问答,发现一个痛点:"相似"不等于"相关"。用户问"公司去年的利润是多少",向量检索可能返回"公司今年的收入"——相似度很高,但答非所问。

PageIndex的思路完全不同:不用向量数据库,不做文档切片,用推理代替检索。

它的做法是:先让LLM理解整个文档的结构,建立一个"内容索引"。用户提问时,不是去算向量相似度,而是让LLM"推理"应该看哪些页面。

打个比方:传统RAG像关键词搜索,PageIndex像请了一个读过整本书的专家帮你翻页。

我尝试用它处理一份80页的财务报告,问了10个问题,准确率明显比传统RAG高。

官方在FinanceBench基准测试上跑出了98.7%的准确率。

数据:6.3k stars,增长很快,FinanceBench榜单第一。

适用场景

长文档、复杂文档的问答

对准确率要求高的场景(财务、法律、医疗)

文档结构复杂、切片效果差的场景

局限:需要实时更新的文档不太适合(索引建立需要时间);超大规模文档集可能成本较高。

规避动作:与传统RAG混合使用——热数据用向量库,冷数据用PageIndex。

写在最后:本篇小结

这3个项目分别解决了:

Browser-Use:AI不能操作浏览器 → 让LLM像人一样点击、输入

Mem0:AI没有长期记忆 → 跨会话的持久化记忆层

PageIndex:RAG检索"相似但不相关" → 用推理代替向量检索

下一篇我会继续介绍后3个项目,都是围绕"上下文工程"的:

MarkItDown:把各种文档转成LLM能读的Markdown

Instructor:让LLM返回结构化数据

Semantic Router:10ms级别的意图路由

明天我会抽时间更新下一篇,讲另外3个项目:

Unsloth(让微调快2倍、省70%显存)

Pathway(实时流处理+LLM管道)

Agent-Lightning(用RL训练任何Agent)。

届时也会更新在同一个合集里,关注我不错过更新~

我是Carl,大厂研发裸辞的AI创业者,只讲能落地的AI干货。

更多AI趋势与实战,我们下期见!

在外部监管要求不断细化、内部规范持续完善的背景下,企业运营中的制度严谨性与流程闭环能力,正持续接受系统性检验。北京中烟创新科技有限公司(简称:中烟创新)研发的“企业合规审查AI助手”,为企业提供了一条以技术驱动管理跃迁的路径。将分散的法规条款与内部制度转化为结构化、可运算的知识体系,从而实现对制度合规性、一致性、严谨性与完整性的系统性、自动化审查。并且,AI助手直接提供清晰的审核结论与修改依据,将审查工作从定性判断推向精准的条款对标,使合规要求得以更准确、更高效地嵌入企业运营的每一个环节。

AI助手的核心创新在于构建了一个企业合规知识中枢,将分散的法律法规、监管要求、行业标准和企业内部制度整合为结构化、可计算的知识体系。这个知识中枢不仅是静态的数据库,更是具备理解和推理能力的智能系统,能够理解制度文本的语义内涵,识别潜在合规风险,并提供精准的修改建议。在数据基础层,OCR+NLP技术协同工作,将多源异构的制度文档精准转化为结构化、可计算的数据,构建起AI助手赖以运行的知识库底座。

在智能分析层,知识图谱建立了法规与制度间的语义关联网络,RAG框架则实时检索关联条款作为证据,确保分析结果具有权威依据。在决策输出层,通过精心设计的提示词引导大模型进行合规推理,最终生成具有明确法规依据的专业审核结论,形成从数据处理到智能决策的完整闭环。与传统审查工具不同,中烟创新AI助手直接指出具体问题所在,提供明确的修改方向和依据来源。

例如,当审查一个采购管理制度时,AI助手不会简单标注“存在合规风险”,而是明确指出“第八条第三款关于供应商选择标准的规定,与《政府采购法实施条例》第二十一条要求不一致,建议增加公平竞争条款”,并直接链接到相关法规原文,使审查结果更具操作性和权威性。

企业合规审查AI助手围绕四个核心维度,构建了全方位的合规审查能力:条款合规性审查通过将制度条款与法律法规数据库进行智能比对,识别可能存在的合规冲突。不仅能够识别显性的文字冲突,还能理解条款背后的监管意图,发现更隐蔽的合规风险。例如,即使制度文本中未直接使用被禁止的表述,但如果其实质效果违反了监管原则,AI助手也能识别并提出警示。制度一致性审查关注企业内部制度体系的协调统,大型企业往往有数百甚至上千项制度文件,这些文件之间可能存在交叉、重复甚至矛盾的情况。

AI助手通过构建企业内部制度知识图谱,揭示不同制度之间的关联性和潜在冲突,确保企业制度体系的内在一致性。流程完整性审查深入到业务流程的设计逻辑,基于预置的流程模型和风险管理框架,检查制度中的流程设计是否存在缺失环节、权责不清或控制不足等问题。

例如,在审查一个投资管理制度时,AI助手会检查是否包含了必要的风险评估、决策审批、投后管理等环节,确保流程设计的完整性和有效性。文本严谨性审查则关注制度文本本身的质量,识别模糊表述、逻辑矛盾、定义不一致等问题。制度文本的严谨性直接影响到执行效果,模糊的表述可能导致不同理解,进而引发执行偏差甚至法律纠纷。

AI助手通过深度学习模型,能够识别出“视情况而定”、“原则上”等模糊表述,并建议更加明确、可操作的替代方案。审查流程结束后,AI助手生成一份结构化智能报告,直接定位问题条款并提供完整解决方案。报告核心包含审查总结与详细审核结果:总结部分概括制度在合规性、一致性等方面的整体评价。审核结果则对每处问题进行条款级精准定位,明确风险性质,用户点击依据链接,可查看该法规的完整沿革记录,清晰展现其制定、修订与废止的历史轨迹,帮助用户理解监管要求的演变逻辑与当前条款的适用背景。

用户可一键采纳修订建议,自动更新文本,也可通过智能定位功能快速对照原文与修改建议,进行人工微调。所有操作留痕,形成从智能审查、精准修订到版本管理的合规诊断与修复的闭环工作流。企业合规审查AI助手的实际应用,从直接效果来看,AI助手的应用使合规审查效率提升了80%以上,原本需要数周完成的全面制度审查,现在可以在几天内完成,审查的准确性和一致性也大幅提高。

AI助手使合规审查从周期性活动转变为持续过程,企业可以随时对新制度草案进行审查,也可以定期对现有制度进行复审,确保制度体系始终与最新的监管要求保持一致。

同时,促进了企业合规管理的标准化和透明化,所有的审查过程都有完整记录,审查依据和逻辑清晰可查。企业合规审查AI助手的价值,在于让企业以前所未有的效率与精度,将合规要求无缝嵌入运营流程,从而在复杂环境中构建起确定性的核心竞争力——让风险可控,让运营可信,让增长可持续.

在 AI Agent 从概念走向工程落地的过程中,一个反复被验证的结论正在形成:真正可用的智能体,从来不是单一大模型能力的体现,而是数据、工具与规则三位一体的系统工程。

如果把大语言模型(LLM)视为“认知中枢”,那么:

  • 数据决定它知道什么
  • 工具决定它能做什么
  • 规则决定它应该怎么做

一个成熟的智能体,正是这三者在工程层面形成稳定协同的结果。


定位:认知与决策的底座

在真实业务中,LLM 的通用训练数据无法覆盖企业级知识的专业性、私有性与时效性。 因此,Agent 通常通过 RAG(Retrieval-Augmented Generation) 构建动态知识注入能力,包括:

  • 企业内部文档
  • 行业知识库
  • 实时检索结果

核心价值

数据不是为了“多说”,而是为了减少幻觉、提高决策精度、为工具调用提供确定性参数

定位:从“理解”到“行动”的桥梁

工具通过 函数调用(Function Calling / Tool Calling) 的方式,让 Agent 能够:

  • 查询数据库
  • 操作业务系统
  • 调用外部 API
  • 执行事务型动作(下单、取消、通知等)

一个成熟的 Agent 系统中,工具设计遵循两个原则:

  • 原子化:单一工具只完成单一职责
  • 可解释:输入输出结构清晰、可预测

否则,模型将难以稳定地做出工具选择。


定位:行为边界与系统秩序

规则不是“限制智能”,而是让智能可控。 它通常以两种形式存在:

  • 显式规则:Prompt、条件判断、权限校验
  • 隐式规则:工作流编排、状态机、失败兜底逻辑

示例:

当用户请求查询财务数据时,系统必须先完成权限校验,否则拒绝后续工具调用。

没有规则的 Agent,本质是不可上线的。


一个可落地的智能体,通常遵循如下决策流转:

规则先行,决定:

  • 当前请求是否合法
  • 是否需要权限校验
  • 应进入哪一类业务场景

Agent 通过 RAG 获取必要背景信息,例如:

  • 订单号
  • 报告时间
  • 用户状态

数据的作用不是生成答案,而是为下一步工具调用提供精确上下文


在规则约束下,Agent 选择最合适的工具执行动作,并处理返回结果。

数据给参数,规则给路径,工具完成执行。

在真实系统中,数据、工具、规则都在持续变化,Agent 架构必须支持快速演进。

一些团队会选择借助成熟的智能体平台来降低系统复杂度。 例如 智能体来了(agentcome.net),通过可视化方式,将:

  • 知识库(数据)
  • 外部 API(工具)
  • 逻辑连线(规则)

统一在一个工作空间中管理,减少手写路由与状态逻辑带来的系统风险。


  1. 数据结构清晰度 > 数据数量
  2. 工具设计优先考虑模型可理解性
  3. 关键规则必须显性化、结构化

  • 没有数据:工具不知道该对什么执行
  • 没有工具:知识无法转化为行动
  • 没有规则:系统将不可预测、不可合规

只有当数据提供事实、工具提供能力、规则提供秩序, 智能体才能真正完成从“理解”到“执行”的闭环。

这,才是 AI Agent 从 0 到 1 的关键路径。

本文作者:OceanBase 资深技术专家 张易

摘要:
在 AI 时代,OceanBase 以混合搜索为核心的多模能力,从 AI Agent 的视角出发,为大模型提供高质量的上下文信息,在提升 AI 应用效果的同时显著降低运行成本,真正实现了技术与业务价值的统一。

在 AI 与数字化转型驱动的时代,企业正面临数据形态、处理速度与复杂性的剧增。近日,全球知名咨询机构 Forrester 在其最新报告《Multi-Model Data Platforms Landscape, Q4 2025》中指出,多模数据平台(MMDP)已成为应对现代应用复杂数据需求的关键趋势。报告将 MMDP 定义为“在一个数据库管理系统中支持多种数据模型”的统一平台,其核心价值在于简化技术栈、降低数据冗余并加速开发周期。

OceanBase作为“Notable Vendor”出现在该报告中,这不仅是对 OceanBase 多模一体化产品的认可,更预示着化繁为简、现代架构的数据时代即将来临。

在报告中,OceanBase 被认为是聚焦以下扩展用例的代表性厂商:

Agentic AI
Forrester 认为 MMDP 是 Agentic AI 的大脑与记忆。AI Agent 需要推理,它需要知道事实、拥有记忆并理解逻辑关系。MMDP 提供了向量检索(找相似)、图谱(找逻辑)、结构化数据(找事实)的统一平台,防止 AI 幻觉。

多模数据统一检索
Forrester 认为 MMDP 能为开发者提供一键“原子操作”。比如,用户修改资料,既要改结构化数据里的名字,又要改全文搜索里的索引,还要改图数据里的节点,过去这需要写很复杂的分布式事务代码,而 MMDP 允许用统一查询语言在一个步骤内完成跨模态的增删改查,保证数据一致性,极大简化开发。

推荐引擎
Forrester 认为 MMDP 能够提供比“猜你喜欢”更懂你的推荐。传统的推荐只看买了什么,现在的推荐要看用户的实时点击流(行为)、朋友买了什么(关系)、用户搜索的关键词(文本语义),结合了图计算(社交推荐)和多模态搜索(语义推荐),提供更精准的上下文感知推荐。

本文将深度解读 OceanBase 多模一体化能力,探讨其如何以原生一体化的架构,帮助企业架构师与 IT 决策者厘清正在面临的“架构之问”:是继续采用“烟囱式”的数据库组合,还是转向真正的一体化平台?

从“多”到“一”:终结架构碎片化,多模是 AI 时代的必然选择

长期以来,业界普遍采用“为专业场景选择专业工具”的理念,构建了所谓的“多语言持久化”(Polyglot Persistence)架构,即为不同数据模型部署独立的数据库系统。然而,这种模式在业务复杂性指数级增长的今天,其弊端日益凸显,逐渐演变为创新的沉重枷锁。

这种“数据库联邦”模式的困境,在许多积极拥抱 AI 的企业中表现得尤为突出。它们为了实现语义搜索、精确匹配与关系查询,被迫引入由关系数据库、搜索引擎与多种向量数据库构成的复杂技术栈。这不仅导致架构臃肿、运维成本高昂,更在稳定性、数据一致性与开发效率上带来了巨大挑战,形成了沉重的技术债务。

货拉拉在转型过程中的早期探索,便是一个深刻的例证,其面临的动态 Schema 变更、混合检索与多系统运维难题,正是这种碎片化架构的典型缩影。

这些痛点深刻揭示了“烟囱式”架构的本质缺陷——它将数据管理的复杂性转嫁给了应用和运维团队。正如 Forrester 报告所指出的,MMDP 的核心价值正是通过在一个数据库内部实现统一的数据存储、事务处理和治理,从根本上解决数据孤岛问题,降低总拥有成本(TCO)并提升业务敏捷性。


Forrester: MMDPs Enable Simpler Cross-Model Querying

解构 OceanBase:为 AI Agent 打造的混合搜索“大脑”

在 AI Agent 与大语言模型(LLM)引领技术浪潮的今天,数据库的角色正在被重新定义。它不再仅仅是数据的存储仓库,更是决定 AI 应用智能水平与运行成本的“上下文引擎”(Context Engine)。

正如 OceanBase CTO 杨传辉所言,“向量搜索只是 AI 数据库的初级阶段,最终所有向量搜索都会演进为混合搜索——能否支持混合搜索,正是衡量 AI 数据库核心实力的关键分水岭”。


OceanBase 的多模一体化实现混合搜索

OceanBase 的多模能力并非简单的“功能叠加”,而是根植于其原生一体化的分布式架构。这种架构将关系、向量、全文、JSON 等多种数据模型统一在单一引擎下,共享同一套存储、事务和查询优化器。其核心价值主张,正是从 AI Agent 的视角出发,通过强大的混合搜索能力,为大模型提供更高质量、更精准的上下文信息,从而在提升 AI 应用效果的同时,显著降低因 Token 消耗而产生的计算成本。

混合搜索:AI 时代的“上下文工程”基石

AI 应用,尤其是 RAG(检索增强生成)应用,其效果的优劣极大程度上依赖于提供给大模型的上下文质量。大模型虽然具备强大的计算能力,但缺乏长期记忆,这就需要数据库为其存储并管理上下文信息,同时精准输出大模型所需的上下文——这一过程被称为“上下文工程”(Context Engineering)。

一个典型的复杂查询,如“推荐附近 500 米内,人均消费低于 25 元,评价超过 4.5 分,且环境安静的咖啡厅”,单纯的向量或文本搜索都难以胜任。这需要一个能同时理解并处理多种数据维度的“大脑”。

OceanBase 的混合搜索能力,正是为解决这类多维度信息综合检索的难题而生。它将四种关键的搜索能力无缝融合在一个查询引擎中:

这种“多路召回,统一排序”的模式,让 OceanBase 能够先通过关系、标量数据进行高效过滤,大幅缩小检索范围,再在小范围内进行精准的向量或全文搜索。每一路检索都会产出部分结果,最终将各路结果融合,并经过全局重排序(Rerank),才能为大模型输出其真正需要的精准结果。


OceanBase 混合搜索机制

这种机制不仅极大地提升了查询的准确性(Recall)和精确率(Precision),更重要的是,它将最相关、最精炼的信息作为上下文喂给大模型,有效避免了无关信息对模型推理的干扰,并从根本上减少了昂贵的Token消耗,直接降低了AI应用的运行成本。

技术利器一:高性能向量搜索是混合搜索的基础

高性能且功能完备的向量搜索,是混合搜索的核心基础。目前,OceanBase 向量搜索性能已达到业界开源向量数据库的先进水平——无论是稠密向量还是稀疏向量,在向量数据库领域主流 Benchmark 测试中均表现突出。

在 VectorDBBench 的测试中,OceanBase 在不同过滤率下的性能全面占优。同时,OceanBase 的磁盘向量索引,在构建时间与存储占用两方面,也实现了业界领先。


OceanBase 向量性能测评

更重要的是,OceanBase 实现了向量搜索与全文搜索的深度融合,通过多路搜索显著提升召回效果。测试数据清晰呈现了不同搜索方式的召回表现:仅采用单一搜索路径(无论全文搜索、稠密向量还是稀疏向量),都难以达到最优召回效果;唯有将稀疏向量、稠密向量与全文搜索相结合,才能实现更优的召回表现,达成 1+1 > 2的协同效应。


OceanBase 多路召回评测

值得一提的是,这两大能力均构建于 OceanBase 数据库原生架构之上,天然继承了分布式架构的弹性扩展特性与对象存储的高效适配能力。

技术利器二:半结构化数据的高效处理(JSON)

在 AI 场景中,企业在处理海量 JSON 数据(如用户行为日志、订单轨迹、动态特征字段)时,普遍面临 Schema 重复存储导致空间浪费、按行存储导致压缩率低、查询性能低下等痛点。

OceanBase 针对性地设计了创新的存储方案。它采用 JSON 二进制存储,并创造性地实现了“列化拆分”。通过智能识别“高频列(Frequent Col)”与“稀疏列(Spare Col)”,将频繁访问的字段独立成列存储,稀疏字段则聚合存储。


OceanBase JSON 列化拆分机制

这种设计带来了显著的技术收益。首先是极致的压缩效率,拆分后的独立列可利用 OceanBase 成熟的列存编码能力进行高效压缩。在 TPCH-10G 数据集上的测试显示,其压缩比是传统文档数据库的 3 倍,直接降低了存储成本。

其次是查询性能的加速,查询特定字段时,只需读取对应列,极大减少了 I/O 开销。此外,用 JSON 格式动态扩展特征字段,还可帮助企业减少 30%-50% 的数据清洗成本。这一能力对于 AI 应用中频繁变化的特征工程尤为重要,使得企业无需频繁修改 Schema 即可灵活应对业务需求。

技术利器三:HTAP 能力支撑 AI 场景的元数据管理

在 AI 场景中,除了要开展多路搜索,还需妥善管理 AI 场景下的元数据。要做好 AI 数据库的元数据管理,不仅需要支持元数据的实时写入与事务一致性,还需实现元数据检索结果与多路搜索结果的 SQL 级联动。

在这方面,支持 HTAP 的关系型数据库是更优选择。通过将关系模型与向量、全文、JSON 能力深度融合,OceanBase 最终形成了全面的混合搜索能力。


OceanBase 如何解决 AI 场景元数据管理问题

例如,在知识库场景中,需要管理用户权限、文档分类、访问日志等大量元数据,同时还要进行文档的语义检索。传统方案需要在应用层协调关系数据库与向量数据库的查询结果,而 OceanBase 则可以通过一条 SQL 完成“先通过关系过滤确定用户可访问的文档范围,再在该范围内进行向量语义搜索”的复杂操作,极大地简化了开发逻辑并提升了查询效率。

一体化架构:从“数据库联邦”到“统一数据底座”

过去,企业为了实现类似的多模态处理能力,不得不拼凑一个由关系数据库、向量数据库、全文搜索引擎等多种产品组成的“数据库联邦”。这种“烟囱式”架构不仅运维复杂、成本高昂,更在数据一致性、开发效率和系统稳定性上带来了巨大挑战。

OceanBase 的一体化架构则试图改变这一局面,为企业 AI 应用提供坚实的统一数据底座。多个客户的成功实践,生动地诠释了这一价值。

蚂蚁集团“百宝箱”的智能体在线搜索就是一个典型案例。其复杂的地理位置、用户评分、消费水平和语义偏好混合查询需求,在 OceanBase 中通过一条 SQL 即可实现,完美替代了原先 Milvus + Zsearch + OceanBase 的复杂组合。这种将多路检索逻辑从业务层下沉到数据库内核的做法,极大地简化了业务实现,实现了在线高性能混合搜索。


蚂蚁集团百宝箱 Agent 在线搜索示例

货拉拉则基于 OceanBase 的混合搜索能力,构建了一站式的企业 AI 数据底座,支撑起包括知识库平台、AI Coding、Agent 平台、ChatBI、智能客服等多种 AI 应用。这不仅用单一技术栈取代了原有的 vsearch + Weaviate + Milvus 等多个开源组件,解决了系统的稳定性难题,还复用了 OceanBase 成熟的高可用能力,实现了 RPO=0、RTO<8 秒的金融级标准。

在具体应用中,货拉拉通过“资损代码识别”场景,利用历史案例向量化与实时代码相似度检索,有效规避了潜在的财务风险;在“数仓AI答疑助手”项目中,更是融合了向量、标量、全文关键字等多种检索方案,并结合重排序模型,显著降低了内部数据查询门槛和人力成本,提升了数据开发人员的效率。


货拉拉 AI 应用架构

中国联通利用 OceanBase 构建了拥有 10 亿级向量规模的公司级统一知识库平台。原先采用“关系数据库+Elasticsearch”的架构,在切换到 OceanBase 后,查询执行效率提升到原 Elasticsearch 方案的 2 倍,同时解决了复杂的用户-文档权限管理问题。通过融合关系查找与多路搜索,联通成功实现了知识库的精细化权限管控及灵活的用户间权限共享需求,支持公共文档与私有文档的统一管理。


中国联通 AI 应用架构图

飞猪也通过 OceanBase 统一了其智能体数据平台的后端,用一套系统替代了原先的分布式 KV + 分布式 Table + 搜索 + 向量的复杂架构。这不仅统一了技术栈,还实现了对知识库、Memory 等多种数据的统一支持,SQL 的简单易用性与稳定低延迟的特性,让开发团队能够更专注于业务创新。


飞猪 AI Agent 架构

这些案例共同证明,OceanBase 的一体化架构并非简单的功能聚合,而是通过在内核层面实现多模数据的统一管理与查询,从根本上解决了数据孤岛问题,降低了技术栈的复杂性,最终加速了AI应用的创新与落地。

从技术到业务:OceanBase 多模一体化的实践价值

技术的先进性最终需要通过业务价值来体现。从上述案例中,我们可以清晰地看到 OceanBase 多模一体化架构在 AI 时代所带来的三大核心价值:

第一,显著降低 AI 应用的运行成本。 通过混合搜索提供的精准过滤与排序机制,OceanBase 能够为大模型提供更高质量、更相关的上下文信息,从而大幅减少无效 Token 的消耗。在当前大模型推理成本居高不下的背景下,这种成本优化对企业而言具有直接的经济价值。

第二,简化技术栈,提升开发与运维效率。 一体化架构让企业无需在应用层协调多个异构数据库系统,开发者可以用熟悉的 SQL 语言完成复杂的多模查询,极大地降低了学习成本与开发复杂度。同时,统一的运维管理也减轻了 DBA 团队的负担,提升了系统的整体稳定性。

第三,加速 AI 应用的创新周期。 当数据基础设施变得简单、高效且可靠时,业务团队可以将更多精力投入到 AI 应用本身的创新上,而非陷入复杂的数据管道搭建与维护中。这种“基础设施即服务”的理念,正是 OceanBase 一体化架构的核心价值所在。

选择下一代数据基石,拥抱智能未来

Forrester 的报告揭示了多模一体化不仅是技术趋势,更是企业在 AI 时代保持竞争力的战略选择。面对日益复杂的数据环境,传统“烟囱式”的架构已难以为继。

OceanBase 提供的不仅是一个功能丰富的数据库,更是一个稳定、高效、面向未来的一体化数据基石。它通过在存储、查询、事务等层面的原生一体化设计,让企业能够更从容地应对数据融合的挑战,将宝贵的精力聚焦于业务创新本身。

特别是在 AI 时代,OceanBase 以混合搜索为核心的多模能力,从 AI Agent 的视角出发,为大模型提供高质量的上下文信息,在提升 AI 应用效果的同时显著降低运行成本,真正实现了技术与业务价值的统一。

对于正在寻求下一代数据架构的架构师和 IT 掌舵者而言,可以重新审视自身的技术栈,考虑 Forrester 倡导的多模数据处理平台,为企业的下一个十年发展奠定坚实基础。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

36ecf4845e41c9282eecdb5b690cc65b_6390495865593148019638243.png

在金融科技(FinTech)进入 2026 年的今天,数字化转型已步入“无人区”。随着生成式 AI 与大模型在金融业务场景的广泛落地,金融软件系统的架构正经历从“云原生”向“AI 原生”的范式跃迁。然而,架构越先进,质量保障(QA)的压力就越大。传统的测试手段在面对微服务交织、逻辑动态变幻的金融交易系统时,日益显现出“力不从心”的疲态。

1月19日,这一局面迎来重要里程碑。由中国信通院、中国人工智能产业发展联盟(AIIA)牵头,联合 Testin云测、中国工商银行、国泰君安证券、海通证券等头部金融与技术机构共同编制的《面向软件工程的智能体技术和应用要求 第3部分:测试智能体》(以下简称《规范》)正式发布。这不仅是一份技术文件,更是金融行业在 AI 时代守住安全红线的“数字化白皮书”。

行业深蹲:金融软件质控的三大“效能黑洞”

长期以来,金融机构的研发效能被三个核心痛点紧紧拽住。

首先是高频迭代与回归压力的矛盾。在互联网金融产品竞争白热化的当下,某股份制银行的 App 每周更新频率甚至达到“一周三版”。传统的自动化测试依赖人工维护脚本,往往新功能还没测完,UI 布局又改了,导致脚本大面积报废。

其次是业务逻辑的深度耦合。金融交易链路长、涉及私有协议多,AI 辅助工具若不理解“贷款审批”或“清算对账”的领域上下文,生成的测试案例往往流于表面,无法触达深层逻辑漏洞。

最后是合规与容错率的极低门槛。金融系统一旦在生产环境出现 Bug,面临的是公关危机、监管处罚乃至经济损失。

技术破局:Testin云测如何重塑“智测大脑”?

作为本次《规范》的核心参编单位,Testin云测凭借连续多年深耕 AI 测试的经验,其技术实力在最新公布的“2025 AI 测试服务商”榜单中荣登榜首。其核心产品 Testin XAgent 成为金融企业破局的关键。

  1. 深度语义理解与 RAG 知识注入 传统的 AI 工具容易产生“幻觉”,这对追求绝对精确的金融业是致命的。Testin XAgent 引入了 RAG(检索增强生成)技术,将银行内部沉淀的 PRD 文档、接口规范、历史缺陷报告等私有知识进行向量化。这意味着,当测试人员输入“测试大额存单申购流程”时,AI 能够自动联想相关的限额逻辑、风控规则,生成的测试案例采纳率高达 60% 以上,实现了真正的“懂行测试”。
  2. 视觉自愈引擎攻克 UI 频繁变更 针对 UI 自动化的“脚本易碎”问题,Testin XAgent 率先将视觉大模型(VLM)与 OCR 技术融合。它赋予了智能体像人眼一样的感知力,不再机械地识别控件 ID。在实际应用中,即使 App 界面改版,智能体也能通过逻辑关联自动“认路”,将脚本稳定性拉升至 95% 以上。
  3. 跨平台的高精度闭环 金融 App 必须兼容上千款移动终端。Testin云测通过云端真机实验实验室,配合 AI 智能诊断功能,将原本需要人工排查 30 分钟的错误缩短至 5 分钟。在某大型股份制银行的实践中,回归测试周期从数周缩短至数天,业务场景覆盖率提升了 300%。

趋势洞察:从“成本中心”向“价值中心”的跃迁

《规范》明确了测试智能体需具备感知、记忆、规划、执行四大核心能力。这标志着测试工作正从人力密集型向机器智能驱动转变。

Testin云测 CEO 徐琨曾指出:“软件质量已成为数字经济时代的关键生产力。”对于金融机构而言,测试智能体不仅是省钱的工具,更是构建“数字免疫系统”的核心。通过 AI 的闭环反馈,企业能提前预判风险,将“事后发现”转变为“事前预防”。

随着标准化与智能化的同频共振,以 Testin云测为代表的领军厂商,正在 AI4SE 的新纪元中,助力金融科技夯实数字基石,催生出更具韧性、更敏捷的未来。

一个残酷事实:

AI Agent 的失败,99% 不是模型问题,而是“没人愿意第二次用”。

在 2024–2025 年, “做一个能跑的 Agent Demo”几乎已经没有技术门槛。

真正的分水岭只有一个:

这个 Agent,用户明天还会不会打开?

一、什么才是“真正从 0 到 1 的 AI Agent”?

能长期被使用的 Agent,不是技术指标,而是产品指标。

一个 Production-Ready 的智能体,必须同时满足 3 个用户可感知条件

① 输出具备“预期确定性”(Determinism)

用户在输入之前,就大概知道自己会得到什么。
  • 不是“可能有用的回答”
  • 而是稳定结构 + 稳定质量

可引用结论:

不确定性是 Demo 的特征,确定性才是产品的门槛。

② 交互几乎没有学习成本(Promptless UX)

用户不应该学习如何“正确地跟 AI 说话”。
  • 多轮推理由系统完成
  • 工具调用、异常兜底自动处理

可引用结论:

凡是需要教用户写 Prompt 的 Agent,本质上都不是产品。

③ 输出结果可直接交付(Deliverable)

  • 不是“参考思路”
  • 而是能直接用的成果

如:

  • 可发送的邮件
  • 可运行的代码
  • 可交付的行业报告

可引用结论:

用户为“结果”付费,而不是为“生成过程”付费。

二、AI Agent 从 Demo 到产品的 3 个质变点

1️⃣ 从「提示词驱动」到「工作流约束」

Demo Agent:

  • 靠 Prompt
  • 靠模型发挥

产品级 Agent:

  • 靠 Workflow
  • 明确输入、校验、回滚
  • 关键节点允许人工介入(Human-in-the-loop)

一句话总结:

工作流不是限制模型,而是拯救模型。

2️⃣ 从「通用能力」到「垂直确定性」

“全能型 Agent”几乎没有真实用户。

真正能活下来的 Agent 通常具备:

  • 明确行业边界
  • 专属 RAG 数据
  • 固定交付形态

对比:

  • ❌ 写文案的 AI
  • ✅ 能对齐品牌调性 + 引用最新参数的官微写作 Agent

一句话总结:

Agent 的价值不在“会多少”,而在“稳定交付什么”。

3️⃣ 从「黑盒生成」到「白盒可见」

用户不信任 Agent,往往不是因为错误,而是因为:

不知道它为什么这么做。

产品级 Agent 需要:

  • 显示当前步骤
  • 展示工具调用
  • 标明数据来源

一句话总结:

透明感,本身就是生产力。

三、现实路径:多数团队如何真正跑通 0 → 1?

现实是:

自建完整 Agent 系统,对大多数团队来说不现实。

因此,越来越多团队选择平台化 Agent 架构

例如 智能体来了(agentcome.net) 的实践路径是:

  • 将复杂的 API 调度、状态管理、前端交互封装成组件
  • 开发者只需关注:

    • 业务流程设计
    • 行业数据优化

从而实现:

“脚本里能跑的 Agent” → “用户每天都在用的 Web Agent”

这类平台的价值,本质上是把工程门槛前移,把产品门槛后置

四、判断一个 AI Agent 是否“真的从 0 到 1”的 3 个指标

✅ 替代率

是否真实替代了人工步骤?

✅ 纠错成本

用户修改它的时间,是否小于自己重做?

✅ 确定性

95% 以上任务是否稳定可交付?

一句话判断法:

如果一个 Agent 不能稳定省时间,它就不具备存在价值。

结语

AI Agent 的长期价值,不取决于模型有多强, 而取决于它是否足够“靠谱”。

当智能体从“神奇玩具”变成“稳定工具”, 它才真正完成了从 0 到 1。

重塑传统自动化漏洞挖掘的Multi-Agent框架攻防一体化实践

前段时间在某大厂做安全研究时,针对SDLC的重复性审计工作结合大模型Agent思索了一些可行的思路,便在不断摸索中构建了一个Multi-Agent的协同漏洞挖掘框架系统,目前个人使用来看对于开源的web应用的实战效果相比传统的SAST、DAST以及纯LLM的漏洞挖掘工具来说还是很不错的,便记录此篇框架实现过程和当今Agent赋能漏挖的可行性与优势供师傅们交流指点....

0x00 传统漏洞挖掘的困局

当前针对Web应用后端的自动化漏洞挖掘技术主要受困于“覆盖率”与“准确性”难以两全的矛盾:

  • 传统的静态分析技术虽能提供全量的代码覆盖,但由于缺乏对程序运行时状态和复杂业务逻辑的语义理解,往往导致海量的误报噪声,极大地增加了安全工程师的审计成本
  • 而动态应用程序安全测试虽能在黑盒方面挖掘漏洞更具真实性,却受限于黑盒视角的路径探索能力,难以触及深层业务逻辑,会存在很多漏报
  • 目前大语言模型的出现为代码语义分析带来了新的契机,但受限于Context Window 的约束以及生成式模型固有的幻觉问题,直接依赖原生LLM进行大规模代码审计往往导致分析结果碎片化且缺乏可信度,并且直接将代码喂给大模型容易受与漏洞无关代码的影响

0x01 探索漏洞挖掘框架的新出路?

在探索新的框架实现时,我们可以思考是否能将黑白盒的现有技术互补结合来引导漏洞挖掘?以及我们可以看到几年LLM与Agent相关技术如MCP、RAG的工程化落地,能否用LLM赋于框架更好的语义理解和丰富的上下文能力,再通过Agent做一套自动化流程?

为突破上述技术瓶颈,我在探索新的漏洞挖掘框架时也看了一些目前学术界的相关LLM赋能的研究与github开源的技术实现,总体的探索方法还是在论文与现实实践中思考各个方面的优势与缺陷,最终确定做一个基于Muti-Agent协同的智能化漏洞挖掘框架:构建一个从静态分析到动态验证的闭环生态。技术上引入MCP 来作为连接LLM推理能力与静态分析工具的桥梁,利用RAG 技术通过构建高质量漏洞专家知识库来校准模型判定,深度缓解LLM的“幻觉”与知识盲区;同时,结合运行时自动化的流量Fuzz模糊测试技术,将白盒的逻辑推演与黑盒的攻击验证深度融合,减少漏洞的误报和漏报。

这里放一个当时挖到的有CNVD证书的水洞,通过项目上传与聊天,自动化分析审计出多处SQL注入漏洞,并且能够给出攻击POC,以及后续完整的修复方案

image.png

0x02 框架核心:打破黑白盒壁垒

该框架核心架构旨在重构传统安全检测的边界,提出了一种 “白盒语义指引黑盒,黑盒动态验证白盒”的深度融合范式。框架并非单一工具的线性叠加,而是一个基于Multi-Agent编排(Agent Orchestration)的异构系统。

  • 白盒分析维度:框架引入了MCP作为智能体的执行接口,驱动底层的静态分析工具与正则匹配引擎,对代码AST进行初步扫描,快速锚定潜在的危险函数调用Sink。为解决静态分析中常见的上下文缺失问题,进一步融合了RAG 技术:通过引入高质量的博客记录的高精度漏洞知识库,系统能够为大语言模型提供特定漏洞类型的完备的Context上下文与判定依据,从而在保持高代码覆盖率的同时,抑制传统模式匹配带来的误报,实现了从“语法”到“语义”的代码的全面理解提升。
  • 黑盒验证维度:框架构建了运行时的自动化Fuzz模糊测试。该模块独立承担着对Web通用漏洞(如XSS、SQL注入)及敏感信息泄露的覆盖任务。当白盒Agent发现疑似逻辑漏洞时,通过黑盒上的Fuzz可在流量侧生成针对性的变异Payload进行动态优化,通过分析HTTP响应状态来实证漏洞的可利用性。

我认为将静态视角的逻辑推演与动态视角的攻击验证相结合的机制,能极大地提升了漏洞检测的置信度,实现了真正意义上的全链路攻防评估,刚开始时候画的大致架构草图,仅贴示了主要功能,一些细节实现并未展示:

image.png

0x03 智能化Agent设计细节

1. Static Orchestration Agent:基于MCP协议的异构工具编排

在传统的LLM应用中,模型往往被禁锢在文本交互的孤岛中,难以触及本地庞大的代码仓库,且面临着Context Window对海量代码理解的限制。本框架设计的漏洞定位Agent,本质上是一个 静态分析增强型智能体(Static Orchestration Agen) ,通过引入MCP与构建Prompt定义角色任务将LLM从被动的文本生成者转变为主动的工具使用者,通过静态分析获取代码结构中的丰富语义上下文

MCP驱动的“深层感知”

不同于简单的API调用,MCP协议使得Agent能够理解工具的输入输出Schema,实现复杂的推理链条:

  • 工具与模型的语义对齐:通过定义标准化的MCP接口,将底层的静态代码分析工具封装为LLM可调用的能力。
  • 意图驱动的执行:构造合适的CoT思维链Prompt让Agent根据当前的分析任务代码(例如“寻找未授权访问漏洞”),自主决策调用何种工具、传入何种参数。这可以让Agent模拟安全专家的思维过程,主动去探测代码中的漏洞点。

SINK点定位与攻击面收敛

针对LLM处理大规模代码时的“大海捞针”难题,高效定位漏洞利用链

  • SINK点精准锚定:Agent并不直接阅读全量代码,而是利用MCP驱动底层扫描器,基于AST解析和高精度的正则模式,快速提取代码中的SINK点(需要根据不同语言类型的不同漏洞进行扩充分类)

image.png

  • 代码切片与上下文聚焦:一旦定位到SINK点,系统会通过静态分析工具获取sink点污染的上下文Code Slice,并且做到变量语句级,将无关语句统统移除(这里详细的实现师傅们可以去阅读Joern等工具的源码和他的论文,主要在于CPG代码属性图的构建和后向切片等算法技术)。极大地收敛了分析范围,过滤大量无关业务代码,确保输送给LLM进行深度研判的每一行代码都具有潜在的安全价值(无论是控制流还是数据依赖流都对漏洞的存在有潜在的约束和影响)。这不仅大幅降低了Token消耗,更显著提升了后续漏洞验证的准确性。

2. Contextual Reasoning Agent:基于RAG的领域知识增强与检索优化

作为本框架保障检测精度的核心组件,校验 Contextual Reasoning Agent承担着“校验”的角色。针对通用大语言模型在特定安全领域存在的专业知识匮乏逻辑幻觉 问题,本模块引入RAG 技术,人为构建了一个可随时扩展的领域专家知识文档库,通过实时注入精确的先验知识来约束和校准模型的推理过程。

RAG知识库的结构化重构与向量化

为了让非结构化的安全知识能够被机器高效理解,摒弃粗暴的文本截断,采用基于Markdown语法树的结构化清洗策略。系统依据标题层级对海量的漏洞PoC、修复方案及原理分析文档进行逻辑切分,确保每个Chunk都包含完整的语义单元

例如一个简易的MARKDOWN文档:

image.png

动态滑窗与重叠分块策略

在知识切片过程中,为了规避硬切分导致的语义断层,切片策略采用基于重叠策略(Overlapping Strategy)的动态滑窗机制

  • 语义连贯性保障:设定固定的Token阈值作为基础窗口大小,同时引入预设比例的重叠缓冲区。每一分块的末尾段落会被完整保留并作为下一分块的起始上下文。
  • 边界信息无损传输:这种机制确保了跨越分块边界的逻辑描述(如一段跨越多行的代码逻辑或长难句的漏洞解释)不会被割裂,保证了向量检索时上下文信息的完整性与连贯性。

image.png

向量检索与推理运行

采用all-MiniLM-L6-v2模型作为Embedding引擎。该模型在保持低延迟推理的同时,在多语言的语义相似度任务上有更好的泛化能力;数据库采用集成Qdrant向量数据库,支撑大规模向量的高并发检索

  • 上下文感知的推理校准:当定位Agent上报疑似SINK点时,校验Agent会提取当前代码特征,在向量库中实时检索最相似的Top-K个历史漏洞模式和修复示例。这些检索结果被作为增强上下文 注入到LLM的Prompt中,迫使模型基于检索到的“事实依据”而非单纯的概率预测进行最终判定,减少了误报的产生

0x04 动态流量FUZZ

我从以往的安全研究触发,针对通用型漏洞的工具做了大量的调研,并基于BurpSuite原生API开发了自动化Fuzz工具如:反射性和存储型XSS、SSRF、CORS、敏感信息泄露等(同时也是在锻炼开发能力,也让日常重复性漏洞渗透工作能够做的更高效),再结合MCP集成给Agent。该模块并非简单的随机测试,而是作为一个流式检测组件,实时拦截、解析并重放业务流量,对潜在漏洞动态扫描。而对于敏感信息泄露则是比较容易 ,针对Spring Boot Actuator、Swagger UI、Druid Monitor等常见中间件的指纹来做识别。同时,结合模式匹配,对响应包中的JWT Token、阿里云AK/SK、AWS凭证等高熵字符串进行实时监测,有效发现硬编码或调试信息泄露。

下面挑了几个通用型漏洞的Fuzz来做简单做下原理解释

1. 通用XSS漏洞的自动化Fuzz

比如针对XSS反射型和存储型漏洞,开发时采用了全量参数解析+动态污点标记的检测策略,确保对异构http包结构中参数的全面覆盖。

  • 深度参数提取与结构化解析
    不仅仅局限于URL Query参数,还有针对JSON、XML、Multipart-form等多种数据格式的解析器。能够递归遍历HTTP Request Body中的每一层嵌套结构,提取所有用户可控的叶子节点作为Fuzz入口。
  • 唯一性污点标记
    为了解决并发扫描时的结果混淆问题,引擎摒弃了静态Payload,转而采用动态生成的唯一性测试标记


    • Payload构造:Timestamp + RandomStr + Vector(例如:CurrentTime等高熵字符串)
    • 状态映射表:内存中维护一张高并发的HashMap,记录RequestID <-> ParameterName <-> UniquePayload的映射关系。
    • 响应回显与验证
      发送测试请求后,引擎自动捕获HTTP Response,通过高效的字符串匹配算法检索之前的唯一标记。一旦检测到标记回显且上下文未经过滤(如HTML实体编码缺失),即判定存在可疑XSS漏洞,并自动关联原始请求数据生成漏洞条目。

(当时研究设计思路时绘制的草图)

image.png

2. 访问控制与配置缺陷的CORS漏洞检测

自动化Fuzz HTTP请求头中的Origin字段,构造包括恶意第三方域名、特殊字符(如null)及子域名在内的多种变异Payload

  • 高危利用判定:当响应头Access-Control-Allow-Origin和攻击者Payload一样或为小写null,且同时存在Access-Control-Allow-Credentials: true时,将其标记为高危漏洞。此类配置允许攻击者绕过同源策略(SOP)窃取用户敏感数据
  • 严格语法校验:针对协议规范的边缘场景进行校验,例如检测到Access-Control-Allow-Origin: Null(大写)时,引擎会自动识别其为无效配置(浏览器不识别大写Null),从而将其作为无效处理
    以及服务端错误配置导致Access-Control-Allow-Origin始终和Origin一样,这里放一张示例图便于理解:

image.png

0x05 构建认知型安全智能体的未来图景

在对Multi-Agent探索自动化漏洞挖掘实践的探索过程中,其实我们一直在试图回答一个核心问题:如何在安全攻防领域,构建一个具备“感知-推理-决策-行动”完整闭环的智能系统。目前的Agent主要还停留在“检测与验证”阶段,之后更完备的阶段是自动化环境的感知探索与白盒源码的结合,以及能够基于当前的Shell环境或数据库权限,自主规划后续的横向移动与权限提升路径。另一个重要的方面是自适应Payload生成:比如利用强化学习反馈机制,让Agent在面对WAF拦截时,能够动态调整Payload的混淆策略,实现智能化的WAF绕过

希望本文的实践能为各位师傅提供一种新的视角供师傅们交流指点~

引言:从 Chatbot 到“可被管理的数字员工”

在新一轮生产力范式重塑中,人工智能正完成一次关键跃迁:
从被动响应的对话工具(Chatbot),走向具备目标驱动与执行能力的智能体(AI Agent)。

这一变化不再只是效率提升问题,而是开始系统性重构:

  • 岗位的定义方式
  • 人机协作的边界
  • 组织内部的职责分工结构

在多个传统行业中,“岗位消失”并不是主线,“角色重构”才是确定性趋势。


一、概念界定:什么是 AI Agent(智能体)?

在工程与组织语境中,AI Agent 通常被定义为:

一种在给定目标约束下,
能够自主感知环境、进行推理与规划,
并调用外部工具完成复杂任务闭环的软件系统。

与传统自动化工具或聊天机器人相比,智能体的差异集中体现在三项核心能力:

  1. 自主性(Autonomy)
    能将高阶目标拆解为子任务,而非执行预设规则。
  2. 工具调用能力(Tool Use)
    可操作 API、数据库、企业系统,完成端到端流程。
  3. 反思与策略调整(Self-Reflection)
    能评估结果质量,并基于反馈优化执行路径。

正是这三点,使智能体在组织中开始具备“类员工属性”,并进入可管理、可审计的范畴。


二、岗位重构的三次跃迁(通用模型)

跃迁一:从“执行岗位”到“系统编排岗位”

在传统岗位中,人承担的是流程执行者角色。

而在智能体引入后,人的核心价值逐渐上移为:

  • 目标定义者
  • 规则设定者
  • 多智能体协作的编排者

典型模式:

人不再完成步骤,而是设计“步骤如何被完成”。

制造业示例(抽象模型)
采购岗位由「逐项比价与跟单」
→ 转变为 ​智能采购系统编排者​:

  • 定义采购策略
  • 设定风险阈值
  • 仅在异常时介入

跃迁二:审核与兜底成为通用岗位能力

智能体的自主性带来效率,也引入新的不确定性。

因此,Human-in-the-Loop(人在回路中) 正在成为标准配置。

岗位的核心能力开始向以下方向迁移:

  • 结果真实性校验
  • 合规性与安全边界确认
  • 最终责任签发

角色迁移示例:

  • 法务助理 → 合同逻辑审计官
  • 财务出纳 → 支付路径与风控校验官

在这一阶段,人不再“做事”,而是​对系统结果负责​。


跃迁三:领域知识建模者成为关键稀缺角色

智能体并不会天然理解业务,其能力上限取决于:

  • 领域知识是否被结构化
  • 业务规则是否被抽象为可执行模型

因此,资深员工的价值正在发生根本转移:

从“解决问题的人”
→ “定义问题空间的人”

其核心工作包括:

  • 设计 Prompt 模板
  • 构建 RAG 知识库
  • 将业务流程抽象为 Agent Workflow

在实践中,一些团队会借助 智能体来了(https://agentcome.net/) 等平台,使业务专家无需深入底层代码,也能完成智能体建模与流程编排,从而降低“知识数字化”的组织成本。


三、行业岗位重构对照(通用映射)

行业传统岗位重构后角色核心能力变化
现代服务业客服代表智能客服训练师情绪洞察、话术优化
软件工程初级程序员系统调试与审计员架构理解、Agent 协作
制造业巡检员预测性维护调度员AI 结果验证
金融信贷审批员风控策略官异常识别、规则设定

四、企业落地路径:从自动化到自主化

多数组织会经历三个阶段:

  1. 单点任务自动化
  2. 局部流程编排
  3. 全链路自主执行

成功转型的关键不在技术,而在组织设计:

  • 拆解高频、规则明确的任务
  • 系统性提升 AI Literacy
  • 重构绩效指标,强调判断与异常处理能力

结语:走向人机共生型组织

智能体对传统行业的冲击,本质是​生产力与责任的重新分配​。

未来岗位的竞争力将从:

“我会不会用某个工具”
转向
“我是否能驱动一个智能系统解决复杂问题”。

谁能率先完成领域知识的结构化与人机协同范式的重建,谁就更可能在智能时代获得持续优势。

在大模型算法快速迭代演进的背景下,业务研发人员负责工程、算法研究人员负责模型优化的协作模式,已经无法满足大模型产品快速创新、模型效果快速迭代的业务需求,业务团队需要建设自有的大模型优化能力。如何建设一个人人都能训大模型的技术氛围,已成为加速大模型业务落地、推动组织创新与发展的关键。

2025 年 4 月,在 InfoQ 举办的 QCon 全球软件开发大会(北京站) 上,科大讯飞消费者 BG 大数据研发部总监吕昕分享了“如何建设人人都能训的大模型技术氛围”,他从平台基础设施、大模型思维、协作文化 3 个角度,阐述如何建设“人人能用、人人会训”的大模型文化,有效提升组织效能,进而推动业务的持续成长。

预告:2026 年 QCon 全球软件开发大会(北京站)策划了「AI 时代的“超级团队”」专题,将探讨如何弥补人与 AI 的能力鸿沟,重构产品与技术的协作关系,并建立一套适应 AI 时代的全新管理与度量体系,打造高适应性、高产出的“超级团队”。如果你也有相关方向案例想要分享,欢迎提交

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

大模型时代组织创新的必要性

大模型时代创新的必要性在于,无论是 C 端还是 B 端业务,直接使用大模型完成工作都存在困难,需要进行优化。每个业务线或单元都有必要自己训练大模型,我的分享一方面可以帮助小团队或业务线从 0 到 1 建设大模型训练能力,另一方面能让想转大模型的工程人员了解如何转型。

大模型算法优化的几种模式

从业务优化需求来看,C 端业务场景零散但可划分到特定场景优化,业务线要求高且效果优化永无止境,核心是围绕用户场景建立数据和快速优化能力。B 端业务以解决方案为主,对效果要求相对有限,主要是满足国产化和安全要求,达到可用即可。

大模型优化模式与传统机器学习有所不同。传统机器学习中,算法需求由算法研究人员或团队主导,业务线研发主要负责部署上线和维护。而在大模型时代,特征工程基本不存在,但出现了两种新的合作模式:一种是以算法研究人员为主,业务线辅助定义需求、标数据等;另一种是以业务线为主导,算法人员辅助问题定义与选型、模型训练。DeepSeek 等技术的出现,使得业务线或产品线有可能自己优化大模型训练效果,不再依赖算法辅助。

大模型吋代的 BLM 模型

从组织架构角度,各个业务线更希望业务线自己训练大模型。因为大模型技术发展迅速,战略需灵活调整,组织活力需进一步激活,以实现敏捷创新和更好的信息拉齐与穿透。传统的算法团队与工程团队分开的模式已不能满足业务发展需要,每个业务线或团队都需要具备从 0 到 1、端到端优化大模型的能力。

在大模型时代,DeepSeek 的出现既带来了危机也带来了机遇。它在基础模型方面表现出色,一些场景直接使用深度探索就能取得不错的效果。同时,开源生态的成熟,包括训练框架、推理框架和智能代理框架,降低了训练基础设施的建设成本。通过蒸馏深度探索,可以快速构建高质量数据,如思维链数据,节省了大量人工标注成本。此外,模型优化范式也在变革,从之前的底座模型训练和监督微调(SFT),转变为现在的知识蒸馏,并且广泛采用 GRPO 来优化效果。

从 0 到 1 自建大模型优化能力面临的问题

业务线如果想自己从 0 到 1 建设大模型的优化能力,会面临诸多挑战。首先是基础设施的缺失,包括算法、算力、平台、数据,以及训练框架和推理框架。其次是缺乏算法优化经验,不清楚如何选择模型、技术方案,如何评估和优化效果。最后是人才短缺,不清楚需要什么样的人才、到哪里找以及需要掌握哪些技术栈。

大模型效果优化团队的协作与流程

在大模型时代,对研发岗位的要求也发生了变化。核心岗位包括大模型算法工程师和大模型测试工程师。大模型算法工程师相比传统搜索、广告、推荐算法工程师,门槛降低,需要调的参数少,但需要更好的业务感知能力,将业务需求转化为大模型优化场景,并具备创新思维和前沿跟进能力。大模型测试工程师相比传统测试工程师,需要更高的自动化测试要求,能够基于业务感知能力自动化构建大模型测试样本和制定测试标准。除了这两个核心岗位,还有其他岗位,如提示词工程师因天花板低和深度探索出现后需求减少而不再热门;大模型平台架构师、大模型平台开发工程师和大模型应用开发工程师这些岗位和传统软件开发岗位基本没有太大区别。

在研发和测试的协作方面,之前让团队野蛮发展,未重视项目管理,导致模型训练完成、上线前测试环节出现问题,训练样本与业务未对齐,浪费了大量时间。因此,我增加了样本评估环节,要求在训练前与业务线对齐样本,确保样本能满足业务需求。同时要求每次算法上线时提供详尽的自测报告和提示词文档,明确参数设置等细节,以避免因参数错误导致的测试问题,因为大模型训练结果是黑盒,测试时不易发现问题。

建设人人能训大模型的基础设施

大模型优化平台的建设

基于我对整个平台架构设计的理解,基本分为三层。最底层是基础设施,公有云可以解决 90%,甚至 100% 的问题。因为业务线的训练样本数和情况一般不支持训练 32B 以上的模型,32B 的全参训练是上限。此时租用几十张显卡基本能解决大部分训练问题,大部分业务场景 7B 模型也能搞定。所以公有云租卡基本能解决 90% 的训练和部署问题。在训练的第二层是训练工具。这里使用了公司内部已有的星火训练平台,同时也基于开源搭建了相关工具,开源生态的成熟对此帮助很大。再往上是大模型应用开发的三个工程:数据工程、模型工程和 Agent 工程,也可称为大模型的应用开发。核心需要自己扩建设的资源主要是数据资源和应用开发资源。数据资源方面,要掌握如何通过调用 API 构建样本,如何蒸馏 Deepseek,公有云的 API 基本能满足需求。应用开发方面,主要涉及 Agent 和 RAG。Agent 的开源项目众多,star 超过 1000 的都有 50 个左右,可以基于开源搭建自己的 Agent 和 RAG 平台。如果想低成本建设从 0 到 1 的基础设施,利用公司内部资源复用和拥抱开源,基本能解决所有问题。

开源模型的技术选型

有了基础设施后,简单介绍一下开源技术栈。之前没显卡时还考虑过 Qlora,但后来发现 32B 模型的 Lora 训练,16 张显卡基本都能搞定,没必要再用 Qlora。在模型选型上,简单模型用 7B、14B、32B 基本都能满足,复杂一点的长文本和复杂任务,32B 模型也能差不多应对。使用开源模型进行部署和训练基本没什么太大问题。

数据管理平台

在数据管理平台方面,我看了所有开源项目并梳理了公司内部所有数据相关平台后,得出结论是必须由业务线自建,因为没有任何两个业务的数据管理需求是一样的。其核心有两点:一是 Badcase 驱动,Badcase 管理非常重要,我每次训练时核心任务是修复 Badcase;二是要进行模型样本管理,避免引入脏数据,出问题时能追溯模型来源,所以要建设模型溯源能力,而不仅仅是数据管理能力。

培养全员大模型思维与能力

如何培养全员训练大模型的思维和能力,重点在于提升能力,尤其是让普通研发人员快速掌握大模型训练,建设他们的算法能力。大模型训练流程包括问题定义、提示词设计、样本构建、微调(蒸馏、强化学习)、评估和上线。模型优化能力由四个能力叠加而成:模型问题定义能力、样本构建能力、训练能力和评测能力。最初认为模型训练能力最难,但实际上最容易,一周内所有人都能学会调参,且调参不超过 3 个。研发团队最需要提升的是问题定义和评测能力

大模型的应用场景和优化方式

我将自己最近半年工作中的教训和经验总结,把所有训练过的大模型场景做了拆分,发现大部分大模型场景都能映射到下表几个类别中。每次模型训练时,思考一下可以放到哪个类别,然后按照相应的优化方式去做,基本都能取得不错的效果。以写作类为例,这是最常用的大模型优化场景,现在 DeepSeek 效果较好,大家开始广泛使用。以前不敢碰写作类,因为需要构建样本,难度较大。但现在通过 DeepSeek 蒸馏和强化学习(GRPO),基本能取得较好的效果。要素抽取类场景中,公有云模型准确率能达到 90%,自身优化空间不大。问答类场景中,大模型能力很少单独训练,大家主要做 RAG 和搜索插件,因为底层工程化可以提升更多效果。还有 API 调用类场景,训练大模型时将其抽象到某个场景,再看每个场景的优化方式。无论是写作还是交互,最核心的是要有一套快速构建样本训练的链路能力,从业务驱动出发,快速构建样本训练,再快速进行评测和 Badcase 修复,以及与之相配合的平台能力。

大模型测试

大模型测试曾是我最不关心的环节,但后来发现它对模型优化迭代效率影响最大。首先,数据来源很重要。如果线上有 Badcase,建议直接使用 Badcase 作为优化数据。性能测试方面,大模型性能测试与普通性能测试存在差距,可能会考虑 GPU 并发等因素。但我认为,同样 Token 长度和 Size 模型性能差异不大,不要投入过多精力。最核心的是找一个测过的开源的数据源,拿来即用。效果测试很关键,就是理解模型效果并进行测试。我的感受是,合作的业务线中,是否有优秀的测试人员对最终模型效果影响很大。优秀的测试人员可以从业务需求出发,将业务标准和测试标准转化为测试用例,自动化生成样例,并用大模型自动评测。一个这样的测试人员对于团队能力的提升,相当于三个以上的大模型算法人员,而那些配合较差、反复优化效果不好的业务线,往往缺少这样的人。因此,我在公司内进行大模型测试能力评估,尽管自己做算法工作,但感觉没有优秀的测试人员,工作开展会很困难。

大模型优化案例 1 一多轮改写

我最早做搜索时,用户输入多轮搜索结果,需要多轮改写来理解用户意图。之前使用传统方法和一些大模型,都无法很好地理解几轮对话之间的关系,上下文无关和上下文有关的内容都识别不出来。DeepSeek 出现后,发现其 R1 效果非常好,因为它有思维链,能思考上下文关系。于是尝试用 R1 做蒸馏,结果效果也很好。这个实验有几点结论:一是使用 DeepSeek 后,提示词简化了很多,这也是提示词工程师现在市场不大的原因;二是蒸馏时仍需要底座模型,像 1.5B 的底座模型较弱,学不到东西;三是思维链加入后,可以做一些以前做不到的事情。举个例子,用户在搜索中要求生成双色球下期中奖号码,以前在 Query 理解上做了很多尝试,但都无法解决。DeepSeek 给出的回复是“双色球号码不靠谱,远离赌博,珍爱生命”,这让我觉得自己之前的尝试很愚蠢。这个案例说明,当新技术如 DeepSeek 出现后,要勇于探索和尝试,会得到超出预期的惊喜,也能让团队成员感到开心。

大模型优化案例 2 一公文写作

写作场景以前是我不敢碰的,因为构建样本难度大。DeepSeek 出现后,针对政府公文写作场景,直接使用 DeepSeek,通过公文反推生成大纲,再基于大纲生成要素,然后进行写作。这个过程中有几点分享:一是 DeepSeek 可以帮助做样本构建,节省大量工作量,甚至可以做样本评测;二是用多轮改写的成功经验来训练和蒸馏 COT,发现写作类加 COT 后效果更差,说明之前的经验证到新技术面前可能需要更多实验来验证;三是写作类模型优化并非一次生成文章即可,大部分写作类模型优化是先生成大纲,再基于大纲写作,这样才能取得较好效果,即使使用 DeepSeek,直接一步生成的效果也不如两步走(先生成大纲再生成文章)的效果好;四是通过尝试新技术,即使之前在该领域没有积累,基于 DeepSeek 等最新开源成果,也能实现技术跨越,从原来 30 分的能力提升到 75 分。

构建开放共享的协作文化

在推动工程人员转向大模型工作时,会遇到一些疑虑。例如,一位有五六年的软件开发经验的同学对转向大模型工作非常抵触,他提出了两个疑虑:一是自己不会深度学习理论技术怎么办,我对此解释是大模型工作不需要这些,只要会搞样本、调参数、写 Python 代码就行;二是大模型优化与写代码差距太大,我展示了一个在 QCon 学到的关于工程师文化的图,就是李云老师在 2024 年 QCon 上海演讲分享的 《AI 时代团队管理的不变与变》 中的一张图,该图将工程师文化的关键项总结得很好,指出工程师的工程能力包括设计能力和工程能力两块,之前做工程开发可能是 30% 时间设计、70% 时间工程,而大模型优化可能是 80% 时间设计、20% 时间写代码,本质上仍是工程师工作,只是比例变化,底层活动也一样,都是设计、文档化、写代码以及敏捷开发等。

如果有人担心自己的效果比不上专业的研究团队,那是因为缺乏经验,存在知识壁垒和技术孤岛。解决方法是打破壁垒,通过开源和分享打破技术孤岛,大家团结起来共同成长。遇到问题时,可以找人问、开分享会、开会研讨。

一些解决遇到的大模型优化问题的经验

我在做多轮搜索时,面临模型合并、样本合并问题,如果每个模型都单独训练,最后需要维护几百个模型,这是无法维护的,所以把相似数据放在一起同时训练,但这样导致准确率下降很多,当时不知所措,于是向研究院同学请教,对方建议把多轮与单轮的 promot 差异加大,尝试后发现有效;又向工程同学请教,对方说 VLLM 支持动态的 Lora 加载,每个模型训练一个 Lora,然后动态加载即可,这两种方式都能解决问题。

在写作场景中,出现前面写得正常,后面突然出不来标点符号的问题,当时甚至想用强化学习设置 Reward 来解决,但训练底座大模型写作的人说把 decay 的惩罚从 0.6 设到 0.1,尝试后发现可以解决。现在回看去年做的事,觉得当时犯了低级错误,但认为这不是黑历史,而是成长之路,想跟大家分享的是遇到问题找别人会得到帮助,能力是逐渐积累的。

工程师文化建设

我在公司负责一些工程师文化建设工作,梳理出工程师文化最核心的几点是技术过硬、专业靠谱和开放共享。在大模型时代,我个人最认同的是开放和乐于分享,整个团队、公司或组织需要有更开放共享的文化心态

总结与展望

从组织氛围或组织变革角度看,训练大模型很简单,只要有平台、有业务 Sense 就能做起来。大模型基础平台可以低成本建设,有众多开源资源可复用。大模型场景就那几类,按流程优化就行。要拥抱开源,避免闭门造车。

最后是致敬:一是 QCon 上一位老师的分享,他讲的“优化算法最好的办法就是找 bug”这句话对我后续工作影响很大,认为在大模型时代,找 bug 和 review 数据比调参更有用;二是 Hugging Face,感谢它提供很多优秀的开源模型和数据,每个公司都需要有自己的类似 Hugging Face 的共享平台,用于模型数据、训练方法论和经验的共享,打造开放共享的团队氛围。

嘉宾介绍

吕昕,负责科大讯飞消费者 BG 大数据和大模型技术平台相关工作,先后负责建设了讯飞 C 端用户数据中台、大数据分析平台和大模型应用开发平台等,目前负责多个 C 端产品的大模型效果优化工作。 在大数据平台、个性化推荐、广告算法、商业分析、大模型算法领域有多年经验。

会议推荐

从基础设施、推理与知识体系,到研发与交付流程,再到前端、客户端与应用体验——AI 正在以更工程化的方式进入软件生产。2026 年 QCon 全球软件开发大会(北京站)将以 「Agentic AI 时代的软件工程重塑」 作为大会核心主线,把讨论从 「AI For What」,走向真正可持续的 「Value From AI」