标签 自然语言查询 下的文章

1. 这是个什么东西?

这是个数据库万能连接器的 MCP,可以使用支持 MCP 协议的工具(例如:Claude Desktop、Cherry Studio 等)直接连接你的数据库,用自然语言查询和分析数据。

2. 有什么作用?

  • 临时数据分析 :想快速查看生产数据库的某些指标,但是不想写 SQL
  • 问题排查 :需要跨多个表关联查询,但记不清表结构
  • AI 辅助开发 :希望 Claude 能直接理解你的数据库结构,生成准确的查询
  • 生成可视化大屏分析:通过自然语言描述,自动生成可视化大屏分析
    这个 MCP 连接了具有 MCP 协议的客户端和数据库,只要模型够给力,有一堆想不到的能力等你自己探索。

3. 有什么特性?

自然语言查询 - 用中文描述需求,Claude 自动生成并执行 SQL
智能表结构理解 - 自动获取数据库 Schema,提供精准建议
多数据库支持 - MySQL、PostgreSQL、Redis 一键切换 (后续还会增加)
安全第一 - 默认只读模式,防止误操作删库
开箱即用 - 无需复杂配置,一行命令启动

4. 简单的效果预览:

以 MySQL 为例,有以下几个表数据:

  • users 表:
  • categories 表
  • products 表
  • orders 表
  • order_items 表

4.1 Claude Desktop 效果



【开源自荐 5】MCP 数据库万能连接器:用自然语言查询和分析数据9
【开源自荐 5】MCP 数据库万能连接器:用自然语言查询和分析数据15

4.2 Cherry Studio 效果




5. 如何使用?

只要是支持 MCP 协议的工具都可以使用,这里只介绍 Claude Desktop 和 Cherry Studio 的配置,配置都类似。

5.1 配置 Claude Desktop

编辑 Claude Desktop 配置文件:

macOS: ~/Library/Application Support/Claude/claude_desktop_config.json
Windows: %APPDATA%\Claude\claude_desktop_config.json

添加以下配置:

MySQL 使用示例

基础配置(只读模式)

{ "mcpServers": { "mysql-db": { "command": "npx", "args": [ "universal-db-mcp", "--type", "mysql", "--host", "localhost", "--port", "3306", "--user", "root", "--password", "your_password", "--database", "myapp_db" ] } } } 

启用写入模式(谨慎使用)

{ "mcpServers": { "mysql-dev": { "command": "npx", "args": [ "universal-db-mcp", "--type", "mysql", "--host", "localhost", "--port", "3306", "--user", "dev_user", "--password", "dev_password", "--database", "dev_database", "--danger-allow-write" ] } } } 

PostgreSQL 使用示例

基础配置

{ "mcpServers": { "postgres-db": { "command": "npx", "args": [ "universal-db-mcp", "--type", "postgres", "--host", "localhost", "--port", "5432", "--user", "postgres", "--password", "your_password", "--database", "myapp" ] } } } 

连接远程数据库

{ "mcpServers": { "postgres-prod": { "command": "npx", "args": [ "universal-db-mcp", "--type", "postgres", "--host", "db.example.com", "--port", "5432", "--user", "readonly_user", "--password", "secure_password", "--database", "production" ] } } } 

Redis 使用示例

基础配置(无密码)

{ "mcpServers": { "redis-cache": { "command": "npx", "args": [ "universal-db-mcp", "--type", "redis", "--host", "localhost", "--port", "6379" ] } } } 

带密码和数据库选择

{ "mcpServers": { "redis-session": { "command": "npx", "args": [ "universal-db-mcp", "--type", "redis", "--host", "localhost", "--port", "6379", "--password", "redis_password", "--database", "1" ] } } } 

启动使用

  1. 重启 Claude Desktop
  2. 在对话中直接询问:
  • “帮我查看 users 表的结构”
  • “统计最近 7 天的订单数量”
  • “找出消费金额最高的 10 个用户”

Claude 会自动调用数据库工具完成查询!

同时连接多个数据库

你可以在 Claude Desktop 中同时配置多个数据库连接:

{ "mcpServers": { "mysql-prod": { "command": "npx", "args": [ "universal-db-mcp", "--type", "mysql", "--host", "prod-db.example.com", "--port", "3306", "--user", "readonly", "--password", "prod_password", "--database", "production" ] }, "postgres-analytics": { "command": "npx", "args": [ "universal-db-mcp", "--type", "postgres", "--host", "analytics.example.com", "--port", "5432", "--user", "analyst", "--password", "analytics_password", "--database", "warehouse" ] }, "redis-cache": { "command": "npx", "args": [ "universal-db-mcp", "--type", "redis", "--host", "cache.example.com", "--port", "6379", "--password", "cache_password" ] } } } 

重启 Claude Desktop 后,你可以在对话中指定使用哪个数据库:

  • “在 MySQL 生产库中查询…”
  • “从 PostgreSQL 分析库获取…”
  • “检查 Redis 缓存中的…”

5.2 配置 Cherry Studio

6. 开源地址

universal-db-mcp
如果这个项目对你有帮助,请给个 Star 支持一下!
如果这个项目对你有帮助,请给个 Star 支持一下!
如果这个项目对你有帮助,请给个 Star 支持一下!
希望大家帮忙多多 star!!!


📌 转载信息
原作者:
anarkh
转载时间:
2026/1/23 12:02:03

引言

想象一下:你只需要用自然语言描述你的需求,AI 就能自动帮你完成数据库操作 —— 创建文档集合、插入数据、执行复杂查询,甚至构建一个完整的知识库应用。这不是未来,而是现在就能实现的能力。

seekdb MCP Server 就是实现这一愿景的桥梁。它基于 Anthropic 提出的 MCP(Model Context Protocol)协议,让 AI 助手能够直接与 seekdb 数据库交互,将 "自然语言" 转化为 "数据库操作"。

本文将带你上手 seekdb MCP Server,并通过一个实战案例 —— 通过自然语言构建 AI 应用,让你亲身体验 AI 原生数据库的魅力。

欢迎大家关注,在这里,我们会持续为大家更新与 #数据库、#AI 相关的技术内容!

什么是 seekdb MCP Server?

seekdb 是一款 AI 原生搜索数据库,在统一架构下融合了关系数据、向量数据、全文索引、JSON 和 GIS 能力,支持混合检索和库内 AI 工作流。

MCP Server 则是连接 AI 工具与数据库的"适配器"。通过 MCP 协议,Cursor、Claude Code、Cline 等 AI 工具可以直接访问和操作 seekdb 数据库。

核心能力一览

能力分类工具列表功能说明
向量集合管理create_collectionquery_collectionadd_data_to_collection创建向量集合、语义搜索、文档管理
高级搜索full_text_searchhybrid_search全文搜索、混合搜索(BM25 + 向量)
AI 函数ai_completeai_rerankcreate_ai_model调用 LLM 生成文本、重排序搜索结果
AI 记忆系统seekdb_memory_queryseekdb_memory_insert跨会话持久化记忆,让 AI "记住"你
数据导入导出import_csv_file_to_seekdbexport_csv_file_from_seekdbCSV 文件与数据库表/向量集合互转

安装 seekdb 数据库

在使用 seekdb MCP Server 之前,你需要先准备好 seekdb 数据库。seekdb 提供两种部署模式:

模式一:嵌入式模式(零配置,仅限 Linux)

嵌入式模式无需单独安装 seekdb 数据库!seekdb MCP Server 启动时会自动初始化一个本地嵌入式数据库,开箱即用。

适用场景:个人学习、快速原型开发、边缘设备运行。

⚠️ 提示
macOS 和 Windows 用户需要使用「客户端 / 服务器模式」,需要先部署 seekdb 数据库(推荐 Docker 方式),然后配置连接参数。

模式二:客户端/服务器模式(生产推荐)

如果你需要在测试或生产环境部署 seekdb,可以选择以下方式:

方式 1:使用 yum 安装(RPM 系统)
# 1. 添加 seekdb 镜像源
sudo yum-config-manager --add-repo https://mirrors.aliyun.com/oceanbase/OceanBase.repo

# 2. 安装 seekdb 和客户端
sudo yum install seekdb obclient

# 3. 启动 seekdb
sudo systemctl start seekdb

# 4. 检查启动状态(状态为 "Service is ready" 表示启动成功)
sudo systemctl status seekdb

# 5. 连接测试
mysql -h127.0.0.1 -uroot -P2881 -A oceanbase
方式 2:使用 Docker(最快捷)
# 一行命令启动 seekdb
sudo docker run -d -p 2881:2881 oceanbase/seekdb

# 如果拉取失败,可使用备用镜像源:
# sudo docker run -d -p 2881:2881 quay.io/oceanbase/seekdb
# sudo docker run -d -p 2881:2881 ghcr.io/oceanbase/seekdb

系统要求

  • CPU:最低 1 核
  • 内存:最低 2 GB 可用内存
  • 支持的操作系统:CentOS 7/8、Ubuntu 20+、Debian 9+、Anolis OS 8、麒麟 V10 等

更多部署方式请参考 seekdb 部署文档[1]


安装 seekdb MCP Server

安装 uv 包管理器

# 安装 uv 包管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

配置 AI 工具连接

Stdio 模式

以 Cursor 为例在 Cursor 中,打开设置 → Tools & MCP → New MCP Server,根据你的操作系统选择配置方式:

Linux 用户(嵌入式模式)

{
  "mcpServers": {
    "seekdb": {
      "command": "uvx",
      "args": ["seekdb-mcp-server"]
    }
  }
}

就这么简单!嵌入式模式无需任何配置,服务器启动时会自动初始化一个本地 seekdb 数据库。

macOS / Windows 用户(服务器模式)

macOS 和 Windows 不支持嵌入式模式,需要先部署 seekdb 数据库(推荐使用 Docker),然后配置连接参数:

{
  "mcpServers": {
    "seekdb": {
      "command": "uvx",
      "args": ["seekdb-mcp-server"],
      "env": {
        "SEEKDB_HOST": "127.0.0.1",
        "SEEKDB_PORT": "2881",
        "SEEKDB_USER": "",
        "SEEKDB_PASSWORD": "",
        "SEEKDB_DATABASE": "test"
      }
    }
  }
}

参数说明

参数说明默认值
SEEKDB_HOSTseekdb 服务器地址127.0.0.1
SEEKDB_PORTseekdb 服务端口2881
SEEKDB_USER数据库用户名
SEEKDB_PASSWORD数据库密码
SEEKDB_DATABASE数据库名称

SSE 模式

Linux 用户(嵌入式模式)

直接启动 SSE 服务器:

uvx seekdb-mcp-server --transport sse --port 6000

macOS / Windows 用户(服务器模式)

先配置环境变量,再启动服务器:

# 配置 seekdb 连接信息
export SEEKDB_HOST=127.0.0.1
export SEEKDB_PORT=2881
export SEEKDB_USER=
export SEEKDB_PASSWORD=
export SEEKDB_DATABASE=test

# 启动 SSE 服务器
uvx seekdb-mcp-server --transport sse --port 6000

然后在客户端配置:

{
  "sse-seekdb": {
    "type": "sse",
    "url": "http://127.0.0.1:6000/sse"
  }
}

实战案例:用 AI 对话构建个人笔记知识库

现在让我们通过一个完整的实战案例,体验 seekdb MCP Server 的强大能力。我们将构建一个个人笔记知识库,实现:

  • ✅ 用自然语言存储笔记
  • ✅ 语义搜索相关内容
  • ✅ 混合搜索精准定位
  • ✅ AI 智能问答

场景设定

假设你是一名技术工作者,平时会记录各种学习笔记、工作心得。现在你希望用 AI 帮你管理这些笔记,并能通过自然语言快速找到需要的内容。

第一步:创建笔记集合

在 AI 工具(如 Cursor)的对话框中输入:

创建一个名为 "my_notes" 的知识库集合

AI 响应示例:

我已成功创建名为 "my_notes" 的集合:

  • 维度: 384(向量大小)
  • 距离度量: L2(欧几里得距离)

就这样,一个支持语义搜索的向量集合就创建好了!

第二步:添加笔记内容

继续输入:

向 my_notes 中添加以下笔记:

1. "seekdb 支持向量搜索和全文搜索的混合检索,可以同时利用关键词匹配和语义理解"
2. "MCP 协议是 Anthropic 在 2024 年 11 月提出的开源协议,让大模型可以与外部工具交互"
3. "Python 的 asyncio 模块提供了异步编程能力,适合 I/O 密集型任务"
4. "Docker 容器化技术可以实现应用的快速部署和环境隔离"
5. "RAG(检索增强生成)是目前最流行的 AI 应用架构,结合检索和生成能力"

AI 响应示例:

完成!已成功向 "my_notes" 集合添加 5 条笔记:

ID内容
doc1seekdb 支持向量搜索和全文搜索的混合检索...
doc2MCP 协议是 Anthropic 在 2024 年 11 月提出的...
doc3Python 的 asyncio 模块提供了异步编程能力...
doc4Docker 容器化技术可以实现应用的快速部署...
doc5RAG(检索增强生成)是目前最流行的 AI 应用架构...

第三步:语义搜索

现在,让我们用自然语言搜索笔记:

在 my_notes 中搜索与 "AI 应用开发" 相关的笔记

AI 响应示例:

以下是与 "AI 应用开发" 相关的笔记,按相关性排序:

排名内容相关度
1RAG(检索增强生成)是目前最流行的 AI 应用架构...最高
2MCP 协议是 Anthropic 在 2024 年 11 月提出的...
3seekdb 支持向量搜索和全文搜索的混合检索...

注意:我们搜索的是 "AI 应用开发",但笔记中并没有这个确切的词。seekdb 的向量搜索能够理解语义相似性,自动找到相关内容!

第四步:混合搜索

混合搜索结合了关键词匹配语义理解,效果更精准:

对 my_notes 执行混合搜索:
- 全文关键词:"Python"
- 语义查询:"异步编程和并发处理"

AI 响应示例:

排名内容
1Python 的 asyncio 模块提供了异步编程能力,适合 I/O 密集型任务
2Docker 容器化技术可以实现应用的快速部署和环境隔离

混合搜索使用 RRF(倒数排名融合) 算法,综合关键词匹配(BM25)和向量相似度得分,排名结果更准确。

第五步:让 AI 记住你的偏好

seekdb MCP Server 还提供了 AI 记忆系统,让 AI 能够跨会话记住你的信息:

记住我是一名 Python 开发者,主要使用 seekdb 做向量搜索应用

AI 响应示例:

已记录!我会记住:

  • 你是一名 Python 开发者
  • 主要使用 seekdb 做向量搜索应用

下次对话时,你可以直接问:

根据我的技术背景,推荐一些学习资源

AI 会自动检索你的偏好,给出个性化推荐!

功能一览

向量集合管理

工具功能
create_collection创建向量集合
list_collections列出所有集合
has_collection检查集合是否存在
peek_collection预览集合中的文档
add_data_to_collection添加文档(自动生成向量)
update_collection更新文档
delete_documents删除文档
query_collection向量相似性搜索
delete_collection删除集合

高级搜索

工具功能
full_text_search全文搜索(基于关键词)
hybrid_search混合搜索(结合全文和向量搜索)

AI 模型工具

工具功能
create_ai_model注册 AI 模型(嵌入、文本生成或重排序)
create_ai_model_endpoint创建将模型连接到 API 服务的端点
drop_ai_model移除已注册的 AI 模型
drop_ai_model_endpoint移除 AI 模型端点
ai_complete调用 LLM 进行文本生成
ai_rerank使用 AI 模型按相关性重排文档
get_registered_ai_models列出所有已注册的 AI 模型
get_ai_model_endpoints列出所有 AI 模型端点

AI 记忆系统

seekdb MCP Server 提供了强大的 AI 记忆功能,让 AI 助手能够跨会话记住信息:

工具功能
seekdb_memory_query语义搜索记忆
seekdb_memory_insert存储新记忆
seekdb_memory_update更新记忆
seekdb_memory_delete删除记忆

使用场景

  • AI 记住你的技术栈偏好(如 "我习惯使用 Python")
  • AI 记住项目信息(如 "这个项目使用 FastAPI")
  • AI 记住个人偏好(如 "我喜欢简洁的代码风格")

数据导入导出

工具功能
import_csv_file_to_seekdb导入 CSV 文件
export_csv_file_from_seekdb导出数据到 CSV

SQL 操作

工具功能
execute_sql执行 SQL 查询
get_current_time获取数据库当前时间

更多工具探索

除了本文介绍的功能,seekdb MCP Server 还支持:

  • AI 函数调用

    • 使用 AI 模型分析这段文本的情感倾向:"今天天气真好,心情愉悦!"
  • CSV 数据导入

    • 将 /path/to/products.csv 导入为向量集合,使用第 2 列(产品描述)作为文档

常见问题

Q: 需要安装 seekdb 吗?

A: 不需要!seekdb MCP Server 使用嵌入式模式,seekdb 已经包含在内,无需单独安装。

Q: 数据存储在哪里?

A: 数据存储在本地文件系统中,默认在当前用户家目录下。你的数据完全在本地,不会上传到任何云端。

Q: 支持哪些操作系统?

A: 目前支持 Linux(glibc >= 2.28),支持 x86_64 和 aarch64 架构。

Q: 如何升级?

A: 使用 uvx 时会自动使用最新版本。

总结

seekdb MCP Server 让数据库操作变得前所未有的简单:

传统方式MCP 方式
学习 SQL 语法用自然语言描述需求
编写代码调用 APIAI 自动执行操作
手动管理向量嵌入自动生成和索引
分别处理搜索逻辑一句话混合搜索

无论你是想快速构建 RAG 应用,还是想让 AI 助手拥有"长期记忆",seekdb MCP Server 都是你的最佳选择。

开始你的 AI 原生数据库之旅吧! 🚀


参考资料

[1] seekdb 部署文档: https://www.oceanbase.ai/docs/deploy-overview/

一句话就能分析数据?担心自己零基础,跟不上训练营节奏?别急!「瑶池 Data Agent 入门训练营」 第1节先导课来了!
Data Agent 是一款基于大模型的企业数据智能助手,提供免费版、个人版和企业版三种版本,分别满足个人用户的基础使用、进阶需求及企业的多用户协作、安全管控与独立部署等场景,支持通过自然语言对话完成数据查询、分析与处理,无需编写代码,助力各岗位用户高效实现数据驱动决策。这节课我们不讲复杂操作,只做一件事:帮你彻底搞懂 Data Agent 是什么、能帮你做什么。无论你是业务人员、管理者还是技术小白,都能在这里找到属于你的数据驱动起点。

一、参营入口

点此报名参营,用 Data Agent 为你的业务按下加速键!

二、参营时间

2026年1月21日-1月29日 (每个工作日下午17:00-17:30)

三、第一节课程介绍

图片

四、超值奖励

  • 结营证书:完成所有任务即可获得阿里云官方训练营电子结营证书;
  • 结营奖励:课后作业总分(满分100分)排名前100名者获奖,相同分数按提交时间先后排序,即可领取棒球帽/无线鼠标/公仔/鼠标垫(随机发其一);
  • 优秀学员奖:选取5名完成全部任务和作业的优秀学员,加赠德尔玛加湿器!获奖名单会于结营后的7个工作日内在活动钉群内公布;
  • 钉群互动奖:交流群内不定时举办有奖问答及抽奖活动,赢卡套、帽子等精美好礼!
    图片

五、如何参营

本次训练营所有课程内容将采取钉群线上直播方式,课程结束后每小节课后作业均在钉钉交流群内获取提交,这是你获得证书和奖品双重奖励的唯一通道。

六、参考资料

  1. Data Agent 帮助文档:https://help.aliyun.com/zh/dms/data-agent-for-analytics/
  2. Data Agent 版本介绍:https://help.aliyun.com/zh/dms/data-agent-version-introduction
  3. 阿里云瑶池Data Agent 荣获 InfoQ 2025 年度 “Data & AI最具价值产品奖”https://mp.weixin.qq.com/s/SdNeTFh8pxZ_Yf8hjjCTxg
    图片

作者|陈鹏,镜舟科技 技术副总裁

过去三十年,OLAP 引擎的发展核心始终围绕结构化数据的处理与分析,当然也取得了显著的进步,比如分布式架构、存算分离及 cloud native、查询性能大幅提升等。然而,随着大模型(LLM)技术的爆发,数据分析的范式正在发生根本性重构。行业预测显示,未来五年内,非结构化数据(文本、图像、音视频等)在企业数据资产中的占比将达到 80%。未来的数据形态将趋于多模态,分析需求将更加复杂,查询方式也将从单一的 SQL 转向自然语言与多模态混合检索。因此,我们需要在现代大数据分析平台基础上,全面拥抱 AI,构建下一代 AI-First Lakehouse。

一、基础设施演进:异构融合的存储与计算层

1. 存储层统一:管理多模态数据

目前大数据体系与 AI 体系存在严重的物理与逻辑割裂。

大数据团队习惯维护基于 Hive、OLAP、Lakehouse 等大数据平台来处理分析结构化数据,也诞生出业界主流的存储格式如 Parquet、ORC 等,能很好的支持结构化数据分析需求。而 AI 团队习惯在单机服务器或配备独立显卡的个人电脑(Laptop)上开发调试,数据以本地文件形式散落。

这种割裂导致数据无法统一存储,治理困难,且跨系统调用的性能极低,需先查数据库再调 AI 模型。但大数据时代的存储格式如 Parquet 的 Row Group 设计专为结构化数据优化,不再适配 AI 场景,AI 场景非结构化数据异构特性明显,同一批数据里,部分字段内容小,部分 embedding 后的字段会很大。

为此,可以考虑引入如 Lance 等专为 AI 设计的存储引擎,支持对文本、图像、视频等多模态数据的高效索引与存取。以实现统一管理分散在各处的非结构化数据,使得 Lakehouse 不仅是数据存储库,更是 AI 资产的统一底座。

Image

2. CPU/GPU 异构计算统一调度

传统 OLAP 依赖 CPU 进行聚合、排序与过滤,而 AI 负载(如 Embedding 生成、非结构化数据解析、模型推理)高度依赖 GPU 资源。

计算引擎需从单一的 CPU 架构向 CPU/GPU 异构架构演进。系统应具备智能调度能力,根据任务类型自动分配计算资源,实现结构化查询与非结构化推理的混合执行。

典型场景:直播电商实时分析

单场直播会上架数十至上百个商品,每个商品展示时长仅 1-2 分钟。系统需同时处理两类数据:

  • 结构化计算(CPU):五维四率数据(曝光进房率、商品曝光率、商品点击率、成交转化率)等实时指标;

  • 非结构化计算(GPU):主播语音讲解分析、主播商品展示视频分析、助播互动表现、用户弹幕评论分析

业务方需要将“点击率”与“主播当时说了什么/做了什么”进行关联分析,以判断推荐是否精准,以及多种因素对成单的影响。这要求计算引擎具备异构资源管理能力,能够灵活调度 CPU 处理统计指标,调度 GPU 处理特征提取与推理,实现多模态数据的实时融合计算。

二、内核能力构建:AI 原生的查询与 In-Database 推理

1. 原生向量检索,从外挂到内核的能力下沉

简单的语义检索已无法满足高精度的业务需求,且外挂式的向量库方案会导致数据冗余与延迟,向量能力已经是多模态处理的必备项(Must-have)。同时引擎内核需要原生支持混合检索,并具备混合召回能力,结合关键词匹配(通过倒排索引实现)与语义检索(通过向量检索实现),通过粗排与精排的组合策略,满足如“搜合同关键条款”、“电商以图搜图”、“在线教育以图搜题”等高精度业务需求。

更进一步,随着越来越多不同类型、不同领域、不同维度的数据摄入 Lakehouse,内嵌知识图谱搜索能力也变得越来越重要,以便高效快捷的挖掘数据之间的关系。

2. In-Database AI ,写入即处理,查询即分析

(1)写入时处理

传统架构中,非结构化数据的 ETL 依赖外部脚本或独立工具链,维护成本高且容易形成数据孤岛。下一代系统应将 AI 能力内置于写入路径,系统自动调用内核级的解析(Parse)、分块(Chunking)、向量化(Embedding),实现从原始非结构化文件到可查询数据资产的自动化转换,无需人工深度介入即可完成打标与关联。

(2)查询时推理

将 LLM 能力内嵌至数据库内核,实现“查询即分析”。用户无需将数据导出至外部模型处理,而是直接在 SQL 中调用 AI 函数。

还是以直播评论分析为例,系统应能直接通过 SQL 调用内置 AI 能力,对海量弹幕进行情感分析,如:

  • 自动过滤“扣 1”、“扣 2”等无意义评论;

  • 识别具有购买意向的负面/正面反馈,甚至触发内置 Chatbot 进行自动回复。

相比调用外部 API,内置推理可利用本地数据过滤机制,仅对筛选后的高价值数据进行推理,大幅降低延迟与成本,并提升吞吐量。

Image

将 AI 能力贯穿写入和查询全流程,让数据处理成为数据库的内置本能。这种架构下,数据从接入到分析的每个环节都被 AI 增强,消解了传统“先存储、后处理”模式的滞后性,使数据在落盘时即具备智能检索和分析能力。

三、面向 Agent 架构适配:从确定性查询到探索式执行

随着 AI Agent 应用的普及,数据交互模式将从“确定性查询”转向“探索式执行”。Agent 具有多轮推理、自我修正及高并发的特点,这对底层系统提出了新要求:

1. 极致弹性与高并发

Agent 通过多轮推理、自我修正来完成任务,且存在 Multi-Agent 场景,这将导致会产生海量、突发性的查询请求。系统需要具备毫秒级的弹性伸缩能力,支持多路 Agent 并发协作,来实现计算资源的即用即取与成本隔离。

2. 高效智能元数据管理

Agent 会频繁探索数据的 Schema 信息以理解数据结构,系统需提供高性能元数据管理服务,快速响应 Schema 查询。同时在查询元数据时除了常规的库表结构信息外,还应包含丰富的语义数据。

另外,不同于精确的 SQL,Agent 生成的查询往往很模糊。执行引擎需要支持描述性约束信息(例如,Agent 指令包含“精度要求>80%”或“查询超时<2 秒”),可以根据约束动态调整策略,允许在精度与资源消耗之间做权衡,而非僵硬地执行全量扫描。

四、平台自治:AI 反哺系统的自我进化

在基础层、内核层、以及架构层升级后,还可以思考进一步利用 AI 技术反哺 Lakehouse 自身的鲁棒性与性能。

  • 学习最佳实践: 系统应自动学习内部海量日志中的 Best Practice,将其内化为引擎的管理能力。

  • 智能故障排查: 利用 AI 自动定位数据库运行中的隐性问题,替代人工排查。

智能物化视图(Auto-MV)加速洞察

目前的物化视图依赖业务方手动创建,门槛较高。未来系统将结合慢查询分析与数据量特征,自动识别性能瓶颈,同时,学习用户的查询行为,自动创建并维护物化视图,从底层透明地加速查询响应,无需用户感知。

流畅开发:避免复杂的 UDF 依赖

对于复杂的业务逻辑与非结构化数据处理,不应强行依赖传统的 UDF,而应通过上述的内核级 AI 能力与开放接口来解决,提供更流畅的开发体验。

结语

下一代 AI-first Lakehouse 的构建是一个系统性工程,需要从数据处理、存储引擎、计算架构、Agent 支持以及平台生态进行全方位升级。核心目标是打破结构化与非结构化数据的壁垒,将 AI 能力从应用层下沉至内核层,构建真正面向 AI 时代的新一代数据平台。

佬友们,分享一下我最近开发的 Excel 智能数据分析软件–ExcelMind
算是在 L 站第一次分享我的开源项目,希望佬友们多多提 Issue,多多 Star。

下面是演示视频:

这个项目是基于 LangGraph 开发的,支持自然语言查询、多轮对话、流式输出、ECharts 图表可视化 和可视化思考过程。

GitHub 地址:GitHub - stark-456/ExcelMind: AI 智能分析 Excel 文件,对话式完成多场景 Excel 分析任务,解决 Excel 报表分析复杂、效率低等痛点

上传 Excel 文件后,我们可以用自然语言跟 AI 对话,AI 会自主决策,自主调用工具,完成 Excel 的分析任务。
原理呢,其实是只给 AI 看一部分 Excel 的局部,让 AI 了解表结构之后,调用十个工具来完成分析任务,避免 AI 直接看数据做分析带来幻觉,是我觉得做分析必须要考虑到的。

分析过程可视化:

AI 的分析过程,我都尽可能做了显式的输出,并做了前端优化让工具调用更易于阅读,目的是让 AI 做的每一步都是易于追溯的,这样可以让分析过程摆脱黑盒,让我们对分析过程掌控度更高,即使是出错了,也容易改正。

图表分析:

这里我先加入了 bar (柱状图), line (折线图), pie (饼图),scatter (散点图), radar (雷达图), funnel (漏斗图)。你可以指定 AI 输出什么图,如果不指定,AI 会自主决策输出什么图

知识库

考虑到有时候我们的 Excel 文档有很多 AI 不易理解的字段或信息,我加入了知识库功能,会在每次问答前进行召回,这样,有一些特殊需求我们就可以放在知识库里

智能联表

这个是考虑到有时候需要多表联查,但是很多朋友没有数据库基础,这里选定两张表,可以触发 AI 推荐联表的外键跟连接方式,实测,还是很准的,基本上不用自己去考虑怎么联表方式。

实测,模型能力越强,回答越精准,所以推荐佬们用 Sota 模型,站里很多公益站的模型就很不错!

大概功能就是这些,希望有建议的佬随时互动,我会认真看并改进。
以后会不断开发 AI 智能体项目,并开源给大家,希望多多支持!
GitHub 地址:GitHub - stark-456/ExcelMind: AI 智能分析 Excel 文件,对话式完成多场景 Excel 分析任务,解决 Excel 报表分析复杂、效率低等痛点


📌 转载信息
原作者:
fengling666
转载时间:
2025/12/30 10:20:29