2026年1月


一周年 去年这个时候刚接触 然后 4 月梭哈 30w 均价 723.5 实物 到现在
昨晚忍不住又想入了 准备撸 3%消费贷 20 个 又是一夜大涨 拍大腿啊

近日,北京才多对信息技术有限公司( True Talents Connect ,以下简称“ TTC ”)宣布完成 A 轮千万美元级融资。本轮融资由厚雪资本领投,百度战略投资。此前,TTC 自研的 AI Agent 产品“小麦招聘”获第三届百度“文心杯”创业大赛一等奖,此次融资标志着其正式融入百度生态的新阶段。

本轮融资将主要用于强化 AI 大模型与 Agent 技术研发,持续升级“小麦招聘”产品体验,并深化在 AI 及硬科技赛道的人才服务专业团队建设。

自创立以来,TTC 聚焦 AI 及前沿科技赛道,围绕“ AI +猎头”模式,为企业提供关键人才解决方案,致力于用科技( AI )高效连接人才与机会。

其核心团队兼具猎头基因与 AI 技术视野:TTC 创始人兼 CEO 肖玛峰 Max 拥有 17 年高端猎头行业经验,曾参与打造国内领先的中高端猎头品牌;联合创始人兼 CTO 宁辽原具备微软(美国)及字节跳动技术背景,长期深耕 AI 架构与模型落地,为公司 AI 能力与产品化提供持续支撑。

2025 年被视为 TTC 的 AI 元年。其推出核心产品「小麦招聘」,将顶尖猎头的判断逻辑与行业知识解码为结构化模型,赋能 AI Agent ,实现求职及招聘全链路的智能化升级,推动“人人都有一个专业 AI 猎头顾问”成为可能。产品上线仅 4 个月,已获得百度「文心杯」、量子位「 AI 100 创新产品」、创业北京「创业创新大赛」等多个行业奖项。

伴随 AI 能力在业务中的全面落地,TTC 2025 年累计服务超千家 AI 领域科技企业及头部大厂,推荐岗位达数万次,年营收同比增长超 50 %,业务增长势头强劲。

厚雪资本创始合伙人侯昊翔 Roger :

投资 TTC ,源于我们一个核心判断:在 AI 时代,人才是终极的基础设施。TTC 所做的,正是帮助企业科学地组合与迁移关键人才,通过精准配置与协同设计,让不同能力在合适的时点形成共振,产生‘ 1+1>11 ’的创造力。

更打动我们的是团队对‘激发人’的深刻理解——他们清楚地认识到,顶尖的人才服务是专业能力与判断艺术的结合,是成为点燃人才潜力的‘催化剂’。与此同时,Max 和团队拥有顶尖的行业经验,却始终保持着创业者的谦逊与初心,这让我们相信他们能走得更远。

对厚雪而言,这同样是一次重要的战略协同。作为一家同样具有创业心态的机构,我们看好 TTC‘ AI 赋能顾问’与‘平台直接连接’的双轨模式。这不仅是对传统招聘痛点的革新,也为我们共同深入 AI 产业核心人群、持续积累认知与资源提供了新的入口。我们期待与这样的长期主义者同行,共同见证 AI 人才服务从‘高端配置’到‘ AI 时代企业基石’的变革。”

 

百度:

“我们始终认为,只有当 AI 被内化为一种原生的能力,才能真正在各行各业引爆生产力革命。TTC 正是这一理念在人力资源行业的出色实践者。

作为第三届百度‘文心杯’创业大赛一等奖项目,「小麦招聘」没有简单地将 AI 作为工具,而是将顶尖猎头的专业服务能力重构为原生 AI Agent ,这让高效、精准的人才匹配从‘高端服务’变成了可广泛触达的智能基础。

百度此次战略投资并开放生态资源,正是希望与 TTC 携手,加速 AI 原生能力在人力资源领域的深度渗透,共同将‘智能红利’转化为支撑万千企业发展的‘人才红利’,进而转化为‘社会红利’。”

未来,TTC 将继续秉持“用科技( AI )高效连接人才与机会”的使命,深化 AI 技术与人才服务的融合,让每一次人才连接,都更智能、更精准、更值得信赖。

https://jxog8b3tny.feishu.cn/file/DxjWbNenpoe17NxaZ9zcPE1Jnlh?from=from_copylink (点击链接下载)

部署在Byet系列免费主机的网站,在浏览器首次访问时链接都会跳转到 中转页面(如下图),中转页面 是经过加密后的页面,判断是否存在相应的 cookies,如果不存在就跳转到中转页面(原链接 +?i=1)。

主机管理员说这是主机的设定,通过验证 cookies 来防止非法访问。但是对 SEO 和 GEO 来说,搜索引擎蜘蛛是无法爬取到真实页面内容,并且对于一些带 API 接口网站也是不友好的,请求 API 时都无法返回想要的结果。

针对 Byet 系列免费主机的一些限制,有以下两种处理方法:

一、删除链接中的?i=1

示例页面 1:没有删除链接中的?i=1 https://how-to-remove-i-1.infinityfree.me/no_delete.html

示例页面 2:自动删除链接中的?i=1 https://how-to-remove-i-1.infinityfree.me/delete_i_1.html

在页面头部添加以下代码,可以实现自动删除?i=1

<head>
    <meta charset="UTF-8" />
    <title>示例网站:自动删除链接中的?i=1</title>
    <script>
        let delete_i = new URL(location.href)
        delete_i.searchParams.delete('i')
        history.pushState({}, '', delete_i.href)
    </script>
</head>

方法一只是针对浏览器用户优化,更好的优化选择方法二。

二、优化 API 请求、SEO 和 GEO

优化代码在 GitHub 仓库:https://github.com/openlablog/optimizing-api-seo-geo-for-byet

各们好,最近在折腾 sing-box 的全局代理,发现同样的配置在新装的虚拟机 win10 和另一台闲置的 win10 上都无问题。但是放到自己的两台电脑上就死活不通了;最后把配置简化到 tun 透传 direct ,也是同样的状况。折腾几天了,实在想不到什么问题了,有懂的人麻烦指点一二。
测试命令是 curl -v https://www.baidu.com , 症状是

* Host www.baidu.com:443 was resolved.
* IPv6: (none)
* IPv4: 180.101.49.44, 180.101.51.73
*   Trying 180.101.49.44:443...
* connect to 180.101.49.44 port 443 from 0.0.0.0 port 52489 failed: Timed out
*   Trying 180.101.51.73:443...
* connect to 180.101.51.73 port 443 from 0.0.0.0 port 58474 failed: Timed out
* Failed to connect to www.baidu.com port 443 after 42582 ms: Could not connect to server
* closing connection #0
curl: (28) Failed to connect to www.baidu.com port 443 after 42582 ms: Could not connect to server

以下是简化后在自己电脑上仍有问题的配置

{
    "log": {
        "disabled": false,
        "level": "trace",
        "timestamp": true,
        "output": ""
    },
    "inbounds": [{
            "type": "tun",
            "tag": "tun-in",
            "interface_name": "singbox-tun",
            "address": ["192.0.2.0/24"],
            "route_address": ["0.0.0.0/1", "128.0.0.0/1", "::/1", "8000::/1"],
            "route_exclude_address": [
                "10.0.0.0/8",
                "172.16.0.0/12",
                "192.168.0.0/16",
                "fc00::/7"
            ],
            "auto_route": true,
            "strict_route": false
        }, 
        {"tag": "dns-in","type": "direct","listen": "127.0.0.1","listen_port": 53}
    ],
    "outbounds": [
        {"type": "direct","tag": "direct"}, 
        {"type": "block","tag": "block"}
    ],
    "dns": {
        "strategy": "prefer_ipv4",
        "servers": [
            {"type": "local","tag": "local-dns"}, 
            {"type": "udp","tag": "cn-dns","server": "119.29.29.29"}
        ],
        "rules": [
            {"inbound": ["tun-in"],"server": "cn-dns"}
        ]
    },
    "route": {
        "auto_detect_interface": true,
        "default_domain_resolver": "local-dns",
        "final": "direct",
        "rules": [
            {"action": "sniff"}, 
            {"protocol": "dns","action": "hijack-dns"}, 
            {"ip_is_private": true,"outbound": "direct"}, 
            {"inbound": ["tun-in"],"outbound": "direct"}
        ]
    }
}

搞了个 airpodspro3 ,手机出厂的 ios18 连电量都显示不了,在考虑升级哪台手机。
目前 16e 主力,16pm 备。都是初始系统没升过,平时使用手机频率不算高,没必要升级系统。
还拿不准升哪台上去。刚看了下现在是 26.2.1 ,如果升 16e ,续航时间会差的多吗?手机也是出厂 11.1 的系统,升 26 的话还能不能配对?

目前做了个小工具,想给对方试用,但是如果没有域名和没有备案,ip 打开报危险(微信直接打不开)。

马上 2 月了,有什么最快的方式能够给他们体验,最好绕过备案这一步,域名什么的都没有要求

目前做了个小工具,想给对方试用,但是如果没有域名和没有备案,ip 打开报危险(微信直接打不开)。

马上 2 月了,有什么最快的方式能够给他们体验,最好绕过备案这一步,域名什么的都没有要求

简直一连串事故:
1.两周前,备份手机照片的时候,提示一块硬盘异常,存储池降级,当时没管
2.一周前,同存储池的第二块硬盘也异常了,存储池变为只读,之后发现整个系统响应特别慢,登录都卡半天
3.这两天备份资料,从坏的存储池备份到好的存储池,备份 24 小时只复制了 2G 的内容,人都麻了


有没有大佬帮忙分析下,为什么只是一个存储池崩了,为什么会变得这么慢,另外,我该怎么处理...

今日中国黄金:

开盘即涨停📈

今日白银有色:

平稳在 9%震荡

今日铜陵有色:

9 点半开盘最高:9.5%

10 点一波震荡跌到:2%

11 点拉盘:6%

预计:12 点整砸盘拉涨停。

在智能体(AI Agent)的工程实践中,一个反复出现的问题是: 系统的确定性边界,应当由规则先行,还是由模型先探索?

这一问题并非技术路线的优劣之争,而是工程范式在不同阶段的职责分配问题。

一、规则与模型:承担的是不同系统责任

在工程体系中,规则驱动与模型驱动并不对应“智能程度”的高低,而是承担着不同的系统职能。

规则驱动(Rule-based)

  • 以显式逻辑为核心
  • 强调确定性、可验证性与可回溯性
  • 用于固化业务约束与系统下限

模型驱动(Model-based)

  • 以概率推理为核心
  • 擅长处理模糊指令与非结构化输入
  • 用于覆盖未知空间与需求不完备区域

两者的核心差异,在于是否负责定义系统边界

二、0 到 1 阶段:边界从哪里来,决定谁先上场

在系统尚未稳定之前,先使用规则还是模型,取决于业务本身的确定性程度。

1. 边界清晰的场景:规则优先

当业务流程受法律、合规、财务或计算标准严格约束时:

  • 规则需要率先构建系统底座
  • 规则明确系统“不能做什么”
  • 模型只能在规则允许的范围内推理

在此类场景中,模型的不确定性需要被严格限制。

2. 边界模糊的场景:模型优先

当用户意图多样、路径难以穷举时:

  • 模型更适合作为初始驱动力
  • 用于探索需求形态与交互方式
  • 用于暴露规则尚未覆盖的高频路径

此阶段,规则并非缺失,而是延后沉淀。

三、工程实践中的常见演进路径

多数智能体系统的 0 到 1,并非单次选择,而是阶段性演进。

阶段一:模型主导,快速跑通(0 → 0.5)

  • 模型承担任务拆解、对话管理、工具编排
  • 系统目标是验证路径,而非稳定性
  • 所有输出被视为可观测样本

模型在这一阶段更像是探路器

阶段二:规则沉淀,稳定放大(0.5 → 1)

  • 高频、确定性的判断被抽离为规则
  • 成本与风险敏感节点迁移至代码
  • 系统行为开始具备可预测边界

规则逐步成为系统骨架。

四、成熟智能体的结构共识

在工程实践中逐渐形成的共识是:

规则负责确定下限,模型负责拉高上限。

系统维度规则承担模型承担
执行层校验、计算、合规意图理解、上下文推理
异常处理拦截、降级、转人工解释、安抚、引导
知识获取结构化查询语义关联与补全
演进方式人工固化数据驱动适配

这并非折中,而是职责分工。

五、结语

在从 0 到 1 的阶段, 模型解决的是“能不能跑通”, 规则解决的是“能不能长期跑”。

当系统尚未充分理解真实世界时,让模型先探索; 当系统开始承担稳定责任时,让规则逐步收敛。

在行业实践中,“规则为骨架、模型为血肉”的结构已被反复验证。 智能体来了,但真正决定其是否进入生产力阶段的,始终是边界的构建方式。

作者:互联网容器团队-Chen Han、AI 研发团队 - Liu Dong Yang

在大规模GPU容器集群与模型训练场景,面临稳定性和资源利用率等多重挑战。本文展示vivo GPU平台的总体架构,介绍容器平台在大规模GPU容器集群稳定性建设措施,以及探索多种GPU容器降本提效的解决方案。分享AI工程训练平台大规模训练稳定性建设,及GPU利用率提升实践经验。

本文为2025年 vivo 开发者大会互联网技术专场分享内容之一,在微信公众号"vivo互联网技术"对话框回复【2025VDC】获取 2025VDC 互联网技术会场议题相关资料。

1分钟看图掌握核心观点👇

图1 VS 图2,您更倾向于哪张图来辅助理解全文呢?欢迎在评论区留言

一、GPU平台架构

vivo的GPU平台由物理层、容器平台层与AI工程层三方面构成。由多种GPU服务器和分布式存储以及高性能网络等基础设施,构成了可靠的物理层。容器平台层的GPU容器能力,主要包含了资源管理、编排调度、GPU虚拟化与多容器网络这四个方面。

其中资源管理,表现为多种架构资源池的部署与管理能力。编排调度能力,由GPU弹性伸缩、训推潮汐部署以及多种卡调度策略组成。自研的GPU虚拟化囊括了业界主流的MIG虚拟化、内核层虚拟化以及CUDA层虚拟化三种技术。由传统的Underlay网络以及SRIOV的RDMA直通网络,组成了丰富的容器网络架构。容器平台提供了开放的API接口,为AI工程层的训练和推理平台,提供了坚实的算力底座。通过训练和推理平台,支撑公司内的智能计算业务。

二、GPU容器能力实践

GPU容器能力实践分为两个模块,首先是大规模容器集群稳定性建设,其次是GPU容器提效降本方案。先了解下容器平台在大规模容器集群场景,如何进行稳定性建设的。

2.1 大规模容器集群稳定性

集群稳定性是一切的基石。当集群规模大时,任务多,调度频繁,导致核心组件负载激增,极易发生集群崩溃。随着节点规模扩大,运维复杂度呈指数级增长,日常运维工作繁重,发现问题不及时。同时故障处理也面临严峻挑战,故障中涉及的复杂场景多,故障处理的难度大。稳定性建设需要解决上述问题。

为了解决高频调度导致的核心组件高负载问题,我们针对Apiserver、etcd、CoreDNS,这3个核心组件进行了架构和性能优化,具体的方案如图所示。通过这些优化手段提升了组件性能,并且降低了组件负载,有利于大规模集群的平稳运行。

为了减轻集群运维负担,我们重点建设了自动化节点管理方案。把重复性的运维事项自动化。同时我们还完善了监控告警体系,开发了自动化巡检功能,使运维人员能够及时发现集群问题,快速介入,处理潜在风险,保障集群能够长久稳定运行。

故障处理是集群稳定的兜底措施,我们针对多个核心组件都做了,各类故障处理预案。结合可能存在的故障特点,构造故障场景,进行故障恢复演练,确保故障发生时,能够第一时间找到合理的解决方案,准确的处理问题。

通过上述的措施,在集群稳定性方面取得了不错的效果,首先日常的集群可用性稳定保持在99.99%水平,其次平台的年度故障复盘数相较于上一年下降60%。核心组件方面的优化也达到了不错效果,其中Apiserver的CPU负载下降70%,etcd提交延迟,从秒级缩短到毫秒级,CoreDNS的毛刺现象消失了,并且负载量下降了90%左右。

2.2 GPU容器提效降本实践

容器平台的核心竞争力之一就是助力业务提效降本,我们从不同业务维度,对GPU容器提效降本方案进行了探索。

  • 首先在单卡维度,通过自研GPU虚拟化方案,使多个容器,互不干扰的共享一张卡资源。
  • 其次是在单服务维度,使业务能够自动应对,负载变化的GPU弹性扩缩容方案。
  • 多服务维度,能够让推理服务和训练服务,分时复用整机资源的,训推潮汐部署方案。
  • 最后是在多机多卡的分布式场景中,让GPU容器搭配RDMA网络,来解决跨节点通信的瓶颈问题。

2.2.1 单卡共享-GPU虚拟化

如何让一张卡同时运行多个容器又不互相干扰,就涉及到GPU虚拟化技术。GPU虚拟化一直是AI云原生领域的热门话题之一,各大云厂商都有成熟的解决方案售卖。

vivo容器平台的自研GPU虚拟化方案,主要为了解决业务的三大痛点,

  • 首先是部分推理业务负载偏低,无法有效用满整卡资源,需要通过共享部署方式,减少资源总量,降低业务成本,提升利用率。
  • 其次是不同业务共享同一张卡时,对于安全性以及隔离性的要求各不相同,就需要使用不同的GPU虚拟化技术来满足不同业务诉求。
  • 最后在Dev开发机场景,用户使用频率偏低,需要通过显存超售,来提升资源复用率,但显存超售后又需要避免某个用户将显存耗尽,导致OOM错误影响同卡的其他用户。

自研GPU虚拟化方案包含MIG虚拟化、内核层虚拟化、CUDA层虚拟化这三种技术。结合业务场景,提供了丰富的卡调度策略,例如尽量聚集的Binpack策略、尽量分散的Spread策略,每个卡只有一个实例的CardOnlyOne策略,以及自定义节点和卡分配关系的CustomTopo策略。通过自研模块与组件,接入Kubernetes体系,对外提供统一调度能力。

首先,MIG虚拟化技术,是基于Nvidia硬件提供的,切块组合能力,能够按规则把计算单元和显存单元进行组合,组成MIG实例挂载到容器内,提供完全独立的运行环境。MIG方案的优点是拥有Nvidia官方支持,可以集成到自研体系中。由于是在硬件层面实现的算力和显存限制,所以隔离性和安全性最好。缺点就是仅支持Ampere及以后架构的部分卡,而且限定了切分比例。主要应用场景是对算力隔离有强需求的线上业务。

内核层虚拟化技术,是通过自研内核模块,创建虚拟字符设备替换原有的Nvidia字符设备,在内核态拦截IOCTL请求后,实现的算力和显存限制。优点是上层应用无感。并且内核态拥有良好的安全性。缺点是当前无开源方案,开发难度大,而且算力隔离的并不充分。主要应用场景是常规线上业务。

CUDA层虚拟化技术的原理:使用拦截库替换Nvidia Driver的原始库,建立拦截库与原始库的,API函数映射关系,从而拦截调用函数,实现算力和显存的限制。

优点是有开源方案,使用起来比较灵活。并且可以基于Nvidia提供的统一内存模型,开发显存超售能力。能够在显存不足时,使用内存替代,虽然处理速度下降,但是能够有效避免,显存OOM导致用户程序报错。

缺点是用户态导致安全性不足,并且算力隔离能力偏弱,主要应用场景是Dev开发机场景。

将自研的内核层虚拟化方案与业界方案,进行了自测性能对比,如图所示,可以看到自研方案在性能上,已经达到业界先进水平。业务使用该方案,与独占整卡部署相比较,平均单卡虚拟化率300%左右,就是把1张物理卡当3张卡使用,同时整机GPU利用率提升了30%+,成本优化超过50%。

2.2.2 服务提效-GPU弹性扩缩容

在单服务维度,如何帮助业务自动管理大量的GPU容器是提效的关键。我们引入了GPU弹性扩缩容方案。

  • 首先弹性扩缩容能力,能够快速响应负载变化,自动调节实例数量,减少人工干预次数,有利于业务在突发场景的平稳运行。
  • 其次是业务方在生产环境部署后,非生产环境的实例通常会闲置,这会浪费稀缺的GPU资源。
  • 最后由于Kubernetes原生,并不支持GPU维度的弹性扩缩容,需要寻找合适的方案来满足业务诉求。

如图所示,我们是基于开源的KEDA框架,自研了GPU-Scaler组件,使用Prometheus中存储,来自DCGM-Exporter的GPU指标,汇聚为扩缩容事件,用于触发KEDA框架,调整实例个数,以此实现了GPU弹性扩缩容能力。

由于KEDA框架支持将Workload实例数缩容到0,所以在非生产环境部署的GPU业务,默认开启无负载时,自动缩容到零的功能,以此自动回收,长期闲置的GPU资源。

最终的使用效果,线上业务资源不足类告警,下降了80%,单业务平均减少约每周1小时的,扩缩容工作量,有效降低了GPU业务的运维成本。

2.2.3 多服务降本-训推潮汐部署

在多服务维度,训练服务的资源短缺问题,与推理服务,低峰时段资源空闲问题,相对突出。考虑让训练业务利用推理的空闲资源,即训推潮汐部署方案。

首先推理和训练业务都需要稳定的运行环境。而且推理业务潮汐特征明显,夜晚负载低,资源空闲多,导致平均利用率偏低。并且多机多卡训练任务,需要整机资源,且资源需求日益增长,采购新设备,难且慢,导致训练资源缺口明显。

训推潮汐部署就是整机资源分时复用的逻辑,如图所示,推理业务在白天高负载时,稳定运行,在夜晚低峰时段,自动腾挪出空闲整机资源,借给训练业务使用。在清晨时段,训练业务结束,把整机资源还给推理业务,如此达到分时复用的效果。

如图所示。推理业务在部署前,需要评估保底负载容量。在部署时填入维持业务稳定的最少Pod数量。基于OpenKruise组件的,WorkloadSpread功能,管理不同的Subset,分别在稳定池和潮汐池中按需部署。同时配置CronHPA,定时缩容,自动调整副本数,到稳定Pod数量,优先删除潮汐池中的Pod。以此达到把潮汐池的节点整机腾空的效果。

其中我们还针对Workload的缩容优先级进行了优化。当缩容发生时,结合Pod和节点的拓扑关系,把所在节点实例数少的Pod优先缩容,达到更快的腾空效果。

通过上述方案,训推潮汐部署的降本效果明显,使推理业务,成本下降30%,同时整机GPU利用率提升20%多,有效缓解了训练资源短缺问题。

2.2.4 多机多卡提效-容器RDMA高性能网络

当前分布式训练和推理业务,对算力和显存的需求巨大,单节点资源不足,需要使用多机多卡资源,那么网络通信容易成为性能瓶颈。RDMA技术允许GPU直接访问支持RDMA设备中的数据,无需经过主机CPU或内存,实现跨节点的零拷贝数据传输,有效减少了CPU开销和网络延迟。所以从多机多卡维度,使用RDMA技术是网络提效的有效措施。从容器平台角度,GPU容器更加需要结合RDMA技术,提供简单高效的解决方案,方便业务使用。

如图所示,RDMA容器有两个网卡,一个是使用Calico-CNI插件,通过veth创建的eth0网卡,对应的是Underlay网络。另一个是使用Sriov-CNI插件,通过VF创建的eth1网卡,对应的RoCE_v2或IB协议网络。我们引入了Multus-CNI组件,能够在单容器创建时,按需调用多种CNI插件。同时我们选择使用Spiderpool组件管理IP池,以及进行IP分配和路由策略配置。

通过上述组件,在Kubernetes体系中实现了RDMA容器的全生命周期管理能力。基于容器RDMA能力,在大规模训练和推理场景,业务能够提速20%到30%之间,提升效果明显。

三、AI工程训练平台实践

3.1 训练平台整体架构

VTraining训练平台是由vivo AI计算平台团队打造的一站式大模型训练方案,它面向算法工程师,提供模型开发、模型训练和海量样本存储等能力。

VTraining底层是基于vivo容器平台、及高性能计算、网络、存储等基础设施之上构建,通过提供模型开发、模型训练、资产管理等能力,支撑公司的大模型训练业务。

像vivo手机的蓝心小V、相册等核心产品的大模型训练,都是在VTraining平台进行迭代的。

3.2 大规模训练稳定性实践

3.2.1 稳定性背景

稳定性问题是大规模训练的痛点。任务在大规模的同步训练过程中需要依赖计算、网络、存储、容器调度等复杂的基础设施环境,任何环节出问题都会导致任务中断,问题定位、恢复困难。

例如知名头部公司千亿参数大模型的大规模训练任务,平均每3小时触发一次意外中断。

3.2.2 稳定性实践-高频故障专项治理

其中一个问题,是GPU集群投入使用初期机器故障率会很高,训练任务会经常被中断。为了降低机器故障率,我们进行了高频故障专项治理。首先对GPU集群进行了大规模测试诊断、然后进行高频故障统计和修复,把有问题的软硬件进行维修、替换、升级或修复。

3.2.3 稳定性实践-故障处置流程完善

另一个问题,是任务故障就是不可避免的,所以为了缩短任务中断时间,尽快恢复任务运行,我们对故障处置流程进行了重点建设完善。

  • **训练前,**我们会针对GPU机器、网络通信等环境进行大规模检测,剔除异常节点、慢节点等问题节点,降低故障风险。
  • **训练中,**会开启自动化容错机制,以便能及时发现基础设施或任务异常,快速进行故障定位和故障容错,自动隔离故障、自动重启恢复任务运行。
  • **训练后,**对新问题进行搜集分析,完善异常特征库,增强问题诊断能力,以便后续遇到类似的故障可以快速容错。

3.2.4 稳定性实践-效果与总结

通过减少基础设施高频故障、完善任务故障处置流程两大措施,我们取得了良好效果:机器每天故障率由原来的百分之二下降到千分之一;千卡任务有效训练时长由原来的60%提升到99%,达到了行业一流水平。

同时我们也积累了相关的稳定性经验:

  • GPU集群由不稳定到稳定,需要一个软硬件磨合过程。因为不同的软硬件环境会触发不同的稳定性问题。
  • 大规模训练前,尽量剔除历史故障率高的机器。我们发现稳定的机器一般会一直很稳定,而故障率高的机器即使修复后出问题的概率也比较大。
  • 提升任务有效训练时长,需结合基础设施、训练框架、平台容错机制综合优化。例如秒级监控告警能力、checkpoint持久化策略等等都需要进行持续深入的优化。

3.3 GPU利用率提升实践

3.3.1 GPU利用率提升-业务背景及问题

GPU是稀缺资源,但是差异化的业务场景下GPU难以高效利用,利用率提升困难。比如GPU场景常见业务形态:有训练任务、推理业务、数据生产、开发调试等等类型。他们各有特点:

  • 训练任务虽然GPU利用率高,但是偶尔也会出现碎片化空闲资源,比如算法同学偶尔会将任务停下来排查问题,调下参数之类的操作,任务并不是一直不间断地在跑的。
  • 推理业务有很明显的潮汐特性,白天流量高峰期GPU利用率高、到了夜间流量低峰期利用率会比较低。
  • 数据生产任务属于离线任务,GPU利用率高、资源需求大、但难申请到资源;开发调试任务的话GPU利用率低并且要长期占用资源,导致GPU利用率长期低下。

所以不同的业务形态有不同的利用率特点,接下来介绍下我们的GPU利用率提升措施。

3.3.2 利用率提升措施一:低优任务

对于训练任务场景,偶现的碎片化空闲资源,我们 通过低优数据生产任务进行充分利用。如图所示,我们通过低优数据生产任务调度,复用训练场景偶现的碎片化资源,当正常任务需要资源时,可随时抢占低优资源,不会影响正常训练任务的调度。

3.3.3 利用率提升措施二:训推潮汐部署

对于推理业务场景,在夜间流量低峰期可以释放大量GPU资源,我们通过训推潮汐部署给离线业务复用。如图所示,通过训推潮汐部署机制,我们将夜间推理流量低峰期缩容的机器腾挪到了离线GPU资源池,给离线业务使用,白天再腾挪回在线GPU资源池进行扩容,达到潮汐复用的目的。

3.3.4 利用率提升措施三:GPU虚拟化

对于开发任务场景,长期独占GPU资源且利用率低,我们通过vivo自研VGPU虚拟化技术,减少开发任务占用的物理GPU卡数,释放冗余算力。如图所示,我们可以将单机4卡GPU机器,通过开启VGPU虚拟出16卡VGPU,相当于一卡顶四卡。

VGPU的优点是:可支持1:2、1:4超卖、还可以用内存补充显存不足,所以对用户是无感知使用的,很适用于开发任务这种对性能要求低的场景。

3.3.5 利用率提升总结与规划

总之,训练平台通过低优任务、训推潮汐部署、GPU虚拟化等策略,深度适配差异化业务场景特性,实现了资源高效复用。AI整体GPU利用率均值绝对值提升了5个百分点,接近行业一流水平。

未来训练平台也会持续对GPU利用率进行综合治理。例如进行低效任务治理、低效资源盘活、成本账单统计、奖励与惩罚措施的实施等等,让稀缺的GPU资源发挥更大价值!

四、GPU平台未来展望

在容器平台层面,我们会从多集群联邦调度、在离线GPU混部、国产异构计算芯片支持、GPU资源池化等方面能力进行综合建设,支撑上层平台业务对GPU资源的高效利用。

训练平台层面,我们会增强故障预警、任务动态容错等能力,增强业务稳定性;同时完善对大模型训练全流程能力的支撑,以及对GPU资源进行更精细化的运营,从而让GPU业务更加稳定、资源利用更加高效!

前言

在之前的文章中,我们花了大量的篇幅,从记录后端pod真实ip开始说起,然后引入envoy,再解决了各种各样的需求:配置自动重载、流量劫持、sidecar自动注入,到envoy的各种能力:熔断、流控、分流、透明代理、可观测性等等,已经可以支撑起一个完整的服务治理框架了

而今天介绍的istio,正是前面提到的这些所有功能的集大成者,从本文开始,我们将详细介绍istio,并且与之前手搓的功能做一个详细的对比,为大家以后选择服务治理的某个功能提供参考

istio架构

           ┌──────────────┐
           │   istiod     │   ← 控制面
           │ (Pilot+CA)   │
           └──────┬───────┘
                  │ xDS (gRPC / TLS)
                  │
┌────────────┐    │    ┌────────────┐
│  Envoy     │◄───┼───►│   Envoy    │  ← 数据面
│ (Sidecar)  │         │ (Sidecar)  │
└─────▲──────┘         └─────▲──────┘
      │ iptables             │
      │                      │
   App Pod                App Pod
  • 数据面就是之前一直在研究的envoy,包括4/7代理、熔断、限流、可观测性等等,envoy就是执行由控制面下发的配置
  • 控制面istiod主要的职责:将配置下发到每一个envoy去。由于istio中配置以crd的形式成为了k8s的资源,所以要不断的监听k8s apiserver,将资源的变化翻译成envoy看得懂的配置,并且下发到envoy去

至于其余istio的资源,我们后面详细介绍

istio安装

不说废话,先把istio安装上去再说

首先准备好k8s集群,其次下载istio(这一步有可能需要上网)

curl -L https://istio.io/downloadIstio | sh -
cd istio-*
sudo ln -s $PWD/istioctl /usr/local/bin/istioctl

验证兼容性

istioctl x precheck

开始安装

istioctl install --set profile=default -y

由于镜像仓库没法直接使用,所以需要一些特殊的方法,具体可以看这篇文章: 快速拉取docker镜像

需要的镜像有:

docker.io/istio/pilot:1.28.2
docker.io/istio/proxyv2:1.28.2

安装完成:

▶ kubectl -n istio-system get pod
NAME                                    READY   STATUS    RESTARTS   AGE
istio-ingressgateway-865c448856-qs8s2   1/1     Running   0          8s
istiod-86c75775bb-j7qbg                 1/1     Running   0          12s

安装完成,要从哪儿开始呢?

istio的自动注入

kubectl label namespace default istio-injection=enabled

同之前envoy一样,给namespace打上标签之后,重启服务即可

kubectl rollout restart deploy nginx-test

重启之后sidecar已经注入进去了,我们来观察一下istio注入到底做了什么事情

先describe看看events

Events:
  Type    Reason     Age   From               Message
  ----    ------     ----  ----               -------
  Normal  Scheduled  8s    default-scheduler  Successfully assigned default/nginx-test-6f855b9bb9-9phsv to wilson
  Normal  Pulled     8s    kubelet            Container image "docker.io/istio/proxyv2:1.28.2" already present on machine
  Normal  Created    8s    kubelet            Created container: istio-init
  Normal  Started    8s    kubelet            Started container istio-init
  Normal  Pulled     8s    kubelet            Container image "docker.io/istio/proxyv2:1.28.2" already present on machine
  Normal  Created    8s    kubelet            Created container: istio-proxy
  Normal  Started    8s    kubelet            Started container istio-proxy
  Normal  Pulled     6s    kubelet            Container image "registry.cn-beijing.aliyuncs.com/wilsonchai/nginx:latest" already present on machine
  Normal  Created    6s    kubelet            Created container: nginx-test
  Normal  Started    5s    kubelet            Started container nginx-test

1个initContainer,1个业务container和1个sidecar

其中initContainer:

Init Containers:
  istio-init:
    Container ID:  containerd://2bf56cd37703d82a2a43e94e8c8d683ed66b0afe22bf7148a597d67b89a727a8
    Image:         docker.io/istio/proxyv2:1.28.2
    Image ID:      docker.m.daocloud.io/istio/proxyv2@sha256:39065152d6bd3e7fbf6bb04be43c7a8bbd16b5c7181c84e3d78fa164a945ae7f
    Port:          <none>
    Host Port:     <none>
    Args:
      istio-iptables
      -p
      15001
      -z
      15006
      -u
      1337
      -m
      REDIRECT
      -i
      *
      -x

      -b
      *
      -d
      15090,15021,15020
      --log_output_level=default:info
...

和之前envoy中劫持流量的做法一样,istio依然是使用iptables将端口流量导入到代理之中处理

尝试访问一下:

▶ curl 10.22.12.178:30785/test
i am backend in backend-6d76f54494-g6srz

成功,再次查看istio-proxy日志。空的?为了调试方便,将其打开并且输出至控制台

kubectl -n istio-system edit cm istio

apiVersion: v1
data:
  mesh: |-
    accessLogFile: /dev/stdout
  ...

至此,istio的第一个功能探索完毕,自动注入sidecar container并且完成了流量劫持

Upgrade Required 426 的问题

当前的架构是左图,现在要前进到右图

watermarked-istio_1.png

其实就是在backend注入istio-proxy,直接重启就好

▶ kubectl get pod -owide
NAME                          READY   STATUS        RESTARTS   AGE     IP            NODE     NOMINATED NODE   READINESS GATES
backend-5d4d7b598c-f7852      2/2     Running       0          13s     10.244.0.49   wilson   <none>           <none>
nginx-test-6f855b9bb9-9phsv   2/2     Running       0          58m     10.244.0.48   wilson   <none>           <none>

注入完成,测试一下

▶ curl 10.22.12.178:30785/test
Upgrade Required
▶ kubectl logs -f -l app=nginx-test -c istio-proxy
[2026-01-26T07:54:42.977Z] "GET /test HTTP/1.1" 426 - upstream=10.244.0.48:80 duration=6ms route=default
[2026-01-26T07:54:42.978Z] "- - -" 0 - upstream=10.105.148.194:10000 duration=9ms route=-

在nginx注入istio-proxy,backend没有注入的时候并没有报错。而一旦nginx与backend都注入的时候就会出现Upgrade Required (426)错误,Nginx Sidecar 发现目标(Backend)是一个纯文本服务,它会回退到“透明代理”模式,简单地把 Nginx 发出的流量透传出去

Nginx Sidecar 发现目标也有 Sidecar,它会尝试建立一个高度优化的、基于 mTLS 的隧道(关于mTLS后面会详细介绍)。如果此时 Nginx 发出的请求头(比如缺少 Host 字段,或者使用了 HTTP/1.0)不符合 Envoy 对这种隧道
协议的预期,Envoy 可能会向 Nginx 发送一个特殊的响应,或者 Nginx 在尝试通过这种隧道通信时,因为某些 Header 冲突(如 Connection: close)自发产生了 426 错误

想要解决这个问题有两种方法

改造nginx中加入标记

        location /test {
            proxy_http_version 1.1; # 必须添加这一行
            proxy_set_header Host $host; # 这一行也是必须的
            proxy_pass http://backend_ups;
        }

Nginx 的 proxy_pass 默认使用 HTTP/1.0。在 Istio 环境中,HTTP/1.0 不支持长连接(Keep-Alive)以及一些现代的协议协商,这与 Istio Sidecar(Envoy)默认的 L7 代理行为冲突,Istio 需要 HTTP/1.1 来支持复杂连接管理问题

改造backend service

如果nginx改造有难度,那也可以尝试改造backend-service

apiVersion: v1
kind: Service
metadata:
  name: backend-service
  namespace: default
spec:
  ports:
  - name: tcp-80 # 原为 http-80 改为 tcp-80
    port: 10000
    protocol: TCP
    targetPort: 10000
  selector:
    app: backend

Istio 只有在识别到流量是 HTTP 时才会进行深度的协议检查和转换。如果你把这个服务声明为 TCP,Istio 就会将其视为原始字节流进行透传,不再关心它是 HTTP/1.0 还是 1.1。优点就是彻底解决 426 问题,无需改 Nginx。
缺点则是你会失去 Istio 针对该服务的 HTTP 监控指标(如请求数、4xx/5xx 统计)、分布式追踪以及基于路径的路由功能

http 1.0 与 http 1.1

这里再简单介绍一下两个协议版本的区别

  • 连接管理(最显著的区别)

    • HTTP 1.0:短连接 (Short-lived),默认情况下,客户端每发起一个请求,都要与服务器建立一次 TCP 三次握手。请求结束并收到响应后,TCP 连接立即关闭。如果页面有 10 张图片,浏览器就要建立 10 次 TCP 连接。这带来了极高的延迟和资源开销。
    • HTTP 1.1:持久连接 (Persistent Connection / Keep-Alive)。默认开启 Connection: keep-alive。一个 TCP 连接可以被多个请求复用。只有在明确声明 Connection: close 或连接超时后才会关闭。
    • 在 Istio 中: Envoy 极度依赖持久连接来维持高性能的 Sidecar 间隧道。HTTP 1.0 的频繁断开会让 Envoy 感到“压力山大”,甚至认为这是一种非标准的协议行为。
  • Host Header

    • HTTP 1.0:人们认为一个 IP 对应一个网站,所以请求头里不需要带域名信息。
    • HTTP 1.1:随着虚拟主机(一个 IP 跑多个网站)的流行,HTTP 1.1 规定请求头必须包含 Host 字段。
    • 在 K8s/Istio 中: Istio 的路由决策、Service 的匹配完全依赖 Host 头。这也是为什么 Nginx 使用 HTTP 1.0 转发时,如果不手动补全 Host 头,后端往往会返回 404 或协议错误。

以上是istio必须要求HTTP 1.1最主要的两个因素,当然还有其他非常重要的区别

特性HTTP 1.0HTTP 1.1
连接模型默认短连接,每次请求新开 TCP默认持久连接 (Keep-Alive),复用 TCP
Host 头部可选 (导致无法支持虚拟主机)必须 (支持一 IP 多域名)
流水线 (Pipelining)不支持支持 (但在实际应用中受限)
断点续传不支持支持 (通过 Range 头部)
缓存控制简单 (Expires)复杂且强大 (Cache-Control, ETag)
默认协议版本许多旧软件(如 Nginx proxy)的默认值现代 Web 应用的基石标准

小结

本章内容算是一个开胃小菜,成功安装了istio,并且解决了一个非常常见的426问题,至于怎么把之前在envoy的那些最佳实践搬迁到istio,那就是后面的内容了,敬请期待

后记

如果整个namespace都已经有了注入标签istio-injection=enabled,但是某个deployment不想让istio注入

kubectl patch deployment nginx -p '{"spec":{"template":{"metadata":{"annotations":{"sidecar.istio.io/inject":"false"}}}}}'

联系我

  • 联系我,做深入的交流


至此,本文结束
在下才疏学浅,有撒汤漏水的,请各位不吝赐教...

作为量化开发工程师,在跨境策略研发中最头疼的莫过于数据问题:接口延迟导致高频策略失效、多市场数据整合口径不一、请求限额中断回测流程…… 数据接口的选型直接决定了开发效率与策略落地效果。

本文从技术视角出发,拆解跨境量化数据获取的核心痛点,深度对比 AllTick、Tushare、AAstocks 三款主流接口的技术特性、适配场景与性能表现,为开发者提供可落地的选型方案与效率优化思路。

一、跨境量化开发的 4 大核心数据技术痛点
在美股、港股等跨境策略开发中,以下技术层面的问题直接制约研发效率,甚至导致策略无法落地:

  • 实时性不达标,高频交易架构难支撑:高频策略对数据延迟的容忍度极低,部分接口 1-3 秒的延迟完全无法满足盘口级、逐笔级数据需求,即使是 500ms 的延迟也可能导致套利窗口关闭,且缺乏 WebSocket 实时推送支持,需通过轮询获取数据,额外占用服务器资源;
  • 多市场数据异构,整合成本高:多数接口仅支持单一市场数据输出,美股、港股数据需跨平台抓取,不同接口的数据格式、时间戳标准不一致,需编写大量适配代码进行清洗、对齐,增加开发工作量与出错概率;
  • 请求限制严苛,批量处理效率低:部分接口每日 500 次、每月 5 万次的请求限额,无法支撑大规模历史数据回测(如 5 年以上逐笔数据批量调取),频繁触发限额会中断自动化回测流程,延长研发周期;
  • 接口稳定性不足,运维成本高:部分接口服务间断性中断,缺乏完善的异常重试机制,手动爬虫获取数据还需应对反爬策略、IP 封禁、服务器维护等问题,分散核心开发精力。

这些痛点在量化开发全流程中尤为突出:回测阶段因历史数据不完整或格式异常,导致策略逻辑验证失真;实盘阶段因数据延迟或服务中断,使得交易信号执行滞后;接口变更时因缺乏兼容设计,需重构数据接入模块。

二、3 款主流数据接口核心技术维度对比
结合跨境量化开发的技术需求(低延迟、高可用、标准化、易集成),从技术特性、性能表现、成本等核心维度进行对比分析,为开发选型提供参考:
截屏2026-01-29 上午10.24.47.png

三、不同开发场景的技术选型与集成建议

(一)多市场高频策略开发 / 跨市场套利
技术选型:AllTick,核心技术优势适配高频开发需求:

  • 毫秒级延迟与 WebSocket 实时推送功能,可直接对接高频交易架构,减少轮询带来的资源消耗与延迟叠加,确保交易信号与市场同步;
  • 多市场数据格式标准化,字段定义统一、时间戳精确到毫秒级,无需额外编写大量数据清洗与对齐代码,降低集成难度,提升开发效率;
  • 每秒 10 次的免费层请求速率与批量导出功能,支持 5 年以上逐笔数据的大规模调取,可无缝对接自动化回测框架,避免因请求限额中断流程;
  • 完善的异常重试机制与稳定的服务可用性,减少因数据服务中断导致的实盘风险,降低运维成本;
  • 从成本角度,每月 100 万次请求 99 美元的定价,在高频开发场景中具备显著的性价比优势,适合中小团队控制研发成本。
    集成建议:优先使用官方 SDK 对接量化框架,通过 WebSocket 订阅实时行情,批量 API 导出历史数据,利用其提供的异常回调接口处理网络波动,确保数据传输稳定性。

(二)A 股低频因子研究 / 教学场景开发
技术选型:Tushare,聚焦单一市场低频开发需求:

  • A 股数据覆盖全面,字段丰富,且接口调用简单、文档清晰,易集成到教学演示项目或低频策略开发框架中;
  • 免费层每日 500 次请求足以支撑小规模回测与因子研究,无需为跨境功能支付额外成本,适合初创团队或教学场景的成本控制;
  • 需注意:其不支持美股、港股数据与实时推送功能,技术架构仅适配低频场景,无法满足高频或跨境开发需求。
    集成建议:通过 Python SDK 直接调取 A 股数据,结合 Pandas 进行简单数据处理,适合快速验证低频策略逻辑,无需复杂的架构设计。

(三)美股 / 港股基础分析 / 中低频开发
技术选型:AAstocks(备选),仅适配基础开发需求:

  • 基础行情数据可满足非高频场景的开发需求,接口调用方式简单,适合入门级开发者快速获取数据;
  • 技术局限性明显:1-3 秒的延迟无法支撑高频交易,数据格式异构需编写大量适配代码,每月 5 万次请求限额难以支撑大规模回测,且无批量导出功能,开发效率较低;
  • 仅建议在无高频需求、无需大规模数据处理的基础开发场景中选用,核心开发场景不推荐作为主力接口。
    集成建议:提前编写数据格式转换工具类,缓存基础数据减少接口调用次数,避免触发请求限额,同时增加异常处理逻辑应对服务不稳定问题。

四、量化开发选型的核心技术原则

  1. 性能优先,匹配架构需求:高频策略开发优先考察延迟、推送机制与并发支持,低频开发可侧重数据覆盖与集成难度,避免过度设计或性能不足;
  2. 降低集成成本:优先选择文档完善、SDK 丰富、格式标准化的接口(如 AllTick),减少适配代码开发量,将精力聚焦于策略核心逻辑;
  3. 稳定性与可维护性并重:选择服务可用性高、具备异常处理机制、技术支持响应及时的接口,降低后期运维成本,避免因接口问题导致策略下线;
  4. 成本与需求平衡:根据开发场景选择对应层级的服务,高频大规模开发可选择性价比高的接口,基础场景无需为冗余功能付费。

数据接口是跨境量化开发的技术基石,选型的核心是 “技术特性与开发需求的精准匹配”。最终选型需结合自身技术架构、开发场景与成本预算,通过技术验证测试接口的延迟、稳定性与集成难度,确保接口工具能真正提升开发效率,支撑策略落地。

引言:一个正在发生的角色转变

在人工智能技术持续演进的背景下,2026 年正在成为企业级 AI 应用的重要分水岭。随着大模型能力跃迁、多模态交互成熟以及智能体框架的工程化落地,AI 在企业中的定位正在发生本质变化。

AI 不再仅被视为提升效率的技术工具,而是逐步演变为参与业务构建与运行的结构性要素。这种变化,标志着企业正在从“AI 赋能业务”走向“AI 与业务共建”。

一、概念重构:从外挂式赋能到原生化共建

1. 赋能:以业务为中心的工具逻辑

在早期阶段,AI 通常以局部优化工具的形式存在。其典型特征包括:

  • 业务流程既定,AI 事后接入
  • 算法服务于单点任务(预测、识别、推荐)
  • AI 不参与业务目标的定义与调整

在这一模式下,业务是主体,AI 是插件,其价值主要体现为效率提升或成本下降。

2. 共建:业务与算法的协同生成逻辑

“共建”代表一种原生化的协同范式。AI 不再是流程末端的工具,而是从业务设计之初就作为核心要素参与其中:

  • 业务目标与模型能力同步定义
  • 决策逻辑由人机协同共同完成
  • 业务形态会因 AI 的介入而发生结构性变化

在共建模式下,业务不再只是被 AI 优化,而是与 AI 一起被“生成”

二、能力载体转变:从模型到智能体

共建关系的实现,依赖于 AI 承载形态的升级——智能体(Agent)成为关键中枢。

1. 智能体的基础能力结构

一个可参与业务共建的智能体,通常具备以下能力组合:

  • 感知能力:处理文本、图像、语音及结构化数据
  • 记忆能力:理解并保持业务上下文与历史状态
  • 规划能力:将复杂目标拆解为可执行路径
  • 执行能力:调用工具、系统或 API 形成业务闭环

当行业开始普遍观察到“智能体来了”这一现象时,AI 已从“信息输出者”转向“行动参与者”。

2. 行业中的典型表现

以供应链场景为例,AI 不再仅输出需求预测结果,而是能够综合库存、成本、履约风险等多维约束,直接生成决策方案,甚至触发执行动作。这种变化,本质上是 AI 从辅助分析走向业务协同决策

三、业务系统的三项结构性调整

要实现 AI 与业务的深度共建,企业需要对既有体系进行系统性重构。

1. 数据逻辑:从资产管理到知识表达

共建模式下,数据的核心价值不再只是存储与统计,而是是否可被模型理解与推理

  • 数据形态从表结构转向知识结构
  • 知识库成为模型决策的重要输入
  • 检索增强生成(RAG)成为连接业务知识与通用模型的关键机制

2. 流程逻辑:从线性执行到目标驱动

传统流程以 SOP 为核心,而共建流程以目标为导向:

  • 人类设定业务目标与边界
  • AI 动态选择实现路径
  • 执行结果实时反馈并影响后续决策

流程由静态执行,转向持续调整的闭环系统

3. 评价逻辑:从模型指标到业务贡献

在共建场景中,评价体系开始发生迁移:

  • 从准确率转向任务完成度
  • 从单点效果转向协同效率
  • 从短期指标转向系统鲁棒性

AI 的价值,体现在其对业务稳定性与适应能力的长期贡献。

四、现实挑战与治理方向

共建模式并非没有阻力,其挑战主要集中在三个层面:

  • 技术层面:输出不确定性与模型幻觉
  • 组织层面:业务与技术边界固化
  • 治理层面:决策透明度与责任归属

应对的关键,不在于完全消除风险,而在于建立可容错、可回溯、可持续优化的反馈机制

结语:从工具关系走向共生系统

从“赋能”到“共建”,并不是一次简单的技术升级,而是一种生产关系的重构

AI 正逐步成为企业运行系统中的一部分,与业务共同进化。未来的竞争优势,将不再取决于谁率先引入 AI,而取决于谁能构建起人机协同、持续演化的业务系统

在这一进程中,AI 不再是外部接入的能力,而是嵌入组织内部、与业务逻辑共生的“神经结构”。

摘要:
美的面临传统数据中心技术栈陈旧、公有云成本高昂、多云孤岛等挑战,选择以 OceanBase 为关键支撑构建云中立的多云统一数字化底座。OceanBase 可以全面兼容原数据库,具备多租户能力,实行大集群管理模式。其成功承载核心业务,既解决多云管理难题,又实现降本节能与安全合规,为企业全球化提供坚实支撑。

美的集团是全球家电行业的领军企业。2024 年,集团全年营收达 4091 亿元人民币,位列《财富》世界 500 强第 246 位。经过多年的发展,其业务版图早已超越家电,延伸至楼宇科技、工业技术、机器人与自动化、医疗健康及智慧物流等众多领域。美的不仅致力于提升其在国内市场的优势,同时也积极布局海外市场,推动国内外业务的均衡发展。

为实现这一战略目标,美的积极推动数字化转型,并以 OceanBase 数据库为关键支撑,构建了一套云中立、多云统一的数字化底座,更以云原生、统一架构与安全合规为核心能力,为 AI 应用落地、全球业务敏捷拓展及系统持续演进奠定了坚实基础。

当全球化业务遇上传统 IT 架构

对于年营收超 4000 亿元且正处于全球化进程中的美的而言,一套既能灵活响应业务变化,又能实现统一管控的数字化系统至关重要。这正是刘向阳的核心任务之一。

作为美的集团首席信息安全官(CISO)兼软件工程院院长,刘向阳同时负责集团数字化底座的整体建设与信息安全体系。然而,这条路并不好走。无论是传统的自建数据中心,还是直接采用公有云,都无法完全满足美的的复杂业务需求。

刘向阳介绍,传统数据中心建设虽初期成本较低,但往往面临技术栈陈旧、产品组合杂乱、系统稳定性不足以及安全隐患较多等问题。而公有云虽具备弹性与灵活性,却同样存在成本高昂、多云环境互操作性差、数据孤岛以及运维复杂等挑战。

“我们的核心数字化系统要部署在自建数据中心,海外业务则依托公有云作为基础设施。这自然带来了数据中心与多云管理的复杂性。”刘向阳解释道。

美的没有二选一,而是选择了一条融合之路——构建云中立的多云统一数字化底座。该平台融合私有数据中心和公有云两者的优势,实现了技术体系的统一:它既可以部署在数据中心内,其技术栈与当前主流的公有云原生体系保持一致;同时,它也能直接部署在公有云上,并确保“云下云上”架构一致,升级时无需进行代码改造。

“更重要的是,这是一个操作系统级别的统一底座。它实现了软硬件的解耦,能将分布在所有公有云及数据中心的资源整合成单一资源池,实现统一调度、管理与纳管,甚至提供统一的地址空间。对上层应用而言,仿佛始终运行在同一个数据中心内。”刘向阳强调。

同时,美的的数字化底座是一个全功能的企业级云平台,不仅有交付资源的 IaaS 层、为应用提供支持的 PaaS 层,还有负责运维和安全的运维管理系统等。其中,数据库平台是核心模块,而 OceanBase 的引入极大提升了该平台的成熟度,并为后续各类应用与服务提供了强劲支撑。

从传统集中式数据库到 OceanBase 的架构升级

美的早期的应用系统主要基于传统集中式数据库开发。随着美的全面推进云化以及加强技术的自主掌控,近年来新增应用已经全部转向自主研发数据库。在此背景下,OceanBase 进入了美的视野,成为数据库管理平台的核心组件,承接关键业务的数据负载。

刘向阳表示,升级至 OceanBase ,除了国产升级这个大的行业背景外,更有现实需求:原来的 IOE 架构整体 TCO 高、扩展能力有上限,导致业务系统的处理逻辑复杂。而作为关键组件的传统集中式单机数据库面对互联网和 5G 时代下不断激增的用户数和并发量,难以满足未来业务弹性扩缩容。

基于上述原因,美的决定对数据库系统进行升级,选择 OceanBase 来承担这一重任,主要基于以下考量:

首先, OceanBase 全面兼容原数据库,功能完全覆盖原有功能点,并且提供迁移工具与解决方案,避免了上千万行代码重写,实现应用真正平滑升级,高效完成核心数据库升级改造;

其次, OceanBase 具备多租户能力,支持动态弹性调整租户计算资源,能敏捷地应对业务负载变化,轻松应对年度“开门红”等业务高峰;

第三, OceanBase 大集群管理模式,通过集中化管控、平台化管理,整合竖井式应用,避免集中式架构的资源浪费。同时,多个集群使用同一套 OCP 集群进行运维管控,提高了管理效率。

此外,OceanBase 的云中立特性也非常契合美的构建“云中立的多云统一数字化底座”这一目标。目前,OB Cloud 已稳定运行于阿里云、华为云、腾讯云、百度智能云、AWS、Azure、GCP 七大主流云基础设施,应用无需改造即可“一套架构、全球运行”。这一能力正成为美的出海的关键支撑,为其全球化布局提供了充分的灵活性。

不止于降本,更是业务敏捷与安全的基石

经过周密部署与精心筹备,OceanBase 数据库已成功在美的集团落地,并顺利承载了工厂 MES 系统、供应链管理系统、中台系统等多个核心业务系统的运行。其稳定高效的表现,为美的集团带来了显著的商业价值。

1. 成本节约。用普通 PC 服务器替代传统的小型机加集中式存储架构,大幅降低了硬件采购成本。同时,OceanBase 数据库卓越的数据压缩技术将数据存储容量缩减了 88%,进一步节省了存储成本,实现了软硬件成本的双重优化。

2. 强大平台化管理功能。OceanBase 数据库提供强大平台化管理功能,实现了应用的集中化管控、统一资源分配与高效运维,提升了管理效率和资源利用率。

3. 高可用性与安全。OceanBase 数据库实现了 RPO=0 的高级别跨城市容灾能力,能满足金融行业的严苛要求。同时,其全链路透明加密技术为数据提供了全方位的安全防护,有效防止了数据泄露风险,保障了企业数据资产的安全。

4. 绿色节能。OceanBase 数据库的应用还带来了显著的绿色节能效果。通过提高数据库服务器及存储机柜的数量利用率,降低了设备功率消耗,节约了大量电力资源,积极响应了国家“双碳”战略,为企业可持续发展贡献了力量。

结语

通过构建云中立、多云统一的数字化底座,并引入 OceanBase 作为核心数据库支撑,美的不仅实现了传统系统的平滑升级与全面云化,更在成本控制、弹性扩展、安全加固及全球业务响应速度上取得了显著提升。

如今,这一数字化底座不仅服务于美的自身的数字化转型,也正通过商业化输出,为更多制造企业提供可借鉴的云原生、智能化、安全合规的数字化底座范本,助力更多企业在 AI 时代的竞争中构筑坚实底座。

欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/

大家好,我是R哥。

最近 Agent Skills 大火了,大家都在用 Skills 提升效率,很多 MCP 的功能已经被 Skills 代替了,MCP 已经失去了当初的光芒。

在《Claude Skills 彻底爆了,从实现原理到 Claude Code、CodeX、OpenCode 实战,一网打尽!》这篇文章中,我介绍了 Skills 的原理、创建及使用,今天我再来详细分享下市面上的 Skills。

现在市面上充斥着各种 Skills 导航站,GitHub 上各种 Skills 仓库也是层出不穷,功能也是五花八门。

最近我就在 GitHub 上发现了一个非常不错的 Skills 仓库:Awesome Claude Skills,地址如下:

https://github.com/ComposioHQ/awesome-claude-skills

目前该仓库已经狂收 26000+ 个 Star,收集了目前市面上主流的 Claude Skills,分类非常详细,涵盖了文档处理、开发与代码工具、数据与分析、商业与营销、沟通与写作、创意与媒体、效率与组织、协作与项目管理、安全与系统等多个方面。

我整理并翻译了该仓库的完整内容,大家可以收藏一下

Awesome Claude Skills

文档处理

Skill作用地址
docx用追踪修改、批注和格式化功能,轻松创建、编辑和分析 Word 文档。https://github.com/anthropics/skills/tree/main/skills/docx
pdf提取文本、表格、元数据,合并与标注 PDF 文件。https://github.com/anthropics/skills/tree/main/skills/pdf
pptx读取、生成和调整幻灯片、布局与模板。https://github.com/anthropics/skills/tree/main/skills/pptx
xlsx电子表格操作:公式、图表、数据转换。https://github.com/anthropics/skills/tree/main/skills/xlsx
Markdown to EPUB Converter将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。https://github.com/smerchek/claude-epub-skill

开发与代码工具

Skill作用地址
artifacts-builder一套利用现代前端 Web 技术(如 React、Tailwind CSS、shadcn/ui)构建复杂多组件 Claude.ai HTML 资产的工具集。https://github.com/anthropics/skills/tree/main/skills/web-artifacts-builder
aws-skills结合 CDK 最佳实践的 AWS 开发,包含成本优化的 MCP 服务器和无服务器/事件驱动架构模式。https://github.com/zxkane/aws-skills
Changelog Generator通过分析 Git 提交历史,自动将技术性提交转换为用户友好的发布说明,生成面向用户的变更日志。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/changelog-generator
Claude Code Terminal Title给每个 Claude-Code 终端窗口动态设置标题,清晰展示当前正在执行的任务,再也不用担心搞混哪个窗口在干啥了。https://github.com/bluzername/claude-code-terminal-title
D3.js Visualization教会 Claude 生成 D3 图表和交互式数据可视化。https://github.com/chrisvoncsefalvay/claude-d3js-skill
FFUF Web Fuzzing集成 ffuf 网络模糊测试工具,让 Claude 能执行模糊测试并分析漏洞结果。https://github.com/jthack/ffuf_claude_skill
finishing-a-development-branch通过清晰的选项引导开发任务的收尾,并处理选定的工作流程。https://github.com/obra/superpowers/tree/main/skills/finishing-a-development-branch
iOS Simulator让 Claude 能够与 iOS 模拟器交互,方便测试和调试 iOS 应用。https://github.com/conorluddy/ios-simulator-skill
jules把编码任务交给 Google Jules AI 代理,异步处理 GitHub 仓库中的 bug 修复、文档编写、测试和功能实现。https://github.com/sanjay3290/ai-skills/tree/main/skills/jules
LangSmith Fetch通过自动从 LangSmith Studio 获取并分析执行轨迹,轻松调试 LangChain 和 LangGraph 代理。这是 Claude Code 首个 AI 可观测性技能。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/langsmith-fetch
MCP Builder指导你用 Python 或 TypeScript 创建高质量的 MCP(模型上下文协议)服务器,轻松将外部 API 和服务集成到 LLM 中https://github.com/ComposioHQ/awesome-claude-skills/blob/master/mcp-builder
move-code-quality-skill根据官方《Move Book》2024 版代码质量检查清单,分析 Move 语言包是否符合规范和最佳实践https://github.com/1NickPappas/move-code-quality-skill
Playwright Browser Automation由模型调用的 Playwright 自动化工具,用于测试和验证 Web 应用程序。https://github.com/lackeyjb/playwright-skill
prompt-engineering教你那些经典的提示工程技巧和模式,包括 Anthropic 的最佳实践和智能体说服原则,让你的提示效果直接拉满!https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/customaize-agent/skills/prompt-engineering
pypict-claude-skill用 PICT(成对独立组合测试)为需求或代码设计全面的测试用例,自动生成覆盖成对组合的优化测试套件。https://github.com/omkamal/pypict-claude-skill
reddit-fetch当 WebFetch 被封或返回 403 错误时,用 Gemini CLI 从 Reddit 获取内容。https://github.com/ykdojo/claude-code-tips/tree/main/skills/reddit-fetch
Skill Creator手把手教你打造高效的 Claude 技能,通过专业领域知识、工作流和工具集成。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/skill-creator
Skill Seekers几分钟内就能把任何文档网站自动变成 Claude AI 技能。https://github.com/yusufkaraaslan/Skill_Seekers
software-architecture实现了包括 Clean Architecture、SOLID 原则以及全面的软件设计最佳实践在内的设计模式。https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/ddd/skills/software-architecture
subagent-driven-development为每个任务分派独立的子代理,并在迭代之间设置代码审查检查点,实现快速且可控的开发。https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/sadd/skills/subagent-driven-development
test-driven-development在编写实现代码之前,用来实现任何功能或修复 bug 时使用。https://github.com/obra/superpowers/tree/main/skills/test-driven-development
using-git-worktrees通过智能目录选择和安全验证,创建隔离的 Git 工作树。https://github.com/obra/superpowers/blob/main/skills/using-git-worktrees/
Connect把 Claude 接入任何应用。发邮件、创建问题、发消息、更新数据库……跨 Gmail、Slack、GitHub、Notion 以及 1000 多种服务。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/connect
Webapp Testing用 Playwright 测试本地 Web 应用,验证前端功能、调试 UI 行为、抓取截图。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/webapp-testing

数据与分析

Skill作用地址
CSV Data Summarizer无需用户提示,自动分析 CSV 文件并生成包含可视化图表的全面洞察。https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill
deep-research使用 Gemini 深度研究代理执行自主的多步骤研究,适用于市场分析、竞争格局分析和文献综述。https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research
postgres支持多连接的 PostgreSQL 数据库安全只读 SQL 查询,具备纵深防御安全机制。https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres
root-cause-tracing当执行过程中出现深层错误时,用于回溯查找最初的触发点。https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing

商业与营销

Skill作用地址
Brand Guidelines将 Anthropic 官方的品牌配色和字体应用到各类设计素材中,确保视觉形象统一,达到专业级的设计标准。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines
Competitive Ads Extractor从广告库中抓取并分析竞争对手的广告内容,帮你搞清楚哪些传播话术和创意形式真正能打动人。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor
Domain Name Brainstormer生成创意十足的域名想法,并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer
Internal Comms帮你撰写内部沟通内容,比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新,还能根据公司特定格式来排版。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms
Lead Research Assistant通过分析你的产品、搜索目标公司,帮你识别和筛选高质量的潜在客户,并提供可执行的 outreach 策略。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant

沟通与写作

Skill作用地址
article-extractor从网页中提取完整文章内容和元数据。https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor
brainstorming通过结构化提问和多角度探索,把零散的点子打磨成完整的设计方案。https://github.com/obra/superpowers/tree/main/skills/brainstorming
Content Research Writer帮你搞定高质量内容创作,从调研、引用、优化开头,到逐段反馈。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer
family-history-research协助规划家族历史和家谱研究项目,帮你挖出那些被遗忘的家族故事。https://github.com/emaynard/claude-family-history-research-skill
Meeting Insights Analyzer分析会议录音,扒出行为模式,比如回避冲突、发言比例、口头禅,还有领导风格,一目了然。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer
NotebookLM Integration让 Claude Code 直接与 NotebookLM 对话,基于上传的文档提供有据可依的答案。https://github.com/PleasePrompto/notebooklm-skill
Twitter Algorithm Optimizer利用推特开源的算法洞察,分析并优化推文,实现最大传播效果。重写和编辑推文,提升互动率和曝光度https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer

创意与媒体

Skill作用地址
Canvas Design通过设计哲学和美学原则,为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design
imagen利用 Google Gemini 的图像生成 API,生成 UI 原型、图标、插图和视觉资产。https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen
Image Enhancer通过提升分辨率、清晰度和锐度,优化图像和截图质量。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer
Slack GIF Creator专为 Slack 优化的动画 GIF 生成工具,内置尺寸限制校验和可组合的动画基础组件。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator
Theme Factory一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题,提供 10 种预设风格。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory
Video Downloader支持从 YouTube 及其他平台下载视频,方便离线观看、剪辑或存档,兼容多种格式和清晰度。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader
youtube-transcript自动抓取 YouTube 视频字幕并生成摘要。https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript

效率与组织

Skill作用地址
File Organizer通过理解上下文智能整理文件和文件夹,自动识别重复文件,并推荐更合理的组织结构。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/file-organizer
Invoice Organizer自动整理发票和收据,用于税务准备,能读取文件、提取信息并统一命名。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/invoice-organizer
kaizen基于日本精益管理和 Kaizen 哲学,采用多种分析方法,持续优化流程,实现不断改进。https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/kaizen/skills/kaizen
n8n-skills让 AI 助手直接理解并操作 n8n 工作流。https://github.com/haunchen/n8n-skills
Raffle Winner Picker从列表、表格或 Google Sheets 中随机选出中奖者,用于抽奖和比赛,用的是加密安全的随机数。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/raffle-winner-picker
Tailored Resume Generator分析职位描述,自动生成突出相关经验、技能和成就的定制简历,帮你把面试机会最大化。https://github.com/ComposioHQ/awesome-claude-skills/blob/master/tailored-resume-generator
ship-learn-next一个帮你迭代下一步该做什么或学什么的技能,基于反馈循环不断优化。https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/ship-learn-next
tapestry把相关文档串联起来,自动生成知识网络,就像织出一张智慧之网。https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/tapestry

协作与项目管理

Skill作用地址
git-pushing自动化 Git 操作和仓库交互,省心又高效,再也不用手动推代码了。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing
google-workspace-skills一套 Google Workspace 集成工具:Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘,支持跨平台 OAuth 登录。https://github.com/sanjay3290/ai-skills/tree/main/skills
outline在 Outline 维基实例(云端或自托管)中搜索、阅读、创建和管理文档。https://github.com/sanjay3290/ai-skills/tree/main/skills/outline
review-implementing评估代码实现方案,并确保与需求 specs 对齐。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing
test-fixing检测失败的测试用例,并提出补丁或修复方案。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing

安全与系统

Skill作用地址
computer-forensics数字取证分析与调查技术。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics
file-deletion安全删除文件和数据清理方法。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion
metadata-extraction提取并分析文件元数据,用于取证目的。https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction
threat-hunting-with-sigma-rules利用 Sigma 检测规则来追踪威胁并分析安全事件。https://github.com/jthack/threat-hunting-with-sigma-rules-skill

如何使用这些 Skills

在《Claude Skills 彻底爆了,从实现原理到 Claude Code、CodeX、OpenCode 实战,一网打尽!》这篇文章中,我介绍了 Skills 的原理、创建及使用。

下面我就拿其中一个 Skill 举例,看如何来使用这些 Skills。

1、首先将该对应的 Skill 下载到本地,比如我选择一个 git-pushing Skill。

2、把它复制到 ~/Users/John~/.claude/skills 目录下面。

3、这是一个提交 Git 的 Skill,所以,我们可以使用 commit and push 或者 "提交并推送" 等自然语言来自动调用这个 Skill。

如下图所示:

一句话就提交代码了,都不用自己想提交说明了,提交说明是和当前的变更文件是一致的,但是提交说明是英文的,有需要可以自己修改下 Skill 代码来实现中文提交说明。

总结

Skills 这波爆火,我的理解就一句话,把你每天重复干的事,做成可复用的动作,你不用每次从 0 写提示词,也不用记一堆参数,挑对 Skill 直接开干,省心还稳定。

这篇我把 Awesome Claude Skills 这个仓库过了一遍,真要落地,别一上来就装一堆,可能大部分你都用不到,不然也会影响加载效率。。

建议先从最刚需的 1 - 2 个场景开始,先跑通一次 “输入 - 处理 - 输出” 的闭环,再把你常用的操作固化成自己的 Skill 和话术。

这样用下来,效率提升会很实在,而且越用越顺。

未完待续,R哥持续分享更多 AI 编程经验,包括更加复杂的 Skills 使用,关注我一起学 AI。

⚠️ 版权声明:

本文系公众号 "AI技术宅" 原创,转载、引用本文内容请注明出处,抄袭、洗稿一律投诉侵权,后果自负,并保留追究其法律责任的权利。