(自组)互联网综合题

一些自组的一些网上抄的。
才发现有满分的。
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。

一些自组的一些网上抄的。
才发现有满分的。
近日,北京才多对信息技术有限公司( True Talents Connect ,以下简称“ TTC ”)宣布完成 A 轮千万美元级融资。本轮融资由厚雪资本领投,百度战略投资。此前,TTC 自研的 AI Agent 产品“小麦招聘”获第三届百度“文心杯”创业大赛一等奖,此次融资标志着其正式融入百度生态的新阶段。 本轮融资将主要用于强化 AI 大模型与 Agent 技术研发,持续升级“小麦招聘”产品体验,并深化在 AI 及硬科技赛道的人才服务专业团队建设。 自创立以来,TTC 聚焦 AI 及前沿科技赛道,围绕“ AI +猎头”模式,为企业提供关键人才解决方案,致力于用科技( AI )高效连接人才与机会。 其核心团队兼具猎头基因与 AI 技术视野:TTC 创始人兼 CEO 肖玛峰 Max 拥有 17 年高端猎头行业经验,曾参与打造国内领先的中高端猎头品牌;联合创始人兼 CTO 宁辽原具备微软(美国)及字节跳动技术背景,长期深耕 AI 架构与模型落地,为公司 AI 能力与产品化提供持续支撑。 2025 年被视为 TTC 的 AI 元年。其推出核心产品「小麦招聘」,将顶尖猎头的判断逻辑与行业知识解码为结构化模型,赋能 AI Agent ,实现求职及招聘全链路的智能化升级,推动“人人都有一个专业 AI 猎头顾问”成为可能。产品上线仅 4 个月,已获得百度「文心杯」、量子位「 AI 100 创新产品」、创业北京「创业创新大赛」等多个行业奖项。 伴随 AI 能力在业务中的全面落地,TTC 2025 年累计服务超千家 AI 领域科技企业及头部大厂,推荐岗位达数万次,年营收同比增长超 50 %,业务增长势头强劲。 厚雪资本创始合伙人侯昊翔 Roger : “投资 TTC ,源于我们一个核心判断:在 AI 时代,人才是终极的基础设施。TTC 所做的,正是帮助企业科学地组合与迁移关键人才,通过精准配置与协同设计,让不同能力在合适的时点形成共振,产生‘ 1+1>11 ’的创造力。 更打动我们的是团队对‘激发人’的深刻理解——他们清楚地认识到,顶尖的人才服务是专业能力与判断艺术的结合,是成为点燃人才潜力的‘催化剂’。与此同时,Max 和团队拥有顶尖的行业经验,却始终保持着创业者的谦逊与初心,这让我们相信他们能走得更远。 对厚雪而言,这同样是一次重要的战略协同。作为一家同样具有创业心态的机构,我们看好 TTC‘ AI 赋能顾问’与‘平台直接连接’的双轨模式。这不仅是对传统招聘痛点的革新,也为我们共同深入 AI 产业核心人群、持续积累认知与资源提供了新的入口。我们期待与这样的长期主义者同行,共同见证 AI 人才服务从‘高端配置’到‘ AI 时代企业基石’的变革。” 百度: “我们始终认为,只有当 AI 被内化为一种原生的能力,才能真正在各行各业引爆生产力革命。TTC 正是这一理念在人力资源行业的出色实践者。 作为第三届百度‘文心杯’创业大赛一等奖项目,「小麦招聘」没有简单地将 AI 作为工具,而是将顶尖猎头的专业服务能力重构为原生 AI Agent ,这让高效、精准的人才匹配从‘高端服务’变成了可广泛触达的智能基础。 百度此次战略投资并开放生态资源,正是希望与 TTC 携手,加速 AI 原生能力在人力资源领域的深度渗透,共同将‘智能红利’转化为支撑万千企业发展的‘人才红利’,进而转化为‘社会红利’。” 未来,TTC 将继续秉持“用科技( AI )高效连接人才与机会”的使命,深化 AI 技术与人才服务的融合,让每一次人才连接,都更智能、更精准、更值得信赖。 https://jxog8b3tny.feishu.cn/file/DxjWbNenpoe17NxaZ9zcPE1Jnlh?from=from_copylink (点击链接下载)
部署在Byet系列免费主机的网站,在浏览器首次访问时链接都会跳转到 中转页面(如下图),中转页面 是经过加密后的页面,判断是否存在相应的 cookies,如果不存在就跳转到中转页面(原链接 +?i=1)。 主机管理员说这是主机的设定,通过验证 cookies 来防止非法访问。但是对 SEO 和 GEO 来说,搜索引擎蜘蛛是无法爬取到真实页面内容,并且对于一些带 API 接口网站也是不友好的,请求 API 时都无法返回想要的结果。 针对 Byet 系列免费主机的一些限制,有以下两种处理方法: 示例页面 1:没有删除链接中的?i=1 https://how-to-remove-i-1.infinityfree.me/no_delete.html 示例页面 2:自动删除链接中的?i=1 https://how-to-remove-i-1.infinityfree.me/delete_i_1.html 在页面头部添加以下代码,可以实现自动删除?i=1 方法一只是针对浏览器用户优化,更好的优化选择方法二。 优化代码在 GitHub 仓库:https://github.com/openlablog/optimizing-api-seo-geo-for-byet
一、删除链接中的?i=1
<head>
<meta charset="UTF-8" />
<title>示例网站:自动删除链接中的?i=1</title>
<script>
let delete_i = new URL(location.href)
delete_i.searchParams.delete('i')
history.pushState({}, '', delete_i.href)
</script>
</head>
二、优化 API 请求、SEO 和 GEO
我 Googlemap 随便找了个 手机号填的我的美国号 亚马逊是前几天新号 用了万事达的卡都不行 一直转圈圈
各们好,最近在折腾 sing-box 的全局代理,发现同样的配置在新装的虚拟机 win10 和另一台闲置的 win10 上都无问题。但是放到自己的两台电脑上就死活不通了;最后把配置简化到 tun 透传 direct ,也是同样的状况。折腾几天了,实在想不到什么问题了,有懂的人麻烦指点一二。
测试命令是 curl -v https://www.baidu.com , 症状是
* Host www.baidu.com:443 was resolved.
* IPv6: (none)
* IPv4: 180.101.49.44, 180.101.51.73
* Trying 180.101.49.44:443...
* connect to 180.101.49.44 port 443 from 0.0.0.0 port 52489 failed: Timed out
* Trying 180.101.51.73:443...
* connect to 180.101.51.73 port 443 from 0.0.0.0 port 58474 failed: Timed out
* Failed to connect to www.baidu.com port 443 after 42582 ms: Could not connect to server
* closing connection #0
curl: (28) Failed to connect to www.baidu.com port 443 after 42582 ms: Could not connect to server
以下是简化后在自己电脑上仍有问题的配置
{
"log": {
"disabled": false,
"level": "trace",
"timestamp": true,
"output": ""
},
"inbounds": [{
"type": "tun",
"tag": "tun-in",
"interface_name": "singbox-tun",
"address": ["192.0.2.0/24"],
"route_address": ["0.0.0.0/1", "128.0.0.0/1", "::/1", "8000::/1"],
"route_exclude_address": [
"10.0.0.0/8",
"172.16.0.0/12",
"192.168.0.0/16",
"fc00::/7"
],
"auto_route": true,
"strict_route": false
},
{"tag": "dns-in","type": "direct","listen": "127.0.0.1","listen_port": 53}
],
"outbounds": [
{"type": "direct","tag": "direct"},
{"type": "block","tag": "block"}
],
"dns": {
"strategy": "prefer_ipv4",
"servers": [
{"type": "local","tag": "local-dns"},
{"type": "udp","tag": "cn-dns","server": "119.29.29.29"}
],
"rules": [
{"inbound": ["tun-in"],"server": "cn-dns"}
]
},
"route": {
"auto_detect_interface": true,
"default_domain_resolver": "local-dns",
"final": "direct",
"rules": [
{"action": "sniff"},
{"protocol": "dns","action": "hijack-dns"},
{"ip_is_private": true,"outbound": "direct"},
{"inbound": ["tun-in"],"outbound": "direct"}
]
}
}
搞了个 airpodspro3 ,手机出厂的 ios18 连电量都显示不了,在考虑升级哪台手机。
目前 16e 主力,16pm 备。都是初始系统没升过,平时使用手机频率不算高,没必要升级系统。
还拿不准升哪台上去。刚看了下现在是 26.2.1 ,如果升 16e ,续航时间会差的多吗?手机也是出厂 11.1 的系统,升 26 的话还能不能配对?
目前做了个小工具,想给对方试用,但是如果没有域名和没有备案,ip 打开报危险(微信直接打不开)。
马上 2 月了,有什么最快的方式能够给他们体验,最好绕过备案这一步,域名什么的都没有要求
目前做了个小工具,想给对方试用,但是如果没有域名和没有备案,ip 打开报危险(微信直接打不开)。
马上 2 月了,有什么最快的方式能够给他们体验,最好绕过备案这一步,域名什么的都没有要求
比如西美鸥 Western Gull




比如西美鸥 Western Gull




如题,大家也是这样吗,会不自觉的去看,虽然没看出啥子东西。
开盘即涨停📈
平稳在 9%震荡
9 点半开盘最高:9.5%
10 点一波震荡跌到:2%
11 点拉盘:6%
在智能体(AI Agent)的工程实践中,一个反复出现的问题是: 系统的确定性边界,应当由规则先行,还是由模型先探索? 这一问题并非技术路线的优劣之争,而是工程范式在不同阶段的职责分配问题。 在工程体系中,规则驱动与模型驱动并不对应“智能程度”的高低,而是承担着不同的系统职能。 规则驱动(Rule-based) 模型驱动(Model-based) 两者的核心差异,在于是否负责定义系统边界。 在系统尚未稳定之前,先使用规则还是模型,取决于业务本身的确定性程度。 当业务流程受法律、合规、财务或计算标准严格约束时: 在此类场景中,模型的不确定性需要被严格限制。 当用户意图多样、路径难以穷举时: 此阶段,规则并非缺失,而是延后沉淀。 多数智能体系统的 0 到 1,并非单次选择,而是阶段性演进。 模型在这一阶段更像是探路器。 规则逐步成为系统骨架。 在工程实践中逐渐形成的共识是: 规则负责确定下限,模型负责拉高上限。 这并非折中,而是职责分工。 在从 0 到 1 的阶段, 模型解决的是“能不能跑通”, 规则解决的是“能不能长期跑”。 当系统尚未充分理解真实世界时,让模型先探索; 当系统开始承担稳定责任时,让规则逐步收敛。 在行业实践中,“规则为骨架、模型为血肉”的结构已被反复验证。 智能体来了,但真正决定其是否进入生产力阶段的,始终是边界的构建方式。一、规则与模型:承担的是不同系统责任
二、0 到 1 阶段:边界从哪里来,决定谁先上场
1. 边界清晰的场景:规则优先
2. 边界模糊的场景:模型优先
三、工程实践中的常见演进路径
阶段一:模型主导,快速跑通(0 → 0.5)
阶段二:规则沉淀,稳定放大(0.5 → 1)
四、成熟智能体的结构共识
系统维度 规则承担 模型承担 执行层 校验、计算、合规 意图理解、上下文推理 异常处理 拦截、降级、转人工 解释、安抚、引导 知识获取 结构化查询 语义关联与补全 演进方式 人工固化 数据驱动适配 五、结语
作者:互联网容器团队-Chen Han、AI 研发团队 - Liu Dong Yang 在大规模GPU容器集群与模型训练场景,面临稳定性和资源利用率等多重挑战。本文展示vivo GPU平台的总体架构,介绍容器平台在大规模GPU容器集群稳定性建设措施,以及探索多种GPU容器降本提效的解决方案。分享AI工程训练平台大规模训练稳定性建设,及GPU利用率提升实践经验。 本文为2025年 vivo 开发者大会互联网技术专场分享内容之一,在微信公众号"vivo互联网技术"对话框回复【2025VDC】获取 2025VDC 互联网技术会场议题相关资料。 1分钟看图掌握核心观点👇 图1 VS 图2,您更倾向于哪张图来辅助理解全文呢?欢迎在评论区留言 vivo的GPU平台由物理层、容器平台层与AI工程层三方面构成。由多种GPU服务器和分布式存储以及高性能网络等基础设施,构成了可靠的物理层。容器平台层的GPU容器能力,主要包含了资源管理、编排调度、GPU虚拟化与多容器网络这四个方面。 其中资源管理,表现为多种架构资源池的部署与管理能力。编排调度能力,由GPU弹性伸缩、训推潮汐部署以及多种卡调度策略组成。自研的GPU虚拟化囊括了业界主流的MIG虚拟化、内核层虚拟化以及CUDA层虚拟化三种技术。由传统的Underlay网络以及SRIOV的RDMA直通网络,组成了丰富的容器网络架构。容器平台提供了开放的API接口,为AI工程层的训练和推理平台,提供了坚实的算力底座。通过训练和推理平台,支撑公司内的智能计算业务。 GPU容器能力实践分为两个模块,首先是大规模容器集群稳定性建设,其次是GPU容器提效降本方案。先了解下容器平台在大规模容器集群场景,如何进行稳定性建设的。 集群稳定性是一切的基石。当集群规模大时,任务多,调度频繁,导致核心组件负载激增,极易发生集群崩溃。随着节点规模扩大,运维复杂度呈指数级增长,日常运维工作繁重,发现问题不及时。同时故障处理也面临严峻挑战,故障中涉及的复杂场景多,故障处理的难度大。稳定性建设需要解决上述问题。 为了解决高频调度导致的核心组件高负载问题,我们针对Apiserver、etcd、CoreDNS,这3个核心组件进行了架构和性能优化,具体的方案如图所示。通过这些优化手段提升了组件性能,并且降低了组件负载,有利于大规模集群的平稳运行。 为了减轻集群运维负担,我们重点建设了自动化节点管理方案。把重复性的运维事项自动化。同时我们还完善了监控告警体系,开发了自动化巡检功能,使运维人员能够及时发现集群问题,快速介入,处理潜在风险,保障集群能够长久稳定运行。 故障处理是集群稳定的兜底措施,我们针对多个核心组件都做了,各类故障处理预案。结合可能存在的故障特点,构造故障场景,进行故障恢复演练,确保故障发生时,能够第一时间找到合理的解决方案,准确的处理问题。 通过上述的措施,在集群稳定性方面取得了不错的效果,首先日常的集群可用性稳定保持在99.99%水平,其次平台的年度故障复盘数相较于上一年下降60%。核心组件方面的优化也达到了不错效果,其中Apiserver的CPU负载下降70%,etcd提交延迟,从秒级缩短到毫秒级,CoreDNS的毛刺现象消失了,并且负载量下降了90%左右。 容器平台的核心竞争力之一就是助力业务提效降本,我们从不同业务维度,对GPU容器提效降本方案进行了探索。 如何让一张卡同时运行多个容器又不互相干扰,就涉及到GPU虚拟化技术。GPU虚拟化一直是AI云原生领域的热门话题之一,各大云厂商都有成熟的解决方案售卖。 vivo容器平台的自研GPU虚拟化方案,主要为了解决业务的三大痛点, 自研GPU虚拟化方案包含MIG虚拟化、内核层虚拟化、CUDA层虚拟化这三种技术。结合业务场景,提供了丰富的卡调度策略,例如尽量聚集的Binpack策略、尽量分散的Spread策略,每个卡只有一个实例的CardOnlyOne策略,以及自定义节点和卡分配关系的CustomTopo策略。通过自研模块与组件,接入Kubernetes体系,对外提供统一调度能力。 首先,MIG虚拟化技术,是基于Nvidia硬件提供的,切块组合能力,能够按规则把计算单元和显存单元进行组合,组成MIG实例挂载到容器内,提供完全独立的运行环境。MIG方案的优点是拥有Nvidia官方支持,可以集成到自研体系中。由于是在硬件层面实现的算力和显存限制,所以隔离性和安全性最好。缺点就是仅支持Ampere及以后架构的部分卡,而且限定了切分比例。主要应用场景是对算力隔离有强需求的线上业务。 内核层虚拟化技术,是通过自研内核模块,创建虚拟字符设备替换原有的Nvidia字符设备,在内核态拦截IOCTL请求后,实现的算力和显存限制。优点是上层应用无感。并且内核态拥有良好的安全性。缺点是当前无开源方案,开发难度大,而且算力隔离的并不充分。主要应用场景是常规线上业务。 CUDA层虚拟化技术的原理:使用拦截库替换Nvidia Driver的原始库,建立拦截库与原始库的,API函数映射关系,从而拦截调用函数,实现算力和显存的限制。 优点是有开源方案,使用起来比较灵活。并且可以基于Nvidia提供的统一内存模型,开发显存超售能力。能够在显存不足时,使用内存替代,虽然处理速度下降,但是能够有效避免,显存OOM导致用户程序报错。 缺点是用户态导致安全性不足,并且算力隔离能力偏弱,主要应用场景是Dev开发机场景。 将自研的内核层虚拟化方案与业界方案,进行了自测性能对比,如图所示,可以看到自研方案在性能上,已经达到业界先进水平。业务使用该方案,与独占整卡部署相比较,平均单卡虚拟化率300%左右,就是把1张物理卡当3张卡使用,同时整机GPU利用率提升了30%+,成本优化超过50%。 在单服务维度,如何帮助业务自动管理大量的GPU容器是提效的关键。我们引入了GPU弹性扩缩容方案。 如图所示,我们是基于开源的KEDA框架,自研了GPU-Scaler组件,使用Prometheus中存储,来自DCGM-Exporter的GPU指标,汇聚为扩缩容事件,用于触发KEDA框架,调整实例个数,以此实现了GPU弹性扩缩容能力。 由于KEDA框架支持将Workload实例数缩容到0,所以在非生产环境部署的GPU业务,默认开启无负载时,自动缩容到零的功能,以此自动回收,长期闲置的GPU资源。 最终的使用效果,线上业务资源不足类告警,下降了80%,单业务平均减少约每周1小时的,扩缩容工作量,有效降低了GPU业务的运维成本。 在多服务维度,训练服务的资源短缺问题,与推理服务,低峰时段资源空闲问题,相对突出。考虑让训练业务利用推理的空闲资源,即训推潮汐部署方案。 首先推理和训练业务都需要稳定的运行环境。而且推理业务潮汐特征明显,夜晚负载低,资源空闲多,导致平均利用率偏低。并且多机多卡训练任务,需要整机资源,且资源需求日益增长,采购新设备,难且慢,导致训练资源缺口明显。 训推潮汐部署就是整机资源分时复用的逻辑,如图所示,推理业务在白天高负载时,稳定运行,在夜晚低峰时段,自动腾挪出空闲整机资源,借给训练业务使用。在清晨时段,训练业务结束,把整机资源还给推理业务,如此达到分时复用的效果。 如图所示。推理业务在部署前,需要评估保底负载容量。在部署时填入维持业务稳定的最少Pod数量。基于OpenKruise组件的,WorkloadSpread功能,管理不同的Subset,分别在稳定池和潮汐池中按需部署。同时配置CronHPA,定时缩容,自动调整副本数,到稳定Pod数量,优先删除潮汐池中的Pod。以此达到把潮汐池的节点整机腾空的效果。 其中我们还针对Workload的缩容优先级进行了优化。当缩容发生时,结合Pod和节点的拓扑关系,把所在节点实例数少的Pod优先缩容,达到更快的腾空效果。 通过上述方案,训推潮汐部署的降本效果明显,使推理业务,成本下降30%,同时整机GPU利用率提升20%多,有效缓解了训练资源短缺问题。 当前分布式训练和推理业务,对算力和显存的需求巨大,单节点资源不足,需要使用多机多卡资源,那么网络通信容易成为性能瓶颈。RDMA技术允许GPU直接访问支持RDMA设备中的数据,无需经过主机CPU或内存,实现跨节点的零拷贝数据传输,有效减少了CPU开销和网络延迟。所以从多机多卡维度,使用RDMA技术是网络提效的有效措施。从容器平台角度,GPU容器更加需要结合RDMA技术,提供简单高效的解决方案,方便业务使用。 如图所示,RDMA容器有两个网卡,一个是使用Calico-CNI插件,通过veth创建的eth0网卡,对应的是Underlay网络。另一个是使用Sriov-CNI插件,通过VF创建的eth1网卡,对应的RoCE_v2或IB协议网络。我们引入了Multus-CNI组件,能够在单容器创建时,按需调用多种CNI插件。同时我们选择使用Spiderpool组件管理IP池,以及进行IP分配和路由策略配置。 通过上述组件,在Kubernetes体系中实现了RDMA容器的全生命周期管理能力。基于容器RDMA能力,在大规模训练和推理场景,业务能够提速20%到30%之间,提升效果明显。 VTraining训练平台是由vivo AI计算平台团队打造的一站式大模型训练方案,它面向算法工程师,提供模型开发、模型训练和海量样本存储等能力。 VTraining底层是基于vivo容器平台、及高性能计算、网络、存储等基础设施之上构建,通过提供模型开发、模型训练、资产管理等能力,支撑公司的大模型训练业务。 像vivo手机的蓝心小V、相册等核心产品的大模型训练,都是在VTraining平台进行迭代的。 稳定性问题是大规模训练的痛点。任务在大规模的同步训练过程中需要依赖计算、网络、存储、容器调度等复杂的基础设施环境,任何环节出问题都会导致任务中断,问题定位、恢复困难。 例如知名头部公司千亿参数大模型的大规模训练任务,平均每3小时触发一次意外中断。 其中一个问题,是GPU集群投入使用初期机器故障率会很高,训练任务会经常被中断。为了降低机器故障率,我们进行了高频故障专项治理。首先对GPU集群进行了大规模测试诊断、然后进行高频故障统计和修复,把有问题的软硬件进行维修、替换、升级或修复。 另一个问题,是任务故障就是不可避免的,所以为了缩短任务中断时间,尽快恢复任务运行,我们对故障处置流程进行了重点建设完善。 通过减少基础设施高频故障、完善任务故障处置流程两大措施,我们取得了良好效果:机器每天故障率由原来的百分之二下降到千分之一;千卡任务有效训练时长由原来的60%提升到99%,达到了行业一流水平。 同时我们也积累了相关的稳定性经验: GPU是稀缺资源,但是差异化的业务场景下GPU难以高效利用,利用率提升困难。比如GPU场景常见业务形态:有训练任务、推理业务、数据生产、开发调试等等类型。他们各有特点: 所以不同的业务形态有不同的利用率特点,接下来介绍下我们的GPU利用率提升措施。 对于训练任务场景,偶现的碎片化空闲资源,我们 通过低优数据生产任务进行充分利用。如图所示,我们通过低优数据生产任务调度,复用训练场景偶现的碎片化资源,当正常任务需要资源时,可随时抢占低优资源,不会影响正常训练任务的调度。 对于推理业务场景,在夜间流量低峰期可以释放大量GPU资源,我们通过训推潮汐部署给离线业务复用。如图所示,通过训推潮汐部署机制,我们将夜间推理流量低峰期缩容的机器腾挪到了离线GPU资源池,给离线业务使用,白天再腾挪回在线GPU资源池进行扩容,达到潮汐复用的目的。 对于开发任务场景,长期独占GPU资源且利用率低,我们通过vivo自研VGPU虚拟化技术,减少开发任务占用的物理GPU卡数,释放冗余算力。如图所示,我们可以将单机4卡GPU机器,通过开启VGPU虚拟出16卡VGPU,相当于一卡顶四卡。 VGPU的优点是:可支持1:2、1:4超卖、还可以用内存补充显存不足,所以对用户是无感知使用的,很适用于开发任务这种对性能要求低的场景。 总之,训练平台通过低优任务、训推潮汐部署、GPU虚拟化等策略,深度适配差异化业务场景特性,实现了资源高效复用。AI整体GPU利用率均值绝对值提升了5个百分点,接近行业一流水平。 未来训练平台也会持续对GPU利用率进行综合治理。例如进行低效任务治理、低效资源盘活、成本账单统计、奖励与惩罚措施的实施等等,让稀缺的GPU资源发挥更大价值! 在容器平台层面,我们会从多集群联邦调度、在离线GPU混部、国产异构计算芯片支持、GPU资源池化等方面能力进行综合建设,支撑上层平台业务对GPU资源的高效利用。 训练平台层面,我们会增强故障预警、任务动态容错等能力,增强业务稳定性;同时完善对大模型训练全流程能力的支撑,以及对GPU资源进行更精细化的运营,从而让GPU业务更加稳定、资源利用更加高效!

一、GPU平台架构

二、GPU容器能力实践
2.1 大规模容器集群稳定性





2.2 GPU容器提效降本实践

2.2.1 单卡共享-GPU虚拟化






2.2.2 服务提效-GPU弹性扩缩容


2.2.3 多服务降本-训推潮汐部署



2.2.4 多机多卡提效-容器RDMA高性能网络


三、AI工程训练平台实践
3.1 训练平台整体架构

3.2 大规模训练稳定性实践
3.2.1 稳定性背景

3.2.2 稳定性实践-高频故障专项治理

3.2.3 稳定性实践-故障处置流程完善

3.2.4 稳定性实践-效果与总结

3.3 GPU利用率提升实践
3.3.1 GPU利用率提升-业务背景及问题

3.3.2 利用率提升措施一:低优任务

3.3.3 利用率提升措施二:训推潮汐部署

3.3.4 利用率提升措施三:GPU虚拟化

3.3.5 利用率提升总结与规划

四、GPU平台未来展望

在之前的文章中,我们花了大量的篇幅,从记录后端pod真实ip开始说起,然后引入envoy,再解决了各种各样的需求:配置自动重载、流量劫持、sidecar自动注入,到envoy的各种能力:熔断、流控、分流、透明代理、可观测性等等,已经可以支撑起一个完整的服务治理框架了 而今天介绍的istio,正是前面提到的这些所有功能的集大成者,从本文开始,我们将详细介绍istio,并且与之前手搓的功能做一个详细的对比,为大家以后选择服务治理的某个功能提供参考 至于其余istio的资源,我们后面详细介绍 不说废话,先把istio安装上去再说 首先准备好k8s集群,其次下载istio(这一步有可能需要上网) 验证兼容性 开始安装 由于镜像仓库没法直接使用,所以需要一些特殊的方法,具体可以看这篇文章: 快速拉取docker镜像 需要的镜像有: 安装完成: 安装完成,要从哪儿开始呢? 同之前envoy一样,给namespace打上标签之后,重启服务即可 重启之后sidecar已经注入进去了,我们来观察一下istio注入到底做了什么事情 先describe看看events 1个initContainer,1个业务container和1个sidecar 其中initContainer: 和之前envoy中劫持流量的做法一样,istio依然是使用iptables将端口流量导入到代理之中处理 尝试访问一下: 成功,再次查看istio-proxy日志。空的?为了调试方便,将其打开并且输出至控制台 至此,istio的第一个功能探索完毕,自动注入sidecar container并且完成了流量劫持 当前的架构是左图,现在要前进到右图 其实就是在backend注入istio-proxy,直接重启就好 注入完成,测试一下 在nginx注入istio-proxy,backend没有注入的时候并没有报错。而一旦nginx与backend都注入的时候就会出现Upgrade Required (426)错误,Nginx Sidecar 发现目标(Backend)是一个纯文本服务,它会回退到“透明代理”模式,简单地把 Nginx 发出的流量透传出去 Nginx Sidecar 发现目标也有 Sidecar,它会尝试建立一个高度优化的、基于 mTLS 的隧道(关于mTLS后面会详细介绍)。如果此时 Nginx 发出的请求头(比如缺少 Host 字段,或者使用了 HTTP/1.0)不符合 Envoy 对这种隧道 想要解决这个问题有两种方法 Nginx 的 proxy_pass 默认使用 HTTP/1.0。在 Istio 环境中,HTTP/1.0 不支持长连接(Keep-Alive)以及一些现代的协议协商,这与 Istio Sidecar(Envoy)默认的 L7 代理行为冲突,Istio 需要 HTTP/1.1 来支持复杂连接管理问题 如果nginx改造有难度,那也可以尝试改造backend-service Istio 只有在识别到流量是 HTTP 时才会进行深度的协议检查和转换。如果你把这个服务声明为 TCP,Istio 就会将其视为原始字节流进行透传,不再关心它是 HTTP/1.0 还是 1.1。优点就是彻底解决 426 问题,无需改 Nginx。 这里再简单介绍一下两个协议版本的区别 连接管理(最显著的区别) Host Header 以上是istio必须要求HTTP 1.1最主要的两个因素,当然还有其他非常重要的区别 本章内容算是一个开胃小菜,成功安装了istio,并且解决了一个非常常见的426问题,至于怎么把之前在envoy的那些最佳实践搬迁到istio,那就是后面的内容了,敬请期待 如果整个namespace都已经有了注入标签 至此,本文结束前言
istio架构
┌──────────────┐
│ istiod │ ← 控制面
│ (Pilot+CA) │
└──────┬───────┘
│ xDS (gRPC / TLS)
│
┌────────────┐ │ ┌────────────┐
│ Envoy │◄───┼───►│ Envoy │ ← 数据面
│ (Sidecar) │ │ (Sidecar) │
└─────▲──────┘ └─────▲──────┘
│ iptables │
│ │
App Pod App Pod
istio安装
curl -L https://istio.io/downloadIstio | sh -
cd istio-*
sudo ln -s $PWD/istioctl /usr/local/bin/istioctlistioctl x precheckistioctl install --set profile=default -ydocker.io/istio/pilot:1.28.2
docker.io/istio/proxyv2:1.28.2▶ kubectl -n istio-system get pod
NAME READY STATUS RESTARTS AGE
istio-ingressgateway-865c448856-qs8s2 1/1 Running 0 8s
istiod-86c75775bb-j7qbg 1/1 Running 0 12s
istio的自动注入
kubectl label namespace default istio-injection=enabledkubectl rollout restart deploy nginx-testEvents:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 8s default-scheduler Successfully assigned default/nginx-test-6f855b9bb9-9phsv to wilson
Normal Pulled 8s kubelet Container image "docker.io/istio/proxyv2:1.28.2" already present on machine
Normal Created 8s kubelet Created container: istio-init
Normal Started 8s kubelet Started container istio-init
Normal Pulled 8s kubelet Container image "docker.io/istio/proxyv2:1.28.2" already present on machine
Normal Created 8s kubelet Created container: istio-proxy
Normal Started 8s kubelet Started container istio-proxy
Normal Pulled 6s kubelet Container image "registry.cn-beijing.aliyuncs.com/wilsonchai/nginx:latest" already present on machine
Normal Created 6s kubelet Created container: nginx-test
Normal Started 5s kubelet Started container nginx-test
Init Containers:
istio-init:
Container ID: containerd://2bf56cd37703d82a2a43e94e8c8d683ed66b0afe22bf7148a597d67b89a727a8
Image: docker.io/istio/proxyv2:1.28.2
Image ID: docker.m.daocloud.io/istio/proxyv2@sha256:39065152d6bd3e7fbf6bb04be43c7a8bbd16b5c7181c84e3d78fa164a945ae7f
Port: <none>
Host Port: <none>
Args:
istio-iptables
-p
15001
-z
15006
-u
1337
-m
REDIRECT
-i
*
-x
-b
*
-d
15090,15021,15020
--log_output_level=default:info
...▶ curl 10.22.12.178:30785/test
i am backend in backend-6d76f54494-g6srzkubectl -n istio-system edit cm istio
apiVersion: v1
data:
mesh: |-
accessLogFile: /dev/stdout
...Upgrade Required 426 的问题

▶ kubectl get pod -owide
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES
backend-5d4d7b598c-f7852 2/2 Running 0 13s 10.244.0.49 wilson <none> <none>
nginx-test-6f855b9bb9-9phsv 2/2 Running 0 58m 10.244.0.48 wilson <none> <none>
▶ curl 10.22.12.178:30785/test
Upgrade Required▶ kubectl logs -f -l app=nginx-test -c istio-proxy
[2026-01-26T07:54:42.977Z] "GET /test HTTP/1.1" 426 - upstream=10.244.0.48:80 duration=6ms route=default
[2026-01-26T07:54:42.978Z] "- - -" 0 - upstream=10.105.148.194:10000 duration=9ms route=-
协议的预期,Envoy 可能会向 Nginx 发送一个特殊的响应,或者 Nginx 在尝试通过这种隧道通信时,因为某些 Header 冲突(如 Connection: close)自发产生了 426 错误改造nginx中加入标记
location /test {
proxy_http_version 1.1; # 必须添加这一行
proxy_set_header Host $host; # 这一行也是必须的
proxy_pass http://backend_ups;
}
改造backend service
apiVersion: v1
kind: Service
metadata:
name: backend-service
namespace: default
spec:
ports:
- name: tcp-80 # 原为 http-80 改为 tcp-80
port: 10000
protocol: TCP
targetPort: 10000
selector:
app: backend
缺点则是你会失去 Istio 针对该服务的 HTTP 监控指标(如请求数、4xx/5xx 统计)、分布式追踪以及基于路径的路由功能http 1.0 与 http 1.1
特性 HTTP 1.0 HTTP 1.1 连接模型 默认短连接,每次请求新开 TCP 默认持久连接 (Keep-Alive),复用 TCP Host 头部 可选 (导致无法支持虚拟主机) 必须 (支持一 IP 多域名) 流水线 (Pipelining) 不支持 支持 (但在实际应用中受限) 断点续传 不支持 支持 (通过 Range 头部) 缓存控制 简单 (Expires) 复杂且强大 (Cache-Control, ETag) 默认协议版本 许多旧软件(如 Nginx proxy)的默认值 现代 Web 应用的基石标准 小结
后记
istio-injection=enabled,但是某个deployment不想让istio注入kubectl patch deployment nginx -p '{"spec":{"template":{"metadata":{"annotations":{"sidecar.istio.io/inject":"false"}}}}}'联系我

在下才疏学浅,有撒汤漏水的,请各位不吝赐教...
作为量化开发工程师,在跨境策略研发中最头疼的莫过于数据问题:接口延迟导致高频策略失效、多市场数据整合口径不一、请求限额中断回测流程…… 数据接口的选型直接决定了开发效率与策略落地效果。 本文从技术视角出发,拆解跨境量化数据获取的核心痛点,深度对比 AllTick、Tushare、AAstocks 三款主流接口的技术特性、适配场景与性能表现,为开发者提供可落地的选型方案与效率优化思路。 一、跨境量化开发的 4 大核心数据技术痛点 这些痛点在量化开发全流程中尤为突出:回测阶段因历史数据不完整或格式异常,导致策略逻辑验证失真;实盘阶段因数据延迟或服务中断,使得交易信号执行滞后;接口变更时因缺乏兼容设计,需重构数据接入模块。 二、3 款主流数据接口核心技术维度对比 三、不同开发场景的技术选型与集成建议 (一)多市场高频策略开发 / 跨市场套利 (二)A 股低频因子研究 / 教学场景开发 (三)美股 / 港股基础分析 / 中低频开发 四、量化开发选型的核心技术原则 数据接口是跨境量化开发的技术基石,选型的核心是 “技术特性与开发需求的精准匹配”。最终选型需结合自身技术架构、开发场景与成本预算,通过技术验证测试接口的延迟、稳定性与集成难度,确保接口工具能真正提升开发效率,支撑策略落地。
在美股、港股等跨境策略开发中,以下技术层面的问题直接制约研发效率,甚至导致策略无法落地:
结合跨境量化开发的技术需求(低延迟、高可用、标准化、易集成),从技术特性、性能表现、成本等核心维度进行对比分析,为开发选型提供参考:
技术选型:AllTick,核心技术优势适配高频开发需求:
集成建议:优先使用官方 SDK 对接量化框架,通过 WebSocket 订阅实时行情,批量 API 导出历史数据,利用其提供的异常回调接口处理网络波动,确保数据传输稳定性。
技术选型:Tushare,聚焦单一市场低频开发需求:
集成建议:通过 Python SDK 直接调取 A 股数据,结合 Pandas 进行简单数据处理,适合快速验证低频策略逻辑,无需复杂的架构设计。
技术选型:AAstocks(备选),仅适配基础开发需求:
集成建议:提前编写数据格式转换工具类,缓存基础数据减少接口调用次数,避免触发请求限额,同时增加异常处理逻辑应对服务不稳定问题。
在人工智能技术持续演进的背景下,2026 年正在成为企业级 AI 应用的重要分水岭。随着大模型能力跃迁、多模态交互成熟以及智能体框架的工程化落地,AI 在企业中的定位正在发生本质变化。 AI 不再仅被视为提升效率的技术工具,而是逐步演变为参与业务构建与运行的结构性要素。这种变化,标志着企业正在从“AI 赋能业务”走向“AI 与业务共建”。 在早期阶段,AI 通常以局部优化工具的形式存在。其典型特征包括: 在这一模式下,业务是主体,AI 是插件,其价值主要体现为效率提升或成本下降。 “共建”代表一种原生化的协同范式。AI 不再是流程末端的工具,而是从业务设计之初就作为核心要素参与其中: 在共建模式下,业务不再只是被 AI 优化,而是与 AI 一起被“生成”。 共建关系的实现,依赖于 AI 承载形态的升级——智能体(Agent)成为关键中枢。 一个可参与业务共建的智能体,通常具备以下能力组合: 当行业开始普遍观察到“智能体来了”这一现象时,AI 已从“信息输出者”转向“行动参与者”。 以供应链场景为例,AI 不再仅输出需求预测结果,而是能够综合库存、成本、履约风险等多维约束,直接生成决策方案,甚至触发执行动作。这种变化,本质上是 AI 从辅助分析走向业务协同决策。 要实现 AI 与业务的深度共建,企业需要对既有体系进行系统性重构。 共建模式下,数据的核心价值不再只是存储与统计,而是是否可被模型理解与推理。 传统流程以 SOP 为核心,而共建流程以目标为导向: 流程由静态执行,转向持续调整的闭环系统。 在共建场景中,评价体系开始发生迁移: AI 的价值,体现在其对业务稳定性与适应能力的长期贡献。 共建模式并非没有阻力,其挑战主要集中在三个层面: 应对的关键,不在于完全消除风险,而在于建立可容错、可回溯、可持续优化的反馈机制。 从“赋能”到“共建”,并不是一次简单的技术升级,而是一种生产关系的重构。 AI 正逐步成为企业运行系统中的一部分,与业务共同进化。未来的竞争优势,将不再取决于谁率先引入 AI,而取决于谁能构建起人机协同、持续演化的业务系统。 在这一进程中,AI 不再是外部接入的能力,而是嵌入组织内部、与业务逻辑共生的“神经结构”。引言:一个正在发生的角色转变
一、概念重构:从外挂式赋能到原生化共建
1. 赋能:以业务为中心的工具逻辑
2. 共建:业务与算法的协同生成逻辑
二、能力载体转变:从模型到智能体
1. 智能体的基础能力结构
2. 行业中的典型表现
三、业务系统的三项结构性调整
1. 数据逻辑:从资产管理到知识表达
2. 流程逻辑:从线性执行到目标驱动
3. 评价逻辑:从模型指标到业务贡献
四、现实挑战与治理方向
结语:从工具关系走向共生系统
摘要: 美的集团是全球家电行业的领军企业。2024 年,集团全年营收达 4091 亿元人民币,位列《财富》世界 500 强第 246 位。经过多年的发展,其业务版图早已超越家电,延伸至楼宇科技、工业技术、机器人与自动化、医疗健康及智慧物流等众多领域。美的不仅致力于提升其在国内市场的优势,同时也积极布局海外市场,推动国内外业务的均衡发展。 为实现这一战略目标,美的积极推动数字化转型,并以 OceanBase 数据库为关键支撑,构建了一套云中立、多云统一的数字化底座,更以云原生、统一架构与安全合规为核心能力,为 AI 应用落地、全球业务敏捷拓展及系统持续演进奠定了坚实基础。 对于年营收超 4000 亿元且正处于全球化进程中的美的而言,一套既能灵活响应业务变化,又能实现统一管控的数字化系统至关重要。这正是刘向阳的核心任务之一。 作为美的集团首席信息安全官(CISO)兼软件工程院院长,刘向阳同时负责集团数字化底座的整体建设与信息安全体系。然而,这条路并不好走。无论是传统的自建数据中心,还是直接采用公有云,都无法完全满足美的的复杂业务需求。 刘向阳介绍,传统数据中心建设虽初期成本较低,但往往面临技术栈陈旧、产品组合杂乱、系统稳定性不足以及安全隐患较多等问题。而公有云虽具备弹性与灵活性,却同样存在成本高昂、多云环境互操作性差、数据孤岛以及运维复杂等挑战。 “我们的核心数字化系统要部署在自建数据中心,海外业务则依托公有云作为基础设施。这自然带来了数据中心与多云管理的复杂性。”刘向阳解释道。 美的没有二选一,而是选择了一条融合之路——构建云中立的多云统一数字化底座。该平台融合私有数据中心和公有云两者的优势,实现了技术体系的统一:它既可以部署在数据中心内,其技术栈与当前主流的公有云原生体系保持一致;同时,它也能直接部署在公有云上,并确保“云下云上”架构一致,升级时无需进行代码改造。 “更重要的是,这是一个操作系统级别的统一底座。它实现了软硬件的解耦,能将分布在所有公有云及数据中心的资源整合成单一资源池,实现统一调度、管理与纳管,甚至提供统一的地址空间。对上层应用而言,仿佛始终运行在同一个数据中心内。”刘向阳强调。 同时,美的的数字化底座是一个全功能的企业级云平台,不仅有交付资源的 IaaS 层、为应用提供支持的 PaaS 层,还有负责运维和安全的运维管理系统等。其中,数据库平台是核心模块,而 OceanBase 的引入极大提升了该平台的成熟度,并为后续各类应用与服务提供了强劲支撑。 美的早期的应用系统主要基于传统集中式数据库开发。随着美的全面推进云化以及加强技术的自主掌控,近年来新增应用已经全部转向自主研发数据库。在此背景下,OceanBase 进入了美的视野,成为数据库管理平台的核心组件,承接关键业务的数据负载。 刘向阳表示,升级至 OceanBase ,除了国产升级这个大的行业背景外,更有现实需求:原来的 IOE 架构整体 TCO 高、扩展能力有上限,导致业务系统的处理逻辑复杂。而作为关键组件的传统集中式单机数据库面对互联网和 5G 时代下不断激增的用户数和并发量,难以满足未来业务弹性扩缩容。 基于上述原因,美的决定对数据库系统进行升级,选择 OceanBase 来承担这一重任,主要基于以下考量: 首先, OceanBase 全面兼容原数据库,功能完全覆盖原有功能点,并且提供迁移工具与解决方案,避免了上千万行代码重写,实现应用真正平滑升级,高效完成核心数据库升级改造; 其次, OceanBase 具备多租户能力,支持动态弹性调整租户计算资源,能敏捷地应对业务负载变化,轻松应对年度“开门红”等业务高峰; 第三, OceanBase 大集群管理模式,通过集中化管控、平台化管理,整合竖井式应用,避免集中式架构的资源浪费。同时,多个集群使用同一套 OCP 集群进行运维管控,提高了管理效率。 此外,OceanBase 的云中立特性也非常契合美的构建“云中立的多云统一数字化底座”这一目标。目前,OB Cloud 已稳定运行于阿里云、华为云、腾讯云、百度智能云、AWS、Azure、GCP 七大主流云基础设施,应用无需改造即可“一套架构、全球运行”。这一能力正成为美的出海的关键支撑,为其全球化布局提供了充分的灵活性。 经过周密部署与精心筹备,OceanBase 数据库已成功在美的集团落地,并顺利承载了工厂 MES 系统、供应链管理系统、中台系统等多个核心业务系统的运行。其稳定高效的表现,为美的集团带来了显著的商业价值。 1. 成本节约。用普通 PC 服务器替代传统的小型机加集中式存储架构,大幅降低了硬件采购成本。同时,OceanBase 数据库卓越的数据压缩技术将数据存储容量缩减了 88%,进一步节省了存储成本,实现了软硬件成本的双重优化。 2. 强大平台化管理功能。OceanBase 数据库提供强大平台化管理功能,实现了应用的集中化管控、统一资源分配与高效运维,提升了管理效率和资源利用率。 3. 高可用性与安全。OceanBase 数据库实现了 RPO=0 的高级别跨城市容灾能力,能满足金融行业的严苛要求。同时,其全链路透明加密技术为数据提供了全方位的安全防护,有效防止了数据泄露风险,保障了企业数据资产的安全。 4. 绿色节能。OceanBase 数据库的应用还带来了显著的绿色节能效果。通过提高数据库服务器及存储机柜的数量利用率,降低了设备功率消耗,节约了大量电力资源,积极响应了国家“双碳”战略,为企业可持续发展贡献了力量。 通过构建云中立、多云统一的数字化底座,并引入 OceanBase 作为核心数据库支撑,美的不仅实现了传统系统的平滑升级与全面云化,更在成本控制、弹性扩展、安全加固及全球业务响应速度上取得了显著提升。 如今,这一数字化底座不仅服务于美的自身的数字化转型,也正通过商业化输出,为更多制造企业提供可借鉴的云原生、智能化、安全合规的数字化底座范本,助力更多企业在 AI 时代的竞争中构筑坚实底座。 欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/
美的面临传统数据中心技术栈陈旧、公有云成本高昂、多云孤岛等挑战,选择以 OceanBase 为关键支撑构建云中立的多云统一数字化底座。OceanBase 可以全面兼容原数据库,具备多租户能力,实行大集群管理模式。其成功承载核心业务,既解决多云管理难题,又实现降本节能与安全合规,为企业全球化提供坚实支撑。当全球化业务遇上传统 IT 架构
从传统集中式数据库到 OceanBase 的架构升级
不止于降本,更是业务敏捷与安全的基石
结语
大家好,我是R哥。 最近 Agent Skills 大火了,大家都在用 Skills 提升效率,很多 MCP 的功能已经被 Skills 代替了,MCP 已经失去了当初的光芒。 在《Claude Skills 彻底爆了,从实现原理到 Claude Code、CodeX、OpenCode 实战,一网打尽!》这篇文章中,我介绍了 Skills 的原理、创建及使用,今天我再来详细分享下市面上的 Skills。 现在市面上充斥着各种 Skills 导航站,GitHub 上各种 Skills 仓库也是层出不穷,功能也是五花八门。 最近我就在 GitHub 上发现了一个非常不错的 Skills 仓库:Awesome Claude Skills,地址如下: 目前该仓库已经狂收 26000+ 个 Star,收集了目前市面上主流的 Claude Skills,分类非常详细,涵盖了文档处理、开发与代码工具、数据与分析、商业与营销、沟通与写作、创意与媒体、效率与组织、协作与项目管理、安全与系统等多个方面。 我整理并翻译了该仓库的完整内容,大家可以收藏一下。 在《Claude Skills 彻底爆了,从实现原理到 Claude Code、CodeX、OpenCode 实战,一网打尽!》这篇文章中,我介绍了 Skills 的原理、创建及使用。 下面我就拿其中一个 Skill 举例,看如何来使用这些 Skills。 1、首先将该对应的 Skill 下载到本地,比如我选择一个 2、把它复制到 3、这是一个提交 Git 的 Skill,所以,我们可以使用 如下图所示: 一句话就提交代码了,都不用自己想提交说明了,提交说明是和当前的变更文件是一致的,但是提交说明是英文的,有需要可以自己修改下 Skill 代码来实现中文提交说明。 Skills 这波爆火,我的理解就一句话,把你每天重复干的事,做成可复用的动作,你不用每次从 0 写提示词,也不用记一堆参数,挑对 Skill 直接开干,省心还稳定。 这篇我把 建议先从最刚需的 1 - 2 个场景开始,先跑通一次 “输入 - 处理 - 输出” 的闭环,再把你常用的操作固化成自己的 Skill 和话术。 这样用下来,效率提升会很实在,而且越用越顺。 未完待续,R哥持续分享更多 AI 编程经验,包括更加复杂的 Skills 使用,关注我一起学 AI。https://github.com/ComposioHQ/awesome-claude-skills

Awesome Claude Skills
文档处理
Skill 作用 地址 docx 用追踪修改、批注和格式化功能,轻松创建、编辑和分析 Word 文档。 https://github.com/anthropics/skills/tree/main/skills/docx pdf 提取文本、表格、元数据,合并与标注 PDF 文件。 https://github.com/anthropics/skills/tree/main/skills/pdf pptx 读取、生成和调整幻灯片、布局与模板。 https://github.com/anthropics/skills/tree/main/skills/pptx xlsx 电子表格操作:公式、图表、数据转换。 https://github.com/anthropics/skills/tree/main/skills/xlsx Markdown to EPUB Converter 将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。 https://github.com/smerchek/claude-epub-skill 开发与代码工具
数据与分析
Skill 作用 地址 CSV Data Summarizer 无需用户提示,自动分析 CSV 文件并生成包含可视化图表的全面洞察。 https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill deep-research 使用 Gemini 深度研究代理执行自主的多步骤研究,适用于市场分析、竞争格局分析和文献综述。 https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research postgres 支持多连接的 PostgreSQL 数据库安全只读 SQL 查询,具备纵深防御安全机制。 https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres root-cause-tracing 当执行过程中出现深层错误时,用于回溯查找最初的触发点。 https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing 商业与营销
Skill 作用 地址 Brand Guidelines 将 Anthropic 官方的品牌配色和字体应用到各类设计素材中,确保视觉形象统一,达到专业级的设计标准。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines Competitive Ads Extractor 从广告库中抓取并分析竞争对手的广告内容,帮你搞清楚哪些传播话术和创意形式真正能打动人。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor Domain Name Brainstormer 生成创意十足的域名想法,并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer Internal Comms 帮你撰写内部沟通内容,比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新,还能根据公司特定格式来排版。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms Lead Research Assistant 通过分析你的产品、搜索目标公司,帮你识别和筛选高质量的潜在客户,并提供可执行的 outreach 策略。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant 沟通与写作
Skill 作用 地址 article-extractor 从网页中提取完整文章内容和元数据。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor brainstorming 通过结构化提问和多角度探索,把零散的点子打磨成完整的设计方案。 https://github.com/obra/superpowers/tree/main/skills/brainstorming Content Research Writer 帮你搞定高质量内容创作,从调研、引用、优化开头,到逐段反馈。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer family-history-research 协助规划家族历史和家谱研究项目,帮你挖出那些被遗忘的家族故事。 https://github.com/emaynard/claude-family-history-research-skill Meeting Insights Analyzer 分析会议录音,扒出行为模式,比如回避冲突、发言比例、口头禅,还有领导风格,一目了然。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer NotebookLM Integration 让 Claude Code 直接与 NotebookLM 对话,基于上传的文档提供有据可依的答案。 https://github.com/PleasePrompto/notebooklm-skill Twitter Algorithm Optimizer 利用推特开源的算法洞察,分析并优化推文,实现最大传播效果。重写和编辑推文,提升互动率和曝光度 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer 创意与媒体
Skill 作用 地址 Canvas Design 通过设计哲学和美学原则,为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design imagen 利用 Google Gemini 的图像生成 API,生成 UI 原型、图标、插图和视觉资产。 https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen Image Enhancer 通过提升分辨率、清晰度和锐度,优化图像和截图质量。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer Slack GIF Creator 专为 Slack 优化的动画 GIF 生成工具,内置尺寸限制校验和可组合的动画基础组件。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator Theme Factory 一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题,提供 10 种预设风格。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory Video Downloader 支持从 YouTube 及其他平台下载视频,方便离线观看、剪辑或存档,兼容多种格式和清晰度。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader youtube-transcript 自动抓取 YouTube 视频字幕并生成摘要。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript 效率与组织
协作与项目管理
Skill 作用 地址 git-pushing 自动化 Git 操作和仓库交互,省心又高效,再也不用手动推代码了。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing google-workspace-skills 一套 Google Workspace 集成工具:Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘,支持跨平台 OAuth 登录。 https://github.com/sanjay3290/ai-skills/tree/main/skills outline 在 Outline 维基实例(云端或自托管)中搜索、阅读、创建和管理文档。 https://github.com/sanjay3290/ai-skills/tree/main/skills/outline review-implementing 评估代码实现方案,并确保与需求 specs 对齐。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing test-fixing 检测失败的测试用例,并提出补丁或修复方案。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing 安全与系统
Skill 作用 地址 computer-forensics 数字取证分析与调查技术。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics file-deletion 安全删除文件和数据清理方法。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion metadata-extraction 提取并分析文件元数据,用于取证目的。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction threat-hunting-with-sigma-rules 利用 Sigma 检测规则来追踪威胁并分析安全事件。 https://github.com/jthack/threat-hunting-with-sigma-rules-skill 如何使用这些 Skills
git-pushing Skill。~/Users/John~/.claude/skills 目录下面。commit and push 或者 "提交并推送" 等自然语言来自动调用这个 Skill。
总结
Awesome Claude Skills 这个仓库过了一遍,真要落地,别一上来就装一堆,可能大部分你都用不到,不然也会影响加载效率。。⚠️ 版权声明:
本文系公众号 "AI技术宅" 原创,转载、引用本文内容请注明出处,抄袭、洗稿一律投诉侵权,后果自负,并保留追究其法律责任的权利。