包含关键字 typecho 的文章

每一次 LLM 调用都是无状态的。模型读上下文窗口,生成响应然后忘掉一切。这对单轮问答没问题。对下列任何一类 Agent,这都是致命的:

  • 保持连续性——"我昨天刚跟人说过这件事,为什么还要再解释一遍?"
  • 从交互中学习——Agent 应当知道这个用户的账户、历史问题、首选语言
  • 积累组织知识——哪些解决路径能关闭工单,哪些意图预示升级
  • 从崩溃中恢复——一个外呼 20 万通电话的批处理 Agent,失败后必须从呼叫者 #87,431 续上,而不是重启

我们的第一反应是把整段对话塞进上下文窗口,但是在生产环境中会出现问题:

1成本上满上下文在 LOCOMO 上能拿到 72.9% 的准确率,代价是 p95 延迟 17.12 秒、token 开销翻 14 倍,实时场景根本用不了;质量上窗口越满模型对早先指令的注意力越低,埋在中间的细节开始被忽略,这是长上下文 LLM 一个被反复记录过的弱点;还有误差累积,Databricks 2026 年 4 月的研究发现,Agent 会引用之前运行里错误的输出,再以更高的信心复用,没有策展的记忆会把一次性错误固化成永久谎言。

下图的橙色线是 Agent 需要记住的内容,蓝色线是记忆系统实际交付的内容。两者之间的裂缝正是生产级 Agent 失效的地方;裂缝在收窄但没有合上。

所以我们可以抽取重要的部分,加以整合存到合适的后端,按需智能检索并主动遗忘陈旧内容。拿几个准确率点换来 12 倍的延迟下降和 10 倍的成本下降,这种取舍就是 demo 与能摆到付费用户面前的系统之间的分界线。

把这 10 倍成本差距落到具体数字上:一个中等规模 SaaS,每月 1000 万次 Agent 调用,若走满上下文仅 LLM token 就大约要花 100 万美元(按每次调用约 26K token,GPT-5 混合价估算);同样的工作负载换成选择性记忆会降到约 10 万美元。这是"业务可行"与"成本曲线在用户到场前就杀死产品"之间的差别。

Agent 记忆的四种类型

《Memory in the Age of AI Agents》中提到了标准分类法:框架本身更早由 CoALA 论文(TMLR 2024)形式化;那篇论文显示给 GPT-3.5 加一层认知架构,可以把编码基准的成绩从 48% 拉到 95%。人类记忆不是单一的类型,Agent 记忆也不该是。

四种记忆类型,各自有独立的后端、生命周期与失效模式。

工作记忆——Agent 当前正在思考的东西。

  • 存放什么:当前对话、工具结果、中间推理
  • 存在哪里:上下文窗口内部,也就是 prompt 本身
  • 生命周期:仅限当前会话
  • 典型失效:窗口填满,模型跟丢更早的指令

情景记忆——Agent 的过往交互日记。

  • 存放什么:过往具体会话的记录,带时间戳、参与者、结果
  • 存在哪里:带元数据的向量数据库(Qdrant、Pinecone、pgvector)
  • 生命周期:数周到数月,带衰减
  • 典型失效:检索到不相关的旧情景、时间混淆

语义记忆——从原始素材里蒸馏出的事实。

  • 存放什么:用户偏好、实体关系、从原始情景抽象出的可复用知识
  • 存在哪里:向量数据库、知识图谱(Neo4j、Apache AGE)或混合
  • 生命周期:持久化,带冲突解决
  • 典型失效:事实过时、条目相互矛盾、随着陈旧信息堆积渐进腐化

过程记忆——学到的行为与规则。

  • 存放什么:工作流、决策规则、系统 prompt、few-shot 示例
  • 存在哪里:配置文件、prompt 模板、带版本的存储
  • 生命周期:持久化,带版本
  • 典型失效:政策变了,过程还留在旧版本,没人去更新

它们是协同的不是独立的。

一个真实的 Agent 会同时用上全部四种:工作记忆承载对话;情景记忆召回相关的过往会话;语义记忆加载用户画像与偏好;过程记忆挑出正确的工作流。并非每个框架都覆盖全部类型——情景记忆是基本盘,语义图谱在 2025 年到位,过程记忆仍在前沿地带,目前只有 LangMem 和 Mem0 v1.0 支持自改进工作流。

五阶段记忆

研究界与生产框架都是使用的这个五阶段形态的方法,每个阶段都在解决上一阶段制造出的问题;跳过任何一步,只会出现不同的问题——原始噪声、矛盾、延迟、时间漂移,或者无声的腐化。

五阶段记忆流水线——每个生产框架都实现了它的某种变体。

  • 阶段 1 抽取:把原始对话转成结构化记忆记录
  • 阶段 2 整合:去重、合并,并与已有记忆解决冲突
  • 阶段 3 存储:把每种记忆类型路由到最合适的后端
  • 阶段 4 检索:让 Agent 按需拉取记忆,而不是每轮都拉
  • 阶段 5 遗忘:主动衰减、归档、裁剪,防止存储腐烂

阶段 1 抽取:从对话到结构化知识

抽取把每一条陈述归入五个桶之一——被说出口的内容大多是噪声。

一个 LLM 读取对话,把每一条信息归入类型化记录:事实、偏好、事件、过程。每条记录带四个属性:置信度分数(0.0–1.0)、关联实体(用于图谱构建)、时间戳,以及来源——是用户直接说的、Agent 推断的,还是工具返回的?

AWS AgentCore Memory 带三种内置策略(semantic、preferences、summary),并行运行。

何时抽取,同步还是异步?

  • 同步(每轮)——轻量事实检测,每轮增加 100–300ms,只对高价值抽取使用
  • 异步(会话后)——深度整合、情景摘要、图谱更新;对对话内延迟零影响
  • 计划(cron)——矛盾扫描、衰减周期、索引重建,非高峰批处理
  • Mem0 v1.0.0 把 async_mode=True 设成默认;同步写入会阻塞响应流水线,增加用户能感觉到的延迟
  • AWS AgentCore 报告抽取在会话结束后 20–40 秒内完成

阶段 2 整合:真正难的部分

新记忆经常会和已存内容重复或冲突。整合正是把生产级记忆和朴素 append-only 存储分开的那一环。

每条新记忆都会被归类为 ADD、NOOP、UPDATE 或 CONFLICT——最后这种最难处理。

对每条从会话里抽出的新记忆,整合跑三步。

先在同一用户、同一类型下搜索已存的最接近匹配(余弦相似度,阈值约 0.82,Mem0 就这么做的)。接着由一个 LLM 判定关系:

  • ADD——独立的新信息,单独存储
  • NOOP——冗余,跳过并提升访问计数
  • UPDATE——扩展或取代,合并并把旧记忆标为 SUPERSEDED
  • CONFLICT——与已有记忆矛盾,创建一个时间感知的摘要,同时保留新旧两个版本

最后写审计轨迹。过时的记忆标为

SUPERSEDED

,从不删除——你需要追踪系统在何时相信了什么。

冲突解决是团队最常弄错的地方。千万不要直接覆盖,那会抹掉历史,把系统变得不可审计。AWS AgentCore 把过时记忆标为

INVALID

而不是删除;Zep 的 Graphiti 开创了双时态建模——每个事实带两个时间戳,一个是它在世界中成立的时间,另一个是 Agent 获知它的时间。

阶段 3 存储:类型化的数据需要类型化的后端

把所有记忆类型塞进同一个向量数据库这是团队最常犯的错,不同的记忆类型需要不同的存储。

四种后端对应四种记忆类型,并行 fan-out——总预算在 200ms 以内。

四种后端,四项分工。

  • 结构化状态(Redis / PostgreSQL JSON)——稳定画像与活跃状态,精确 key-value 查找,小于 5ms,零检索噪声
  • 向量存储(Qdrant、Pinecone、pgvector)——需要模糊匹配的语义事实与情景,带元数据过滤的相似度搜索,小于 50ms
  • 知识图谱(Neo4j、Apache AGE、FalkorDB)——需要多跳遍历的实体关系,小于 100ms;Zep 的 Graphiti 在 DMR 上拿到 94.8%
  • 元数据存储(PostgreSQL)——时间戳、来源追踪、访问计数、审计轨迹

架构原则:查询要并行 fan-out 而不是串行,检索总预算应保持在 200ms 以内。AWS AgentCore 报告语义搜索端到端约 200ms。

阶段 4 检索:把记忆当工具,而不是流水线里的一步

最常见的成本兼质量反模式是每轮都自动检索一遍;生产里通行的做法是 memory-as-a-tool。

Agent 自己决定什么时候召回,而不是 orchestrator这样可以在不需要记忆的那些轮次里每轮省下 200–500ms。

给 Agent 一个显式函数,让它按需搜索记忆。召回的时机由 Agent 掌握不归 orchestrator 管。Mem0 的选择性方案中位搜索延迟 0.20 秒、准确率 66.9%,对比标准 RAG 的 0.70 秒却只有 61.0%。

memory-as-a-tool 有两种风格。

  • 被动检索(Mem0 风格)——系统在后台自动抽取与存储,Agent 按需调用搜索工具;框架无关,能和 LangChain、CrewAI、AutoGen、Mastra 配合,稳定且 token 高效
  • 自编辑式(Letta 风格)——Agent 用显式函数调用(core_memory_appendarchival_memory_search)管理自己的记忆,上下文窗口充当 RAM,archival 充当磁盘;适应性更强,但每次记忆决策都要额外 token。截至 2026 年 3 月,Letta 已支持 git 支撑的记忆、skills 和 subagents

阶段 5 遗忘:没人会优先做的那件事

记忆应当是一种导向机制,而不是囤积者的阁楼。

完整的记忆生命周期——从摄入、活跃使用,到衰减、归档、删除。

多数团队上线时只有存储路径没有删除路径。这样在一定时间以后就会检索变慢,无关事实开始主导结果,Agent 运行越久反而越糟。如果你说不清什么会被删除、何时删除、为什么删除,那你拥有的是内存泄漏,不是记忆系统。

三种遗忘机制必须同时工作:基于时间的衰减用指数函数压低更老、更少访问的记忆的检索分数,典型半衰期约 70 天,不删除,只是降低浮现概率;基于 TTL 的归档把 90 天(事件)或 180 天(事实)内未访问的记忆挪进冷存储,仍可显式查询,但默认检索不会碰;矛盾扫描则周期性扫描冲突的活跃记忆并触发整合——少了这一环,Agent 会卡在过时偏好和当前偏好之间。

流水线告诉你每个记忆系统要做什么;设计模式告诉你怎么按具体用例把它组装起来。

四种可行的设计模式

在生产里频繁出现、值得被命名的流水线编排方式有四种。它们沿三条轴有所不同:Agent 自行管理记忆的程度、存储多少历史、检索粒度要多细。

经验法则:从模式 2(结构化状态 + 向量搜索)开始,它能解决 80% 的用例;只在需求清楚要求时再往上加复杂度。

决策树:挑选满足需求的最低复杂度模式。没有明确证据就别越过模式 2。

模式 1 分层记忆(Letta / MemGPT)

核心思路是把上下文窗口当作快而有限的存储,把外部数据库当作大容量、可搜索的存储。Agent 通过函数调用在两者之间搬运事实。

Agent 通过显式函数调用,把事实在 core(类 RAM)和 archival(类磁盘)之间挪动。

core memory 约 500 token 常驻上下文,archival memory 按需搜索;大约 10–15% 的 token 预算会花在记忆管理本身。这类方案适合长期陪伴、心理疗愈机器人、长时间运行的编码助手,代价是明显的架构锁定。

模式 2 结构化状态 + 语义搜索(80/20 法则)

JSON/Redis 负责需要的 80%(零延迟、完美准确率),向量搜索则负责剩下那 20% 需要模糊匹配的部分。

对需要精确事实的 80% 查询用结构化状态,对需要模糊匹配的 20% 回退到向量搜索。

他的优势是没有嵌入质量的问题,存进去什么事实,取出来就是什么事实。几乎所有项目都可以拿它打底,代价是要预先做好显式的 schema 设计。

模式 3 图谱记忆(Zep / Graphiti)

实体作为节点,关系作为边,沿连接链前进。

事实是带有效期窗口的边——旧偏好仍可查询,但被标记为 SUPERSEDED。

Zep 在 DMR 上拿到 94.8%;在 LongMemEval 上 63.8% vs Mem0 的 49.0%,15 个点的差距来自双时态架构。它适合企业知识与合规繁重的工作流;代价是运维复杂度明显更高。

模式 4 检查点记忆(崩溃恢复)

在每次重要动作后落一个状态检查点。

三层:原始日志、当前状态、策展过的经验教训;崩溃后读取状态记忆,从上个检查点续跑。

三层分别是 operational(原始事件日志)、state(当前任务)、long-term(策展过的经验教训)。批处理、CI/CD、无人值守自动化都适用;代价是写密集,需要快速持久化的存储(Redis AOF、DynamoDB)。

选对模式是成功的一半;另一半是知道无论用哪种模式,只要不够小心,都会悄悄潜进来的那批反模式。

生产常见的六个问题

失效的记忆系统,失效原因总跑不出六条;而且它们并不独立,你往往一次上线就顺手带出两三个。六者都能追溯到同一个错误:把记忆当成一个无脑的写入-搜索桶,而不是策展的、时间感知的、来源可追踪的系统。

这六个归为三族:保留太多——囤积者、单体、吸血鬼,让系统膨胀到检索比不检索还吵;信错了对象——时间旅行者、回音室,悄悄污染输出;从不闭环——失忆循环,让你之前搭的一切都打了水漂。

下面每节都用同一套骨架:症状、根因、修复。

1、囤积者(从不遗忘)

向量存储无限增长:跑过 1 万个会话之后,检索会把数月前的矛盾事实和昨天的更新混在一起一并返回。

没有 TTL、没有衰减——存储永远膨胀,检索返回来自数月前的矛盾。

根因是没有衰减、没有 TTL、没有计划中的矛盾扫描。Databricks 的真实案例里,Agent 会随时间以越来越高的信心引用先前运行里错误的输出。修复路径是 TTL 归档 + 近因衰减 + 定期矛盾扫描;上线前就把删除路径设计好。

2、吸血鬼(每轮自动检索)

每一轮都多 200–500ms 延迟、500+ 无关 token。

不管这一轮要不要历史,每轮都触发检索——延迟和成本一起堆起来。

根因是"以防万一"式检索:一股脑全拉进来,让模型自己分拣。它为什么比没记忆还糟?因为无关记忆会主动误导模型。修复就是 memory-as-a-tool——参见 Mem0 的选择性做法:由 Agent 自己决定何时召回;主动检索上限控制在 500 token 以内。

3、单体(所有东西堆一个库)

一次查询返回一堆杂糅在一起、互不相干的记忆类型。

所有记忆类型都倒进同一个存储——检索到的是一锅无关内容的大杂烩。

根因是所有类型都堆进单一数据库、没有分隔。修复办法是按类型拆存储、用独立 schema;只要 schema 在逻辑上分开,用一个 PostgreSQL 也行。

4、时间旅行者(没有时间感知)

Agent 按一个已经不再成立的旧偏好在行动。

相似度搜索按内容而非近因挑最接近的匹配——旧事实把新事实压了下去。

根因是相似度搜索按内容找最接近的条目,不看近因。有证据在:带图谱记忆的 Mem0 在时间类任务上拿到 58.13%,OpenAI 只有 21.71%;把差距拉平的关键正是时间戳和图谱边。修复办法是给每条记忆同时存

created_at

valid_until

,给近期记忆更高权重,对冲突建时间感知摘要而不是覆盖。

5、回音室(跨 Agent 污染)

Agent B 按 Agent A 幻觉出来的"事实"在行动;幻觉就这样变成了 ground truth。

没有来源标签,一个 Agent 的推断会被下一个读到它的 Agent 当成 ground truth。

根因是从没追踪一条记忆到底从哪儿来。HaluMem 基准(2026 年 1 月)显示,每个受测的商业系统(Mem0、Memobase、MemOS、SuperMemory、Zep)都会在记忆操作中产生幻觉;中等上下文下,QA 幻觉率超过 19%。修复路径是给每条记忆贴上来源与置信度标签,并确立信任层级——用户陈述 > 工具返回 > Agent 推断。

6、失忆循环(检索-遗忘-检索)

Agent 反复检索同一批记忆却从不吸收它们,token 成本螺旋上升。

同一条记忆被反复检索,因为系统从来没记录它已经被应用过。

根因是记忆被塞进 prompt、却没被标为"已应用"。修复:在每条记忆上追踪"已应用于会话 X"的状态,同一会话内跳过重复检索。

完整的生产架构示例

示例的场景是一名客户打进客服线路。语音 Agent 必须按姓名问候来电者,并带上相关上下文——过往工单、账户状态、首选语言——响应预算 200ms 以内,对话才自然。没有记忆,来电者要把一切重讲一遍;有了记忆,Agent 从工单中途接手,30 秒搞定,而不是 5 分钟。

语音为什么是最复杂的的记忆场景?200ms 响应预算是人类对话延迟的底线,一旦超过来电者会以为 Agent 卡顿了——Salesforce 的 VoiceAgentRAG 研究就把这一点当作不可谈判的设计约束。电话里没有回滚,来电者没法重新阅读自己说过的话;Agent 忘了,对话就得重来。输入是流式的,来电者 ID 一匹配,检索就可以启动,不必等他说完句子。

单次向量数据库查询本身就要 50–300ms——那是全部预算。生产架构会再压上一层语义缓存(亚毫秒)和预测性预取,才把整体拉回线以下。

记忆层位于 Agent 与存储之间——不在 Agent 内,也不在存储内;这个分离是最关键的单一架构选择。

电话与语音 I/O 自成一层,Twilio 换成 LiveKit 不必动 Agent,Deepgram 换成 AssemblyAI 不必动记忆。记忆层独立于 Agent 运行时,同一层记忆可以服务销售、客服、引导多个 Agent,不必重复检索逻辑。存储是类型化而非单体的:Redis 存状态、Qdrant 存向量、Neo4j 存实体、PostgreSQL 存审计;AWS AgentCore 报告并行 fan-out 时端到端约 200ms。可观测性本身是一层,不是事后补丁——仪表板上没有 p95 检索延迟、缓存命中率、记忆精确度,就调不了上一节那堆失效模式。

运行时分三个区。

  • Fast Path 必须在 200ms 内走完——缓存命中、LLM 推理、TTS;任何更慢的环节都要从这个区踢出去
  • Slow Thinker 在通话期间的后台跑,预测下一个可能的问题并预热缓存,让下一轮直接命中
  • Post-Call 完全异步,抽取、整合与后端写入都在 TTS 停止之后发生,绝不阻塞来电者

最小数据模型如下:

六个实体;用

phone_hash

而不是原始号码,把 PII 挡在记忆层之外。

200ms 预算实际长什么样?一次真实通话,一拍一拍地看:

  • T+0ms——电话响起,来电者 ID 命中 CALLER.phone_hash
  • T+1ms——语义缓存命中,返回上下文包(姓名、上次工单、首选语言)
  • T+50ms——LLM 开始基于 core memory 流式生成问候
  • T+180ms——TTS 播出:"Hi Sarah, your replacement for order #4821 is in transit — should arrive Thursday. Is that what you're calling about?"

与此同时,Slow Thinker 已经听到开场静默,在预取可能的下一个话题。当 Sarah 说 "Actually, I wanted to update the delivery address," 时,她的地址历史已经在缓存里热着——下一条响应落地 150ms,而不是 400ms。

代码示例

整件事大约 30 行就装得下。记忆层、缓存和异步抽取器分别挂在三个通话生命周期钩子上——

on_call_start

on_utterance

on_call_end

class VoiceAgent:
    async def on_call_start(self, caller_id):
        ctx = await self.cache.get(caller_id) \
              or await self.memory.retrieve(user_id=caller_id, query="recent calls")
        self.slow_thinker.start(caller_id, ctx)
        return ctx

    async def on_utterance(self, caller_id, utterance, ctx):
        response = await self.llm.generate(system=ctx, message=utterance)
        self.slow_thinker.observe(caller_id, utterance, response.text)
        return response.text

    async def on_call_end(self, caller_id, transcript):
        asyncio.create_task(self.extractor.extract_and_consolidate(caller_id, transcript))

前面讲过的流水线、模式、反模式,全部都是

HybridMemoryStore

MemoryExtractor

内部发生的事。

什么时候不该用这套?这是为实时语音量身定做的。文本聊天机器人可以完全跳过语义缓存和 Slow Thinker——逼出那份复杂度的正是 200ms 预算;聊天场景保留六层、丢掉三区即可。批处理 Agent 要的是模式 4(检查点记忆),不是这套。

200ms、75% 缓存命中率、316× 加速这类数字来自已发表的基准;但基准数字经常被误读。下面讲怎么解读。

总结

目前来看基础模型在原始能力上正在收敛。能把生产级 Agent 和 demo 分开的是记忆问题,不是模型问题。

从简单开始,结构化状态 + 向量搜索覆盖 80% 的真实用例,只有当实体关系主导查询时才加图谱记忆;把检索当工具,先把遗忘路径设计好——召回时机交给 Agent,如果你解释不清记忆怎么失效,数周之内系统就会退化;度量真正重要的量:检索延迟 p95、缓存命中率、记忆精确度,以及写入新记忆所花的时间。没有这些数字,你就是在盲飞。

不是每个 Agent 都需要这一套。如果你的 Agent 只处理单轮事务或无状态查询,这就是过度工程。记忆不是一项特性,它是 Agent 身份、连续性与信任的根基。

https://avoid.overfit.cn/post/2022946d078c47af92cc72b0e20bede4

by Santosh Shinde

IDEA插件Gradle小助手Gradle With Me更新1.4.x版本啦,优化自动同步配置功能助力多JDK版本、Gradle版本开发!

🏷️ 标签‌:#gradle #idea插件 #IDEA高效开发工具 #java #nexus #gpvp #GradleWithMe #GradleUpdate #JDK切换 #GradleBuild配置 #一键查询依赖仓库 #简化Gradle操作流程 #告别手动设置JDK

🌟IDEA 插件Gradle With Me(GPVP) 是什么?

Gradle项目版本插件,可用于版本快速傻瓜式升级及项目版本展示和项目版本搜索并支持快速生成常见项目版本的徽章及SDK相关配置、Gradle构建配置同步等功能。

欢迎使用 Gradle With Me(GPVP)。 如果您是中国大陆以外的用户,请使用 Gradle With Me Pro(GPVP)。

现有PRO版 -- IDEA 插件Gradle With Me Pro(GPVP)可通过 JetBrains 官方激活使用,激活可享受 JetBrains 官方安全支付渠道及发票!

注:若您使用的是Maven,对应的IDEA 插件为 Maven With Me(MPVP)。 如果您是中国大陆以外的用户,请使用 Maven With Me Pro(MPVP)。

✨核心功能

支持gradle项目版本快速升级/回退

无论是快照版还是release版,输入后提交一键轻松帮您搞定版本值升级或回退(再也不用头疼和花费大量时间调整版本值啦)。还会为您展示修改的具体细节~ 简化您的工作流程,为您节省大量宝贵时间!

注: 只支持限定的标准格式,如有问题可进行反馈

update-version_zh

update-version-result_zh

支持gradle项目版本展示

可直接在项目视图中展示版本值,一眼便能知晓当下版本~ 并提供自定义展示规则能力。

show-version_zh

show-version-project-view

支持maven/gradle项目依赖版本搜索

支持查询中央仓库最新依赖版本,也可以快速查询Nexus仓库(远程/私服)依赖版本。简化您的工作流程,为您节省大量宝贵时间!

提供便捷式搜索能力(Maven pom配置或Gradle依赖配置粘贴后即可查询,也可通过关键字进行查询), 一键复制依赖坐标,
一键访问文件目录(兼容Nexus低版本)一键加载更新时间(兼容Nexus低版本),快速查看版本详情页等,欢迎上手体验~

search-version-central_zh

search-version-central-result_zh

search-version-nexus_zh

search-version-nexus-result_zh

支持maven/gradle项目版本徽章生成

支持快速生成常见Maven/Gradle项目版本的徽章 (依赖shields.io能力)。提供常见参数使用,可快速自定义文本及颜色。提供支持groupId+artifactId快速输入能力(如Maven pom配置或Gradle依赖配置粘贴即可),并内置常用徽章的跳转链接(如发布到中央仓库release jar的版本链接)及自定义跳转链接,为您徽章的生成提供一定的便捷~

build-version-badge_zh

build-version-badge-result_zh

支持项目配置同步功能

自动同步JDK、语言level规范、Gradle Build等配置功能!无论是个人开发还是团队协作,一人配置,全员共享!(需要提交配置到远程仓库)

无论是在项目打开,还是Git clone、Git分支切换、Git还原等场景下,自动识别切换到对应的JDK版本Gradle Build等配置!!!进一步统一团队SDK规范,并节省团队或个人需多次手动配置IDE环境等繁琐步骤及时间!!!

其他说明:JDK Home Path中的 ~ 代表为用户主目录,用于动态识别出不同用户名下的统一路径。

project-settings-synchronous_zh

project-settings-synchronous-gradle-config_zh

💡如何安装

在idea插件中心搜索关键字 GPVP 进行安装即可,Pro版可享14天免费试用!

还在等什么?快来体验 Gradle With Me 插件,让 IDEA + Gradle项目开发如虎添翼!💪

‌❓如何了解更多或获取帮助

您可先通过插件主页获取更多信息,若仍需帮助可加群或通过微信公众号 “新程快咖员” 进行留言,也可通过插件主页的 “联系我们” 获取更多联系方式进行联系

🛠️ 更新介绍

  • 优化项目配置同步功能
  • 优化About License
  • 支持 IDE 2026.1版本使用
  • 修复问题项

🎉 结尾



以上就是本篇文章的全部内容啦,感谢您的阅读和观看。欢迎点赞转发(分享)推荐~


MacOS 上在访达 finder 右键会显示创建文件,支持 MacOS 14+
我知道本坛大佬都是用命令行和各种 IDE ,但是很多不是程序员的用户都有这个问题,所以开发了这个拓展
下载安装后,根据引导授权 finder 权限和 Home 目录即可,关闭应用不影响使用
已上架 App Store ,功能免费、有个自定义模板收费而已,无广告、无任何数据搜集




20 个 PRO 兑换码
8R44LLMEJ483AHYX36
NHH37YH3KXEKLYFHJM
HKH6YN8Y84EAWW6JHP
RMELKNYAJ7AXJ6LAJY
JXYYAAHREMTXEJ8JE4
WFP38HNMRFW7X3RMJ7
6K3EEN8KWTL8MRMAKF
FRKYYHLAKTRNT343K7
7ETWK4P8NPTFJ766L4
8N6YW3XE64EJLPJ3AE
7AL4EPW8Y47AELM77Y
NFMH3J7YEAWK3TKYKE
LTTY3WXYH3ARLAEPWK
MYMPX6AYEN7P7H3XJL
AWHL7XAAL6WR4FFTHK
6WMTFTK36RJP7AWTYP
AHAMY6HNXFMJ3JWHLA
JALMENTPTWJY8W7PLL
FYJEM7EP8AA7YX4AJH
MAPL8MX3XEXKWWYP3P

可以用,对于国内企业来说,想长期、稳定地使用像 Claude 这样的海外AI工具,核心不是“能不能用”,而是是否稳定、是否合规。

一、国内企业为什么要用 Claude?

先说结论:Claude 更适合企业级应用场景。

相比其他AI工具,Claude在以下几个方面表现更突出:
长文本处理能力强(适合文档分析、合同审阅、知识库问答)
安全性更高(Anthropic 主打“可控AI”)
更适合B端场景(客服、内容审核、数据处理等)

二、国内使用 Claude 面临的核心问题

企业在实际使用中,通常会遇到3个问题:

  1. 网络不稳定
    访问Claude依赖海外网络,普通网络环境下:
    经常打不开
    响应慢
    容易中断
  2. 账号风控严格
    Claude对账号环境较敏感:
    IP频繁变化容易触发风控
    异常登录可能导致封号
  3. 难以规模化使用
    个人方式可以“凑合用”,但企业一旦涉及:
    多人协同
    批量调用
    系统集成
    就会非常不稳定。

三、推荐方案:使用合规稳定的跨境网络

  1. 传统国际网络专线

本质是:企业直连海外资源的专用通道

特点:
网络稳定,延迟低
支持企业级应用(API、系统对接)
但是部署周期长,价格贵,很多企业负担不起。

  1. SD-WAN 专线(更灵活、更主流)

SD-WAN 可以理解为“智能版企业专线”,目前是很多企业的主流选择。

优势在于:

  • 部署灵活:支持软件/硬件接入
  • 成本更低:相比传统专线更有性价比
  • 多线路调度:自动选择最优路径,稳定性更高
  • 支持全球节点加速

适合:
中小企业,需要同时使用多个海外平台(如Claude、ChatGPT等)

四、企业如何落地使用Claude?以OSDWAN为例

OSDWAN支持软件硬件连接,提供多种型号的CPE设备,还支持多终端连接,如Windows、Mac、iPhone、安卓、iPad,让您随时随地一键连接全球互联网。

具体操作步骤:

1、咨询顾问,确认套餐
首先添加顾问,咨询顾问说明需求,然后确认合适的套餐

2、开通账号
提供信息(营业执照、实名信息、手机号、邮箱号),顾问提交给技术配置,开通账号

3、安装使用
下载APP,登录连接即可使用了。

image.png

4、连接成功即可访问外网了,以打开为例。
image.png

添加图片注释,不超过 140 字(可选)

硬件接入步骤:

1、收到设备
2、设备通电
3、设备连线
4、连接WiFi
5、访问外网

image.png

五、OSDWAN有哪些优势

1、稳定连接,避免AI使用中断与报错
OSDWAN采用运营商级国际专线与 SD-WAN 智能调度,有效降低跨境网络中的丢包与抖动,确保AI 网页端访问更顺畅,避免长时间使用掉线、异常等问题,特别适合高频调用、持续在线的AI使用场景。

2、长期可用,避免频繁封控与限制
海外AI平台对网络环境和IP风控非常严格,使用不稳定的网络和不纯净的IP容易被识别并限制。OSDWAN提供合规跨境网络专线,稳定可持续的网络出口、长期一致的访问环境,可降低因环境异常导致的访问受限风险。

3、访问更快,显著降低延迟
OSDWAN在全球的数据中心节点50个,POP节点超过200个,覆盖全球300+国家地区,可以有效提高连接稳定性和响应速度,让AI代码生成告别“只会跑不会快”的困境。

4、支持多终端与统一管理
OSDWAN支持多设备同时接入,团队统一网络出口,提供企业级管理配置,无需每个成员单独配置复杂环境,即可让团队稳定使用海外 AI 服务,提升整体效率与协作体验。

六、常见问题(FAQ)

1:用普通网络能不能用?
可以,但不稳定,不适合企业长期使用。

2:为什么一定要固定IP?
因为AI平台会根据IP判断环境,频繁变化容易触发风控。

3:SD-WAN和传统专线选哪个?
预算充足、要求极高稳定 → 传统专线

想要性价比 + 灵活部署 → SD-WAN(更推荐)

总结一句话
国内企业想用好 Claude,本质不是“找工具”,而是三件事:稳定网络 + 合规环境 + 企业级部署能力

OSDWAN 是国内专业的跨境网络专线服务商,专注为AI开发者与出海企业提供稳定、低延迟的海外网络加速方案。

可解决ChatGPT、Claude code、Gemini等海外AI工具的使用限制,轻松完成账号注册并稳定使用,让AI代码生成告别“只会跑不会快”的困境,提高业务效率。

在企业出海、跨境电商、海外营销越来越普遍的背景下,“如何稳定访问国际互联网”已经不再是技术问题,而是一个合规 + 稳定 + 成本综合考量的问题。

很多企业一开始用“临时方案”,能用但不稳定;但是到后续就会遇到卡顿、掉线、账号风控等一系列问题,这篇文章,就把这件事讲清楚。

一、为什么要接入国际互联网?

对于企业来说,接入国际互联网通常不是“为了上网”,而是业务需要:

1、跨境电商 / 外贸业务
访问海外平台(独立站、Amazon、Shopify等)
与海外客户沟通(邮件、IM、视频会议)

2、海外社媒运营
使用 TikTok、Facebook、Instagram 等平台
内容发布、广告投放、数据分析

3、AI工具与SaaS系统
使用 Claude、ChatGPT 等工具
海外CRM、营销工具、数据分析平台

4、企业全球化办公
海外分公司互联
跨区域系统访问

简单来说:只要业务在海外,网络就必须先跟上。

二、合法接入国际互联网的方式有哪些?

这里直接说重点:企业能长期使用的方式,主要就两类:

  1. 传统国际网络专线
    这是最“正统”的方式,本质是:
    企业通过运营商,直接接入国际互联网出口

通常由三大运营商提供:

  • 中国电信
  • 中国联通
  • 中国移动

特点:

  • 合规性强
  • 稳定性高
  • 延迟低

缺点是:
成本高(通常按带宽计费)
开通周期长
灵活性差(扩容、调整麻烦)
更适合:大型企业、对稳定性要求极高的场景

  1. SD-WAN 跨境网络专线(主流方案)

SD-WAN 本质是:
用软件定义网络,把多条链路“智能组合”,实现更灵活的跨境连接
你可以理解为:“更聪明、更便宜的企业专线”

核心优势:

  • 成本更低(相比传统专线)
  • 部署快(支持软件/硬件接入)
  • 多线路智能调度(自动选最优路径)
  • 支持全球节点加速

目前大多数跨境电商、外贸公司,基本都在用这一类方案。

三、SD-WAN 跨境网络专线有哪些?

目前市场上主要分两类服务商:

  1. 运营商 SD-WAN
    还是三大运营商提供:
    中国电信、中国联通、中国移动

优势:
合规性强、网络资源稳定

不足:
灵活性一般、成本相对较高

  1. 第三方专业服务商(更灵活)

比如:OSDWAN(专注跨境网络)

这一类厂商通常具备:

  • 多运营商资源整合能力
  • 全球节点布局
  • 更灵活的部署方式

对中小企业来说,性价比更高、落地更快。

四、OSDWAN有哪些优势?

相较于传统的SD-WAN服务商,OSDWAN跨境网络专线也有极大突出优势:更好用、更高性价比、更安全、更可控、更安心。

01、更好用:相比传统SD-WAN服务商只支持CPE设备,OSDWAN不仅提供多种型号的CPE设备,还支持经过安全认证的相应软件。支持Windows、Mac、iPhone、安卓、iPad,让您随时随地一键连接全球互联网。

02、更高性价比:相比传统SD-WAN服务商与运营商接近的高额网络费用,OSDWAN仅需一半不到的成本即可享受同等优质的网络线路。

03、更安全:OSDWAN采用自研双重加密机制,对数据进行多层加密处理,有效防止数据泄露、保证信息安全传输。

04、更可控:企业管理后台,可以管理员工子账号、限制使用设备数、管控访问范围、监管访问日志。

05、更安心:相比传统SD-WAN服务商需要5-8个工作日按照工单解决客户问题,OSDWAN提供专属售后支持,配备专属售后顾问。同时还提供分流解锁,路由优化等服务。让您的业务安心出海。

总的来说,OSDWAN兼具合规合法、稳定安全、简单易用、高性价比等优势,支持一键访问全球互联网。是企业办公、网络营销、跨境直播、社媒运营的不二之选。

image.png

五、OSDWAN怎么开通?

OSDWAN支持软件硬件连接,提供多种型号的CPE设备,还支持多终端连接,如Windows、Mac、iPhone、安卓、iPad,让您随时随地一键连接全球互联网。

OSDWAN只需简单三步,即可开通,大致流程如下:

1、明确需求,咨询顾问
首先得明确自身的业务需求,比如是做社媒运营还是外贸办公,OSDWAN会根据您的需求来推荐合适的套餐。

2、购买后开通账号
选择合适的套餐后,提供对应的信息(营业执照、实名、 手机、邮箱),为您开通OSDWAN账号

3、登录连接
下载OSDWAN专属APP,输入账号密码,连接成功后即可稳定访问国外软件了。

image.png

总结
企业接入国际互联网,本质上不是“能不能上”,而是:是否稳定、是否合规、是否能支撑业务长期发展,如果业务涉及跨境电商、AI工具、海外营销,建议优先考虑SDWAN。

OSDWAN是国内专业的跨境网络专线服务商,专注于为出海企业提供合规、稳定、低延迟的跨境网络解决方案。支持硬件部署与软件接入,满足不同规模企业的灵活组网需求。

目前已覆盖全球 50+ 数据中心节点,200+ POP 接入点,可提供包括海外加速、SaaS 加速、SD-WAN 组网、跨境专线、云专线互联等多种产品,帮助企业建立长期可持续的国际网络架构。

产品支持从入门版到企业级独享专线多种方案,适用于外贸办公、海外AI加速、社媒运营、跨境电商、品牌出海、跨境直播等多行业场景。

这两天在统计自己几个订阅的历史开销,因为 Codex 可以接通 OTEL 这点还比较方便
找到一个典型账号
正好是在 4 月 12 日 Plus 额度削减之后用了 47%的周限额
47%的周限额按 GPT-5.4 计费用了 50 刀,那么一周的限额大概就是 100 刀出头的 Token 用量

今年高企的硬件价格,让搬瓦工/DMIT 都不再投入资源,守着现金;再加上国内环境变化,海外 IDC 厂家各个都惜售手里的产品,小厂家也借机推出自己的产品,个个都卖爆了

先说结论,VMRack 机器的 IP 质量和解锁都挺好,线路的话只建议买 L3 级别产品,落地的话只建议 L2 、L1 (其中 L1 只能拿来做落地用,直连有点费劲)

洛杉矶线路分为 3 个级别,有 30 多款产品:

3 个级别分别是 L3 三网精品 L2 三网优化 L1 美国原生

L3 三网精品是优化线路机器,三网各自优化,IPv4-电信 CN2GIA 联通 9929 移动 CMIN2 无 IPv6
L2 三网优化是没有优化完全的机器,IPv4-电信 163 联通 10099 移动 CMI 无 IPv6
L1 美国原生,无优化线路,IPv4-普通线路 无 IPv6

① L3 三网精品

三网各自优化就是顶呱呱,再加上 IP 干净,是线路机+落地鸡 合二为一优选,上一个这么优秀的机器,还是 Zgo 美西新三网各自优化精品机器(配置和流量稍逊 VMRack 一点)

L3.VPS.1C2G.Base (特价机)

1 、本机基本信息(可以看得出来是 AMD EPYC 系列 CPU )

image

2 、YABS 跑分,单核 1245 分(磁盘读写一般,国际方向带宽也一般,但 CPU 得分还可以,没有严重超售)

image

3 、IP 质量(还别说,新开的机器 IP 质量都很好,流媒体解锁,AI 也都全解锁)

image

4 、媒体解锁(流媒体解锁,AI 也都全解锁)

image

5 、三网回程(电信 CN2GIA 联通 9929 移动 CMIN2,脚本问题显示为 cmi)

image

6 、PING 及测速

image

image

image

L3 三网各自优化精品( 6/10 款有货)

产品名称 CPU 内存 硬盘 带宽 流量 价格 库存 购买
L3.VPS.1C2G.Base 1 核 2G 20G 500Mbps 1000GB $7.99/1 个月 ~~$24.00~~ (-67%) ❌ 无货 购买 #AFF
L3.VPS.2C2G.Base 2 核 2G 40G 500Mbps 1500GB $13.99/1 个月 ~~$38.00~~ (-63%) ❌ 无货 购买 #AFF
L3.VPS.2C4G.Base 2 核 4G 60G 500Mbps 2000GB $19.99/1 个月 ~~$47.00~~ (-57%) ❌ 无货 购买 #AFF
L3.VPS.4C4G.Plus 4 核 4G 80G 1Gbps 4TB $49.99/1 个月 ~~$86.00~~ (-42%) ✅ 有货( 22 台) 购买 #AFF
L3.BVPS.2C2G.Base 2 核 2G 50G 20Mbps 不限流量 $89.00/1 个月 ~~$127.50~~ (-30%) ⚡ 紧张( 20 台) 购买 #AFF
L3.VPS.4C8G.Plus 4 核 8G 100G 1Gbps 8TB $96.99/1 个月 ~~$163.00~~ (-40%) ✅ 有货( 24 台) 购买 #AFF
L3.VPS.1C1G.Base 1 核 1G 20G 500Mbps 600GB $102.00/6 个月 ❌ 无货 购买 #AFF
L3.VPS.8C16G.Pro 8 核 16G 200G 1Gbps 16TB $189.99/1 个月 ~~$324.00~~ (-41%) ✅ 有货( 25 台) 购买 #AFF
L3.BVPS.2C4G.Plus 2 核 4G 80G 50Mbps 不限流量 $219.00/1 个月 ~~$315.00~~ (-30%) ⚡ 紧张( 20 台) 购买 #AFF
L3.BVPS.4C8G.Pro 4 核 8G 100G 100Mbps 不限流量 $459.00/1 个月 ~~$626.00~~ (-27%) ⚡ 紧张( 20 台) 购买 #AFF

L3 测速地址: https://L3.vpszdm.com

② L2 三网优化

VMRack 的三网优化,其实是半优化的机器,优化不完全

L2.VPS.2C2G.Base (特价机)

1 、本机基本信息(可以看得出来是 AMD EPYC 系列 CPU )

image

2 、YABS 跑分,单核 1308 分 双核 1887 分( CPU 得分还可以,没有严重超售)

image

3 、IP 质量(还别说,新开的机器 IP 质量都很好,流媒体解锁,AI 也都全解锁)

image

4 、媒体解锁(流媒体解锁,AI 也都全解锁)

image

5 、三网回程(脚本测出来怎么都走联通 4837)

image

6 、PING 及测速

image

image

L2 三网优化( 7/10 款有货)

产品名称 CPU 内存 硬盘 带宽 流量 价格 库存 购买
L2.VPS.2C2G.Base 2 核 2G 40G 5Gbps 2TB $4.88/1 个月 ~~$14.00~~ (-65%) ❌ 无货 购买 #AFF
L2.VPS.2C4G.Base 2 核 4G 60G 5Gbps 4TB $8.88/1 个月 ~~$23.00~~ (-61%) ❌ 无货 购买 #AFF
L2.VPS.4C4G.Plus 4 核 4G 80G 5Gbps 6TB $12.88/1 个月 ~~$32.00~~ (-60%) ⚡ 紧张( 1 台) 购买 #AFF
L2.VPS.4C8G.Plus 4 核 8G 100G 5Gbps 10TB $20.88/1 个月 ~~$49.00~~ (-57%) ✅ 有货( 25 台) 购买 #AFF
L2.VPS.8C8G.Pro 8 核 8G 150G 10Gbps 20TB $36.88/1 个月 ~~$85.50~~ (-57%) ✅ 有货( 25 台) 购买 #AFF
L2.VPS.1C1G.Base 1 核 1G 20G 5Gbps 1TB $48.00/6 个月 ❌ 无货 购买 #AFF
L2.VPS.8C16G.Pro 8 核 16G 200G 10Gbps 30TB $54.88/1 个月 ~~$126.00~~ (-56%) ✅ 有货( 25 台) 购买 #AFF
L2.BVPS.2C2G.Base 2 核 2G 50G 100Mbps 不限流量 $79.00/1 个月 ~~$107.50~~ (-27%) ⚡ 紧张( 19 台) 购买 #AFF
L2.BVPS.2C4G.Plus 2 核 4G 80G 200Mbps 不限流量 $159.00/1 个月 ~~$214.00~~ (-26%) ⚡ 紧张( 20 台) 购买 #AFF
L2.BVPS.4C8G.Pro 4 核 8G 100G 500Mbps 不限流量 $390.00/1 个月 ~~$526.00~~ (-26%) ⚡ 紧张( 20 台) 购买 #AFF

L2 测速地址: https://L2.vpszdm.com

##③ L1 美国原生

VMRack 的 L1 是叫美国原生,线路到国内没有优化


L1.VPS.2C2G.Base (特价机)

1 、本机基本信息(可以看得出来是 AMD EPYC 系列 CPU )

image

2 、YABS 跑分,单核 1196 分 双核 1944 分( CPU 得分还可以,没有严重超售)

image

3 、IP 质量(还别说,新开的机器 IP 质量都很好,流媒体解锁,AI 也都全解锁,适合落地)

image

4 、媒体解锁(流媒体解锁,AI 也都全解锁)

image

5 、三网回程

image

6 、PING 及测速

image

image

L1 美国原生( 6/10 款有货)

产品名称 CPU 内存 硬盘 带宽 流量 价格 库存 购买
L1.VPS.2C2G.Base 2 核 2G 40G 5Gbps 2TB $3.66/1 个月 ~~$9.80~~ (-63%) ❌ 无货 购买 #AFF
L1.VPS.2C4G.Base 2 核 4G 60G 5Gbps 4TB $5.66/1 个月 ~~$14.60~~ (-61%) ❌ 无货 购买 #AFF
L1.VPS.4C4G.Plus 4 核 4G 80G 5Gbps 8TB $9.66/1 个月 ~~$21.20~~ (-54%) ❌ 无货 购买 #AFF
L1.VPS.4C8G.Plus 4 核 8G 100G 5Gbps 16TB $16.66/1 个月 ~~$33.40~~ (-50%) ✅ 有货( 24 台) 购买 #AFF
L1.BVPS.2C2G.Base 2 核 2G 50G 100Mbps 不限流量 $27.50/1 个月 ~~$37.50~~ (-27%) ⚡ 紧张( 19 台) 购买 #AFF
L1.VPS.8C8G.Pro 8 核 8G 150G 10Gbps 30TB $28.66/1 个月 ~~$52.50~~ (-45%) ✅ 有货( 25 台) 购买 #AFF
L1.VPS.1C1G.Base 1 核 1G 20G 5Gbps 1TB $35.40/6 个月 ❌ 无货 购买 #AFF
L1.VPS.8C16G.Pro 8 核 16G 200G 10Gbps 40TB $36.66/1 个月 ~~$72.00~~ (-49%) ✅ 有货( 25 台) 购买 #AFF
L1.BVPS.2C4G.Plus 2 核 4G 80G 200Mbps 不限流量 $55.00/1 个月 ~~$75.00~~ (-27%) ⚡ 紧张( 20 台) 购买 #AFF
L1.BVPS.4C8G.Pro 4 核 8G 100G 500Mbps 不限流量 $126.00/1 个月 ~~$176.00~~ (-28%) ⚡ 紧张( 20 台) 购买 #AFF

L1 测速地址: https://L1.vpszdm.com


最后说一下,值得买的是 L3 ,特价款最值得买了,但经常缺货

🔥 限时特价( 0/2 款有货)

产品名称 CPU 内存 硬盘 带宽 流量 价格 库存 购买
L3.VPS.1C2G.Base 1 核 2G 20G 500Mbps 1000GB $7.99/1 个月 ~~$24.00~~ (-67%) ❌ 无货 购买 #AFF
L3.VPS.1C1G.Base 1 核 1G 20G 500Mbps 600GB $25.00/6 个月 ~~$102.00~~ (-75%) ❌ 无货 购买 #AFF

引用论坛某位资深大佬的话是,vmrack 每周一早上 9 点-10 点会小批量放货,放货之前登录账号,点击购买,多点几次支付就能抢到

另外,根据祖训,大家抢特价机之前,一定要先注册好账号,务必做到一号一机!一号一机!一号一机!

可千万不要一号多机,玩够了难以出手。一号一机非常容易出手。按现在的硬件趋势,未来这个特价机还会溢价,买到 L3 低配特价机就是赚到

补货监控: https://stock.vpszdm.com

模力工场新鲜事

  1. 4 月 24 日(本周五)-4 月 26 日(本周日),2050 大会将盛大开启!

  • 地点:中国杭州 · 云栖小镇国际会展中心

今年的 2050 大会干货超满!两天一夜,130+场论坛、500+分享者,从早 8 点讲到深夜。

2050 大会,是王坚院士在 2018 年发起了一个面向年轻人的“科技乌托邦式聚会”。

极客邦科技创始人兼 CEO 霍太稳(Kevin)也是最早的共创者之一。10 年前,几人在上海的一间酒店会议室里聊天,聊着聊着就冒出一个问题——能不能做一个规模大一点、真正属于年轻人的科技聚会?名字反复打磨,形式一再推敲,这些想法一点点长成了今天的 2050 大会。

2017 年 10 月 29 日在上海某个酒店的会议室,2050 大会开始发芽

从左至右:薛贵荣、王坚、锦木、霍太稳

在每年 4 月最后一个周五六日,全球最有趣的年轻开发者、创客、AI 爱好者将齐聚杭州——没有架子、没“大咖席”,只有纯粹的热爱和好玩的灵魂,以及这个时代最前沿、最鲜活的思考。

参与活动请扫描下方二维码,更多攻略一步到位,还可以抽取大会门票和模力工场精美周边哦~

  1. 全新内容栏目上线!「Q:Lab」专注于 AI 产品深度探索、测评

如果你已经看腻了“这个 AI 很强”、“那个 Agent 很聪明”的 PR 介绍;那我们换一种更直接的方式:把各种 AI 产品拉进不同场景,让真实用户现场实操,结果好不好一眼见分晓。

在此,向大家介绍 InfoQ 中国推出的全新 AI 产品深度探索、测评直播栏目:「Q:Lab」

这里不讲概念、不教部署——每期围绕一个真实职业场景,让 AI 产品同时接受测评,由一线从业者亲手操作,现场出结果。

第一季「龙虾季」由模力工场和 InfoQ 共创,聚焦 AI Agent 产品,覆盖 9 款核心产品,共 3 期直播。

不是广告!干货满满!欢迎预约~

  1. 直通「AI 界春晚」机会来啦!WAIC Future Tech 开启“一人公司”先行者大赛

现在,初创公司和普通开发者,也有机会成为 AI 界顶级盛会世界人工智能大会(WAIC)的参展方,向顶级投资人、媒体、30 万+参观者展示推广你的产品或成果。

玩法很简单:4 月线上提交 Demo 筛选,5 月城市路演(北京、上海、深圳、成都、新加坡等 10 城联动),7 月进入 WAIC 总决赛。

为了让更广泛的群体参与进来,主办方设置了“双轨制赛道”。

目前活动正在火热进行中!报名持续开放、滚动筛选。

如果你已经用 AI 做出点东西,这是一次将其放到聚光灯下的特别好的机会。更多详情可见《Future Tech | 你的idea只差一个AI:直通WAIC世界舞台,寻找“一人公司”先行者》

模力工场 037 周榜单总介绍

模力工场

第 037 周 AI 应用榜来袭!前 10 名如下:

XT-AIGC

XT-AIGC 是一款轻量化 AI 创作工具,集成文生图、角色三视图、图生视频及漫剧制作,支持多模型密钥管理,接入即可使用。

MonkeyCode 智能开发平台

通过 AI 驱动的编程助手、自动化工作流和智能开发工具,帮助开发者更快速地构建应用程序。

来福

你的私人 AI 电台,海量内容、打开就播,个性化推荐、越听越懂你,语音聊天、智控点播,多种 AI 主播随心选。

Moras

一款面向内容电商的 AI Agent,把选品、脚本、视频生成、发布到数据分析这一整套流程自动化,让个人也能跑通带货。简单理解:它把原本需要一整个团队完成的卖货链路,压缩成一个人+AI 就能完成。

MemoryLake

一个记忆护照。伴你穿梭于 ChatGPT、Claude、Qwen、OpenClaw,跨越每一个智能体、每一次会话。

镖行AI标书

镖行 AI 标书,标书 AI 智能写作工具。一键智能生成图文并茂高质量标书,高效辅助投标。操作简单,急标、新手友好。

TalkAI

用 AI 模拟真实对话场景的口语练习工具,让你在没有语言环境和搭档的情况下,也能随时练习并获得即时反馈与纠正。

讯飞译制

基于科大讯飞语音识别技术的 AI 视频字幕制作软件

讯飞写作

基于科大讯飞星火大模型的一款 AI 智能写作助手

问小白

探索世界的 AI 搭子,一款支持多模态输入的 AI 助手,帮你快速获取信息、生成内容并处理文档,甚至可以一键把回答生成可用的网页页面。

本周必试应用

【应用名称】:XT-AIGC

【关键词】:图像设计|视频多媒体| 新媒体创作

【用户热评】:

我开发这款软件,核心是解决普通创作者用 AI 太麻烦、太分散的问题

  1. 市面上 AI 工具零散,文生图、视频、漫剧要切换多个平台,效率低

  2. 新手不会部署本地模型,接口复杂难上手

  3. 短剧、动漫创作缺少一站式工具,流程繁琐

  4. 所以做一款聚合型 AIGC 软件,降低门槛,让普通人也能高效完成 AI 创作。

——用户 @孔庆荣

【使用场景】:

  1. 文生图,图生图,文生视频,图生视频。

  2. 自己定义图片节点进行人物换装,换场景等等。

  3. 调整人物拍摄角度。

  4. 人物补充灯光。

  5. 内置摄像头等提示词,可以快速仿照传统相机出对应的图片。

  6. 漫剧制作。

  7. 图片提示词解析。

本周上榜应用趋势解读

首先,是“连接层”开始出现,生态意识增强。

像 MemoryLake 这种产品,其实在解决一个更底层的问题:ChatGPT、Claude、Qwen、OpenClaw 各自割裂,而且用户数据和记忆不互通,而它做的,就是在不同 Agent/模型之间做“记忆中枢”。

其二,是现在的 AI 应用已经从“单点工具”转换成“一整条链路助手”,最近这几周的 AI 应用都或多或少地体现了这个特点。

Moras、XT-AIGC、MonkeyCode 这些产品上都能看到这点。

  • Moras:选品 → 脚本 → 视频 → 发布 → 数据分析(完整电商链路)

  • XT-AIGC:文生图 → 图生视频 → 漫剧制作(完整内容生产链路)

  • MonkeyCode:写代码 → 工作流 → 自动化开发(完整开发链路)

其二,是门槛在被系统性压低,越来越多的 AI 应用也开始“非技术背景用户”。

这批产品明显在做一件事:复杂能力在后台,用户只需要“说一句话”,零基础的人也能用,例如:

  • XT-AIGC:把多模型调用、提示词、图像节点都封装好

  • 镖行 AI 标书:直接一键生成完整标书(新手也能用)

  • TalkAI:模拟真实对话+实时纠错,替代语言环境

  • 问小白:自然语言+多模态+文件理解,甚至直接生成网页

还有一点,就是多模态成为标配,而不是卖点。

这一周几乎所有产品,都在不同程度上“多模态化”。例如:

  • XT-AIGC:图像 + 视频 + 漫剧

  • 问小白:文本 + 文件 + 图片解析

  • 讯飞译制:语音 → 字幕 → 视频处理

但它们的重点已经不是“我支持多模态”,而是多模态只是完成任务的手段之一。

Web 3D 可视化开发中,模型动画、材质质感、渲染扩展性是提升产品体验的关键,但其底层逻辑复杂,如骨骼蒙皮、光照计算,导致开发门槛高、效率低。图扑软件自研 HT for Web(简称 HT)高性能 Web 3D 渲染框架,为 FBX/glTF 模型的骨骼动画、材质切换及自定义 Shader 开发提供完善支持,可大幅降低开发门槛,提升 3D 应用的开发效率与视觉呈现质量。

此图片的alt属性为空;文件名为2.gif

系统分析

01 FBX/glTF 模型骨骼动画实现

骨骼动画是复杂 3D 模型动态交互的核心能力。HT 框架通过底层渲染逻辑封装,大幅简化骨骼蒙皮、帧插值、动画调度等复杂流程,开发者可通过标准化流程快速实现模型动画。

建模与导出规范

设计师可在 3ds Max、Maya、Blender 等主流工具中完成模型构建、骨骼绑定与权重绘制,并编辑关键帧动画(如机械运动、角色行走、设备动作等)。

模型导出需遵循以下规范(确保动画数据完整、加载高效):

  • FBX:保留完整动画通道信息,确保骨骼与动画数据完整;
  • glTF:优先使用 .glb 二进制格式,资源打包密度更高、网络加载更快。

此图片的alt属性为空;文件名为3-1.gif

动画加载与播放

开发者无需关注底层渲染(如骨骼蒙皮计算、动画帧插值),通过简洁代码即可实现动画,具体步骤如下:

1 创建 3D 视图

初始化视图并挂载到 DOM,为模型加载提供渲染容器。

var g3d = new ht.graph3d.Graph3dView();
g3d.addToDOM();

此图片的alt属性为空;文件名为4-2.gif

2 加载模型节点

FBX 与 glTF 仅 modelType 差异,glTF 支持 .gltf/.glb 格式。

var walkMan = new ht.Node();
// FBX配置(glTF设为modelType: "gltf",url对应.gltf/.glb文件)
var modelJson = {
    modelType: "fbx",
    url: 'assets/graph3dView/fbx/walk.fbx',
    cube: true,
     center: true,
    playAutomatically: true
};
walkMan.s('shape3d', modelJson);
g3d.dm().add(walkMan); 

此图片的alt属性为空;文件名为5-3.gif

3 动画控制

支持播放、暂停、多片段切换,适配所有模型格式。

var animNames = walkMan.getAnimationNames(); // 获取所有动画名(如["walk", "run"])
// 播放指定动画:参数依次为动画名、速度(1=原速)、起始时间(0=从头播)、循环模式walkMan.playAnimation(animNames[0], 1, 0, 'repeat'); 
// 暂停动画(按需调用)
// walkMan.pauseAnimation();
// 切换动画(如从行走切到跑步)
// walkMan.playAnimation(animNames[1], 1.2, 0, 'repeat');

此图片的alt属性为空;文件名为6-2.gif

此图片的alt属性为空;文件名为7-2.gif

HT 框架封装了底层骨骼蒙皮、帧插值等复杂计算逻辑,开发者无需编写专业蒙皮算法,即可快速实现专业级 3D 动画,且支持与内置动画系统无缝融合,轻松构建复杂动态场景。

此图片的alt属性为空;文件名为9-2.gif

02 HT 框架材质系统解析

材质是决定模型物理质感与场景氛围的核心要素。HT 提供三层材质体系,并在 FBX/glTF 模型上保持配置逻辑完全统一,具备超强的工程化复用能力

核心材质类型

1 PBR 物理渲染材质(Physicallly-Based Rendering)

  • 原理: 基于物理规律模拟光线与物体表面的交互,支持金属度(metalness)、粗糙度(roughness)、环境光反射(environmentMap)等参数;
  • 优势: 真实感强,在动态光影、多光源场景下,仍能呈现真实质感(如金属反光、玻璃折射);
  • 适配: glTF 格式原生支持 PBR,导出时可直接携带 PBR 参数,FBX 需在 HT 中重新配置;
  • 场景: 数字孪生工厂(设备金属外壳)、3D 产品展示(家电塑料/金属部件)。

此图片的alt属性为空;文件名为10-2.gif

2 Blinn-Phong 材质

  • 原理: 经验光照模型,将光线分为环境光(ambient)、漫反射(diffuse)、高光(specular)三部分;
  • 优势: 计算开销低、渲染效率高,适合低性能设备(如移动端);
  • 场景: 轻量化 3D 界面(如设备状态图标)、简单模型展示(如立方体控件)。

此图片的alt属性为空;文件名为11-1.gif转存失败,建议直接上传图片文件

3 litePhong 材质(HT 自研)

  • 定位: 平衡性能与效果,简化 Blinn-Phong 计算,保留核心参数调整能力;
  • 关键参数:

    • 漫反射:diffuse(基础颜色,默认 #fff)、map(漫反射贴图,支持 .jpg/.png)
    • 自发光:emissive(发光颜色,默认 #000000,设为 #ff0000 可实现红色发光);
    • 透明:opacity(0-1 取值,0=完全透明,1=不透明)、transparent(需设为 true 才生效);
    • 粗糙度:roughness(0-1 取值,0=镜面反射,1=漫反射);
  • 场景: 指示灯(自发光)、半透明设备外壳(透明参数)。

材质设置方式

1 材质注册·全局复用
通过 ht.Default.setMaterial 注册材质,支持直接传入配置或 JSON 文件路径,后续可通过名称复用,避免重复编码。

// 1. 直接传配置(PBR材质示例)
ht.Default.setMaterial('metalMat', {
     type: 'pbr',
     metalness: 0.9, // 高金属度
     roughness: 0.1, // 低粗糙度(镜面效果)
     environmentMap: 'assets/textures/env.jpg'// 环境贴图(增强真实感)
});
// 2. 传JSON文件路径(复杂材质配置,如多贴图)
ht.Default.setMaterial('plasticMat', 'materials/plasticMat.json');

此图片的alt属性为空;文件名为12-2.gif

2 普通节点材质设置

普通 3D 节点(如立方体、球体)可直接通过 shape3d.material 绑定材质:

var cube = new ht.Node();
cube.s('shape3d', 'cube'); // 设节点为立方体
// 方式1:用已注册的材质名
cube.s('shape3d.material', 'metalMat');
// 方式2:直接传临时材质配置(不复用)
cube.s('shape3d.material', {
     type: 'litePhong',
     diffuse: '#409EFF',
     emissive: '#1E90FF'
});
g3d.dm().add(cube);

3 FBX/glTF 模型材质设置

FBX/glTF 模型需依赖设计师在建模软件中预留的材质通道(如通道名 body、arm),通过 matDef 为指定通道绑定材质,实现“局部材质修改”:

var robot = new ht.Node();
robot.s('shape3d', { modelType: 'gltf', url: 'assets/robot.glb' });
// 为通道"body"设metalMat,"arm"设plasticMat
robot.s('matDef', {
    "body": "metalMat",
     "arm": "plasticMat"
});
// 也可直接传材质配置
// robot.s('matDef', { "body": { type: 'pbr', metalness: 0.8 } });
g3d.dm().add(robot);

此图片的alt属性为空;文件名为13-1.gif
4 单独节点材质修改·避免复用冲突

若多个节点复用同一材质,直接修改材质会导致所有节点同步变化,需通过“复制材质”实现单独修改(以调整透明度为例):

// 单独修改节点透明度(FBX/glTF通用)
functionsetNodeOpacity(node, targetOpacity) {
    // 1. 获取节点当前材质定义(matDef)
    var matDef = node.s('matDef');
    // 若节点未自定义matDef,从模型默认配置中获取
    if (!matDef || Object.keys(matDef).length === 0) {
        matDef = ht.Default.getShape3dModelMap()[node.s('shape3d')].matDef;
    }
    // 2. 深拷贝材质配置(避免修改原材质)
    var matDefCopy = {};
    for (var key in matDef) {
        // 克隆已注册的材质(ht.Default.clone确保深拷贝)
        matDefCopy[key] = ht.Default.clone(ht.Default.getMaterialMap()[matDef[key]]);
        // 3. 修改材质参数(设透明)
        matDefCopy[key].transparent = true;
        matDefCopy[key].opacity = targetOpacity;
    }
    // 4. 重新绑定材质到节点
    node.s('matDef', matDefCopy);
}
// 调用:将机器人模型透明度设为0.6(半透明)
setNodeOpacity(robot, 0.6);

此图片的alt属性为空;文件名为14-1.gif

03 HT 框架自定义 Shader 开发

Shader(着色器)可突破固定渲染管线限制,HT 支持自定义顶点着色器(Vertex Shader)与片段着色器(Fragment Shader),实现卡通渲染、溶解、辉光等个性化效果,且 FBX/glTF 模型的适配逻辑统一。

Shader 职责划分

  • 顶点着色器: 处理顶点的几何信息,如坐标变换(模型→视图→投影)、法线计算,输出最终屏幕坐标;
  • 片段着色器: 处理像素颜色,如纹理采样、光照计算、透明度叠加,决定模型最终视觉呈现。

16.gif

自定义 Shader 实现流程

格式规范

  • 文件后缀: .glsl;
  • 代码分隔: 用 // FS 区分顶点着色器与片段着色器;
  • 编译选项: 通过 // Hints 指定,如 glsl3(使用 WebGL 2.0 语法)、bloomSelective(支持独立辉光)。

示例(红色纯色 Shader):

// Hints: glsl3, bloomSelective
// 顶点着色器(处理顶点坐标)
attribute vec3 aPosition; // HT内置:顶点位置
uniform mat4 uModelViewMatrix; // HT内置:模型视图矩阵
uniform mat4 uProjectMatrix; // HT内置:投影矩阵
voidmain() {
    // 计算顶点最终屏幕坐标
    gl_Position = uProjectMatrix * uModelViewMatrix * vec4(aPosition, 1.0);
}
// FS(分隔标记)
// 片段着色器(处理像素颜色)
uniform vec4 uColor; // 自定义:颜色参数
voidmain() {
    gl_FragColor = uColor; // 设像素颜色
}

17.gif

内置变量(无需手动传递)

HT 为 Shader 提供丰富内置变量,直接声明即可使用,避免手动传参繁琐,常用变量及作用如下:

此图片的alt属性为空;文件名为18-1024x877.png

19.gif

Shader 注册与调试

通过 ht.Default.setShader 注册 Shader,支持文件路径或代码字符串,同时提供错误调试工具,便于排查问题:

    // 1. 按文件路径注册(复杂Shader,如卡通渲染)
    ht.Default.setShader('toonShader', 'assets/shaders/toon.glsl');
    // 2. 按代码字符串注册(简单Shader,如红色纯色)
    ht.Default.setShader('redShader', `
        // Hints: glsl3
        attribute vec3 aPosition;
        uniform mat4 uModelViewMatrix, uProjectMatrix;
        void main() {
            gl_Position = uProjectMatrix * uModelViewMatrix * vec4(aPosition, 1.0);
        }
        // FS
        uniform vec4 uColor;
        void main() {
            gl_FragColor = uColor;
        }
    `);
    // 3. 调试:获取Shader编译错误(若报错)
    console.log(ht.Default.getShaderErrorLog());
    // 4. 监听Shader加载完成(异步加载时用)
    ht.Default.handleShaderLoaded = function(name, resource) {
        console.log(`Shader "${name}" 加载完成,可使用`);
    };

此图片的alt属性为空;文件名为20-2.gif

Shader 使用-结合材质

自定义 Shader 需与材质绑定,通过 type 指定 Shader 名称 / 路径,同时传递自定义参数(uniform),适配所有模型格式:

    let redMat = {
        type: 'redShader', // 指定已注册的Shader名称
        renderMode: 'triangles', // 绘制模式(默认triangles,支持lines/points等)
        transparent: false, // 是否透明
        cullFace: false, // 是否背面裁切(默认false,复杂模型可设为true优化)
        // 自定义uniform参数(传递给Shader的uColor)
        uColor: [1, 0, 0, 1] // RGBA:红色不透明
    };
    // 绑定到节点(FBX/glTF通用)
    robot.s('matDef', { "body": redMat });

此图片的alt属性为空;文件名为21-2.gif
实战案例-溶解效果

通过 uTime(时间)控制纹理采样,实现模型溶解:

此图片的alt属性为空;文件名为22-2.gif

1 Shader 代码-溶解核心逻辑

    // Hints: glsl3
    attribute vec3 aPosition;
    attribute vec2 aUv; // UV坐标
    uniform mat4 uModelViewMatrix, uProjectMatrix;
    uniform float uTime; // 时间参数
    uniform sampler2D uNoiseTex; // 噪声纹理
    varying vec2 vUv; // 传递UV到片段着色器
    voidmain() {
        vUv = aUv;
        gl_Position = uProjectMatrix * uModelViewMatrix * vec4(aPosition, 1.0);
    }
    // FS
    uniform float uTime;
    uniform sampler2D uNoiseTex;
    uniform vec4 uDissolveColor; // 溶解边缘颜色
    varying vec2 vUv;
    voidmain() {
        // 采样噪声纹理
        float noise = texture2D(uNoiseTex, vUv).r;
        // 计算溶解阈值(随时间增加,模型逐渐消失)
        float threshold = 0.5 + sin(uTime) * 0.3;
        // 溶解逻辑:噪声值小于阈值则丢弃像素
        if (noise < threshold) discard;
        // 溶解边缘:接近阈值的像素设为边缘色
        float edge = smoothstep(threshold, threshold + 0.1, noise);
        gl_FragColor = mix(uDissolveColor, vec4(1), edge);
    }

2 材质配置

    var dissolveMat = {
        type: 'dissolveShader',
        uNoiseTex: 'assets/textures/noise.png', // 噪声纹理
        uDissolveColor: 'rgb(255,85,0)'// 溶解边缘橙红色
    };
    robot.s('matDef', { "body": dissolveMat });

此图片的alt属性为空;文件名为23-2.gif

04 HT 框架技术优势总结

开发效率与工程化能力突出

  • 封装底层逻辑: 无需编写骨骼蒙皮、光照计算代码,动画加载 3 步完成,材质与 Shader 配置通过简洁 API 实现,大幅降低 3D 开发技术门槛;
  • 复用机制: 材质、Shader 支持全局注册与复用,适配大型项目与团队协作;
  • 调试工具: 提供 Shader 编译日志、模型包围盒调试、加载监听等功能,快速定位问题,减少调试时间。

此图片的alt属性为空;文件名为24-2.gif

视觉表现力与场景覆盖全面

  • 材质覆盖全场景: PBR/Blinn-Phong/litePhong 三级材质体系兼顾真实感与性能;
  • 动画控制灵活: 支持播放速度调节、循环模式切换(repeat/once)、多动画切换(如行走→跑步),满足复杂交互需求;
  • 自定义渲染无限制: 通过 Shader 实现卡通渲染、溶解、辉光等个性化效果,突破固定渲染管线,适配虚拟展厅、教育仿真等创意场景。

此图片的alt属性为空;文件名为25-2.gif

模型格式兼容性与一致性强

  • 支持主流 3D 格式: 原生支持 FBX、glTF 2.0、glb 等主流格式;
  • 配置逻辑统一: 动画、材质、Shader 在不同格式下接口完全统一,降低跨格式开发与维护成本

Web 端性能优化到位

  • 轻量化渲染: litePhong 材质简化光照计算,Blinn-Phong 模型减少 GPU 负载,适配移动端、嵌入式、低性能设备;
  • 资源加载优化: 资源压缩、异步加载、背面裁切、光照烘焙等优化手段完善;
  • 渲染效率提升: 复杂数字孪生场景可稳定保持高帧率运行。

总结

图扑软件 HT 框架通过封装底层 3D 渲染逻辑,为 Web 3D 开发提供高效、灵活、高性能的解决方案,降低开发门槛,推动 3D 可视化技术在各行业落地。无论是数字孪生、3D 产品展示,还是虚拟仿真等场景,开发者均可基于 HT 框架快速实现专业级三维可视化效果,同时兼顾 Web 端的兼容性与流畅性。随着 WebGL 技术的发展,HT 框架还将持续优化对 glTF 2.0 新特性(如动画片段、顶点颜色)的支持,进一步降低 Web 3D 开发门槛。

此图片的alt属性为空;文件名为26-1024x576.png

很长一段时间,我以为成为“更优秀的开发者”就是学更多工具。

更多框架、更多库、更多教程。如果我不持续升级技术栈,我就会感觉自己在落后。

所以我不停地切换,尝试新东西……

结果呢?我并没有真正进步。

我花了很长时间才明白这个简单的道理:

成长并非来自做更多的事情……

而是来自对正确的事情理解得更透彻。

深度理解vs广度学习

1. 掌握基础知识

你不能跳过 HTML、CSS 和 JavaScript,指望框架能带你一路顺风顺水。

如果你的基础薄弱:

  • 你会在 React 模式方面遇到困难
  • 你会误解 Next.js 的行为
  • 你会一直感觉自己像是在猜

扎实的基础可以消除你之后的大部分困惑。

2. 理解浏览器做了什么

很多开发者在了解开发环境之前就开始使用框架。

但所有功能仍然在浏览器中运行。

请求、渲染、缓存、DOM 更新……这一切都在你的代码底层进行。

如果你不理解这一层,框架就会感觉像魔法而不是工具。

3. 提升数据结构和算法思维

即使你不是每天刷 LeetCode,你仍然需要结构化思维。

你不需要记住所有东西,但应该理解这些模式:

  • 搜索和排序
  • 递归和迭代
  • 栈、队列、哈希映射

这种思维方式无处不在,不仅仅出现在面试中。

这就像编写可运行的代码和编写可扩展的代码之间的区别。

4. 理解框架而不是死记硬背它们

框架不是魔法。

了解它们实际的工作内容:

  • 渲染模型
  • 路由
  • 状态管理
  • 服务端与客户端行为

一旦你理解了“为什么”,“怎么做”就变得简单了。

前端开发基础知识体系

5. 上下文比建议更重要

网上很多开发建议都是正确的……但只在正确的上下文中。

在个人项目中有效的,在生产环境可能失败。在创业公司有效的,在企业系统中可能崩溃。

不要问“这个好吗?”

要问:“这个什么时候好?”

6. 理解业务

不要只是实现需求。

要理解:

  • 它们解决什么问题
  • 它们会影响哪些人
  • 为什么现在这件事很重要

这就是开发者和工程师的区别。

7. TypeScript 不只是关于类型

大多数人认为 TypeScript 只是添加类型。

其实不是。

它讲述的是:

  • 明确意图
  • 及早发现错误
  • 让重构更安全

一旦你习惯了,纯 JavaScript 就会让你觉得有风险。

8. Next.js 不只是“更简单的 React”

如果你使用 Next.js,要深入了解,不只是看懂文件夹结构。

理解:

  • 服务器与客户端组件
  • SSR 与 CSR 的权衡
  • 缓存行为
  • 路由模型

否则,你的应用能跑……但在生产环境中可能会出现不可预测的行为。

9. 正确使用工具

工具使用不当会浪费大量时间。

掌握:

  • Git
  • 你的 IDE
  • 浏览器开发者工具

这些工具每天都在使用。

这里的小改进累积起来的速度比你想象的要快得多。

10. 把问题拆成小块

大型任务让人感到压力巨大。

但它们中的大多数只是许多小问题的组合。

将它们分成:

  • 用户界面
  • 逻辑
  • API
  • 状态
  • 极端情况

这项任务变得容易多了。

你也会更快地看到进步。

一次解决一个问题,事情就会开始好转。

问题拆解流程

11. 不要复制你解释不了的代码

只要理解代码的功能,复制代码是没问题的。

问题出在盲目复制上。

后来,当出现 bug 时:

  • 你不知道该往哪里看
  • 你不会知道发生了什么变化。
  • 你不会知道你做出了哪些假设。

这就是为什么小 bug 会演变成漫长的调试过程。

12. 优先选择可读性高的代码,而不是设计巧妙的代码

写出巧妙的代码会让人感觉很好。

但之后,它就变得难以阅读、调试和修改。

大多数代码被阅读的次数比编写的次数多,因此从长远来看,可读性总是更重要的。

巧妙的代码能让人眼前一亮,而易读的代码则能让人受益终生。

13. 不要过早优化

一个常见错误是在完全理解问题之前就尝试优化。

先让它工作。

然后让它清晰。

然后只在真正重要时才优化。

过早优化增加了复杂性却没有价值。

14. 像陌生人一样阅读自己的代码

几天后回来看你的代码。

如果它让你困惑……那就是反馈。

清晰的代码应该无需费力就能理解。

15. 搜索是一项真正的技能

你不需要记住所有东西。

这项技能不是记忆,而是导航。

你需要知道:

  • 如何搜索
  • 如何过滤噪声
  • 如何识别好的答案

这才是经验的真实面貌。

16. 调试 = 消除错误假设

大多数 bug 并不复杂。

那只是你不知不觉中对自己撒的谎。

  • “这个变量肯定有值”
  • “这个函数肯定会运行”
  • “这个 API 总是返回我期望的结果”

调试的过程就是不断证明自己是错的,直到最终回归现实。

调试就是消除错误假设

17. 创造要大于消费

看教程很容易感觉高效,因为看的时候一切都说得通。

但真正的理解只发生在你独自面对空白屏幕尝试构建东西时。

如果你从不离开教程,你永远学不会思考。

所以关掉视频,自己动手试试,你肯定会遇到问题卡住,那就是成长的地方。

18. 卡住时休息一下

强行解决问题会让人感觉很有成就感。

但暂时离开往往能更快地解决问题。

不用担心,即使你停止盯着它看,你的大脑仍然会继续运转。

19. 卡住太久就寻求帮助

如果你已经卡住几个小时,不要再想了。

经验证明,再往下也很少带来突破,通常只会带来挫败感。

大多数开发者都乐意帮忙的,前提是你已经尝试自己解决问题了。

20. 提出更好的问题

谁也帮不了你解决“它怎么不起作用”这种模糊的问题。

但他们可以帮忙做这件事:

  • 以下是我尝试过的方法
  • 以下是我预期的结果
  • 事情的经过是这样的

好的问题不仅能更快地得到答案,还能迫使你更深入地理解问题。

21. 沟通是工作的一部分

写代码只是开发者工作的一部分。

另一部分是:

  • 解释你的决定
  • 讨论权衡取舍
  • 与团队协作

在实际工作中,沟通问题比技术问题更容易引发问题。

技术能力vs沟通能力

22. 学会清晰地解释你的想法

写代码只是工作的一半,解释它是另一半。

你需要能够描述你在做什么、为什么这样做、存在什么权衡取舍。

这体现在:

  • 代码审查
  • 技术讨论
  • 文档编写

清晰的沟通能够防止误解,否则会变成 bug 或浪费时间。

如果你能把复杂的概念用简单易懂的方式表达出来,你在任何团队中都会立刻变得更有价值。

23. 完成比完美更重要

在发布前试图让事情完美通常会拖慢整个流程。

比起本地一个完美的版本,从生产环境中运行的版本中你能学到更多东西。

24. 始终考虑用户体验

即使你不是设计师,你仍然可以塑造用户体验。

  • 加载状态
  • 错误消息
  • 响应时间

这些细节比大多数开发者想象的更重要。

因为用户看不到你的代码。

但他们会感觉到。

25. 对工作表现出热情

如果你与你所创造的东西缺乏联系,那么光有技术是不够的。

人们会注意到你真正关心的是产品,而不仅仅是代码。

你不需要表现得过于兴奋,但你需要表现出解决问题的兴趣,而不仅仅是完成任务。

这种态度会让你更可靠、更值得信赖,也更有可能获得更好的机会。

大多数时候,热情会悄然转化为职业发展。

26. 寻找导师

你不需要独自解决所有问题。

一位好的导师可以指出真正重要的事情,帮你节省数月的试错时间。

他们不会给你所有问题的答案,但他们可以帮助你避免一些愚蠢的弯路。

有时是公司里的高级开发人员,有时是网上你很欣赏的人。

向那些已经达到你想达到的高度的人学习。

27. 为开源做贡献

开源软件能教会你教程永远无法教会你的东西。

你将面对真实的代码库、真实的限制条件,以及真实的人员对你的工作进行审查。

一开始可能会觉得有点吓人,但这正是关键所在。

从小处着手:

  • 修复漏洞
  • 改进文档
  • 提交小型 PR

随着时间的推移,你会逐渐了解大型系统的实际结构,以及在你自身圈子之外,协作是如何真正运作的。

28. 保持开放的心态去学习新事物

当你觉得自己“弄明白了”的那一刻,你的速度就开始放慢了。

工具会改变,模式会演变,去年行之有效的方法今天可能就不够用了。

你不需要追逐每一个潮流,但你应该保持灵活。

要勇于质疑自己的习惯,并在出现更好的方法时尝试这些方法。

29. 指导年轻开发者

教学是提升自身理解力最快的方法之一。

当你向别人解释概念时,你会立刻发现自己知识上的不足。

你不需要成为专家才能提供帮助;只要稍微了解一些就足够了。

  • 回答问题
  • 审查代码
  • 指导他人完成他们的第一个项目

它迫使你更清晰地思考,同时也让整个生态系统变得更好。

30. 在社交媒体上分享你的作品

许多优秀的工作之所以不为人知,仅仅是因为没有人谈论它们。

发布你的项目、经验教训或小成就,有助于你随着时间的推移建立声誉。

你不需要“爆红”,你只需要坚持不懈。

人们开始记住你的名字,而机会往往就来自于这种悄然的曝光。

最后

大多数增长并非来自重大突破。

它源于持续不断的小改进。

你不需要了解所有事情,

只需要再每次建造时都多花一点心思。

这就是普通代码如何变得优秀的过程。

也是优秀开发者成长为卓越开发者的过程。

我是冴羽,10 年笔耕不辍,专注前端领域,更新了 10+ 系列、300+ 篇原创技术文章,翻译过 Svelte、Solid.js、TypeScript 文档,著有小册《Next.js 开发指南》、《Svelte 开发指南》、《Astro 实战指南》。

欢迎围观我的“网页版朋友圈“,关注我的公众号:冴羽(或搜索 yayujs),每天分享前端知识、AI 干货。

今天,OpenAtom openKylin(以下简称“openKylin”)社区正式推送openKylin 2.0 SP2第三次更新升级。本次更新重点针对近期用户反馈较多的软件商店部分软件安装报错、磐石架构-用户模式下装包体验等问题进行优化,涉及系统更新、开明软件包格式、KARE兼容环境、软件商店、不可变系统等多个系统关键模块。另外,在保障系统整体安全和稳定的前提下,为尽量满足用户便捷装包的诉求,磐石架构本次新增了在用户模式下通过dpkg直接安装软件包的功能,将有效提升装包速度。

系统安装与升级方式
方式一:从openKylin官网下载最新镜像进行安装(适用于新用户或想重新安装系统的用户);
方式二:前往系统设置—“更新”界面,按提示完成系统更新(适用于已安装旧版本的用户);
方式三:打开维护模式(设置-关于-点击5次UKUI Logo-侧边栏找到维护模式并打开),通过终端运行以下命令进行更新,升级后退出维护模式(适用于开发者):
sudo apt update
sudo apt upgrade

主要功能优化及缺陷修复
功能优化
【磐石架构】针对dpkg进行改造,在保障安全和稳定的前提下,支持在用户模式通过dpkg命令直接安装或卸载软件包等操作。

【开明软件包格式】新增对固定浏览器插件目录的处理,确保插件能被正确加载;新增对离线包导出功能的支持;优化了Kazam、Gnote、SMPlayer等多个开明版应用在安装后无法启动或运行异常的问题;通过设置GTK_THEME环境变量优化了在不同系统和环境下的界面显示。
【KARE运行环境】新增跨环境文件映射机制、kare试安装(try-install)支持、旧目录迁移等特性;优化终端交互体验、应用覆盖安装后文件拷贝逻辑、软件更新失败处理机制、宿主机驱动挂载时序、应用自更新流程、tini更新机制等。
【系统更新】优化数据迁移功能,提升磐石架构-系统更新的稳定性和用户数据安全性。

主要缺陷修复
【软件商店】修复用户模式下安装分区编辑器失败,报错0003,日志提示依赖解析失败的问题【软件商店】修复用户模式下安装字体管理器提示依赖解析失败0002的问题【软件商店】修复用户模式下安装gimp,报错 0003的问题【软件商店】修复部分用户反馈的在商店更新wps办公软件失败的问题【软件商店】修复用户模式下安装迅雷失败的问题【软件商店】修复用户模式下安装奇安信浏览器报错失败的问题【软件商店】修复用户模式下安装 battle软件失败的问题【软件源】修复无法安装texlive-full论文排版软件的问题【软件源】修复安装tauri font-manager等软件时提示缺少依赖libwebkit2gtk4.1.0的问题【外设支持】修复已安装扫描仪驱动后扫描应用无法识别扫描仪的问题

最近,我们的全新文生图开源模型——ERNIE-Image正式与大家见面了。它基于 8B 参数的 DiT 架构,在复杂指令跟随、文字渲染和结构化图像生成方面表现突出,覆盖了从写实摄影、设计感图像到风格化表达在内的多种视觉风格,因此尤其适合海报、漫画、多面板布局等需要较强控制能力的内容生产场景。

  • ERNIE-Image - SFT 模型:更强的通用能力和指令忠实度,推理步数 50 步
  • ERNIE-Image-Turbo - 极速模型:通过DMD和 RL 优化,仅需 8 步即可实现更快的速度和更高的美学质量

今天,我们带来一篇​超友好的ComfyUI实战教程​,手把手带你完成 ERNIE-Image 的部署与使用。即使是新手,也能轻松上手!

致谢​:感谢 ComfyUI 官方对 ERNIE-Image 适配的大力支持。

ComfyUI 相关仓库:

安装 ComfyUI 与权重下载

1.1 网页版安装

  • 网页版安装需要拉取最新版本的 ComfyUI 仓库并配置相关的 Python 环境。
### 拉取最新的ComfyUI仓库:
git clone https://github.com/Comfy-Org/ComfyUI.git
### 配置ComfyUI运行的环境并安装最新的包含有ERNIE-Image的template:
cd ComfyUI && pip install -r requirements.txt && pip install comfyui-workflow-templates==0.9.56

1.2 客户端安装

下载 ComfyUI 最新版本 v0.19.1

https://www.comfy.org/zh-cn/download
640.png

1.3 模型权重下载

让 ERNIE-Image-Turbo 在服务器端/本地顺利运行,你需要在 ComfyUI 中正确配置四个核心组件:扩散模型、文本编码器、PromptEnhancer和变分自编码器(VAE)。从 HuggingFace 下载 ERNIE-Image 核心模型权重文件,模型地址:

https://huggingface.co/Comfy-Org/ERNIE-Image

模型权重放置在 ComfyUI 的相应目录下:

  • 扩散模型(Diffusion Model)
  • 文件:ernie-image.safetensors/ernie-image-turbo.safetensors
  • 路径:ComfyUI/models/diffusion\_models/
  • 文本编码器(Text Encoder)
  • 文件:ministral-3-3b.safetensors
  • 路径:ComfyUI/models/text\_encoders/
  • Prompt 优化器(Prompt Enhancer)
  • 文件:ernie-image-prompt-enhancer.safetensors
  • 路径:ComfyUI/models/text\_encoders/
  • 变分自编码器(VAE)
  • 文件:flux2-vae.safetensors
  • 路径:ComfyUI/models/vae/

将上述四个文件分别放入 ComfyUI 的对应目录后,即可开启 ComfyUI 工作流实践。

标准流工作

当前 ComfyUI 新版本已经支持了 ERNIE-Image 的标准工作流,用户可以直接使用官方推荐工作流来获得最佳画质和速度。

2.1 加载模型节点

在 ComfyUI 中,从左侧模板库选择“Ernie Image Turbo:文生图”或者“Ernie Image:文生图”,系统会自动加载已放入对应目录的核心组件。

640 (2).png

如果前述文件已经放入正确位置后,相关模型会自动加载,无需手动配置,直接输入 Prompt,即可启动生图。
640 (2).png

需要特别关注的是:当前 PE 节点作为 ERNIE-Image 的默认选项,其使用的加载器和 Text Encoder 加载器都是使用的 CLIPLoader 来加载模型权重。

  • Text Encoder 节点加载的权重文件:ministral-3-3b.safetensors 或者 ernie-image-prompt-enhancer.safetensors
  • Prompt Enhancer 节点加载的权重文件:ernie-image-prompt-enhancer.safetensors

2.2 PE 设置

ERNIE Image 最适合长、详细、结构良好的提示——更丰富的描述往往会产生更好的生成质量、更精确的教学保真度,以及更忠实地呈现复杂的布局或叙事内容。在实践中,非常建议用户开启 PE,官方节点默认是开启 PE。
640 (3).png

PE 节点的参数设置可以通过点击节点图右上角打开子图进一步设置,关键参数配置如下:

  • 最大长度(max\_length):设置为 1536~2048,如果设置过小,可能会导致长文本输入信息存在遗漏的风险,但也不建议设置太大。
  • 采样模式:开启。
  • 温度系数(temperature):设置为 0.6。
  • top\_p:设置为 0.8。
  • thinking mode: 关闭。
    640 (4).png

2.3 采样器设置

打开子图后,同样可以看到采样器的相关配置项,具体配置推荐如下:

  • 步数(steps): ERNIE-Image-Turbo 版本建议设置为8,ERNIE-Image 版本建议设置为50。
  • 引导系数(CFG):ERNIE-Image-Turbo 版本建议设置为1.0,ERNIE-Image 版本建议设置为4.0。
  • 采样器(Sampler):推荐使用euler。
  • 调度器(Scheduler):推荐 sgm\_uniform 或者默认的simple。

640 (5).png

2.4 分辨率设置

ERNIE-Image/ERNIE-Image-Turbo 模型在下列分辨率优化效果比较好,当前避免直接生成 2k+ 分辨率。

  • 1024x1024
  • 848x1264
  • 1264x848
  • 768x1376
  • 896x1200
  • 1376x768
  • 1200x896

GGUF量化版工作流

如果你使用是低显存设备,则需要采样Unsloth给出的 GGUF 量化方案,Unsloth 的 GGUF 量化权重可以从 Huggingface 中下载。

GGUF(Unsloth)相关仓库:

  • ERNIE-Image GGUF(扩散模型):

https://huggingface.co/unsloth/ERNIE-Image-GGUF

  • ERNIE-Image-Turbo GGUF(扩散模型):

https://huggingface.co/unsloth/ERNIE-Image-Turbo-GGUF

  • Text Encoder GGUF:

https://huggingface.co/unsloth/Ministral-3-3B-Instruct-2512-GGUF

首先,你需要在 ComfyUI 中通过 ComfyUI Manager​安装 ComfyUI-GGUF 插件​。
640 (6).png

安装后需要重启服务并刷新页面,从前面的网页中下载需要的的量化模型,放入到 ComfyUI/models/unet/文件夹下。然后双击空白处-> 搜索 GGUF-> 点击 Unet Loader(GGUF),即可使用本地的量化模型;使用 CLIP Loader(GGUF)节点加载文本编码器。

说明:Prompt Enhancer 的 GGUF 版本当前暂未提供。

随着大模型技术的普及,企业搜索正从传统的“关键词匹配”向“智能体交互式搜索”演进。如何在不牺牲稳定性与成本可控的前提下,实现搜索能力的智能化升级,成为企业数字化转型的关键命题。

2026年4月18日,由 Elastic 主办、阿里云作为钻石赞助商支持的 “Unlock the Power of Search AI —— Elastic 中国 AI 搜索技术大会” 在北京成功举行,参会人数近400人。阿里云智能集团计算平台事业部多位AI搜索技术与产品专家出席,围绕 Agent Native架构、向量混合检索实战、云端存算分离与降本增效、Agentic RAG 等核心议题,与企业客户深入探讨了 Search AI 的技术落地与商业价值。

一、 产品进阶:定义 Agent 时代的搜索新范式——从“人找信息”到“知识记忆湖”

阿里云智能集团计算平台事业部 AI 搜索负责人邢少敏在《从企业搜索到AI搜索Token化:阿里云 Elasticsearch 的云产品进阶之路》中指出,随着大模型应用进入 Harness Engineering 阶段,搜索的核心价值已从服务于人类查找信息,转变为服务于 Agent 获取上下文,成为Agent上下文工程(Context Engineering)与记忆管理的核心组件
d0f92767f3244ad9aef314423bf4782c.png

1. Agent 原生的搜索体验

传统搜索引擎为人类设计,图形界面,搜索结果列表用于点击浏览,而阿里云 Elasticsearch 正在重构搜索体验,为 Agent 重新设计搜索引擎

  • 原生 Agent 支持: 阿里云Elasticsearch原生支持Agent创建,编排和使用,可以创建各类Agent 用于ES的运维管理、数据检索和分析。
  • Agentic Search: 阿里云Elasticsearch 原生支持Agentic Search,将原来面向人的搜索结果转变为面向Agent,搜索结果为JSON、Markdown 等适合AI阅读的格式,让 Agent 能高效读取与执行,同时节省token消耗。
  • Agentic数据处理: 阿里云Elasticsearch 将原生支持Agentic 多模态数据离线处理,内置的多模态数据处理Agent会将用户可以以自然语言描述的多模态数据处理需求转化为 离线任务运行,处理完成后再构建索引。
  • 全生命周期 Skills:将阿里云Elasticsearch的实例创建、集群配置、集群运维、健康诊断、监控和告警等全生命周期抽象为 通用Skills,允许不同的Agent使用阿里云Elasticsearch,比如悟空、QoderWork,Dataworks Data Agent,还有开源的OpenClaw等。阿里云Elasticsearch 成为 Agent 连接数据世界的统一网关,支持Agent直接创建实例,管理索引,运维集群、数据分析等,大幅降低使用门槛。

2. 构建企业级“知识记忆湖”

邢少敏提出,阿里云 Elasticsearch 应演变为 Agent 的长期记忆、技能和知识库存储引擎。通过 Agentic Search 架构,阿里云 Elasticsearch 不仅能存储交互日志,用户偏好与 Skills,还能沉淀企业知识。这种“越用越懂你”的记忆机制,能有效减少 LLM Token 消耗,提升任务成功率,并依托全模态数据湖仓架构打破企业信息孤岛。
254ed28794ff48a4bda29fb6842e4768.png

3. 高性能底座支撑

底层依托自研 FalconSeek 引擎,实现向量查询性能提升 50%-300%,并结合 GPU 加速与 BBQ 量化,确保在千亿级数据规模下,仍能为 Agent 提供毫秒级的上下文检索响应。

二、 最佳实践:千亿级 AI 搜索的效能突破与架构演进

面对 AI 搜索大规模落地中的效果瓶颈与高昂成本,AI搜索成为Agentic产品的关键组件 ,阿里云智能集团计算平台事业部 AI 搜索产品负责人汤祯捷在《搜索即智能体:千亿级 AI 搜索的效能实践》中,分享了客户实践中的三大核心突破:

1. 混合检索 2.0:原生一体化融合检索,解决“召回不准”难题

针对传统向量检索在过滤场景下的失效问题,阿里云推出 智能混合检索(Hybrid Retrieval 2.0)

  • 原生一体化联合检索:多路召回 + RRF 融合的统一架构。不再是两个独立引擎拼在一起,而是在一个统一的检索框架内做多路召回。
  • 边检索边过滤:在 KNN 搜索过程中直接应用过滤器并设定相似度阈值,彻底解决“过滤后结果为空”的工程痛点。
  • 动态 RRF 融合:通过语义感知的动态权重调整与学习型稀疏检索(LSR),无需手动调参即可实现多路召回的高质量融合,显著提升长尾知识的召回准确率。

a37b6102405d4c4e9e97a91588035e53.png

2. 极致效能:逻辑冷热索引分层与存储降级,TCO 降低 40%-70%

为打破千亿级数据下的算力瓶颈,阿里云创新提出 “逻辑冷热索引分离” 策略:

  • 资源精准分配:仅对 10% 热数据构建高性能 HNSW 索引,90% 冷数据采用低开销存储,使单节点内存需求暴降 70%,计算规格减半。
  • Ingest Pipeline 实现智能流量路由: 根据文档的更新时间、访问频率、业务重要性等维度,自动路由标记为热索引或冷索引。
  • 存储介质降级: 牺牲一部分冗余 IOPS,换来的是 50% 的存储降本和吞吐量的提升。
  • 存算分离升级:依托自研内核 FalconSeek 与云端存算分离架构,实现云原生 DSL 查询加速 3 倍以上,整体拥有成本(TCO)降低 40%-70%。

3. 搜索即执行:知识库 RAG 全面拥抱 Agentic RAG

汤祯捷指出,AI 搜索正经历从“信息获取”到“智能体自主执行”的范式转移。借助阿里云ES的基础底座,结合Search Agent核心能力与Agentic RAG引擎,搭建Agentic Search + 阿里云ES的全新AI智能体产品。支持多模态检索与结构化索引,为企业构建可度量、可调度的多 Agent 协作体系, 实现DeepResearch, 联网搜索,知识库RAG,自主执行等AI典型任务。

Agentic RAG——AI搜索即智能体的实践应用。Agentic RAG引擎实现三位一体索引库(文本/向量/结构化索引目录)能力,应用在AgenticSearch 知识库内。并支持Agentic Search持续学习:检索结果的质量反馈回来,用于优化索引;索引的更新反过来提升检索效果。这是一个闭环。
600a450f3b1a41508218851acb238ebe.png

三、 技术深潜:破解 AI 搜索“效果与成本”双重难题的最佳实践

阿里云智能集团计算平台事业部 AI 搜索高级技术专家吴作栋在《向量混合检索最佳实践》中,分享了从算法优化到架构升级的系统性解法:
a25a8bdfeeaa452ab6b58be81bd38704.png

1. 成本效益:BBQ 量化与存算分离

针对百亿级向量场景,阿里云推出 BBQ(Better Binary Quantization)量化技术,通过非对称量化将向量数据压缩至极致。实测显示,100亿向量数据的存储节点可从 225 台缩减至 11 台,资源节约高达 95%。结合 OpenStore 存算分离架构,整体 TCO 降低 40% 以上。

2. 性能提升:自研 FalconSeek 引擎

基于 C++ Native 构建的 FalconSeek 云原生引擎,消除了 JVM GC 抖动,实现 DSL 聚合查询加速 6.8 倍、带过滤向量查询吞吐提升 3-5 倍。同时,通过 Retrievers 声明式检索框架,一键编排 BM25、kNN 多路召回与 RRF 融合排序,兼顾关键词精确匹配与语义理解。

3. 落地路径:三步走策略

吴作栋建议企业采用 “快速搭建(BM25+kNN+RRF)→ 效果优化(接入百炼 Embedding/Rerank+BBQ 量化)→ 极致性能(FalconSeek 引擎+存算分离)” 的三步走路径。该方案已成功支撑 金山文档千亿级语义搜索 及某大模型公司大规模 C 端实时检索。

四、 生态协同:构建 Agent Native 的开放搜索底座

本次大会不仅是技术的交流,更是生态的聚合。阿里云与 Elastic 深度协同,通过 官方ES Skills、云原生架构增强、全链路可观测 三大维度,共同构建面向 Agent 时代的开放搜索生态系统。

  1. 首发 ES Skills,赋予 Agent 原生执行力
    阿里云 Elasticsearch 正式发布 ES Skills 功能,将实例管理、集群诊断、索引管理、数据查询等核心能力封装为标准化工具集。多种主流AI Agent 都可通过自然语言直接发现并调用这些ES Skills,实现从“被动检索”到“主动执行”的跨越。
  2. 云原生架构增强,实现极致弹性与合规
    在兼容 Elastic 最新特性(如 Vector Search、ML Nodes)的基础上,阿里云增强了 OpenStore 存算分离架构 与 Serverless 能力,支持按需付费与秒级扩缩容。
  3. 全链路可观测,降低运维复杂度
    通过集成 CloudLens For ES,实现了从基础设施层(CPU/内存/磁盘)到应用层(慢查询、健康事件、向量检索延迟)的全链路监控。结合智能告警与根因分析功能,帮助运维团队从“被动救火”转向“主动预防”,保障 AI 搜索业务的高可用性(SLA)。

五、 未来演进:从 RAG 到 Agentic Search,重塑企业知识资产

随着 AI 技术从“ Prompt Engineering”, 到“Context Engineering”, 向长时间运行的“Harness Engineering”演进,阿里云 Elasticsearch 的战略重心已从单纯的“搜索引擎”转向 “Agent 的智能记忆与AI搜索基础设施”升级。未来,我们将持续深化以下三个方向的投入:

1. AI搜索演进:打造“知识记忆湖”Agentic Memory

未来的搜索系统将不再仅仅是信息的检索入口,而是企业专属的包含智能记忆库的Agent智能体。

  • 记忆沉淀:自动从交互日志中提取用户偏好、对话上下文与执行 Skills,形成结构化与非结构化统一的“知识记忆湖”。
  • 越用越聪明:通过记忆机制减少 LLM Token 消耗,提升任务成功率,让 Agent 具备“个性化”与“连续性”的服务能力。
  • Lake Search: 阿里云ES打造基于阿里云OpenLake的全场景联邦搜索。

2. 效能突破:FalconSeek引擎升级与存算分离云架构

  • Serverless 与存算分离:进一步屏蔽底层资源管理细节,实现真正的按需计费与极致弹性,让开发者专注于业务逻辑而非集群运维。
  • GPU 加速向量化:深化 GPU 在向量索引构建、重排序(Rerank)及推理环节的加速应用,结合 BBQ 量化技术,在千亿级数据规模下保持毫秒级响应与极致低成本。

3. 行业深耕:专属化与一体化解决方案

  • 行业专属实例:针对金融(高合规)、电商(高并发)、媒体(多模态)等行业,推出预置最佳实践参数的专属搜索实例。
  • 搜推问一体:推动搜索、推荐与问答能力的融合,构建支持多模态(文本/图片/视频)检索与复杂工作流编排的一体化平台,助力企业从“数字化”迈向“智能化”。

阿里云致力于通过 稳定、高效、智能且成本可控 的AI搜索基础设施,成为企业构建下一代 AI Agent 应用的最坚实底座,助力客户在 AI 浪潮中实现业务的可持续增长。


关于阿里云 Elasticsearch
阿里云 Elasticsearch 是基于开源 Elasticsearch 构建, 支持 Elasticsearch 企业版的全托管AI搜索云服务,提供高可用、高性能、高安全的搜索与数据分析能力。深度融合阿里云 AI 技术栈,支持向量检索、机器学习节点、Serverless 架构及 MCP 协议,助力企业轻松构建新一代 AI 搜索与 Agent 应用。

了解更多:

阿里云Elasticsearch:https://www.aliyun.com/product/bigdata/elasticsearch

阿里云AgenticSearch: https://help.aliyun.com/zh/open-search/search-platform/product-overview/agentic-search-ai-driven-next-generation-enterprise-search

截至 4 月 20 日,Hermes Agent 已斩获 100k+ Star,持续霸榜 GitHub,成为近期开发者社区最受关注的 Agent 之一。技术大佬更是直言它是"OpenClaw 上线以来第一个真正意义上的竞争对手。"

过去大家往往在意 Agent 会不会调用工具、能不能接更多入口、做不做得完任务。而对 Hermes 的讨论更进一步触及 Learning Loop、自我反思,以及 Skill 自进化这类更底层的能力机制。

Hermes 是什么

Hermes Agent 由 Nous Research 在 2026 年 2 月开源发布。官方的定义很直接:"The self-improving AI agent"。它最大特点是内置学习环路(learning loop),能从任务中提炼 Skill,在使用中持续改进,主动沉淀知识,搜索过往会话,并在跨会话过程中逐步形成对用户的长期理解。

简单说,它试图成为一个会持续积累经验的个人 AI Agent。

OpenClaw 与 Hermes

提到 Hermes,不可避免地要和 OpenClaw 一起讨论。它们都不只是单点脚本、聊天 bot,而是把模型、工具、会话、记忆、Skill 和运行环境包在一起的通用 Agent 系统。目前,Hermes 与 OpenClaw 都已越过所谓"模型包装器"的阶段,区别不在"是不是 Agent",而是"厚度长在什么地方"。

两者在系统重心上有所区别:OpenClaw 管入口和秩序,更像控制面,重点是把入口、会话、权限、路由和秩序组织进系统;Hermes 管执行和经验,更像学习循环,重点是把执行中的方法沉淀下来,并在后续任务里复用。

此外,这两个工具的差异还体现在 Skill 上。OpenClaw 的 Skill 更像团队里的 SOP 库,强调来源、加载、优先级和治理;Hermes 的 Skill 更像任务完成后沉淀下来的工作笔记,强调把成功路径保存成可复用的方法。也就是说,前者更强调把能力组织起来,后者更强调把方法留下来,进行后续的迭代加强。

再往下拆,两者的差异还可以概括成下面这几个维度:

Skill 自进化:Hermes 最值得聊的东西

这不是设计师画的,也不是程序员写的——这是 Hermes Agent 调用自己创建的 Skill 生成的。

Hermes 的 Skill 不是插件,不是扩展,而是 Agent 在完成复杂任务后自动生成的操作手册——一个名为 SKILL.md 的文件。

格式很简单:YAML 头部(名称、描述、标签、版本)加 Markdown 正文(使用场景、操作步骤、常见坑、验证方法)。文件则保存在 ~/.hermes/skills/ 目录下。

一句话概括:OpenClaw 存储你说了什么(memory),Hermes 存储它学到了什么(skill)。

需要注意的点,Skill 不是 Hermes 的私有格式。agentskills.io 是 Skill 的开放标准规范,已经被 Claude Code、Cursor、Kiro、VS Code 等 16 个 AI 产品采纳。无疑,Skill 是目前 AI 行业采用最广泛的事实标准。

自进化是怎么发生的?

过程拆解开,如下:

  1. 第一次执行复杂任务
  2. 完成(5+ tool calls 成功)
  3. Agent 自动抽象步骤 → 生成 SKILL.md
  4. 第二次遇到类似任务
  5. Agent 调用已有 Skill → 速度更快、步骤更少
  6. 如果有新发现 → Agent 自动 patch SKILL.md
  7. Skill 越用越精准

当中关键点:

  • 生成 SKILL.md 的触发条件是完成 5 次以上复杂任务的工具调用(tool call),像是你和 AI 之间的简单问答并不会生成 Skill
  • 自进化方式是 LLM 驱动的 Markdown 改写
  • 高级玩法:hermes-agent-self-evolution 用 DSPy + 遗传算法做 Skill 变异优化,单次进化开销在 $2-$10 之间

实战:用 architecture-diagram 走一遍全流程

相信不少人对"自进化"的说法保持怀疑,现在我们来简单验证一下:

第一步:让 Hermes 画一张架构图

给个常见需求:"画一个 React + Node.js + PostgreSQL + Redis + S3 的系统架构图。"

Hermes 调用内置的 architecture-diagram Skill,接着 7 步:

  1. 分析需求
  2. 规划布局
  3. 计算坐标
  4. 生成 SVG
  5. 包装成 HTML
  6. 输出一个独立 HTML 文件
  7. 浏览器打开

简单讲解下色块,它十分清晰,Skill 以对应技术产品的 logo 色作为参考。像是前端 React 的青色、后端 Node.js 的翡翠、PostgreSQL 数据库的紫色、云服务 S3 的淡黄、Redis 数据库的淡橙。我们不需要指定配色,Skill 文件里默认这套配色设计,你可以按需自行修改对应的配色。

第二步:Skill "操作手册"长什么样

打开 ~/.hermes/skills/creative/architecture-diagram/SKILL.md,里面有完整的 Workflow、Design System、连线规则、间距逻辑。这是 Hermes 在反复执行架构图任务后积累形成的。

第三步:用 Anthropic 官方工具验证这个 Skill

skill-creator 来自 anthropics/skills 仓库,是 Anthropic 官方出品的 13 个标准 Skill 之一。它的定位很特别——Meta-Skill:专门用来创建、测试、迭代其他 Skill。

它能自动生成 eval 测试用例、跑 benchmark、给出质量评分、建议改进方向。把 Hermes 生成的 architecture-diagram SKILL.md 喂给了 skill-creator,结果很有意思:它指出了几个真实问题。

比如:8 个以上组件时布局会乱、连线路由在密集场景下会重叠、验证步骤不够完整…

第四步:按建议改进 → 再验证 → 分数提升

根据 skill-creator 的反馈,我们来改进下 Skill:补充组件数量警告、增加布局验证步骤、完善边缘场景处理。再跑一次验证,分数上去了,图片也更美观了。

这就是自进化,一个可重复的、有方法论的闭环:

Hermes 创建 Skill → Anthropic 官方工具验证质量 → 发现问题 → 改进 → 再验证 → 能力提升

不止于此:正在成型的 Skill 生态

Hermes 绘制架构图只是开始,Hermes 的 Skill 已初具生态规模:

  • 官方开箱即用: 官方 optional-skills/ 目录下已沉淀 28+ 个 Skill,覆盖了 DevOps、代码研究、安全审计等 13 个常见开发场景
  • 拥抱开放标准: 采用 agentskills.io 规范,这意味它生成的 Skill 可以与 Claude Code、Cursor 等其他 10+ 种主流 AI 工具互通
  • 极客的高阶玩法: 开发者社区已经开始出现基于 DSPy 和遗传算法的衍生项目(hermes-agent-self-evolution),通过程序让 Skill 自行变异、跑测和择优

当然,赞叹之余,我们还需要客观认清其能力边界:

  • 触发有门槛: 简单的日常闲聊无效,只有成功完成复杂任务(5+ tool calls)才会触发总结机制
  • 是"记笔记",而非"微调训练": 官方宣称的 "Self-improving" 有夸大成分。它没有在底层微调大模型,只是让 Agent 写了一份高质量 SOP 留给下次参考
  • 仍需人工审核: HN 极客曾吐槽传统 Memory 流是一团乱麻("a complete mess")。Hermes 的 Skill 虽高度结构化,但在极端复杂场景下,依然离不开开发者的人工微调
  • 验证的是规范: 本文工具验证的是 Skill 文档的逻辑与格式完整性,并不是在给 AI 测智力

即便我们罗列一些槽点,但这不影响核心结论:凭借这套可复用的经验沉淀机制,Hermes 已经是目前开源框架中最接近"越用越强"的实现。它不完美,但方向对了。

让"自进化"飞轮持续转下去

Hermes 的"自进化"依赖于真实任务的反复试错与积累。跑通只是第一步,长线运行才是让它"越用越强"的关键。

如果你已经跨过了本地尝鲜阶段,希望专属 Agent 能 7x24 小时在线待命,并随时随地复用它积攒下来的 SKILL.md,可以借助七牛云的现成基建快速落地:

  • 七牛云 LAS: 10 分钟轻松部署,免折腾环境,实现 Agent 的云端常驻与能力持久化
  • 七牛云 MaaS: 无缝接入主流大模型,低成本 Token 足以覆盖 Agent 日常跑 Demo

无论是开发者们在本地手搓,还是在云端长期挂机,Hermes 都值得每个开发者亲自上手一试。

👉 [上手专属] 七牛云 LAS 特惠活动:https://s.qiniu.com/IviUfa
👉 [算力弹药] 邀好友最高领百亿 Token:https://s.qiniu.com/rAzUZ3
👉【10分钟部署】Hermes Agent 一站式部署教程:[https://mp.weixin.qq.com/s/ugqS0neWETsLEn9sqX2t1g]


2026年4月20日晚,Kimi-K2.6正式发布,Comate Day 0同步首发,将其上线为IDE及插件端内置模型,支持图片理解,供用户使用。

Kimi-K2.6 是月之暗面最新发布的模型。Kimi-K2.6 在代码编写、长程任务执行及 Agent 集群能力方面实现了全面升级。据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。

Comate持续为用户提供在编程领域最新、表现优秀的模型,成为您的最佳编程伙伴~将Comate AI IDE及插件端升级至最新版本,立即体验全新Kimi-K2.6模型带来的生产力提升!

一键更新Comate ,来体验长程编码能力显著提升、大幅增强Agent自主化执行能力吧

更新途径一: 百度搜索“文心快码”,官网下载Comate AI IDE最新版;

更新途径二: Comate AI IDE 界面点击 “重启以更新”;

更新途径三: VS Code 或者 Jetbrains 系列 IDE 搜索文心快码插件,点击“安装”或“更新”。

如果您(或所在机构)对百度文心快码感兴趣,请扫码联系下方微信~

任何文心快码售前及售后问题
欢迎添加产品顾问咨询(请带前缀:Comate咨询)
工作时间:工作日10:00-18:00

对于iOS开发者和有应用分发需求的企业来说,苹果签名是绕不开的关键环节。它就像苹果系统给应用颁发的“通行证”,只有拥有合法“通行证”,应用才能在iOS设备上正常安装和运行。不同于安卓系统的开放分发,苹果签名有着严格的分类和规范,不同类型的签名适配不同场景,今天就用通俗的语言,带大家认识主流苹果签名类型,避开认知误区。
最基础的是个人开发者签名,主要面向个人开发者或小型开发团队,用于应用的初期调试和小范围试用。它需要依托苹果个人开发者账号开通,费用适中,操作门槛低,新手开发者也能快速上手。使用时需提前将测试设备的UDID录入账号,单账号最多可绑定100台设备,签名有效期为一年,到期后需及时续签。这种签名的核心价值的满足开发调试需求,不适合大规模对外分发,仅能用于内部测试或少量种子用户体验。
针对企业需求的是企业签名,专为企业内部分发应用设计,无需绑定设备UDID,也没有设备数量限制。企业只需拥有苹果企业开发者账号,即可生成签名,员工或内部用户下载应用后,简单操作即可完成信任,快速安装使用。它广泛应用于企业内部办公软件、内部培训应用等场景,能极大提升企业内部应用的部署效率。需要注意的是,企业签名仅能用于企业内部使用,若违规对外分发,可能导致证书被苹果吊销,影响应用正常使用。
兼顾稳定性和便捷性的是超级签名,它基于个人开发者证书优化而来,解决了个人签名设备绑定繁琐的痛点。用户安装应用时,无需手动提供UDID,系统会自动完成设备绑定和签名,操作更便捷。同时,超级签名采用单设备独立签名的方式,大幅降低了掉签概率,稳定性远超普通企业共享签名。它适合对应用稳定性要求高、分发范围较小的场景,比如小众应用测试、精准用户体验投放等,唯一不足是成本随设备数量增加而上升。
最合规的是TF签名,也就是TestFlight签名,是苹果官方推出的测试签名方式。应用需先通过苹果的基础审核,审核通过后,可邀请外部用户参与测试,最多支持1万名测试用户,测试周期为90天。用户只需下载TestFlight官方应用,即可直接安装测试版应用,无需手动信任证书,零掉签风险。这种签名适合需要公开测试、收集广泛用户反馈的应用,尤其适合对合规性和安全性要求高的行业,唯一局限是审核有一定标准,部分特殊功能应用可能无法通过。
综上,各类苹果签名没有优劣之分,核心是适配需求:个人调试选个人开发者签名,企业内部分发选企业签名,追求稳定便捷选超级签名,合规公开测试选TF签名。掌握这些核心区别,就能轻松选对适合自己的苹果签名。

在之前的 PAI Physical AI 系列 Notebook中,我们已经介绍了基于 Isaac Lab 的强化学习训练、Newton 新物理引擎与Rerun轻量可视化等核心能力。然而,在实际的具身智能研发中,如何从仿真环境搭建到数据生成、策略训练再到闭环评估,完成一条完整的端到端工作流,仍是开发者面临的核心挑战。尤其是在复杂操作任务(如全身机动+操控)中,场景配置、数据扩增与策略后训练的衔接尤为关键。

Isaac Lab Arena 是基于 Isaac Lab 开发的任务集成系统,将完整任务划分为场景+具身智能体+任务物体的模块化系统,大幅扩增任务多样性并简化单个任务的创建。结合 NVIDIA GR00T N1.5 策略后训练能力,开发者可以在仿真环境中完成从示教数据扩增到策略微调再到闭环评估的全链路闭环。

本Notebook以 G1 箱体抓取与放置 任务为例,展示 Isaac Lab Arena 完整链路:

  1. 使用 Isaac Lab Arena 配置环境并通过回放 Demo 验证
  2. 使用 Isaac Lab Arena 配置 Mimic 环境进行演示扩增
  3. 使用 Isaac Lab Arena 进行 GR00T-N1.5 策略后训练
  4. 在 Isaac Sim 中进行策略闭环评估

在 PAI 的 Notebook Gallery 中,我们已经预置了这套的最佳实践:

https://gallery.pai-ml.com/#/preview/deepLearning/cv/isaac\_lab\_arena

image

1. 启动 DSW 与资源准备

通过 Notebook Gallery 启动 DSW,使用以下预编译镜像与实例规格:

类型
镜像(专网)dsw-registry-vpc.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307
镜像(公网)dsw-registry.${regionId}.cr.aliyuncs.com/pai-training-algorithm/isaac-sim:isaaclab-arena-gr00t-vnc-v3-20260307
实例规格ecs.gn8is.2xlarge(单张 48G 显存 L20 GPU,8核 CPU / 128G 内存)
需配置专有网络(VPC)用于局域网/公网访问及挂载外部存储,挂载到 /mnt/data

数据集与模型资源

资源OSS 路径
小规模测试数据oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial/arena_g1_loco_manipulation_dataset_generated_small.hdf5
带标注人类示教数据...arena_g1_loco_manipulation_dataset_annotated.hdf5
Mimic扩增后数据 (~21GB)...arena_g1_loco_manipulation_dataset_generated.hdf5
已转换LeRobot数据...arena_g1_loco_manipulation_dataset_generated.zip
GR00T-N1.5后训练模型oss://pai-vision-data-${oss-region}/aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial/checkpoint-20000.zip

区域映射

${regionId}${oss-region}
cn-beijingbj
cn-shanghaish
cn-hangzhouhz2
cn-shenzhensz
ap-southeast-1ap-southeast
cn-wulanchabuwlcb
  • 内网endpointoss-${regionId}-internal.aliyuncs.com
  • 外网endpointoss-${regionId}.aliyuncs.com

2. 环境验证与基础配置

在 DSW 启动完成后,首先执行 Notebook 中的环境验证 Cell,确认运行状态与路径配置。

运行状态检查

确认 Isaac Lab Arena 环境已正确加载,检查关键依赖(Isaac Sim、Isaac Lab Arena、Mimic、GR00T)的版本与可用性。

路径与环境变量配置

DATASET_DIR=/datasets/isaaclab_arena/locomanipulation_tutorial
MODELS_DIR=/models/isaaclab_arena/locomanipulation_tutorial

OSS 下载工具

Notebook 中提供了便捷的 OSS 下载函数,自动根据 DSW 实例所在区域选择内网 endpoint 进行高速下载:

def download_from_oss(url, filename, save_dir):
    url_prefix = {
        "cn-shanghai": "http://pai-vision-data-sh.oss-cn-shanghai-internal.aliyuncs.com",
        "cn-hangzhou": "http://pai-vision-data-hz2.oss-cn-hangzhou-internal.aliyuncs.com",
        "cn-shenzhen": "http://pai-vision-data-sz.oss-cn-shenzhen-internal.aliyuncs.com",
        "cn-beijing": "http://pai-vision-data-bj.oss-cn-beijing-internal.aliyuncs.com",
        "ap-southeast-1": "http://pai-vision-data-ap-southeast.oss-ap-southeast-1-internal.aliyuncs.com",
        "cn-wulanchabu": "http://pai-vision-data-wlcb.oss-cn-wulanchabu-internal.aliyuncs.com"
    }
    dsw_region = os.environ.get("dsw_region")
    prefix = url_prefix.get(dsw_region, "http://pai-vision-data-sh.oss-cn-shanghai.aliyuncs.com")
    full_url = os.path.join(prefix, url, quote(filename))

VNC 可视化桌面(可选)

如需观察仿真过程的 GUI 画面,可通过 VNC 连接:

  • 镜像中 TurboVNC 默认密码:123456
  • 本地 SSH 端口转发:ssh -L 5900:localhost:5900
  • VNC 客户端连接:localhost:5900
  • 可视化运行:在 VNC 桌面 terminal 中去掉 --headless 参数执行

image

3. 环境准备与回放验证

下载测试数据集

首先下载小规模测试数据集,用于验证仿真环境是否正确配置:

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_generated_small.hdf5",
    DATASET_DIR
)

回放 Demo 验证环境

使用 Isaac Lab Arena 回放任务 galileo_g1_locomanip_pick_and_place,验证环境配置是否正确。成功标准:仿真正常启动并跑完指定步数;相机与抓取/放置行为符合预期。

image

4. 数据生成

下载带标注人类示教数据

下载带标注的人类示教数据(HDF5格式),作为 Mimic 数据扩增的种子数据:

download_from_oss(
    "aigc-data/isaac/nb13/datasets/isaaclab_arena/locomanipulation_tutorial",
    "arena_g1_loco_manipulation_dataset_annotated.hdf5",
    DATASET_DIR
)

使用 Mimic 进行数据扩增

基于人类示教数据,使用 Isaac Lab Mimic 进行大规模演示数据集生成。Mimic 能够在保持任务语义一致的前提下,通过随机化场景配置(物体位置、光照、纹理等)快速扩增数据规模。

示例代码:

# 使用 Isaac Lab Mimic 生成数据集
# 生成 100 条演示数据,约需 1 小时
!/isaac-sim/python.sh isaaclab_arena/scripts/generate_dataset.py \
  --headless \
  --enable_cameras \
  --mimic \
  --input_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_annotated.hdf5 \
  --output_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  --generation_num_trials 100 \
  --device cpu \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

参数说明:

  • --mimic:启用 Mimic 数据扩增模式
  • --input_file:输入的人类示教数据文件
  • --output_file:输出的扩增数据文件
  • --generation_num_trials 100:生成 100 条演示轨迹
  • --device cpu:使用 CPU 进行仿真

image

Mimic 扩增后的数据集约 21GB,可根据实际需求调整扩增参数

(可选)回放生成数据

可对 Mimic 生成的数据进行回放验证,确保扩增数据的正确性与多样性。

示例代码:

# 回放生成后的数据集进行验证
!/isaac-sim/python.sh isaaclab_arena/scripts/replay_demos.py --headless \
  --device cpu \
  --enable_cameras \
  --dataset_file $DATASET_DIR/arena_g1_loco_manipulation_dataset_generated.hdf5 \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_pink

5. 策略后训练(GR00T-N1.5)

数据集快捷下载(可选)

为快速体验完整流程,可直接下载预生成数据跳过前序步骤:

  • 预生成 HDF5:完整的 Mimic 扩增数据
  • 已转换 LeRobot 数据:跳过 HDF5→LeRobot 转换步骤

HDF5 转 LeRobot 格式

使用 Isaac Lab Arena 自带脚本,将 HDF5 格式的演示数据转换为 GR00T 训练所需的 LeRobot 格式:

python scripts/convert_hdf5_to_lerobot.py \
    --input_path ${DATASET_DIR}/arena_g1_loco_manipulation_dataset_generated.hdf5 \
    --output_path ${DATASET_DIR}/lerobot_data

GR00T N1.5 微调训练

启动 GR00T N1.5 模型的微调训练,基于 LeRobot 格式的扩增数据进行策略后训练:

当前参数用于快速验证,正式实验需调整迭代步数、保存间隔与数据加载并发

训练完成后,checkpoint 将保存至 ${MODELS_DIR} 目录下。

6. 闭环策略推理与评估

预训练模型下载(可选)

如需跳过训练步骤,可直接下载预训练 checkpoint(checkpoint-20000.zip):

download_from_oss(
    "aigc-data/isaac/nb13/models/isaaclab_arena/locomanipulation_tutorial",
    "checkpoint-20000.zip",
    MODELS_DIR
)

单环境评估(GUI)

使用配置文件 isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml,在单个仿真环境中进行闭环策略推理与可视化评估。可通过 VNC 观察 G1 机器人执行箱体搬运放置任务的完整过程。

示例代码:

# 运行单环境评估
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --enable_cameras \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明:

  • --policy_type gr00t_closedloop:使用 GR00T 闭环策略
  • --num_steps 1200:运行步数
  • --enable_cameras:启用相机渲染
  • 去掉 --headless 参数可在 VNC 中观察 GUI 画面

image

并行环境评估(可选)

支持多环境并行评估,提高评估效率与统计显著性。

示例代码:

# 运行并行环境评估(5 个环境)
!/isaac-sim/python.sh isaaclab_arena/examples/policy_runner.py --headless \
  --policy_type gr00t_closedloop \
  --policy_config_yaml_path isaaclab_arena_gr00t/g1_locomanip_gr00t_closedloop_config.yaml \
  --num_steps 1200 \
  --num_envs 5 \
  --enable_cameras \
  --device cpu \
  --policy_device cuda \
  galileo_g1_locomanip_pick_and_place \
  --object brown_box \
  --embodiment g1_wbc_joint

参数说明:

  • --num_envs 5:并行运行 5 个仿真环境
  • --device cpu:仿真在 CPU 上运行
  • --policy_device cuda:策略推理在 GPU 上运行

image

7. 训练过程分析

使用 TensorBoard 分析训练 logs,观察 loss 曲线与评估成功率:

  • 示例训练 1000 次迭代:loss 明显下降且平滑
  • 评估显示相当的成功率,验证了 Mimic 数据扩增与 GR00T 后训练的有效性

image

image

8. 小结

PAI 全面支持 Isaac 工具链,本Notebook展示了在 PAI-DSW 单实例中闭环完成的完整工作流:

  1. 场景搭建 — Isaac Lab Arena 模块化创建场景,将任务拆分为场景+具身智能体+任务物体的灵活组合
  2. 数据扩增 — 复用 Isaac Lab Mimic 能力,基于人类示教数据短时间大规模生产多样化训练数据
  3. 策略后训练 — GR00T N1.5 微调,将仿真数据转化为可部署的策略模型
  4. 闭环评估 — Isaac Lab Arena 闭环评估,验证策略在仿真环境中的实际表现
大大简化了复杂的 Isaac Lab 任务配置流程,提高具身智能体的数据生产和训练效率。从场景搭建到策略评估,全链路在PAI-DSW中一站式完成,无需切换环境或额外配置。

未完待续

至此,PAI Physical AI Notebook 系列文档已覆盖从仿真环境搭建、数据生成、模型训练到闭环评估的完整技术栈:

序号文档主题核心内容
详解1基于Isaac仿真的操作动作数据扩增与模仿学习Isaac Sim 基础操作与数据采集流程
详解2基于Cosmos世界模型的操作动作数据扩增与模仿学习Cosmos 世界模型与数据增强
详解3基于仿真的导航模型训练移动机器人导航策略训练
详解4基于仿真的GR00T-N1.5模型微调GR00T 模型微调实践
详解5基于Isaac-Cortex的软件在环验证软件在环仿真验证
详解6Isaac Lab分布式感知强化学习分布式强化学习训练
详解7Newton新物理引擎与Rerun轻量可视化Newton 物理引擎与云原生可视化
详解8Isaac Lab Arena 全身机器人机动+操控工作流Isaac Lab Arena模型测评

本系列文档系统性地介绍了 PAI 平台对 NVIDIA Isaac 工具链的全面支持,涵盖:

  • 仿真平台:Isaac Sim、Isaac Lab、Isaac Lab Arena
  • 物理引擎:PhysX、Newton(Warp)
  • 可视化方案:Omniverse、VNC、Rerun
  • 数据生成:Mimic 数据扩增、Cosmos 世界模型
  • 模型训练:GR00T-N1.5 策略后训练、强化学习
  • 评估验证:闭环策略评估、软件在环验证
PAI Physical AI 系列将暂告一段落,感谢各位读者的关注与支持!后续我们将持续跟进 NVIDIA Isaac 生态的最新进展,推出更多实战教程与最佳实践。敬请期待!

Cisco Secure Network Analytics Virtual 7.6.0 - 领先的网络检测和响应 (NDR) 解决方案

Secure Network Analytics (formerly Stealthwatch) - Network Visibility and Segmentation

请访问原文链接:https://sysin.org/blog/cisco-secure-network-analytics/ 查看最新版。原创作品,转载请保留出处。

作者主页:sysin.org


Cisco Secure Network Analytics

为您的企业提供安全保障是思科义不容辞的职责

通过行业领先的机器学习和行为建模,战胜新出现的威胁,永不言弃。

Secure Network Analytics

从容应对混乱局面

分析您现有的网络数据,帮助检测可能已经找到绕过现有控制的方法的威胁,以免造成严重破坏。

  • 有备则无患

    实时高效检测整个动态网络中的攻击,并提供精准的警报及丰富的相关情景信息,包括用户、设备、位置、时间戳和应用。

  • 减少策略违规

    验证策略的有效性,根据您的环境需求采用正确的策略,并简化策略违规调查

  • 发现未知威胁

    使用先进的分析方法 (sysin),快速检测未知的恶意软件、内部威胁(如数据渗出和策略违规)以及其他复杂的攻击。

  • 轻松分析

    在不影响隐私和数据完整性的情况下识别和隔离加密流量中的威胁。

新增功能

Cisco Secure Network Analytics 7.6.0

以下为本站整理的摘要内容,更多内容请参看下载中的 PDF 文档。

Cisco Webex Webhook

增强了 Manager 中的响应管理(Response Management)操作,现已支持 Cisco Webex Webhook。您现在可以使用该操作类型将 Secure Network Analytics 与 Cisco Webex 集成。

通过 Web UI 修改 sysadmin 用户密码

Web 管理员现在可以通过 Web 用户界面,为 Manager 及所有受管设备修改 sysadmin 用户密码。该改进为管理 sysadmin 凭据提供了更高的灵活性与便利性。

证书通用名称显示

更新了中央管理(Central Management)用户界面中的证书显示方式。“Issued To”和“Issued By”字段现在显示通用名称(CN),而不再显示组织(Organization)。该改进提升了清晰度,便于快速识别特定证书 (sysin)。

仪表板改进

增强了仪表板(Dashboards)功能。现在您可以将仪表板固定到主页,并支持对仪表板进行调度。

  • 固定仪表板
  • 仪表板调度

检测结果作为告警与观察项

来自已启用检测包(Detections Packs)的检测结果(Detections Findings),现在已纳入完整的分析告警(Analytics Alerts)与观察项(Observations)运行流程,包括 UI 工作流、响应管理、Cisco XDR(如已集成)以及其他 SIEM 系统。

增强的数据存储数据库证书管理

增强了数据存储数据库的证书管理功能。现在您可以上传自定义证书,或为数据存储数据库生成自签名身份(identity)证书。可通过“Database Security”选项卡上传自定义证书 (sysin)。该改进简化了通过用户界面管理和更新证书的流程。

SNMP Agent 字段的特殊字符支持增强

增强了 SNMP Agent,使其在以下字段中支持下划线_特殊字符,从而为配置提供更高的灵活性:

数据节点的 IPv6 支持

扩展了 IPv6 能力,使其支持数据存储部署。数据节点现在支持仅 IPv6 的网络模式,包括管理接口和私有 LAN(用于数据节点之间通信)。

支持的硬件平台

Secure Network Analytics v7.6.0 支持最新一代 UCS 硬件(M8)。有关各系统版本支持的硬件平台,请参阅硬件与版本支持矩阵(Hardware and Version Support Matrix)。

系统日期、时间和运行时长显示

设备控制台(SystemConfig)的 About 菜单现在会显示系统日期与时间以及系统运行时长(Uptime)。该改进可直接在控制台中提供关键系统状态与时间信息。

通过设备控制台查看或删除信任库中的证书

新增了一个插件,可通过设备控制台(SystemConfig)查看或删除信任库中过期或过时的证书。

适用的 VMware 软件下载

建议在以下版本的 VMware 软件中运行(Linux OVF 无需本站定制版可以正常运行,macOS 虚拟化如果不是 Mac 必须使用定制版才能运行,Windows OVF 需要定制版才能启用完整功能):

下载地址

Cisco Secure Network Analytics 以两种形式交付:

  • Physical Appliance, a scalable device suitable for any size organization.
  • Virtual Edition, designed to perform the same functions as the appliance edition, but in a VMware or KVM Hypervisor environment.

此处提供的是 Virtual Edition 系统软件。

Cisco Secure Network Analytics Virtual 7.6.0

  • 请访问:https://sysin.org/blog/cisco-secure-network-analytics/

    • Secure Network Analytics Virtual Data Store
    • Secure Network Analytics Virtual Flow Collector
    • Secure Network Analytics Virtual Flow Sensor
    • Secure Network Analytics Virtual Manager
    • Secure Network Analytics Virtual UDP Director
File InformationFile NameRelease DateSize
SNA - Datastore ISOSDBN-7.6.0-20260121.0132-d4cc42fbe5c9-0.iso23-Mar-20262491.94 MB
SNA - Flow Collector Netflow ISOFlowCollector-NetFlow-7.6.0-20260121.0132-d4cc42fbe5c9-0.iso23-Mar-20263478.50 MB
SNA - Flow Sensor ISOFlowSensor-7.6.0-20260121.0132-d4cc42fbe5c9-0.iso23-Mar-20262179.33 MB
SNA - Manager ISOSMC-7.6.0-20260121.0132-d4cc42fbe5c9-0.iso23-Mar-20266233.82 MB
SNA - UDP Director ISOUDPDirector-7.6.0-20260121.0132-d4cc42fbe5c9-0.iso23-Mar-20262127.54 MB

更多:Cisco 产品下载链接汇总