2026年2月

Transformer 与 Self-Attention (整理版)

目标:用“概念 → 公式 → 代码 → 练习”的方式,把 Transformer 的核心机制讲清楚。

目录


1. Transformer 是什么

Transformer 是一种序列建模架构(2017 年提出),它把“序列之间的依赖”主要交给注意力机制来建模,而不是依赖 RNN 的时间步递推。

它之所以重要,核心在两点:

  • 并行性:训练时可以对整段序列并行计算注意力(比 RNN 更容易吃满 GPU/TPU)。
  • 长程依赖:任意两个 token 之间的交互路径更短(自注意力是一次“全连接式”交互)。

一句话直觉:

对于序列中的每个位置,让模型学会“我应该关注哪些位置,以及关注多少”。

2. 编码器/解码器整体结构

经典 Transformer(seq2seq)包含两大块:

  • Encoder(编码器):把输入序列编码为一组上下文表示。
  • Decoder(解码器):在生成第 $t$ 个输出 token 时,只能看见 $t$ 之前已生成的内容,并结合 Encoder 输出进行交互(cross-attention)。

每一块通常由 $N$ 层堆叠(论文里常见 $N=6$)。各层结构相同,但参数不共享。

一个 Encoder Layer 通常包含:

  1. Multi-Head Self-Attention
  2. Add & Norm
  3. Feed-Forward Network (FFN)
  4. Add & Norm

一个 Decoder Layer 通常包含:

  1. Masked Multi-Head Self-Attention(遮住未来)
  2. Add & Norm
  3. Multi-Head Cross-Attention(Q 来自 decoder,K/V 来自 encoder)
  4. Add & Norm
  5. FFN
  6. Add & Norm

3. Self-Attention(自注意力)

3.1 Q/K/V 的含义(非常实用的直觉)

  • Query(Q):我“想找什么信息”。
  • Key(K):我“是什么信息的索引/标签”。
  • Value(V):我“真正携带的内容”。

同一个输入 $X$ 会被线性映射出 $Q,K,V$:

$$
Q = XW_Q,\quad K = XW_K,\quad V = XW_V
$$

其中 $X \in \mathbb{R}^{L\times d_{model}}$(长度 $L$,隐藏维 $d_{model}$)。

3.2 Scaled Dot-Product Attention 公式

注意力权重来自相似度(点积)并做缩放:

$$
\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V
$$

为什么要除以 $\sqrt{d_k}$:当维度较大时点积数值更容易变大,softmax 会更“尖”,梯度更不稳定;缩放能让训练更稳。

3.3 输出在做什么

对每个位置 $i$:

  • 先算它对所有位置 $j$ 的相关性分数 $s_{ij}$
  • softmax 得到权重 $a_{ij}$
  • 用权重对所有 value 做加权求和,得到该位置的新表示

4. Multi-Head Attention(多头注意力)

单头注意力只能在一个“子空间”里做匹配。多头注意力的做法是:

  1. 用 $h$ 组不同的线性映射得到 $Q_i,K_i,V_i$
  2. 每个头独立算 attention 得到 $Z_i$
  3. 把各头拼接后再做一次线性变换

$$
\mathrm{MHA}(X)=\mathrm{Concat}(Z_1,\dots,Z_h)W_O
$$

直觉:不同的头可以分别学“指代关系”“语法依赖”“长距离对齐”等不同模式。


5. 位置编码(Positional Encoding)

自注意力本身对输入顺序不敏感(你把 token 乱序,注意力计算形式不变)。因此需要显式注入位置信息。

常见做法:把位置向量 $PE(pos)$ 与词向量相加:

$$
X' = X + PE
$$

论文中使用的正弦/余弦位置编码:

$$
PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right),\quad
PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right)
$$

补充:很多实现也会用可学习位置编码(learnable embeddings),同样有效。


6. Add & Norm(残差 + LayerNorm)

Transformer 里几乎每个子层都采用:

$$
Y = \mathrm{LayerNorm}(X + \mathrm{Sublayer}(X))
$$

  • 残差连接:让信息与梯度更容易流动,深层训练更稳定。
  • LayerNorm:对单样本特征维做归一化,NLP 中通常比 BatchNorm 更合适。

7. FFN(前馈网络)

FFN 是逐位置(position-wise)的两层 MLP:

$$
\mathrm{FFN}(x)=\sigma(xW_1+b_1)W_2+b_2
$$

它不在 token 间交互(交互在 attention 里做),但能增强非线性表达能力。


8. Mask:Padding Mask 与 Causal Mask

8.1 Padding Mask

批处理时序列会 padding 到同一长度。padding token 不应该被关注,因此要把这些位置的 attention logits 设为 $-\infty$(实现里通常是一个足够小的负数)。

8.2 Causal Mask(Decoder 的“不能看未来”)

自回归生成时,第 $t$ 个位置不能看见 $t$ 之后的位置,所以要加上一个上三角 mask。


9. 用 PyTorch 手写一次 Self-Attention

下面用一个小矩阵例子把公式跑通(重点是理解矩阵形状与步骤)。

9.1 准备输入

import torch
from torch.nn.functional import softmax

x = torch.tensor(
  [
    [1, 0, 1, 0],  # token 1 embedding
    [0, 2, 0, 2],  # token 2 embedding
    [1, 1, 1, 1],  # token 3 embedding
  ],
  dtype=torch.float32,
)

print(x)

输出:

tensor([[1., 0., 1., 0.],
    [0., 2., 0., 2.],
    [1., 1., 1., 1.]])

9.2 构造 Q/K/V 映射矩阵

说明:真实模型里 $W_Q,W_K,W_V$ 是可训练参数,这里为了可复现,用手写的小矩阵。

w_key = torch.tensor(
  [
    [0, 0, 1],
    [1, 1, 0],
    [0, 1, 0],
    [1, 1, 0],
  ],
  dtype=torch.float32,
)
w_query = torch.tensor(
  [
    [1, 0, 1],
    [1, 0, 0],
    [0, 0, 1],
    [0, 1, 1],
  ],
  dtype=torch.float32,
)
w_value = torch.tensor(
  [
    [0, 2, 0],
    [0, 3, 0],
    [1, 0, 3],
    [1, 1, 0],
  ],
  dtype=torch.float32,
)

print("w_key\n", w_key)
print("w_query\n", w_query)
print("w_value\n", w_value)

9.3 计算 K/Q/V

keys = x @ w_key
queries = x @ w_query
values = x @ w_value

print("keys\n", keys)
print("queries\n", queries)
print("values\n", values)

9.4 计算注意力分数(logits)

这里用最简单的 $QK^T$(完整版本还要除以 $\sqrt{d_k}$):

attn_logits = queries @ keys.T
print(attn_logits)

9.5 softmax 得到权重

attn_weights = softmax(attn_logits, dim=-1)
print(attn_weights)

为了更直观看清“加权求和”,我们也可以做一个近似版本(教学用):

attn_weights_simple = torch.tensor(
  [
    [0.0, 0.5, 0.5],
    [0.0, 1.0, 0.0],
    [0.0, 0.9, 0.1],
  ],
  dtype=torch.float32,
)

9.6 加权求和得到输出

标准矩阵写法是:

output = attn_weights @ values
print(output)

如果你想看“每个 value 被乘了多少”,可以像下面这样拆开(便于教学观察):

weighted_values = values[:, None] * attn_weights_simple.T[:, :, None]
print(weighted_values)
print("sum over tokens ->", weighted_values.sum(dim=0))

10. 优缺点与常见坑

优点

  • 效果强:尤其在大数据与大模型规模下。
  • 并行友好:训练吞吐高。
  • 长距离依赖更容易学到。

常见坑

  • mask 忘了加:padding token 参与注意力会污染表示;decoder 不加 causal mask 会“偷看答案”。
  • shape 搞混:批次维、头数维、序列长度维容易写错。
  • softmax 维度写错:通常要对最后一维(key 维/序列维)做 softmax。

11. 小练习

  1. 把第 9 节的示例改成带缩放:将 attn_logits 替换为 attn_logits / (dk ** 0.5),其中 dk = keys.size(-1)
  2. 写一个 causal mask(上三角),把未来位置 logits 置为一个很小的负数(如 -1e9),观察输出变化。
  3. values 改大一倍,看看输出是否也线性变大(应该会)。

12. 延伸阅读

  • 《Attention Is All You Need》:Transformer 原论文(arXiv)
  • The Illustrated Transformer(图解 Transformer,直觉非常好)
  • PyTorch 官方 torch.nn.MultiheadAttention 文档与源码(理解工程实现细节)

作者:Smoothcloud润云

编注:本文首发于机核网 ,少数派经授权转载,仅对文章格式略作调整。

《生化危机》系列是由卡普空(Capcom)打造的经典生存恐怖游戏 IP,自 1996 年诞生以来,凭借紧张压迫的氛围、资源管理与动作解谜融合的玩法,持续定义着「恐怖游戏」这一类型。作为最新续作,《生化危机 9:安魂曲》在延续系列核心惊悚体验的同时,也被寄予在叙事规模、技术表现与玩法革新上的更高期待。

本文包含《生化危机 9:安魂曲》在游戏玩法、剧情走向与关键角色设定等内容的讨论,未通关玩家请谨慎阅读。


写在前面

感谢卡普空的邀请,前几日,我已经抢先体验到了《生化危机 9:安魂曲》的全部内容。

今年正值《生化危机》系列诞生 30 周年,《生化危机 9》也因此承载了非同寻常的意义。故事的舞台将涉及到多个地区,年近五十的里昂再度登场,加上标题中「安魂曲」所暗示的基调,这一切似乎都意味着,本作将成为整个系列发展历程中的一个重要节点。

尽管目前网上相关的剧透视频已经铺天盖地,但就我实际体验来看,当你真正上手游玩时,依然能感受到游戏本身十足的沉浸感和魅力,并不会因为提前知道剧情走向而打折扣。这确实也是一种难得的体验了。

当然,如同我在撰写《生化危机 4》评测时所说明的那样,受限于保密协议,本文将不会涉及本作故事层面的核心要素,以及新增内容的具体介绍。但我依然想向各位玩家建议:如果你想获得最完整、最理想的游戏体验,最好还是尽量在减少外界信息干扰的情况下,亲自去享受这部作品。

还是「集大成」

先说在前面,《生化 9》又是一部「集大成」的作品。它可以说是在第七代重启「生存恐怖」路线之后,又一次将整个系列的精华重新归纳整合的作品。

「集大成」这个词如今听起来似乎都快带上一点贬义了,毕竟每一代《生化危机》发售时,几乎都会被形容为当下所有系列作品的集大成者。而《生化 9》也再一次将七代、八代,以及《生化危机 2》《3》《4》三部重制版的元素统合、延展、调整,最终打磨成一个有着微妙平衡的双主角游戏。

实际上,我觉得《生化 9》并非在一味地改正「前作的那些不足」,而是把所有已经被验证过可行、被玩家认可的设计,再重新拼装到一起呈现给你。你可以说它是「缝合」,但《生化 9》就是缝得相当出色。在这一作里,你能见到更丰富的玩法、更多样化的场景、更高质量的关卡设计,以及全平台都很优秀的性能表现。

简单概括的话,《生化 9》中两位主角 —— 格蕾丝与里昂 —— 正好代表了《生化危机》这个 IP 在新时代所面临的两个方向:一个是恐怖生存,一个是动作射击。但和《生化危机:村庄》那种非要把两种体验搅和在一起、反而带来某种「混乱感」的做法不同,《生化 9》很清晰地拆分了这两种玩法。以至于我在一周目时,只要看到手头操作的主角换了,基本都能八九不离十地猜出接下来会遇上什么样的敌人。

在《生化危机》系列里,引入双主角并不是什么新鲜事。暂且不算《生化危机 2》的表里关设计,《0》《维罗妮卡》《5》《6》《启示录 2》都在尝试并改进双主角的玩法。而《生化 9》采用的设计理念,其实更接近《启示录 2》:早在官方放出的预告片里,就已经明确了格蕾丝负责恐怖解谜,里昂则主打火爆战斗。一个是在极限的高压环境中考验你的资源管理能力,另一个则要求你在快节奏的战斗中寻找破局思路。

我觉得无论是格蕾丝还是里昂,他们对应的两种玩法都可以称得上「过硬」。初代二代的探索与解谜、三代那种被强敌紧追不舍的压迫感、四代五代的爽快战斗、七代的密室逃脱,以及第一人称恐怖游戏里的一些经典桥段 —— 这些从《生化危机 2 重制版》推出之后逐步尝试和打磨的要素,都以相当高的水准被融入了这部作品。

甚至就连第一人称和第三人称两个原本互斥的视角,在本作中也带来了一些很奇妙的「化学反应」:第一人称下能看到许多第三人称容易忽略的细节,比如为枪械上弹时,退膛的动作就在眼皮底下完成;而角色移动时的一些身体语言,又只有切换到第三人称才能展现出来。两种视角的并存,甚至会让同一个流程的游戏体验,有了两种截然不同的变化。

总的来说,《生化 9》带给我的感觉有点像本作的导演中西晃史提到的:两种玩法就像是「蒸完桑拿再冲个冷水澡」,通过两种极致体验的交替,给玩家带来情绪上的过山车,而尽量不显得割裂和突兀。

《生化 9》的系统框架延续了前作,也算是在前作基础上的取长补短。只要你玩过《生化 2》和《生化 4》,就能很轻松地上手并享受其中;即便没玩过前作,《生化 9》展现的也是相当符合当下玩家习惯的游戏设计。

虽然这个结论听起来有点苍白,但我觉得它倒也恰如其分地表达了我内心的感慨——玩完之后,我是觉得挺满足的。

格蕾丝:一个普通人的视角

正如上文所说,《生化 9》的双主角,正好代表了《生化危机》系列发展出的两套玩法。新主角格蕾丝所承担的,是我心目中这个系列真正的核心 —— 那种身处劣势之下的资源管理和挣扎求生,会让人找回「老生化」的味道。

《生化危机》的主角们在最底层设计上,多多少少都带点近乎「超能力」色彩。克莱尔这个刚毕业的女大学生能把十八般兵器用得炉火纯青暂且不说,她哥哥克里斯在五代一拳碎石的那段演出,在当年就引发了玩家们对角色战力排行的热烈讨论。

相比之下,格蕾丝的定位就巧妙得多。作为 FBI 探员,她具备一定的射击能力,但身为分析员的身份又让她的实战能力显得尤为孱弱。跟那些「战神」们一比,格蕾丝反而显得真实不少。

围绕她战斗能力上的不足,《生化 9》设计了一套完整且逻辑自洽的玩法。游戏一开始,格蕾丝身上只有一把仅剩一发子弹的「安魂曲」——这是面对强敌时的「保险」。但很显然,这根保险只是一根风雨飘摇的救命稻草。当置身于丧尸环伺的场景中,这一发子弹只会让屏幕前的你愈发感受到资源匮乏带来的恐惧。

在格蕾丝的篇章里,我能感受到许多「捉襟见肘」的细节。举枪时,她的手会抖得厉害,手枪的准星偏移幅度很大;跑步时的操作手感也有一定程度的滞后感。在第三人称视角下,还能观察到更多格蕾丝的弱势 —— 像左脚绊右脚、双手胡乱挥舞、慌不择路的桥段,在初期的游戏流程中并不少见。

一眼看上去,格蕾丝部分的玩法体验更像是上了难度的《生化危机 2 重制版》。制作组通过角色在性能上的限制,真切地展现出普通人面对生化灾难时的那种无助感。而正是这种力量上的悬殊,又进一步催生了一套更深层次的玩法——「血液合成系统」。

在标准难度下,格蕾丝在整个流程中能获得的弹药相当有限,面对一些强敌时更容易陷入弹尽粮绝的窘境。再加上游戏针对格蕾丝安排了一个类似《生化 2 重制版》中暴君那样会一直追逐玩家的怪物,进一步增加了她的生存压力。而她的战斗能力又不允许过于恋战。这时,场景中出现的血液桶,以及击败敌人后有概率获得的血液,就成了她另一种武器的来源。

「血液」这一资源,是围绕格蕾丝展开的核心玩法。它可以用来合成手枪子弹,也可以与药草合成治疗针;而将血液与流程中获得的废料结合,格蕾丝还能合成出「溶血剂」——一种可以对任何丧尸造成一击必杀的强力武器。这使得格蕾丝必须主动参与战斗才能获取血液。在资源极度匮乏的状况下,这无疑是一种「以血换命」的机制。

所以对于格蕾丝而言,她的战斗并不要求玩家做出太多快速反应,更多时候需要的是在行动之前深思熟虑,或是开动脑筋找到意料之外的解决方式。

格蕾丝的玩法机制是一种服务于「恐惧」的生存压迫感,这种压迫感能够更轻易地展现出她在性格方面的弱点。随着剧情不断推进,她的过去也逐渐被挖掘出来 —— 与《生化危机:爆发》中记者艾丽莎的母女关系被进一步深化,为格蕾丝的剧情注入了寻找身世与为母复仇的悬疑色彩,也让这个初次见面的新角色立体了不少。

更重要的是,格蕾丝自己也在游戏中完成了成长:最初操作时那种磕磕绊绊的生疏感会逐渐消失,她的神态与动作也变得更加稳定、坚毅。甚至一些原本操作上的滞后,也会逐渐减弱。随着她背负的过往在故事中一点点展开,或许格蕾丝在故事中的许多选择,也终将被玩家所理解吧。

不过,作为系列的新人,比起里昂这种早已深入人心的老角色,她仍然显得有些单薄。在角色情感的塑造上,《生化 9》没什么高明之处 —— 套路还是那些套路,展开也谈不上意外。在对待角色的感情塑造这一块,我觉得卡普空一直都有一种固定的方法论,十几年都没有什么大变化。

另外,如果你因为格蕾丝能力偏弱而不喜欢她,我觉得也挺正常 —— 说实话,她在初期确实挺难上手的。

里昂·S·肯尼迪:「动作」与情怀

与此相对的是,作为系列的核心人物之一,里昂的存在与定位,我觉得在《生化 9》中得到了又一次升华。这种升华,源于角色数十年的沉淀,最终在本作中化作一场情感上的爆发。

在我看来,里昂在很大程度上代表的是「老玩家的情怀」。随着这个 IP 不断拓展延伸,看着这个菜鸟警官一步步变成特工、出生入死,再到如今成为我们熟悉的 DSO 老将,让我在玩游戏的时候会不断唏嘘 —— 从那个遇事会慌乱的年轻人,到后来能沉着应对的老手,再到现在这个为了过去、为了自己而不断负重前行的老朋友,他已经变了太多。

伴随里昂一起成长的,除了年龄和那个与年纪不太相称的胸肌之外,还有他那令人咋舌的战斗力。如果把格蕾丝的战斗比作「捉襟见肘」,那么里昂的篇章就是「行云流水」「火爆十足」「拳拳到肉」和「爽点满满」 —— 更快速的移动、更稳定的射击、更多的近战与射击演出,围绕里昂所设计的一整套玩法,全是为了战斗而准备的。

这种「为战斗服务」的设计理念,几乎渗透到了里昂篇的每一个细节里:在爬梯子的时候,能清楚地看到里昂把武器先收起来,爬完梯子再拿出来的动作;针对不同的战斗空间,光是手枪的持枪姿势就会有单手和双手的区别…… 就拿背包来说,格蕾丝用的是《生化危机 2 重制版》那种格子背包,而里昂用的则是《生化危机 4 重制版》的手提箱系统。以至于里昂甚至都不需要道具箱来存放东西。背包装满了?要么丢掉,要么卖掉,主打一个即拿即用,毫不拖泥带水。

可以说,能操作里昂的部分,就是摆明了让他杀个痛快。杀敌越多,能兑换的奖励就越多,武器也可以进一步强化,这是一个不断循环的正反馈过程,完全不同于格蕾丝那边还要纠结「在有限的资源下,到底该杀哪个敌人」。

看得出来,开发团队就是想里昂把「战斗爽」做到极致,但又不能像《生化危机 6》那样只剩下爽,而是要在爽快与紧张之间找到一个平衡点。实现这种平衡的关键,在于对叙事节奏的把控 —— 在流程中,格蕾丝和里昂有一部分关卡是相互重叠的。里昂强悍的战斗能力,恰好可以作为格蕾丝压抑剧情的「情绪出口」:把格蕾丝篇里受过的「屈辱」和「苦楚」,一股脑地讨伐回来。

在玩家被恐怖感逼到极限时,这种爽快感提供了恰到好处的宣泄。而这种宣泄感的来源,很大程度上要归功于里昂丰富的动作系统。

新增加的战斧,可以说是《生化危机 4 重制版》小刀的「终极进化版」。里昂能用它处决敌人、劈开打不开的橱柜和门,还能招架几乎所有的攻击。更重要的是,斧头钝了可以通过磨刀无限次修复。这不仅进一步提升了战斗中的容错率,也在某种程度上鼓励玩家主动杀敌 —— 毕竟即使在普通难度下,完美招架也能比较轻松地使用出来。

暂且不说更多花样的处决动作和体术,当面对电锯丧尸时,里昂甚至比四代时更加游刃有余 —— 这次他终于也能拿起电锯,把当年第一次面对电锯大哥时的恐惧感,成倍地倾泻到敌人身上。

里昂拥有更多种类的武器,可以进行升级、强化、自定义改造,这些武器的多样性进一步丰富了他在战斗中的手感变化。试想一下:当一个丧尸朝你扑来,你一个帅气的回身,把霰弹枪塞进它的嘴里,轰的一声,脑浆迸裂,血溅当场 —— 这是何等的刺激?

不过,如果《生化 9》对里昂的塑造仅仅停留在「战斗爽」的层面,那他充其量只是个合格的动作游戏主角。但当你真正沉浸到他的故事里,看着他像往常一样说着那些从四代起就没停过的冷笑话时,我却发现自己怎么也笑不出来了。

那些年他经历了什么?从一个被丧尸追着跑的菜鸟,到孤身闯西班牙,再到今天站在浣熊市的废墟上 —— 这些经历,全都写在了他脸上。

通关《生化 9》之后的那个晚上,我放下手柄发了很久的呆。就像当年在 PS1 上看着那些粗糙 3D 像素块拼凑出的里昂和克莱尔,在丧尸群里狼狈逃窜;如今在顶配 PC 的 4K 画质下,这个中年特工的下巴上有了胡茬,眼角有了皱纹,可眼神里的东西,比当年更亮了。那一刻我突然觉得,他老了,我也老了。他变了很多,而我终于能看懂他的改变了。

这是岁月的痕迹,也是《生化危机》系列走过的痕迹。从 1996 年那个洋馆里的惊魂一夜,到 2026 年浣熊市的再度重逢,三十年,十六部正传,无数次的死亡与重生 —— 而自二代便已登场的里昂·S·肯尼迪始终站在那里,像一根钉子,牢牢钉在每一个老玩家的心里。

里昂·S·肯尼迪,已经是卡普空塑造得最伟大的游戏人物之一了。

关卡与敌人设计——服务于双角色的双重舞台

在整个游戏流程中,格蕾丝与里昂的剧情被明确地分割开来,游戏中只出现过一次两个角色共同行动的场面。事实上,《生化 9》确实存在从 A 跑到 B、再换个角色从 B 跑到 A 这样的复用桥段,但它并不像《启示录》或《维罗妮卡》那样,只是单纯通过两个视角讲述同一个故事。它是在同一个场景里,创造出了能同时容纳两种玩法的舞台。

举个最简单的例子:在疗养院这一章,先行动的格蕾丝无法杀掉每一个敌人,那些没被彻底杀死的敌人会变成更强大的孢头丧尸,成为她解谜过程中往返房间的绊脚石;而这些只是被击倒却并未「彻底消灭」的敌人,又会成为里昂篇能够爽快割草的内容。也就是说,玩家在格蕾丝篇做出的行为,会间接影响到里昂篇的实际体验。虽然双主角之间不会出现影响主线流程或 Boss 战这样的深度交互,但这种大局观上的策略联动,还是让我觉得很有意思。

舞台、敌人配置、玩法,这三者在《生化 9》中是相辅相成的。还以疗养院为例,地图实际上构成了一个巧妙的圆环,玩家探索的过程,正是逐步打通这个圆环的过程。《生化 9》的地图设计是线性的,并非开放世界自由探索 —— 严格意义上,它是由一个个箱庭式的关卡串联而成的线性路线,只是在每个箱庭内部,设计了一些需要回头路才能获取道具的动线。毕竟故事的节奏非常紧凑,情节环环相扣,如果做成完全开放的地图,反而会稀释《生化危机》原本的乐趣。

不过我也得说,《生化 9》的关卡并非全程都维持着高水准。随着剧情推进,后期的一些关卡会逐渐趋于平淡,那种前期精心打磨的箱庭设计感,到后面多少显得有些敷衍。偶尔会出现一些令人拍案叫绝的设计,却也只是昙花一现。再看看敌人的种类,甚至没能做到像《生化危机 4 重制版》那样丰富多样。以至于除了Boss战之外,后期频繁的高强度战斗反而让我觉得有些乏味。用「虎头蛇尾」来评价它的关卡设计,或许还挺贴切的。

但好在敌人的设计弥补了关卡上的一些不足。这次的丧尸具有生前的记忆碎片,会不断重复生前的某些行为。有些会强迫性地反复开关灯,从而吸引厌恶光线的特殊丧尸前来;战斗后留下的一地血渍,又可能引来生前身为清洁工的丧尸突然破门而入,试图「打扫干净」。这种不可预测性制造了不少出乎意料的惊吓。但反过来,聪明的玩家也可以利用这些行为模式,为自己创造潜行移动的机会,甚至引导不同的丧尸互相争斗。

这是以往的《生化危机》从未展现过的玩法,也是《生化 9》中非常惊艳的设计。同一个场景、同一批敌人,在格蕾丝手里是恐惧的源头,到了里昂手里却能变成爽快的素材。一半极度恐怖,一半极度爽快 —— 这种设计是神来之笔,还是撕裂体验?我觉得显然是前者。它用一套自洽的逻辑,撑起了整个《生化 9》的游戏体验。

我也得承认,这种切换确实存在隐患。当玩家刚适应格蕾丝的慢节奏恐怖,突然切到里昂的快节奏战斗,难免会觉得突兀,之前积累的沉浸感也容易被打破。再加上里昂的战斗力太强,反而会让那些精心设计的敌人行为显得没那么新鲜了。

但从另一个角度来看,正是因为里昂的篇章太过爽快,才更衬托出格蕾丝作为「普通人」的无力感。或许,这正是开发团队想要的效果吧。

聊聊故事、情怀、还有新的开始

虽然到现在为止,游戏的剧透视频已经满天飞了,但我还是想在不剧透的前提下,跟大家聊聊通关后的一些感受。

玩之前,我以为这会是一个老故事的告一段落。里昂重返浣熊市,年近五十,标题叫「安魂曲」…… 怎么看都像是在准备一场迟来的告别。可通关之后我发现,卡普空的野心远比我想象的更大。《生化危机》的故事,从原本的生化武器灾难,已经逐渐上升到了对人类善恶本性的探讨。我觉得卡普空很大胆,自己也确实会被这种决心所感动。

这种感动,很大程度上来自那座被重构的浣熊市废墟。警署、街道,那些经典场景再次出现在眼前时,我的感受很奇妙:明明一切都变了,却又如此熟悉。而作为一个当年痴迷《逃出生天》的老玩家,这种感觉更像是一场蓄谋已久的「情怀杀」。《生化 9》里埋了大量《逃出生天》中出现过的内容、场景和细节,对我而言,与其说是玩游戏,不如说是在重游故地。

尤其是当里昂回到浣熊市的那一刻 —— 这个一切的起点,这个他二十多年来始终没能真正离开的地方。当年那个刚从警校毕业、第一天上班就遭遇噩梦的年轻人,如今带着满身的伤疤和杀敌无数的履历回来了。可他仍然困在过去,困在那些没能救下的人命里,困在那句没能说出口的告别里。

对一路走来的老玩家来说,这个系列二十多年来留下了太多意难平,太多遗憾。那些没能救下的人,那些来不及说出口的话,在《生化 9》里像 call back 一样不断浮现。里昂在为自己当年的无力而赎罪,我们仿佛也在跟着他一起补偿些什么。好多熟悉的元素,好多儿时的回忆,一瞬间涌上心头。

玩着玩着,我突然有点难过。开始频频回首往昔,我或许真的老了。

但也正因如此,当我冷静下来重新审视这个故事时,才更加清晰地意识到它的局限。《生化 9》的剧情其实并不算高明,有些地方经不起细想,逻辑上也有不少说不过去的窟窿。《生化危机》一直想讲些严肃的东西,但讲到后面往往就容易讲飞,这一部也不例外。通关之后回头看那些反派,仍然觉得挺脸谱化的。偶尔会有一些小惊喜,但总体而言,终归还是有点苍白。

可话说回来,这些遗憾并不妨碍我去享受这段旅程。甚至某种程度上,正是因为对这个系列有感情,才会在意它的不完美。

最后,如果你打算深入了解《生化 9》,我有两个小小的建议。

一是最好先补一补《生化危机 2》。游戏里有不少关于二代的闪回内容,甚至有些谜题也直接源自二代的设计,有过经验的话会更有代入感。

二是可以试试中文配音。这次的中配真的非常精致,但听感上和英文原版所展现出的角色性格,有那么一点微妙的差异。倒也不是谁好谁坏,更像是同一个人用两种方式在讲述同一个故事。算是一种挺新鲜的视听体验吧。

还有一些其他的碎碎念……

  • RE 引擎在本作上又进化了。这次能够看到角色眼球中的血丝,战斗之后留下的汗水,甚至是格蕾丝受到惊吓后苍白的脸色。
  • 双主角的视觉风格也有明显差异。《生化 9》给我的第一印象,不再是那种从头到尾一成不变的阴森环境。它囊括了下雨天、深夜,甚至还有阳光明媚的白天。格蕾丝的大部分场景都透着一种伸手不见五指的压抑感,而里昂则会在视野更开阔的战斗场景中激烈交火。其中甚至包括一些大规模的战斗。
  • 游戏的优化不错,全程没有遇到掉帧或其他性能问题。
  • 不过地图设计有点繁琐。没办法随时查看其他区域的地图,也看不到道具的具体位置,有时候想回头探索会不太方便。
  • 游戏里还藏了一些隐藏谜题,有些并不会给实质性的奖励,但对系列粉丝来说,光是找到它们本身就已经是一种满足了。
  • 另外有一段需要全程躲藏的内容,我觉得有点拖沓,玩起来有些无聊。
  • 最后提一句:没有佣兵模式,通关后的可玩内容也不算多。想等更多内容的,估计得等 DLC 了。

结语

玩完《生化 9》之后,我意识到《生化危机》这个 IP 终于迎来了一个新的阶段。本来以为它会是一个暂时性的句号,结果发现,这又是一个新阶段的起点。卡普空又在里面塞满了野心、伏笔,甚至是对未来的规划,这也让我觉得,从《生化危机 2 重制版》开始重新搭建起来的这个框架,似乎还能有更多的可能性。

《生化危机9》是一次对「恐怖」本源的回归尝试,但它用了最现代化的叙事手法。通过极致的反差,让玩家在恐惧与释放的两个极端之间反复横跳,从而把两种体验都推到极致。这种二元对立的实验到底算不算成功?格蕾丝作为新主角,能不能接过未来系列的接力棒?里昂的回归是情怀的完美句点,还是对这个角色的过度消费?我并不敢妄下论断。

但有一点是肯定的:如果你是追求心跳加速的生存恐怖爱好者,格蕾丝篇能让你梦回《生化 2》;如果你是追求爽快动作的玩家,里昂篇就是《生化 4》精神的完美继承。而在《生化 9》里,你没有选择的余地,必须照单全收。无论是箱庭解谜还是动作射击,这些玩法、系统、故事、情怀,都是《生化危机》这些年走过的路。而我想,这或许正是它最大的魅力所在。

我至今记得龙马当年评价《生化危机:村庄》时说的一段话,我觉得放在这里也很合适。他说如果用长跑做比喻,那 CAPCOM 就是那个遥遥领先的选手,他已经领先到可以原地转一圈,回头看看——除了一个叫三上的中途退了赛,还没有任何人能追到他目之所及的范围。那些看似有威胁的竞争者,最大的作用,可能只是帮我们看清跑道应该朝哪个方向延伸吧。

《生化危机》仍然是那个独孤求败的《生化危机》。三十年了,没有人能撼动它。我想,未来也不会。

    上一次玩游戏王已经是快 20 年前了,我表哥拿着实体卡给我详细讲解了规则(村规),我俩就坐操场上玩(别人都不会玩,还很自豪)。

    最近在 iOS 上下了个 master duel, 一些遥远的记忆跟着慢慢从脑海里翻出来

    我觉得吉米可以考虑建几个细分的游戏节点,成为另一个 nga 也未尝不可

    市面上智能体应用开发平台越来越多,发布会越来越像:同一张“工作流 + RAG + 工具调用 + 插件市场”的能力拼图,换一套 UI 和命名,就能讲出一段宏大叙事。市场越热闹,用户反而越难做决定:因为多数平台比拼的是“概念密度”,而不是“生产确定性”。你很容易被一堆能力清单包围,但清单回答不了关键问题:一旦上生产、接真实数据、进真实流程,它还剩多少可用性?

    更现实的问题是:企业在选平台时,往往默认了一种错误前提——“平台差不多,选个顺眼的就行”。于是采购环节被简化成对比报价、看 Demo、问“支不支持 DeepSeek”。平台上线也很快:做两个助手、跑一条流程、搞一个知识库,热闹一阵。三个月后再回看,智能体要么停在“演示级”,要么被业务绕开。

    这不是平台的问题,而是企业的问题:你选的不是一个工具,而是一套“把 AI 变成生产力”的组织方式。智能体应用开发平台真正的分水岭,从来不在“功能列表更长”,而在“能否穿过三个坎”:数据坎、治理坎、复用坎。你一旦跨不过,智能体就永远在边缘试点;跨过去了,才可能进入业务主干道。

    图片

    一、用户真正要的不是“能做智能体”,而是“能让智能体活下去”

    绝大多数企业并不缺“能跑起来的智能体”。缺的是让智能体长期稳定工作的条件。

    第一,智能体不是一次性交付物,而是持续迭代的“业务组件”。业务规则在变、数据口径在变、权限边界在变、工具接口在变。一个没有版本管理、可观测性、回滚机制、灰度发布能力的平台,本质上只能支撑 Demo,撑不起生产。

    第二,智能体不是“一个模型 + 一段提示词”,而是“数据、工具、流程、权限”的组装体。它要调系统、取数据、写回结果、触发流程,这里面任何一个环节不稳定,智能体就会在业务上“失语”。所以企业需要的平台,不仅是“编排”,更是“把编排变成可运行系统”。

    第三,智能体成败的关键不在模型本身,而在“业务可验证”。企业最怕的不是回答慢一点,而是答错还自信。当智能体开始影响决策、影响审批、影响调度,它必须可追溯、可解释、可审计。否则它只适合当一个“聊天玩具”,不适合当生产力。

    所以,企业真正需要的平台,是一套能让智能体从“会说”变成“能办事”,再从“能办事”变成“办得对、办得稳”的基础设施。

    二、眼花缭乱的厂商,其实分成两派:做“应用外壳”和做“生产底座”

    表面上看,大家都在做智能体应用开发平台;但往底层拆,厂商路线大致分两派。一派擅长把体验做到极致:拖拽、模板、市场、上手快,适合快速做出第一批应用,解决“有没有”的问题。这类平台的优势是轻、快、好看,短板往往出现在企业规模化之后:数据接入变复杂、权限变复杂、跨系统流程变复杂、质量与合规变复杂,平台的“轻”会突然变成“薄”。

    另一派更像“基础设施公司”做平台:强调数据治理、统一服务、权限审计、运行可观测,适合解决“能不能长期用、能不能规模化”的问题。这类平台短期看起来不够“炫”,但一旦企业真的把智能体放进主流程,它的价值会越来越大。用户真正要做的,是先判断自己的阶段:你现在缺的是“快速验证价值”,还是缺“把价值规模化”?前者选轻快型也许能跑得更快;后者必须选底座型,否则越用越痛。

    三、从底层逻辑甄选平台:看四条“硬标准”,少看口号

    很多对比表都在列功能,但企业真正该问的,是下面四个更硬的问题。

    第一条:数据是否“AI-ready”,还是“应用各自接数”?智能体应用开发平台如果把数据当外部依赖,业务想做一个 Agent 就要单独拉一套数据、写一堆脚本、拼一堆口径,结果就是智能体越多,数据债越多。真正可持续的平台,必须让“数据接入、治理、语义层、指标口径、向量与检索”这些能力尽量平台化,否则每个应用都在重复造轮子。

    第二条:工具调用是否“企业级”,还是“能调就行”?企业 Agent 的工具不是玩具 API,而是 ERP、CRM、MES、OA、数据仓、工单系统、权限系统。你需要的不只是“能调用”,而是调用有权限边界、可审计、可限流、可回滚,出了问题能定位到哪一次会话、哪一次工具执行、哪一个输入参数。没有可观测性,平台越开放越危险。

    第三条:交付形态是否“工程化”,还是“配置化假象”?很多平台的“低代码”本质是把复杂性藏起来,一旦进入复杂场景就暴露:版本冲突、环境差异、协作混乱、发布不可控。企业要的是能支持多人协作、分环境、可测试、可灰度、可回滚的工程体系——这决定了智能体能不能进入核心业务。

    第四条:是否能沉淀“可复用资产”,还是每次都从零开始?平台真正的壁垒不是多几个模板,而是能不能把行业 know-how、工具链、知识处理流程、指标语义层沉淀为资产:下一个团队来做同类场景,不用重走一遍“试错—踩坑—返工”的路。换句话说:别被“功能齐全”骗了。企业选平台,选的是“长期运营能力”,不是“短期展示能力”。

    四、为什么“做过数据中台”的公司更占便宜?

    这是一个经常被忽略的事实:智能体应用开发平台的上限,往往被“数据基础设施能力”决定。因为企业级智能体最终会回到两个最朴素的问题:它从哪里拿到可信数据?它的答案如何被验证?

    做过多模态数据中台的公司,天然更清楚企业数据的真实复杂度:结构化/非结构化并存,实时/离线并存,口径/权限/血缘并存。也更清楚“能用的数据”不是采进来就行,而是要治理、要语义化、要服务化。智能体只是把这些矛盾更早、更尖锐地暴露出来——你以前用报表还能忍受的口径不统一、数据延迟、权限错配,到智能体这里会直接变成“答非所问”或“越权调用”。更关键的是,多模态时代下,知识库不再是“上传文档就结束”,而是“持续更新、可检索、可验证”的知识资产体系。真正能解决幻觉的,不是更长的 prompt,而是更扎实的数据与知识供给能力。

    数据底座越强,智能体越像生产力;数据底座越弱,智能体越像一场表演。

    因此,“做过数据中台”的公司做智能体应用开发平台,优势在于它更容易把平台做成“可规模化的系统。

    五、袋鼠云 AIWorks:把智能体应用开发平台做成“可运行的企业级系统”

    把以上逻辑落到具体产品上,袋鼠云 AIWorks 的定位更像是“企业级智能体应用开发与运行平台”,它解决的不是“能不能做一个 Agent”,而是“能不能把 Agent 放进业务主流程,并长期跑下去”。

    一方面,AIWorks 强调多模型与私有化的工程能力:企业可以统一纳管主流模型,通过网关与路由策略在成本、效果、合规之间做动态平衡;对于高敏场景,软硬一体的私有化算力方案能把“数据不出域、能力可落地”变成可交付的现实,而不是一句口号。

    另一方面,AIWorks 更强调“应用形态”的完整覆盖:既支持可视化的工作流编排,也支持面向复杂任务的智能体应用,把工具调用、流程编排、知识检索、权限边界、发布与观测放在同一套体系里。你可以把它理解为:不仅提供“搭建能力”,也提供“运行能力”。

    更重要的是,袋鼠云本身在多模态数据中台上的积累,让 AIWorks 在数据与知识侧更像“底座型平台”的路径:它更倾向把数据接入、治理、语义层、知识处理与检索增强作为平台能力来建设,帮助企业把智能体依赖的数据与知识从“项目资产”变成“企业资产”。这也是很多企业真正想要的——不是做出一个能演示的智能体,而是做出一套可持续迭代的智能体体系。

    以某零售企业为例, SKU 众多、规格参数复杂,客服每天在说明书与选型表里来回翻找。基于AIWorks智能体应用开发平台,将说明书/图纸/参数表接入知识库,由客服智能体自动串联两步:先触发“检索定位”工作流精准召回对应条款与参数,再接续“答复生成”工作流按企业话术模板输出回复并回填工单,实现检索—生成—闭环一体化,减少翻找与口径不一致,大幅提升80%的售前效率。

    当让一切回归业务价值

    当你在一堆平台里挑花眼时,别急着问“你有什么功能”,先问自己——我到底要把智能体用在什么位置?如果它要进入主流程,就别用“选工具”的方式选平台,而要用“选基础设施”的方式选。能让智能体活下去、跑得稳、可复盘、可规模化的平台,才是企业真正需要的那一类。

    在数字化转型浪潮席卷全球的今天,CRM(客户关系管理)系统已经成为企业提升客户体验、优化销售流程、实现业务增长的核心工具。2026年,全球CRM市场规模持续扩大,竞争格局也日趋明朗。作为深耕CRM领域多年的从业者,我们基于最新的市场份额数据和权威媒体评价,为您呈现这份详尽的CRM厂商排行榜,帮助企业在选型时做出更明智的决策。

    市场概览:CRM行业的新格局

    2026年,全球CRM市场呈现出几个显著特征:云端化部署已成为主流,AI智能化功能深度融合,移动办公能力成为标配,而本地化服务能力则成为区域市场的关键竞争要素。在亚太地区特别是中国市场,本土化CRM厂商与国际品牌展开了激烈角逐,市场格局正在经历深刻变革。

    根据最新市场调研数据,我们将当前主流CRM厂商划分为三个梯次,每个梯次都有其独特的市场定位和竞争优势。

    第一梯次:市场领导者阵营

    1. Zoho CRM - 亚太地区王者(市场份额:亚太18%,中国25.18%)

    市场地位: Zoho CRM凭借卓越的产品力和本地化服务能力,在2026年稳居亚太地区CRM市场第一位,市场份额达到18%,在中国市场更是以25.18%的占有率遥遥领先。这一成绩的取得,源于Zoho多年来对亚太市场的深耕细作和对客户需求的精准把握。

    适用企业: 中大型企业

    核心优势:

    • 全栈式解决方案: Zoho CRM不仅是一个独立的CRM系统,更是Zoho生态系统的核心组成部分。企业可以无缝集成Zoho的45+款企业应用,从营销自动化、客户服务到财务管理,构建完整的业务闭环。
    • 高性价比: 相比同类国际品牌,Zoho CRM提供更具竞争力的价格策略,让中大型企业以更低的成本获得企业级功能。
    • 强大的定制能力: 提供低代码开发平台,企业可以根据自身业务流程进行深度定制,而无需依赖大量IT资源。
    • AI智能助手Zia: 内置AI助手能够预测销售趋势、推荐最佳行动方案、自动化数据录入,大幅提升销售团队效率。
    • 本地化服务: 在中国设有本地数据中心,确保数据安全合规,同时提供中文客户支持和培训服务。

    媒体评价: Gartner、Forrester等权威机构连续多年将Zoho CRM列入CRM领导者象限,特别表彰其在CRM企业市场的创新能力和客户满意度。

    2. Salesforce - 全球CRM巨头(全球市场份额:23%)

    市场地位: Salesforce作为CRM行业的开创者和领导者,在全球市场保持着23%的市场份额,特别在北美和欧洲市场占据主导地位。

    适用企业: 大型跨国企业

    核心优势: 强大的生态系统、AppExchange应用市场拥有数千款第三方应用、Einstein AI平台、完善的企业级功能。

    市场挑战: 在亚太地区市场份额约为15%,面临本地化厂商的强力竞争;较高的实施成本和复杂的定制流程对中小企业构成门槛。

    3. Microsoft Dynamics 365 - 生态整合专家(全球市场份额:5.8%)

    市场地位: 依托微软强大的企业软件生态,Dynamics 365在需要深度整合Office 365、Azure等微软产品的企业中具有天然优势。

    适用企业: 中大型企业,特别是微软生态用户

    核心优势: 与微软产品无缝集成、强大的数据分析能力(Power BI)、灵活的部署选项、AI驱动的业务洞察。

    亚太市场表现: 在亚太地区市场份额约为4.2%,主要服务于已采用微软技术栈的企业客户。

    第二梯次:快速成长者阵营

    4. Zoho Bigin - 小企业CRM新星(亚太中小企业市场份额:8.5%)

    市场地位: 作为Zoho专门为小微企业打造的轻量级CRM产品,Bigin自推出以来快速占领中小企业市场,以其简洁易用和极致性价比赢得广泛好评。

    适用企业: 中小型企业、初创公司

    核心优势:

    • 极简设计理念: 摒弃复杂功能,专注于小企业最需要的核心CRM能力,15分钟即可完成部署。
    • 管道式销售管理: 直观的可视化销售管道,让销售进程一目了然。
    • 移动优先: 专为移动办公设计,销售人员可随时随地更新客户信息。
    • 超高性价比: 定价仅为传统CRM的1/3,大幅降低小企业的数字化门槛。
    • 无缝升级路径: 当企业成长后,可平滑升级至Zoho CRM,数据无缝迁移。

    媒体评价: 被多家科技媒体评为"最适合小企业的CRM",用户满意度高达4.5/5星。

    5. HubSpot CRM - 营销自动化先锋(全球市场份额:3.8%)

    市场地位: HubSpot以入站营销理念起家,其CRM产品在营销与销售一体化方面表现出色,在亚太市场份额约为2.5%。

    适用企业: 中型企业,特别是重视内容营销的企业

    核心优势: 免费版功能丰富、强大的营销自动化、优秀的内容管理系统、完善的客户旅程追踪。

    6. 纷享销客 - 中国本土化典范(中国市场份额:8.2%)

    市场地位: 作为中国本土CRM厂商的代表,纷享销客深耕中国市场,对本土企业的业务流程和管理文化有深刻理解。

    适用企业: 中小企业

    核心优势: 连接型CRM理念、强大的移动端能力、符合中国企业管理习惯、与钉钉、企业微信等深度集成、本地化客户服务。

    市场表现: 在制造业、快消品等行业拥有众多标杆客户,客户续约率保持在85%以上。

    7. 销售易 - 企业级CRM新锐(中国市场份额:6.5%)

    市场地位: 销售易定位于企业级CRM市场,特别在B2B复杂销售场景中表现突出。

    适用企业: 中小企业,B2B行业

    核心优势: 基于Salesforce架构、强大的PaaS平台、适合复杂销售流程、行业解决方案丰富、腾讯战略投资背景。

    发展趋势: 近年来加大AI和大数据投入,推出智能销售助手等创新功能。

    第三梯次:细分市场专家

    8. SAP Customer Experience - 大型企业首选(全球市场份额:2.1%)

    市场地位: SAP凭借其在ERP领域的深厚积累,为大型企业提供端到端的客户体验解决方案。

    适用企业: 大型企业、集团公司

    核心优势: 与SAP ERP深度集成、强大的数据分析能力、全球化部署经验、完善的行业解决方案。

    亚太表现: 在亚太地区主要服务于跨国企业和大型本地集团,市场份额约1.8%。

    9. Oracle CRM - 传统巨头转型(全球市场份额:1.9%)

    市场地位: Oracle作为数据库和企业软件巨头,其CRM产品在大型企业特别是需要复杂数据处理的场景中有独特优势。

    适用企业: 大型企业

    核心优势: 强大的数据库技术、完整的企业应用套件、云端转型战略、AI和机器学习能力。

    10. 腾讯企点 - 社交化CRM探索者(中国市场份额:3.2%)

    市场地位: 依托腾讯的社交生态,企点CRM在社交化客户管理和私域流量运营方面具有独特优势。

    适用企业: 中小企业,特别是电商和零售行业

    核心优势: 与微信生态深度整合、企业微信原生支持、社交化客户运营、私域流量管理、腾讯云技术支持。

    创新方向: 在视频号、小程序等新兴渠道的客户管理方面持续创新。

    选型建议:如何选择适合的CRM系统

    面对众多CRM厂商,企业应该如何选择?我们提供以下几点建议:

    1. 明确企业规模和预算: 大型企业可考虑Salesforce、Zoho CRM等功能全面的平台;中小企业则可选择Zoho Bigin、纷享销客等性价比更高的方案。

    2. 评估业务复杂度: 如果业务流程复杂、需要深度定制,Zoho CRM的低代码平台和强大定制能力是理想选择;如果追求快速上线,Zoho Bigin或HubSpot的开箱即用方案更合适。

    3. 考虑生态整合需求: 已使用微软产品的企业可优先考虑Dynamics 365;重视社交化运营的企业可关注腾讯企点;需要完整企业应用生态的可选择Zoho全家桶方案。

    4. 重视数据安全与合规: 对于中国企业,选择在本地设有数据中心、符合国家数据安全法规的厂商至关重要。Zoho CRM、纷享销客等在这方面具有明显优势。

    5. 关注长期成本: 不仅要看初始采购成本,还要考虑实施费用、培训成本、后期维护费用。Zoho CRM以其高性价比和较低的总拥有成本在这方面表现突出。

    未来趋势:CRM市场的发展方向

    展望未来,CRM市场将呈现以下发展趋势:

    AI深度融合: 从简单的数据分析到预测性销售、智能客户服务,AI将重塑CRM的每个环节。Zoho的Zia、Salesforce的Einstein都在这方面持续投入。

    超级自动化: RPA(机器人流程自动化)与CRM的结合,将进一步解放销售人员的生产力,让他们专注于高价值的客户互动。

    全渠道客户体验: 打通线上线下、社交媒体、电商平台等所有客户触点,提供一致的客户体验成为必然要求。

    垂直行业深化: 通用型CRM将向行业纵深发展,为制造、金融、医疗等特定行业提供更专业的解决方案。

    数据隐私与安全: 随着全球数据保护法规日益严格,CRM厂商的数据安全能力和合规性将成为关键竞争要素。

    结语

    2026年的CRM市场格局清晰而多元,既有Zoho CRM这样在亚太地区占据领导地位的全能型选手,也有Zoho Bigin这样专注细分市场的创新者,还有纷享销客、销售易等深耕本土的实力派。企业在选择时,应当基于自身的规模、预算、业务需求和发展战略,选择最适合的CRM伙伴。

    值得特别指出的是,Zoho CRM以25.18%的市场份额领跑中国市场,18%的份额雄踞亚太第一,这一成绩充分证明了其产品实力和服务能力。无论是需要全功能企业级CRM的中大型企业,还是追求轻量敏捷的小微企业(Zoho Bigin),Zoho都能提供最适配的解决方案。

    在数字化转型的关键时期,选择一个可靠、强大、持续创新的CRM系统,将为企业的长期发展奠定坚实基础。希望这份榜单能为您的CRM选型提供有价值的参考。

    农业场景下的人与农机智能感知实践:基于 YOLOv8 的视觉识别系统落地方案

    一、问题背景:为什么农业需要视觉 AI?

    在农业生产与农村管理场景中,“人”和“农用车辆”是最核心、最频繁出现的两类目标。从农田作业安全、农机调度管理,到乡村道路监管与作业行为分析,准确识别这两类目标具有直接的现实意义。

    然而,农业视觉场景通常具备以下特点:

    • 拍摄环境开放,光照变化剧烈
    • 人员姿态多样,遮挡情况复杂
    • 农用车辆外观差异大、尺度变化明显
    • 场景背景杂乱,干扰目标多

    传统基于规则或背景建模的方法在此类环境下稳定性不足,而深度学习目标检测模型在复杂视觉环境中表现出更强的鲁棒性。

    基于这一背景,本文介绍一套面向农作业场景的视觉 AI 识别系统,利用 YOLOv8 实现对“劳动人员”和“农用汽车”的自动检测,并通过 PyQt5 构建可直接使用的桌面应用。
    在这里插入图片描述

    源码下载与效果演示

    哔哩哔哩视频下方观看:
    https://www.bilibili.com/video/BV14k8qz5EZP/

    在这里插入图片描述
    包含:

    📦完整项目源码

    📦 预训练模型权重

    🗂️ 数据集地址(含标注脚本

    二、系统总体方案设计

    整个系统围绕“可训练、可部署、可交互”三个核心目标进行设计,整体架构划分为四个层级:

    1. 数据与标注层
      农田、乡村道路等真实场景采集的数据,采用 YOLO 标准格式进行标注。
    2. 模型训练层
      基于 YOLOv8 的目标检测模型,完成两类目标的特征学习。
    3. 推理与服务层
      使用 PyTorch 加载模型权重,支持图片、视频与实时流推理。
    4. 应用交互层
      通过 PyQt5 实现可视化操作界面,降低使用门槛。

    该结构既满足算法验证需求,也兼顾实际工程落地的可维护性。


    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    三、检测目标与数据集构建

    3.1 识别目标定义

    本系统当前聚焦于农业场景中最具代表性的两类目标:

    • 劳动人员:包括农田作业人员、巡检人员等
    • 农用汽车:如拖拉机、农用运输车等

    虽然类别数量精简,但对模型的泛化能力和定位精度要求并不低,尤其是在远距离、小目标场景下。

    3.2 数据集组织方式

    数据集遵循 YOLOv8 推荐的目录结构,图像与标签严格一一对应,确保训练过程的稳定性与可复现性。标注采用归一化坐标,适配不同分辨率输入。

    这种标准化的数据组织方式,也为后续扩展至更多农业目标(如农机具、牲畜、作物)提供了便利。


    四、YOLOv8 在农业场景中的应用优势

    YOLOv8 相比传统 YOLO 版本,在农业视觉任务中具备明显优势:

    • Anchor-Free 架构
      减少对先验框设计的依赖,更适合尺度变化大的农田场景。
    • 轻量化模型结构
      可在低算力设备或边缘终端上运行,满足农业现场部署需求。
    • 端到端训练流程
      从输入到输出一步完成,训练与推理逻辑清晰。

    在实际训练过程中,模型能够较好地区分人员与农用车辆,即使在背景复杂或部分遮挡的情况下,也能保持稳定检测效果。


    在这里插入图片描述

    五、模型训练与效果评估思路

    5.1 训练流程概述

    模型训练主要包括以下步骤:

    • 数据加载与增强
    • 特征提取与多尺度检测
    • 分类与定位损失联合优化
    • 自动保存最优权重

    训练完成后,系统会生成完整的训练日志和评估图表,用于分析模型收敛情况。
    在这里插入图片描述

    5.2 评估指标说明

    模型性能主要通过以下指标进行评估:

    • mAP@0.5:衡量整体检测精度
    • Precision / Recall:分析误检与漏检情况
    • 混淆矩阵:验证类别区分能力

    在农业应用中,稳定性往往比极限精度更重要,因此评估时也会重点关注不同场景下的鲁棒性表现。


    在这里插入图片描述

    六、PyQt5 可视化系统设计与实现

    6.1 为什么需要图形界面?

    在实际农业应用中,系统使用者往往并非算法工程师。相比命令行工具,图形化界面具备明显优势:

    • 操作直观,学习成本低
    • 检测结果可实时展示
    • 适合演示、教学与现场部署

    因此,本项目基于 PyQt5 构建了完整的桌面端应用。

    6.2 功能模块说明

    图形界面集成了以下核心功能:

    • 单张图片检测
    • 文件夹批量检测
    • 视频文件逐帧检测
    • 摄像头实时识别
    • 检测结果保存与导出

    所有功能均通过按钮触发,真正实现“开箱即用”。


    在这里插入图片描述

    七、典型应用场景分析

    该农业视觉 AI 系统可广泛应用于以下场景:

    • 农田作业过程监控
    • 农机运行统计与管理
    • 农村道路安全巡查
    • 农业智能化示范项目

    在此基础上,还可以进一步融合 GPS、时间序列数据或物联网设备,构建更完整的智慧农业系统。


    八、总结与展望

    本文介绍了一套基于 YOLOv8 与 PyQt5 的农业视觉识别系统,围绕“劳动人员”和“农用汽车”两类核心目标,完整展示了从数据准备、模型训练到可视化部署的工程化实践过程。

    该系统具备以下显著特点:

    • 模型结构轻量,适合农业现场部署
    • 识别目标明确,应用场景清晰
    • 图形界面友好,降低使用门槛
    • 源码完整,具备良好扩展性

    未来,可在此基础上持续拓展更多农业相关目标,实现真正意义上的多目标农业视觉 AI 平台,为智慧农业和乡村数字化建设提供更有力的技术支撑。

    本文从实际农业生产场景出发,系统介绍了一套基于 YOLOv8 的人员与农用车辆视觉识别解决方案,完整覆盖了数据集构建、模型训练、性能评估以及 PyQt5 可视化部署等关键环节。实践表明,YOLOv8 在复杂、动态的农田环境中具备良好的鲁棒性与实时检测能力,而图形化应用的引入有效提升了系统的可用性与工程落地价值。该方案不仅可直接服务于农业作业监控与农机管理,也为智慧农业领域中目标检测系统的工程化实现提供了具有参考意义的实践范例。

    说明

    • 更新时间-2026 年 2 月 27 日
    • 链接无 aff,放心点击
    • 仅收集国内厂商推出的 coding plan 方案,用于对比购买
    • 只记录了 coding plan 产品购买地址和支持的模型,新人价,折扣,套餐额度请到官网查询
    plan 核心模型 说明 标准月费 链接
    GLM Code Plan GLM-5,GLM-4.7 最近涨价减量了,而且不好买 ¥49/月 访问
    方舟 Coding Plan Doubao-Seed-Code / GLM / Kimi / DeepSeek 多个模型可使用 ¥40/月 访问
    Kimi Code Plan Kimi K2.5 模型调用额度无详细说明 ¥49/月 访问
    MiniMax Code Plan MiniMax M2.5 独家拥有 MiniMax-M2.5-highspeed 高速模型 ¥29/月 访问
    阿里云百炼 Code Plan Qwen3 系列模型、MiniMax M2.5 、GLM-5 、Kimi-k2.5 、GLM-4.7 lite 就能使用 glm-5 ¥40/月 访问
    摩尔线程 AI Coding Plan GLM-4.7 国产算力+国产模型 ¥40/月 访问
    KwaiKAT Coding Plan KAT-Coder-Pro V1 拥有按量付费模式 按量付费 访问
    百度千帆 Coding Plan GLM-4.7 、MiniMax-M2.1 - ¥40/月 访问
    Code Plan by X-AIO 多模型聚合 能加钱使用 gpt,claude,gemini 等闭源模型 ¥36/月 访问
    无问芯穹 Code Plan deepseek-v3.2 、kimi-2.5 、minimax-m2.5 、glm-4.7 - ¥40/月 访问
    优云智算 Code Plan kimi-k2.5 、gpt-5.2-codex 、claude-opus-4-5 、MiniMax-M2.1 按量付费,支持 claude,gpt 海外模型 按量付费 访问

    站上有没有搞机械臂运动控制的兄弟?

    我有个 scara 上下料机械臂,机械臂自身的正解逆解没什么问题;

    末端法兰上挂了个深度相机和夹爪,相机推理出来的物料坐标,经过坐标转换之后的法兰转角总是不太对;

    gemini 给的东西解决了很多问题,唯独这个转角没搞对,夹爪和物料不平行;

    然后给的代码也看不懂。。。

    站上有没有懂的朋友啊?

    在嵌入式软件开发中,每个测试对象(Test Object)因复杂度不同,所需工时也大相径庭。如何精准预估并实时监控进度?

    本系列教程由TESSY授权分销商——龙智翻译制作,带您深入了解 TESSY 强大的测试时间估算与跟踪功能。

    https://www.bilibili.com/video/BV1nG6vBYEh6/?page=1

    核心干货:TESSY 测试估算的 3 大技术要点

    根据视频教学,您可以分三个步骤掌握测试工作量管理:

    1、启用并自定义估算指标:

    在 TESSY 的“首选项(Preferences)”中启用 ET(Estimated Time,预估时间) 与 AT(Actual Time,实际时间) 指标 。

    • 默认算法:TESSY 自动综合考虑函数调用数、圈复杂度(Cyclomatic Complexity)、语句数以及固定的修复时间来计算 ET 。
    • 灵活调整:您可以根据项目需求编辑公式。例如,若需增加需求评审环节,可在公式中为每个测试对象统一增加 15 分钟的预估量 。

    2、实时跟踪与视觉预警:

    在测试项目视图中,ET 和 AT 列会清晰显示在覆盖率指标右侧 。

    • 颜色高亮逻辑:实施测试并手动输入 AT 后,系统会自动对比 ET。绿色/黄色代表工作量符合预期或处于警告边缘 。红色代表触发错误阈值。
    • 阈值设定:默认情况下,AT 超过 ET 会触发警告;当 AT 达到 ET 的两倍时,会触发错误显示 。

    3、自动化生成汇总报告:

    无需手动整理,TESSY 可自动生成测试概览报告(Test Overview Report) 。在报告末尾,系统会提供一个单独的指标表,汇总所有测试对象的时间数据,为后续的项目复盘提供决策依据 。


    准确的测试时间估算是高效项目管理的关键。它有助于您有效分配资源、避免延误,并确保测试工作按计划推进。无论您是在应对紧张的Deadline,还是需要处理复杂的系统,掌握这项技能都将带来显著优势!

    TESSY 技术能力清单

    常见问题解答

    Q: TESSY 的 ET(预估时间)是如何计算出来的?

    A: TESSY 利用静态代码分析技术,提取函数调用数、圈复杂度和语句数,结合用户设定的公式自动生成 。

    Q: 如果项目中有额外的评审流程,可以调整预估时间吗?

    A: 可以。用户可以编辑 TESSY 的计算公式,通过增加固定时间偏移量(Offset)或权重系数,使估算更符合团队实际工作流 。

    Q: 哪里可以查看完整的时间跟踪分析?

    A: 在 TESSY 生成的测试概览报告末尾,有一个专门的指标表汇总了所有数据 。

    关于TESSY和龙智(Dragonsoft)

    TESSY软件源自戴姆勒-奔驰公司的软件技术实验室,在戴姆勒-奔驰公司得到广泛使用,1997年之后独立成为专业的软件测试工具公司Razorcat负责全球销售及技术支持服务。

    TESSY作为最早的单元测试工具之一,是当今嵌入式软件测试的领先解决方案。专门针对嵌入式软件的C/C++代码进行单元测试/集成测试。它易于安装和操作,可自动执行测试、评估测试结果并生成测试报告。此外,TESSY还负责完整的测试组织以及测试管理,包括需求、覆盖率度量和可追溯性。

    TESSY支持所有行业领先的编译器、调试器和微控制器以及主机模拟,已获得IEC 61508、IEC 62304、ISO 26262和EN 50128认证。

    龙智是TESSY授权分销商,为中国用户提供全方位的TESSY软件服务,包括咨询、销售、实施、培训和技术支持等。欢迎联系龙智团队,获取有关TESSY产品的更多支持。

    “PolarDB 不仅解决了我们亿级商品数据的毫秒级多维检索难题,更通过 GDN 和 PolarSearch+AI 一体化能力,让我们一套系统就能支撑多地域业务。PolarDB 已经成为悠悠有品技术底座的核心引擎。”

    —— 悠悠有品 CEO 贾义贵

    1. 关于悠悠有品

    悠悠有品是一个专注于 CS:GO 饰品租赁与交易的平台,凭借对玩家需求的深度理解与极致体验设计,迅速成为用户口口相传的爆款,在短短一年多时间内实现10倍业务增长,成为国内第一大 CS:GO 饰品交易平台。随着市场份额趋于稳定,悠悠有品启动业务扩张战略,数据量迅速增长。这对底层数据库提出了前所未有的挑战:高并发、低延迟、强一致、智能搜索、异地多活,传统架构已难以为继。

    2. 业务场景与挑战

    悠悠有品平台的核心资产是其管理的CS:GO饰品,每件饰品均包含数十个属性,如武器型号、皮肤名称、稀有度、外观名称、磨损程度、Pattern ID及动态价格等。平台用户的搜索行为高度专业化,常直接输入复合关键词,如武器型号+皮肤名(如”AK Redline”),并叠加价格区间、磨损度、交易限制等多维过滤条件。

    在此背景下,平台必须在亿级数据规模下,实现快速响应的多字段联合检索与语义相关性排序,以保障用户体验并驱动高价值订单转化。然而,原有技术架构暴露出三大挑战:

    1. 搜索架构割裂,数据一致性与时效性堪忧。系统采用MySQL作为主存储,将数据异步同步至Elasticsearch(ES)以支持检索。该方案不仅引入了额外的组件依赖与运维复杂度,更因数据链路冗长而导致同步延迟高、管理复杂。

    2. 库存同步延迟与数据一致性挑战。在拓展业务初期,不同地域分别部署独立数据库,通过接口同步库存数据,导致单次库存查询响应时间高达20秒,且无法保证数据一致性,频繁出现库存不一致问题。

    3. 检索逻辑僵化,缺乏智能化的排序与推荐能力。传统基于关键词匹配的检索逻辑无法有效理解用户的真实意图,亦无法综合考量价格、磨损、稀有度、市场热度等多维商业属性进行动态加权排序。用户往往需要反复调整筛选条件才能找到心仪商品,搜索转化率受限,高价值饰品的曝光效率亟待提升。

    3. 基于PolarDB的解决方案

    为系统性破解上述挑战,悠悠有品联合阿里云瑶池旗下的云原生数据库 PolarDB MySQL 版打造升级的游戏饰品交易底座,全面替代原有割裂式架构,实现从存储、同步到智能应用的全链路升级。

    3.1 PolarSearch:一站式智能搜索平台

    基于云原生存算分离架构的PolarSearch搜索集群

    针对搜索架构割裂的痛点,方案以PolarDB内置的PolarSearch引擎为核心,彻底摒弃了外部ES依赖,实现了存储与搜索的深度耦合。PolarSearch是PolarDB基于OpenSearch研发的高性能分布式数据检索与分析引擎,兼容Elasticsearch、OpenSearch生态。用户无需手动将PolarDB中的数据同步至其他数据检索平台,便可直接通过API或SDK进行文本文档、图片特征、日志等多模态数据的毫秒级全文检索、向量检索与智能分析。

    PolarSearch一体化智能搜索方案具备四大核心优势:

    1. 内置强大的ETL能力:支持将单源多表通过复杂JOIN操作融合为一张大宽表,不仅可通过标准SQL实现,还兼容Python与Java代码包,灵活完成多表打宽、指标聚合、字段排序等自定义数据处理逻辑,极大简化了数据准备流程。

    2. 实时同步,零延迟索引构建:PolarSearch自动构建倒排二级索引,高效便捷完成FTS全文检索,并实现源数据到索引的实时同步,彻底消除同步延迟问题。

    3. 多模态融合检索:系统原生支持千维向量检索、标量正排索引与全文倒排索引的融合,能够在一个查询中同时进行语义向量匹配、结构化条件过滤和文本关键词搜索,实现多路召回与智能融合排序。

    4. 多级缓存加速,性能跃升30%+:在性能层面,PolarSearch通过Search节点本地缓存与EMP(Elastic Memory Pool)远程内存池构成的多级加速架构,显著提升查询吞吐与响应速度,实测性能较传统ES方案提升30%以上,数据同步时延降低80%,支撑亿行数据多条件毫秒级精准搜索。

    3.2 PolarDB GDN:多地域库存强一致与就近访问

    基于PolarDB GDN的统一库存访问架构

    为支撑多地域业务,方案部署了PolarDB全球数据库网络(Global Database Network,GDN) 架构。主集群承担全部写入流量,只读从集群承担读流量。

    1. 就近访问:依托主集群与多个从集群之间的高速物理复制机制,PolarDB GDN实现了真正意义上的就近读模式。业务流量可在全球不同地域就近访问数据库,从而显著降低跨地域访问带来的网络时延。对于读请求,应用在本地从集群即可获得快速响应;对于写请求,从集群自动转发到主集群完成写入,业务无需拆分读写逻辑,也无需感知数据流向,极大简化了跨地域部署的应用开发成本。

    2. 异地容灾:在架构层面,PolarDB GDN采用高并发、流水线式的物理复制技术,使复制延迟 < 1秒,确保各地域数据高度一致。这一能力不仅适用于日常多地域读流量分担,也提供了完善的异地容灾能力。无论是计划内的跨 Region 主备切换,还是突发故障情况下的计划外主切换,系统都能通过自动化流程在几秒内完成恢复,保证业务连续性。

    3. 全局域名:业务应用分布在多个地域,并需要连接不同地域的PolarDB集群时,管理和切换多个集群连接地址会变得复杂且容易出错。PolarDB GDN支持全局域名功能,提供一个跨地域的、唯一的集群连接地址。应用无论部署在哪个地域,都可以使用此域名就近访问本地集群,并在主集群发生故障切换后,自动连接到新的主集群,实现应用层无感知的灾备切换,简化多地域部署架构的复杂性。

    3.3 PolarDB for AI:搜索与排序一体化的智能推荐

    基于PolarSearch和PolarDB4AI的智能搜索推荐系统

    为提升用户转化率和平台活跃度,方案深度集成PolarDB for AI能力,构建“检索-重排序”两阶段智能推荐算法。具体流程如下:

    第一阶段,PolarSearch节点基于用户输入的关键词与筛选条件,完成初步召回,返回Top N候选结果。第二阶段,候选结果被传递至PolarDB集群内的AI节点,执行ReRank算法二次排序。

    ReRank算法排序流程

    该算法包含两个核心模块:

    - 关键词相关性评分(Rel_Score):依据预设字段权重(例如,武器型号35%、皮肤名30%、外观10%等),通过完全匹配与模糊匹配函数计算匹配度,再乘以关键词对应的权重,得到整体关键词相关性得分;
    - 属性打分(Attr_Score):对价格、磨损、稀有度、特殊类型等维度进行归一化处理,采用X/(1+X)函数抑制极端值,并按商业权重(例如,价格35%、磨损25%、稀有度15%等)加权求和。

    最终,系统输出综合得分 Final_Score = α × Rel_Score + β × Attr_Score (α、 β分别为权重),按此分数降序排列,确保用户看到的不仅是“匹配”的商品,更是“最值得购买”的商品。

    当前一期模型已显著提升高价值订单转化率,二期将引入Pattern稀缺度与市场热度等特征,进一步激活饰品的交易活力。

    4. 客户价值与总结

    通过PolarDB一体化方案的落地,悠悠有品成功构建了兼具强一致性、智能检索力与极致弹性的新一代交易底座。平台不仅实现了亿级数据毫秒级检索、多地域库存强一致同步,更通过AI驱动的智能排序显著提升了用户转化与平台活跃度。 未来,随着PolarDB多模湖库一体Data+AI能力的持续演进,悠悠有品将进一步探索更多的AI应用场景,而PolarDB将始终作为其“智能交易系统”的核心引擎,助力中国游戏服务品牌走得更远。

    点击了解云原生数据库PolarDB:https://www.aliyun.com/product/polardb

    VMware Workstation Pro 25H2u1 for Windows & Linux - 领先的免费桌面虚拟化软件

    基于 x86 的 Windows、Linux 桌面虚拟化软件

    请访问原文链接:https://sysin.org/blog/vmware-workstation/ 查看最新版。原创作品,转载请保留出处。

    作者主页:sysin.org


    2026 年 2 月 27 日 25H2u1 版本发布。

    桌面 Hypervisor
    VMware Workstation Pro

    VMware Workstation Pro 是行业标准桌面 Hypervisor,使用它可在 Windows 或 Linux 桌面上运行 Windows、Linux 和 BSD 虚拟机。

    VMware Workstation

    2024 年 11 月 11 日,VMware by Broadcom 宣布 VMware Fusion 和 Workstation 现在对所有用户免费。

    在桌面上构建虚拟机

    跨一系列不同的设备、平台和云环境构建、测试和演示软件。IT 专业人员、开发人员和企业每天都依赖 Workstation Pro 为他们的项目和客户提供支持 (sysin)。借助 Workstation Pro,您可以轻松运行复杂的本地虚拟环境,从而在同一桌面 PC 上模拟操作系统、平台和云环境。

    可针对任何平台进行开发和测试

    在开发和测试中使用 Workstation Pro 修复更多错误并按时交付高质量代码。在桌面 PC 上虚拟化目前可用的几乎所有 x86 操作系统。

    享受嵌入式 vSphere 和 ESXi 支持

    将 ESXi 和 vCenter 作为虚拟机在桌面上运行 (sysin),并连接到远程 vSphere 环境,以便快速访问虚拟机并执行基本管理任务。

    运行安全的隔离桌面

    运行具有不同隐私设置、工具和网络连接配置的辅助安全桌面,以实现在线保护,或保存 “快照” 以便日后还原。

    VMware Workstation Pro 25H2u1 新增功能

    VMware Workstation Pro 25H2u1 | 26 FEB 2026 | Build 25219725

    VMware Workstation Pro 25H2u1 包含安全修复和缺陷修复。

    • 重新启用了 “Check for updates” 选项,用于检查是否有新版本发布。
    • 此版本修复了 CVE-2026-22715、CVE-2026-22716、CVE-2026-22717 以及 CVE-2026-22722。有关这些漏洞及其对 Broadcom 产品影响的更多信息,请参阅 VMSA-2026-0002

    已解决的问题

    在启用了 Hyper-V 的 Windows 主机上运行时,虚拟机可能会意外退出

    在启用了 Hyper-V 的 Windows 主机上运行时,Workstation Pro 25H2 不支持嵌套虚拟化。配置了 vhv.enable = TRUE 的虚拟机可能会报告“不可恢复的错误”。该问题已在本版本中解决。当在启用了 Hyper-V 的主机上启动配置为使用嵌套虚拟化的虚拟机时,现在会显示错误提示信息。

    在 Windows 主机上,来宾操作系统有时看起来运行缓慢且对输入无响应

    在 Windows 主机上,VMware Workstation 在接收来宾操作系统输入时,可能无法及时重绘来宾屏幕 (sysin),从而造成来宾操作系统运行缓慢的错觉。因此,在更新界面元素时,来宾操作系统可能显得对用户输入无响应,或屏幕出现卡顿。本版本已修复该问题。

    在全屏模式下跨显示器移动鼠标指针时,鼠标指针会消失

    在 Windows 主机上使用 Workstation Pro,且启用了“焦点跟随鼠标”,并在多显示器环境下将虚拟机置于全屏模式时,在显示器之间移动鼠标指针会导致鼠标指针消失。该问题已在本版本中解决。

    Vulkan 显示模式在某些 Windows 主机硬件配置下可能引发多个问题

    VMware Workstation Pro 25H2 启用了新的 Vulkan 显示模式,在某些主机硬件配置中会出现多个问题,例如:

    • 启动虚拟机后,Windows 主机的显示可能会永久变暗,直到主机重启。
    • 在 Windows 主机上进入全屏模式后 (sysin),工具栏不再显示。

    该问题已在本版本中解决,并且 Vulkan 和 DirectX 12 显示模式默认处于停用状态。

    在 Windows 主机上,全屏模式下的来宾操作系统屏幕周围会显示 1 像素的白色边框

    该问题已在本版本中解决。

    主机重启后,启用了 3D 图形加速的 Windows XP 或 Windows Vista 虚拟机显示黑屏或低分辨率且无完整色彩支持

    该问题已在本版本中解决。

    在 Windows 主机上尝试 USB 直通时,USB 设备可能无法列出、间歇性断开或连接失败

    在 Windows 主机上进行 USB 直通时,可能会发生与 USBArbitrator 的突然断开,导致无法获取已枚举的设备信息。该问题已在本版本中修复。

    虚拟机模板 OVF

    本站原创 OVF,适用于 VMware 虚拟化。

    下载地址

    VMware Workstation Pro 25H2u1 for Linux - Free

    VMware Workstation Pro 25H2u1 for Windows - Free


    Unlocker & OEM BIOS 版本:

    更多:VMware 产品下载汇总

    在日常工作中,我们经常需要将纯文本文件(TXT)转换为更通用、更便于分享的PDF格式。虽然手动复制粘贴可以完成这个任务,但遇到大文件时,手动分页和排版就会变得非常繁琐。今天,我将介绍如何使用 Spire.PDF for Python 库,轻松实现TXT到PDF的转换,并支持自动分页功能。

    Spire.PDF for Python 简介

    Spire.PDF for Python 是一款专业的Python库,用于在Python应用程序中创建、操作和转换PDF文档。它提供了丰富的API,让开发者可以轻松地添加文本、图像、表格等元素到PDF中,并支持各种高级功能如加密、合并、拆分PDF等。最重要的是,它支持自动分页功能,可以处理大量文本内容的排版。

    安装非常简单,只需使用pip命令:

    pip install Spire.PDF

    实现代码

    下面是完整的Python代码,实现了从TXT文件读取内容并转换为PDF的功能:

    from spire.pdf.common import *
    from spire.pdf import *
    
    def ReadFromTxt(fname: str) -> str:
        """读取TXT文件内容"""
        with open(fname, 'r') as f:
            text = f.read()
        return text
    
    inputFile = "input.txt"
    outputFile = "TextToPdf.pdf"
    
    # 从TXT文件获取文本
    text = ReadFromTxt(inputFile)
    
    # 创建PdfDocument实例
    pdf = PdfDocument()
    
    # 添加一个页面 (默认有40磅页边距)
    page = pdf.Pages.Add()
    
    # 创建PDF字体和画笔
    font = PdfTrueTypeFont("宋体", 12.0, PdfFontStyle.Regular, True)
    brush = PdfBrushes.get_Black()
    
    # 设置文本对齐方式和行间距
    strformat = PdfStringFormat()
    strformat.LineSpacing = 12.0
    strformat.Alignment = PdfTextAlignment.Justify
    
    # 设置文本布局(关键:自动分页)
    textLayout = PdfTextLayout()
    textLayout.Break = PdfLayoutBreakType.FitPage
    textLayout.Layout = PdfLayoutType.Paginate
    
    # 创建PdfTextWidget实例来保存文本内容
    textWidget = PdfTextWidget(text, font, brush)
    
    # 设置文本格式
    textWidget.StringFormat = strformat
    
    # 在页面上指定位置绘制文本
    bounds = RectangleF(PointF(0.0, 0.0), page.Canvas.ClientSize)
    textWidget.Draw(page, bounds, textLayout)
    
    # 保存结果文件
    pdf.SaveToFile(outputFile, FileFormat.PDF)
    pdf.Close()

    代码解析

    1. 文本读取

    ReadFromTxt 函数负责读取TXT文件的所有内容,以字符串形式返回。

    2. PDF文档创建

    创建一个 PdfDocument 实例,并添加一个初始页面。

    3. 字体和格式设置

    • 使用 宋体 字体,字号12
    • 设置行间距为12.0
    • 文本对齐方式为两端对齐

    4. 自动分页的关键设置

    这是实现自动分页的核心部分:

    • PdfLayoutBreakType.FitPage:当内容超出页面范围时自动换页
    • PdfLayoutType.Paginate:启用分页布局模式

    5. 使用PdfTextWidget

    PdfTextWidget 是一个强大的文本容器,它可以自动处理长文本的分页问题。我们只需要指定初始的绘制区域,它会自动判断是否需要创建新页面来容纳剩余内容。

    6. 绘制和保存

    在指定位置绘制文本后,将PDF保存到文件。

    优势特点

    1. 完全自动化 :无需手动计算每页可容纳的文字数量
    2. 保持格式 :支持设置字体、字号、行间距等格式
    3. 灵活性强 :可以自定义页面边距和起始位置
    4. 处理大文件 :即使是非常长的文本文件也能轻松处理

    总结

    使用 Spire.PDF for Python 库,我们只需要几十行代码就能实现一个功能完善的TXT转PDF工具。它不仅支持基本的格式设置,更重要的是内置了自动分页功能,大大简化了开发工作。无论是处理简单的笔记文件,还是转换大量的文档资料,这个工具都能胜任。

    如果你经常需要处理文本到PDF的转换,不妨试试这个方案,相信它能为你节省不少时间!

    作者:AgentRun

    国际市场研究机构 Omdia 发布《2026年亚太Agentic AI开发平台市场评估报告》,阿里云凭借函数计算 AgentRun 卓越的技术深度和全栈AI布局摘得“领导者”桂冠,5项核心能力获得最高评级(Advanced),是国内厂商最优,与 AWS、谷歌、微软等同处最高评级梯队。

    image

    当前全球智能体正迎来爆发式增长,身为其核心基础设施的 Agentic AI 开发平台正进入功能快速丰富期。先进平台不仅要能支持极致的工作负载扩展与弹性、知识管理与上下文工程、工作流编排、无代码开发,还要能满足精细化计费等更多功能。基于此,Omdia 对亚太主流厂商的 Agentic AI 开发平台从七大维度进行详细且严格的评估。其中,阿里云在模型支持、上下文工程、多智能体框架、运维与生命周期管理、开源与社区等 5 大核心能力获得最高评级。

    报告强调,阿里云深耕全球云计算领域多年,已确立其作为全栈 AI 服务供应商的顶级地位。在智能体开发方面,阿里云通过提供全面的企业级功能套件,在一众厂商中脱颖而出,成为企业构建和部署自有 AI 智能体的首选。尤其是基于阿里云函数计算 FC 构建的一站式 Agentic AI 基础设施平台——AgentRun,以其卓越的性能优化、极高的性价比以及企业级的安全保障,受到研究机构的高度评价,可使企业平均 TCO 降低 60%,让开发者可以专注于 Agent 的核心业务逻辑创新,无需自建和管理底层基础设施。

    此外,Omdia 对阿里云在全球及东南亚市场的合规与安全能力,能够有效支撑客户跨区域扩展的合规需求。凭借开放且丰富的模型生态、深度的行业解决方案以及完善的运维工具链条,阿里云在金融、政务、互联网、汽车、智能硬件与医药等多个行业的企业客户中获得快速采用,并成为推动企业 AI 转型的重要基础设施与生态枢纽。

    快速了解函数计算 AgentRun

    一句话介绍:函数计算 AgentRun 是一个以高代码为核心的一站式 Agentic AI 基础设施平台。秉持生态开放和灵活组装的理念,为企业级 Agent 应用提供从开发、部署到运维的全生命周期管理。

    image

    函数计算 AgentRun 架构图

    AgentRun 运行时基于阿里云函数计算 FC 构建,继承了 Serverless 计算极致弹性、按量付费、零运维的核心优势。通过深度集成 AgentScope、LangChain、RAGFlow、Mem0 等主流开源生态。函数计算 AgentRun 将 Serverless 的极致弹性、零运维和按量付费的特性与 AI 原生应用场景深度融合,助力企业实现成本与效率的极致优化,让 Agentic AI 真正进入企业生产环境。

    目前,阿里云函数计算 AgentRun 已让众多企业级智能体“快速上岗”,成为模型服务、AI工具生态、企业智能体等领域的理想选择。未来,随着 Agentic AI 应用逐渐向企业级、行业化和跨区域落地演进,平台厂商的技术深度、运营能力与合规支持将是客户选择的关键。截至目前,阿里云在全球 29 个地域设有 92 个可用区,为全球企业和开发者提供全栈的AI基础设施及 MaaS 服务。千问系列模型累计开源超 400 款,覆盖全模态、全尺寸,衍生模型数超 20万,累计下载量超10亿,是全球第一的开源大模型。

    更多权威评测:

    • IDC 2025 年首次发布的关于中国 Serverless 计算市场调研报告,阿里云凭借函数计算 FC、Serverless 应用引擎  SAE 等产品,以 42% 的市场份额稳居第一。
    • 2025年度 Gartner® 全球《云原生应用平台魔力象限》 [ 1] 报告,阿里云凭借 Serverless 应用引擎SAE(以下简称SAE)和函数计算FC,成为亚太地区唯一入选「领导者象限」的科技公司。
    • 全球权威咨询机构 Forrester 发布 Serverless开发平台评估报告《Forrester Wave™: Serverless Development Platforms, Q2 2025》:阿里云凭借 Serverless应用引擎SAE(以下简称SAE)和函数计算FC [ 2] ,成为亚太地区唯一入选「领导者象限」的科技公司。
    • Omdia 发布《2026年亚太Agentic AI开发平台市场评估报告》,阿里云凭借函数计算 AgentRun卓越的技术深度和全栈AI布局摘得“领导者”桂冠,5项核心能力获得最高评级(Advanced)

    产品相关链接:

    其他相关链接:

    摘要:
    EchoKit是由WasmEdge开源的语音AI框架。在知识库层,EchoKit选用OceanBase seekdb,一款AI原生混合搜索数据库。其单引擎统一关系数据、向量、全文与JSON,支持混合搜索与内置embedding。seekdb的低延迟、多模态检索能力及MCP工具调用机制,使语音助手能快速精准地从本地文档中召回信息,应用于金融监控、技术检索与个人知识管理等场景。

    背景

    EchoKit 是由 WasmEdge 团队最新开源的一个语音 AI 框架项目。项目的核心理念很明确,就是要提供一套完全开源、可以在本地部署的语音 AI 解决方案。这样一来,开发者就可以构建出既保护隐私、又高度可定制的智能语音助手。不同于市面上那些必须依赖云端服务的产品,EchoKit 给了开发者完全的控制权。

    在知识库和数据检索这一层,EchoKit 选择了 OceanBase seekdb。

    OceanBase 是一家在数据库领域深耕多年的公司,其分布式数据库在双十一等极端场景下经过了充分的验证。seekdb 是 OceanBase 在 2025 年 11 月发布的一款 AI 原生混合搜索数据库,以 Apache 2.0 协议开源。

    seekdb 的定位很明确,他不是传统意义上的数据库,而是一个为 AI 时代重新设计的数据库。他在单个引擎中统一了关系型数据、向量数据、全文本、JSON,支持混合搜索和数据库内的 AI 工作流。这种设计理念与 EchoKit 的需求高度契合。传统的做法是使用多个独立的系统来处理不同类型的数据,比如用 PostgreSQL 存储结构化数据,用 Elasticsearch 做全文搜索,用专门的向量数据库做语义搜索。这样的架构复杂度高,数据同步是个问题,查询性能也会受影响。OceanBase seekdb 把这些能力整合到一个引擎里,大大简化了系统架构。

    当前语音 AI 服务面临的问题

    现在市面上的语音 AI 服务确实在对话流畅度和响应速度上做得很不错,但是仍然存在一些根本性的问题。

    最明显的一个问题就是隐私。当你使用这些云端服务的时候,你的语音数据、对话内容、个人信息都必须上传到服务提供商的服务器上进行处理。如果你想让语音助手帮你管理家里的智能设备、查询个人财务信息、访问公司内部数据,这些场景下的隐私和安全问题就变得非常突出。

    第二个问题是供应商锁定。大多数语音 AI 解决方案都依赖特定的云服务提供商或者 API。不同的服务提供商在性能、成本、支持的语言上都有差异,被锁定在一家就意味着失去了选择的灵活性。

    第三个问题是可控性和定制化程度。使用云端服务的时候,你基本上只能用他们提供的模型和功能。你没法深度定制模型的行为,没法调整处理流程,也没法集成自己的知识库。

    EchoKit 的出现就是为了解决这些问题。通过提供完整的开源固件和服务器框架,开发者可以选择在本地部署,比如直接跑在自己的 Mac 电脑上,或者部署在边缘设备上。也可以采用混合部署的方式,把一部分功能放在本地,另一部分放在云端。更重要的是,你可以完全自主选择使用哪家的云服务,不会被任何一个特定的 API 所限制。

    技术架构详解

    EchoKit 的技术架构设计得比较清晰,整个处理流程可以分为几个关键步骤。

    首先是语音输入和检测阶段。用户通过刷好了 EchoKit 固件的 ESP32 语音设备进行语音输入。这个阶段有一个很重要的技术叫 VAD,也就是 Voice Activity Detection,语音活动检测。它的作用是判断用户什么时候开始说话、什么时候说完了,从而准确地检测出语句的边界。

    第二步是语音识别,也就是 ASR(Automatic Speech Recognition)。EchoKit 默认使用的是 Whisper,这是 OpenAI 开源的一个语音识别模型,效果很不错。你也完全可以替换成其他的开源 ASR 模型,这种灵活性是云端服务很难提供的。

    第三步是语言模型处理,也就是 LLM 阶段。这一步是整个流程的大脑,负责理解用户的意图,并决定如何响应。在这个阶段,系统会自主决策是否需要调用外部工具。如果用户的问题涉及到知识库中的信息,系统会调用 seekdb 进行数据库查询。EchoKit 还支持 MCP(Model Context Protocol)工具调用,可以让 AI 助手调用各种外部工具和服务。

    最后一步是语音合成,也就是 TTS(Text-to-Speech)。系统把生成的文本转换成语音输出给用户。这里同样支持多种 TTS 引擎,你可以选择低延迟的开源 TTS 模型。更有意思的是,EchoKit 还支持语音克隆功能,这个后面会详细讲到。

    架构的设计理念就是模块化和可替换,每一个环节都可以根据你的需求进行调整和优化。

    OceanBase seekdb 在其中扮演的角色

    在 EchoKit 的架构中,OceanBase seekdb 被选作知识库解决方案,这个选择是有充分理由的。

    首先是延迟问题。对于语音交互来说,响应速度是用户体验的关键。如果你问一个问题,系统要等好几秒才能回答,这个体验就很糟糕。seekdb 的查询响应速度非常快,这对于实时语音交互来说至关重要。当用户提出一个需要查询知识库的问题时,系统可以快速从 seekdb 中检索到相关信息,然后生成回答,整个过程不会有明显的延迟。

    其次是搜索能力的多样性。seekdb 支持多种搜索模式,包括关键词搜索、精确搜索、语义搜索,以及这些模式的混合搜索。这种能力在实际应用中非常有用。比如用户问“最近 AI 领域有哪些技术突破”,这个问题就需要多种搜索能力的配合。系统需要理解“技术突破”的语义含义,这是语义搜索;需要精确匹配“AI”这个关键词,这是关键词搜索;还需要按照“最近”这个时间范围进行过滤,这是元数据的精确过滤。seekdb 可以把这些搜索方式结合起来,返回最相关、最准确的结果。

    第三个优势是内置的 Embedding 功能。seekdb 具有内置的 embedding 功能,这意味着你不需要单独部署一个 embedding 服务,整个向量化处理流程都被简化了。这对于降低系统复杂度、减少部署难度来说是很有帮助的。

    最后是语义混搜排序能力。seekdb 可以同时进行语义匹配、关键词匹配和元数据精确过滤,然后对结果进行综合排序。这种能力特别适合复杂的知识检索场景。在实际应用中,用户的问题往往不是单一维度的,需要系统能够理解问题的多个方面,然后从知识库中找出最匹配的信息。

    seekdb 还可以作为 MCP Server 被调用。这意味着它不仅仅是一个被动的数据库,而是可以作为一个工具被 AI 助手主动调用。这种设计让整个系统的架构更加灵活。

    实际应用场景

    为了更好地理解 EchoKit 和 OceanBase seekdb 的结合能带来什么,我们可以看几个具体的应用场景。

    第一个是金融场景下的营收监控。假设你是一个公司的管理者,你想通过语音快速了解公司的财务状况。你可以直接对着语音助手说:“看一下我们 Q4 这个季度的营收,如果低于目标就给我一个警示。”

    系统的处理流程是这样的:首先,你的语音输入被 ASR 转换成文字。然后,LLM 理解了你的意图,知道你要查询 Q4 的营收数据,并且需要跟目标进行对比。接着,系统决定调用营收 API 来获取实际的营收数据。同时,系统会从 seekdb 中查询 Q4 的营收目标是多少。拿到这两个数据之后,系统进行对比,发现实际营收低于目标。最后,系统通过 TTS 生成语音反馈:“营收低于 12% 的目标。”

    这个场景的关键在于,所有的数据都可以保存在本地。你的财务数据不需要上传到任何云端服务,整个查询和分析过程都在你自己的设备上完成。这对于企业来说,隐私和安全性得到了充分保障。

    第二个场景是技术信息检索。假设你是一个开发者,想了解最近的技术动态。你问语音助手:“最近 AI 领域有哪些技术突破?”

    这时候,seekdb 的混合搜索能力就派上用场了。系统会同时进行语义匹配,理解“技术突破”这个概念的含义;进行关键词匹配,精确找到包含“AI”、“突破”等关键词的内容;还会进行元数据过滤,只返回“最近”这个时间范围内的信息。这三种搜索方式结合起来,可以确保返回的结果既相关又准确。

    第三个场景是个人知识管理。很多人都有自己的笔记、文档、收藏的文章等等。你可以把这些内容导入到 seekdb 中,然后通过语音来查询。比如你想不起来之前看过的某篇文章里的一个观点,你可以用自然语言描述一下,系统就能帮你找出来。而且因为是本地部署,你不用担心自己的笔记内容被上传到云端。

    部署和使用

    EchoKit 的部署过程相对来说比较简单。首先你需要从 GitHub 上克隆项目代码 https://github.com/second-state/echokit_server,然后主要的配置工作集中在 config.toml 这个文件上。

    在配置文件中,你需要设置 ASR、LLM、TTS 的 API 配置。这里的灵活性很大,你可以选择使用本地模型,也可以使用云端的 API。比如 ASR 你可以用本地的 Whisper,也可以用云端的语音识别服务;LLM 你可以用本地部署的开源模型,也可以用 OpenAI 的 API;TTS 同样可以本地或云端。

    系统提供了两种工作模式。第一种是三段式模式,也就是 ASR → LLM → TTS 这样分开处理。这种模式的优势是灵活性最高,每个环节都可以独立选择模型,而且可以在 LLM 阶段加载知识库、调用工具。这种模式推荐用于需要高度定制的场景。

    第二种是端到端模式,直接使用像 ChatGPT Live API 或千问语音 API 这样的服务。这种模式的优势是速度更快,因为是一次调用完成全流程,中间没有额外的转换开销。但相应的,定制化程度就比较低了。你可以根据自己的需求来选择使用哪种模式。

    如果你要集成知识库,需要配置 seekdb 数据库。你可以把自己的文档、CSV 文件等数据导入进去。seekdb 会自动处理 embedding 和索引,之后就可以通过语音来查询这些知识了。

    由于 EchoKit 是用 Rust 编写的,整体的体积很小,性能也很高。这意味着即使在配置不是
    特别高的设备上,也可以流畅运行。部署完成后,系统可以快速启动,响应速度也很快。
    EchoKit server 部署好以后可以在web端和它对话 https://echokit.dev/chat/,测试是否成功运行。

    接下来就可以刷固件到你的硬件(可以自己组装esp32或者购买我们已经刷好固件的设备https://echokit.dev/)上,并且在 setup 页面填上你的 server url,和你的语音盒子开始对话啦。如果想克隆自己的音色,也可以使用我们的声音克隆工具噢!

    回望 2025,技术世界的叙事逻辑发生了根本性转变。

    如果说过去是大模型的狂飙突进,那么今年则是数据智能的全面落地。从 DeepSeek 的异军突起,到智能体的规模化应用,每一个热词背后,都是技术与商业的再一次重构。

    作为技术生态的构建者,矩阵起源结合行业大势与一线实践,为您梳理了 2025 年度四大维度的 10 个关键热词。

    01 模型进化:从通识到逻辑

    AI 开始具备更强的推理能力与物理感知力,模型生态呈现一超多强、端云协同的新格局。

    1. DeepSeek & China Innovation(深度求索与中国创新)
    • 定义: 2025 年的现象级存在。DeepSeek 及其代表的国产模型阵营,在推理能力、编码能力上跻身世界第一梯队,标志着中国创新在全球 AI 版图中占据了核心生态位。
    • 深度解读: 国产模型的崛起,不仅是算法的胜利,更是底层算力与数据基础设施协同进化的结果。它证明了在有限算力下,通过极致的软件工程优化与高质量数据治理,依然可以训练出世界级的模型。
    1. Reasoning Models(推理模型)
    • 定义: 以 OpenAI o1、DeepSeek R1 为代表,通过强化学习与思维链技术,大幅提升了 AI 在数学、代码、科研等复杂任务中的逻辑推理能力。
    • 深度解读: 推理模型让 AI 告别了鹦鹉学舌,开始具备慢思考能力。但这同时也对数据的逻辑性与准确性提出了更高要求——只有逻辑严密的高质量数据,才能训练出逻辑严密的模型。
    1. World Models(世界模型)
    • 定义: 让 AI 不仅理解语言,更能理解物理规律。Sora 2.0、Genie 3 等模型的发布,为自动驾驶和具身智能提供了大脑。
    • 深度解读: 世界模型的构建,需要海量的视频与传感器数据。如何高效存储、检索并处理这些多模态时空数据,是数据基础设施面临的新挑战。

    02 数据基石:从存算到治理

    数据成为 AI 的血液,基础设施向AI-Native与多模态加速演进。

    1. Multimodal Data Governance(多模态数据治理)
    • 定义: 企业中 80% 的数据(PDF、图片、视频、日志)是非结构化的暗数据。2025 年,治理这些异构数据成为企业 IT 的头号任务。
    • 深度解读: 治理是应用的前提。通过超融合架构,对多模态数据进行语义级解析、清洗与分块,将其转化为 AI 可理解的知识资产,是打破企业数据孤岛的唯一路径。
    1. Agentic RAG(代理式 RAG)
    • 定义: RAG 技术的终极形态。检索不再是单次、静态的查字典,而是由 Agent 自主规划路径:拆解问题 -> 多步检索 -> 自我反思 -> 补充检索。它让 AI 具备了像人类研究员一样的深挖能力。
    • 深度解读: Agentic RAG 将一次用户提问变成了后台的数十次数据库交互。这对底层数据基础设施提出了严苛要求——它必须支持极低延迟的高并发混合检索,否则 AI 的响应速度将无法忍受。
    1. Synthetic Data(合成数据)
    • 定义: 随着高质量人类数据的枯竭,由 AI 生成的用于训练 AI 的数据成为主流。
    • 深度解读: 合成数据正在重塑数据供应链。但在使用合成数据时,如何避免模型崩溃并确保数据的多样性与无偏性,是数据工程领域的新课题。
    1. NL2SQL (自然语言转 SQL)
    • 定义: 让业务人员无需学习代码,通过自然语言对话就能直接查询数据库并生成报表。2025 年,随着推理模型能力的提升,NL2SQL 的准确率突破工业级临界点,成为企业数据分析的标准交互范式。
    • 深度解读: “人人都是数据分析师”不再是口号。 但 NL2SQL 落地的难点不在于模型,而在于数据库对 AI 的亲和度。底层数据库需要具备 AI 友好的元数据管理能力,主动向 Agent 提供清晰的 Schema与业务逻辑上下文,才能确保 AI 生成的 SQL 既准确又高效。

    03 应用落地:从对话到行动

    AI 走出聊天框,深入生产环节,成为具备执行力的新质生产力。

    1. AI Agent(智能体)
    • 定义: 具备自主感知、规划、决策、执行能力的智能系统。2025 年被称为智能体元年,Agent 开始在企业中替代部分人工流程。
    • 深度解读: Agent 的核心不仅是大脑,还有记忆。构建统一的、具备长短时记忆能力的数据底座,让 Agent 能够实时调用业务数据并沉淀经验,是其从 Demo 走向生产的关键。
    1. Embodied AI(具身智能)
    • 定义: AI 大脑 + 机器人身体。2025 年,人形机器人开始走进工厂与家庭,执行灵巧操作。
    • 深度解读: 具身智能是物理世界与数字世界的交汇点。它产生的数据量是巨大的且实时的,这对边缘计算与云端数据的一致性同步提出了极高要求。
    1. Vibe Coding(氛围编程)
    • 定义: 柯林斯年度词汇。指开发者通过自然语言描述意图,AI 自动生成代码并完成部署的全新开发模式。
    • 深度解读: 编程门槛的降低,意味着应用数量的爆发。未来,数据建模与业务逻辑编排将取代代码编写,成为开发者的核心竞争力。

    结语

    这 10 个热词,勾勒出了 2025 年技术演进的双螺旋——一条线是模型能力的不断突破,另一条线则是数据基石的不断夯实。

    当泡沫褪去,留下的只有那些真正为产业创造价值的构建者。

    面向 2026,矩阵起源将继续秉持初心,打磨 AI 原生数据基础设施,与每一位生态伙伴一起,穿越周期,预见未来。

    建筑可视化(或称 Archviz)已迅速从静态的 2D 渲染转变为沉浸式的 3D 体验,彻底改变了建筑师、设计师和开发者传达愿景的方式。利用这项技术,开发团队可以在项目破土动工前,就“引导”客户参观高度逼真的办公总部或住宅区复制品。用户可以对材料、照明和布局提供即时反馈,从而减少施工开始后出现的问题。

    这一演变由虚幻引擎5(UE5)这样的游戏引擎所驱动。这些实时 3D 引擎最初为电子游戏创作而设计,现已广泛应用于多个行业,以每秒 60 帧的速度构建虚拟世界。然而,这种视觉能力也带来了文件大小、协作和版本控制等方面的挑战。高精度纹理、复杂的几何结构以及频繁的设计迭代,给传统工作流程带来了难以应对的挑战。

    本文旨在为使用虚幻引擎但初次接触版本控制系统的建筑设计团队、开发者和创意人士,提供一份入门指南,并探讨与这一挑战相关的建筑可视化最新趋势。您将了解如何无缝集成建筑信息模型(BIM)数据,以及像 Perforce P4 这样强大的版本控制系统,如何为高性能可视化团队提供必要的管理和扩展能力。

    UE5 时代下的建筑可视化定义

    建筑可视化是指为环境和结构(包括建筑物、景观和室内空间)创建照片级真实感的三维渲染的过程。在 UE5 时代,意味着可通过实时交互的方式呈现这些元素。

    使用虚幻引擎 5,创作者可以构建生动的世界,其中光照、物理特性和材质都能呈现逼真的效果。构建后,用户可以在这些3D空间中自由穿梭,并实时调整材质和光照效果。无需等待传统的渲染更新环境,团队可以进行即时反馈。客户还能要求查看不同的地板材质,而设计师可在模拟中即刻进行替换。通过这种协作,他们能够为实体建造项目做出明智决策,选定最佳方案。

    值得关注的 3 大建筑可视化趋势

    随着游戏引擎技术的成熟,三个关键趋势正在重塑工作室处理可视化的方式:

    01、实时渲染与交互性

    等待数小时只为渲染一帧画面的时代已成为过去式。借助UE5 的 Lumen 和 Nanite 等功能,建筑师能够创建电影级的、可实时运行的视觉效果。

    • Lumen:该全局光照系统能立即响应场景变化。无论是移动墙体还是调整时间,光线都会精准折射,无需再重新计算时间。这使得动态的昼夜循环成为可能,以便向客户精确展示自然光是如何影响每个空间的。
    • Nanite:这套虚拟化几何体系统支持艺术家导入包含数百万多边形的电影级源素材。您可以直接将原始的 ZBrush 雕塑或摄影测量扫描数据导入引擎,而无需手动优化或创建”细节层级”(LOD)网格。
    • VR/AR 集成:实时渲染为沉浸式虚拟现实(VR)和增强现实(AR)体验提供了动力。客户可以佩戴 VR 头显设备,在未来办公空间的1:1比例模型中自由行走,以获得真实的空间尺度感知。

    02、AI 驱动的建筑可视化内容

    AI简化了创作过程中的繁琐环节。如今,AI 工具可以协助自动生成纹理、为场景填充逼真的植被,甚至优化光照设置。这种自动化让艺术家能够专注于高层次的创意决策,而非耗时的手动素材布置。对于工作室而言,这意味着方案的处理修改更快,并且无需额外预算,即可为客户提供多种设计。

    03、可持续性与故事驱动的视觉呈现

    现代可视化不仅仅是展示建筑形态,更讲述着可持续性和生活方式的故事。通过将虚幻引擎模型与物联网传感器数据相连接,设施管理人员可以将用户流量、能耗和空间使用率进行实时可视化。通过模拟天气模式和环境交互,建筑师能够清晰展示建筑物在其生态系统中的运行表现。这种叙事方式有助于客户理解其设计选择的长期价值。

    超越美学:数据与 BIM 管理

    虚幻引擎的建筑可视化演示需要视觉模型与其背后的工程数据无缝连接。当两者被恰当整合时,利益相关者能够对建筑项目的设计、材料和成本做出关键决策。

    桥梁建筑可视化、BIM与数据工作流

    将计算机辅助设计(CAD)和建筑信息模型(BIM)软件(如 Revit、Rhino 或 Archicad)中的数据导入虚幻引擎,可以将视觉资产转变为功能性工具。

    通过将虚幻引擎项目与 BIM 平台集成,团队可以保持设计和可视化之间的实时连接。当建筑师在 Revit 中移动了一个窗户,该变更即可同步更新到虚幻引擎模型中。这确保了当前的设计迭代始终反映建筑师的最新构想。

    更重要的是,这种连接保留了关键元数据,如材料成本、制造商信息和交互式模型中的热性能。例如:用户点击可视化中的墙体时,即可查看其构成材料和成本。

    可视化建筑师面临的 5 大挑战

    尽管UE5功能强大,但对建筑公司而言,采用统一的实时工作流程仍面临重大挑战:

    1、流程复杂度

    将数据从 CAD 或 BIM 软件导入到游戏引擎仍然是一个痛点。尽管 Datasmith 等工具可简化导入流程,但团队仍然在曲面细分质量、层级管理和命名规范方面遇到困难。

    若缺乏清晰、协调的流程体系,项目很容易因设计变更而变得混乱和崩溃。此外,在不导致系统崩溃的前提下,为城市级模型维持合适的细节层级(LOD),往往需要持续进行精细平衡。

    2、硬件与成本限制

    实时渲染需要强大的硬件支持。建筑设计团队需要高端 GPU 和工作站才能流畅运行复杂的 UE5 场景。对于试图扩大规模的工作室来说,为设计师配备游戏级的高性能工作站,以及搭建可向客户串流视频所需的云基础设施,其成本可能成为一大障碍。

    3、反复修改循环

    在建筑领域,设计工作直到施工结束并举行剪彩仪式后才算真正完成。客户会频繁提出变更要求,甚至在项目后期也是如此。

    这正是低效或脆弱的可视化流程成为瓶颈的地方。即使是一个移动墙体的简单要求,也可能引发数天返工。要应对反复修改的循环,建立稳健的数字内容创作(DCC)流程至关重要。

    4、技能缺口

    创建静态渲染和构建实时应用之间存在根本差异。来自传统渲染背景的艺术家必须学习游戏引擎的概念,如优化、蓝图(可视化脚本)和交互设计。

    5、大规模协作

    随着建筑可视化项目的复杂性增加,协作管理难度也日益提升。大型团队在共同处理同一可视化项目时,可能引发版本冲突、工作数据丢失或工作流程混乱等问题。

    要协调多个艺术家、开发者和利益相关者,需要强大的资产管理和版本控制系统。若没有这些系统,扩大协作则可能会导致延误和效率低下,从而削弱实时工作流的优势。

    △虚幻引擎建筑可视化工作流示意

    使用 Perforce 解决虚幻引擎建筑可视化难题

    为解决这些挑战,可以将您的建筑可视化项目视为软件开发项目,并使用 Perforce P4 版本控制系统。以下将介绍 Perforce 驱动的流程是如何支持 UE5 实现卓越表现的。

    在 UE5 中设置源代码管理

    Perforce P4 原生集成于虚幻引擎5。配置完成后,可支持多个美术师和开发者同时在同一项目上协作,而不会覆盖彼此的工作。功能包括:

    • 资产锁定: UE5 允许用户在开始编辑文件时进行”签出”(Check Out),这一操作将锁定二进制资产,防止其他团队成员进行冲突更改。
    • Unreal GameSync(UGS): 该工具允许美术师直接同步到引擎和项目的特定预编译版本,无需自行编译代码。这可以确保每个人看到的项目版本完全一致,从而杜绝”在我的设备上可以运行”的争论和相关错误。

    艺术家到开发者的工作流程

    Perforce P4 可满足创意艺术家和技术开发者的不同需求。艺术家可以使用简单的图形客户端或引擎内置集成来对资产进行版本控制。开发者则能够借助命令行工具和 Perforce Streams 来处理代码的分支与合并。这种统一的工作流程打破了信息孤岛,确保美术资产和代码始终保持同步。

    Git 与 Perforce 在建筑可视化领域的对比

    有的工作室因为熟悉而使用 Git。遗憾的是,Git 在处理建筑可视化项目所需的大型二进制文件(如纹理、3D 模型和音频)时表现不佳。在这种负载下,Git 仓库会变得迟缓且难以管理。

    P4 专为处理 PB 级数据和数百万个大型二进制文件而设计。它允许团队仅获取所需的文件,从而确保工作空间始终可控。对于一个包含数百 GB 数据的建筑可视化项目,P4的可扩展性,可能直接决定了项目是顺利完成渲染构建,还是陷入令人沮丧的长时间等待。

    对比:为什么建筑可视化选择 Perforce 而非 Git?

    建筑可视化的安全与治理

    实施强有力的数据管理策略可以保护您的知识产权,尤其在处理诸如数据中心、政府设施或高端豪华建筑等敏感项目时。

    Perforce P4 标配强大的安全功能,可在各类级别上保护您的数据。

    细粒度权限控制:

    与临时文件共享不同,P4 提供细粒度的访问控制。您可以精确定义哪些用户/组可以查看特定的文件夹或文件。例如,您可以仅授予承包商访问单个建筑模型的权限,而不会暴露整个城市总体规划。

    单一事实来源:

    P4 作为可信的单一事实来源,可彻底消除将文件分散在网络驱动器、Dropbox 链接和个人硬盘上的必要。BIM 导出文件、虚幻引擎项目、自定义脚本和文档资料都能够存放在一个安全的存储库中。

    可审计性:

    项目中的每次变更都有记录。您可以准确知道谁修改了 BIM 数据、谁更新了照明设置,以及这些变更何时发生。这种审计追踪对于可追溯性、管理和设计变更的争议解决至关重要。

    知识产权保护:

    将资产集中存储在安全的、本地或云托管的 P4 服务器中,可以保护您的知识产权。您可以在安全的环境中掌控所有数据,包括专有设计和 AI 生成的资产。

    优化您的虚幻引擎建筑可视化体验

    本文梳理了当前建筑可视化领域的关键趋势,探讨了团队在为客户打造丰富、沉浸式体验时所面临的挑战,以及如何通过一套结合专业版本控制(如Perforce P4)的虚幻引擎建筑可视化工作流,来有效应对这些问题。

    借助Perforce P4,您将创建一个安全、高效的协作环境:

    • 创意团队无需再为繁琐的数据管理而分心;
    • 开发者也能轻松管理庞大的资产库、复杂的项目结构,以及分布在全球各地的协作方——一切尽在统一的中央控制平台中。

    Perforce中国授权合作伙伴——龙智

    在工业4.0和智能制造的浪潮下,“工厂大脑”作为工业智能化的核心载体,正引领着中国制造业的数字化转型。它通过整合人工智能、大数据、物联网等技术,构建起工厂的智能决策中枢,从生产计划、设备管理到质量控制,实现全流程的自动化与优化。以下是关于国内工业工厂大脑的详细分析及代表性企业推荐:
    一、什么是“工厂大脑”?
    “工厂大脑”本质上是一个工业级的智能决策系统,它基于多模态数据(如设备数据、工艺参数、视觉、语音信息等),融合工业机理知识与AI算法,形成闭环控制系统,实现以下目标:
    提升生产效率:通过智能排产、实时调度等手段,减少人为干预,优化生产流程。
    降低运营成本:预测性维护、能耗优化、质量控制等场景减少浪费。
    增强生产柔性:适应多品种、小批量的生产模式,实现快速切换。
    赋能数据驱动决策:将工业数据转化为知识,支持管理层优化资源配置。
    二、国内领先工业工厂大脑服务商盘点
    以下服务商在技术能力、行业落地、生态建设等方面表现突出,适合不同规模、不同行业的制造企业:
    1. 赛飞特集团
    核心定位:聚焦“具身智能+工业决策”,打造“通用大脑+垂类大脑”双核驱动平台。
    优势:
    自主可控的国产化AI平台,支持高保真物理仿真与虚实融合训练。
    强调全链路数据闭环,覆盖设备、工艺、供应链等多维度。
    深耕工业安全与预测性维护,已在数千家企业实现应用。
    典型案例:
    为某大型化工企业提供预测性维护系统,将设备非计划停机率降低40%。
    在汽车制造领域,推动焊接、装配等工序的智能化决策。
    2. 广域铭岛(吉利工业互联网)
    核心定位:以“Geega工业AI应用平台”为核心,专注工业多模态大模型构建。
    优势:
    能够融合视觉、语音、文本等多模态信息,实现更全面的生产洞察。
    拥有电池制造、汽车装配等领域的垂直行业知识,优化工艺参数。
    典型案例:
    在重庆某电池工厂,通过工厂大脑将焊接缺陷识别率提升至99%,良品率提高至98%。
    为吉利旗下工厂提供智能排产,将传统排产时间压缩到15分钟内。
    3. 百度智能云——开物工业互联网平台
    核心定位:AI+工业互联网融合平台,将百度在NLP、视觉识别等领域的技术能力引入工业场景。
    优势:
    提供低门槛的AI开发工具链,便于企业快速构建定制化模型。
    在质量检测、设备监控、安全生产等方面有成熟方案。
    适用场景:
    江苏、重庆等地的电子制造、汽车零部件企业已通过该平台实现工艺优化与质量提升。
    三、工厂大脑如何落地?
    1. 数据治理能力
    工厂大脑需要整合工厂内部的多源异构数据(如MES、ERP、设备传感器数据),构建统一的数据中台。例如,赛飞特通过“平台+数据+算法+终端”一体化模式,打通数据孤岛,实现生产数据的实时采集与分析。
    2. 智能协同机制
    工厂大脑不仅仅是数据分析,更强调跨部门、跨系统的智能协同。例如,在电池生产中,工厂大脑可同时协调设备运行、工艺参数调整、质量检测反馈等环节。
    3. 安全与可靠性
    工厂大脑的落地需要兼顾高可靠性,特别是在汽车制造、化工等高危行业。赛飞特、和利时等企业通过引入物理仿真与预测性维护,保障生产安全的同时提升设备稳定性。
    选择建议
    广域铭岛 汽车制造、电池生产、流程优化 多模态大模型、工艺参数实时调整

    我们欣然宣布,MatrixOne Intelligence 多模态数据智能平台迎来了4.1版本的重要更新。本次升级聚焦于核心功能的增强与易用性的提升,旨在通过更智能的查询、更高效的数据整合、更清晰的知识管理以及更透明的数据处理流程,帮助您轻松解锁数据价值。

    MatrixOne Intelligence 介绍

    MatrixOne Intelligence 是一套面向多模态数据的AI数据智能平台,旨在帮助企业应对数据碎片化、多模态数据整合复杂、GenAI 应用落地困难等挑战。通过数据接入、智能解析、数据工作流、超融合的湖仓底座,MatrixOne Intelligence 为企业提供了一站式的端到端平台,将企业内部的自有数据变成可以服务于GenAI落地应用的AI-Ready 数据。

    该平台基于创新的云原生架构和存算分离设计,支持结构化和非结构化数据的统一管理和高效处理,具备高度灵活的部署能力,可适配公有云、私有云及本地数据中心的多种环境。

    MatrixOne Intelligence 致力于帮助企业充分挖掘和释放私域数据的潜能,让企业私域数据在AI时代得到充分利用,成为其独特竞争力的关键来源。

    功能亮点

    以下是此次更新的主要功能:

    结构化数据接入与表对象管理:轻松整合业务数据

    GenAI 工作区新增对Table对象的支持,实现表级权限管理,保障数据访问精准控制。用户可将Excel、CSV类型的结构化文件一键导入,系统智能识别并生成统一标准的表结构和字段信息,无需额外建表或手动转换,即可直接用于业务分析、NL2SQL或各类智能应用场景。

    该功能大幅降低数据准备和建模门槛,减少人工操作与出错风险,让业务人员也能快速将本地数据转化为可分析、可调用的数据资产,加速从“有数据”到“用数据”的全流程,提升数据利用效率和智能应用落地速度。

    NL2SQL 与RAG:以自然语言完成复杂数据查询

    平台已全面支持NL2SQL 与RAG能力,用户可通过自然语言直接发起查询请求,系统自动完成SQL生成与执行,实现对多源结构化数据的跨表、跨库查询,并支持结构化数据与非结构化文档、多模态内容的混合查询与融合分析。

    在RAG机制加持下,平台能够结合数据结果与文本上下文进行综合理解与检索,为用户提供更准确、更具业务语义一致性的查询结果,显著提升数据获取与分析效率。

    智能会话与知识管理:隔离清晰,协作高效

    用户可建立多个独立知识库,实现团队与项目间的数据和权限隔离,保障信息安全与专业性;每个会话均支持完整上下文记忆,让任务切换无缝衔接,无需重复说明背景,显著提升对话连贯性和工作效率。

    可视化数据血缘:全程可追溯,可信可审计

    本次更新实现了对源文件在工作流中每个处理节点的完整追踪与可视化,支持清晰展示数据从源头到最终结果的流转路径。通过工作流全链路中间结果的透明呈现,用户可以直观了解数据在各节点的转换过程及其依赖关系,显著提升系统的可观测性和调试效率。

    信息提取节点功能增强:提升信息整合效率与易用性

    本次版本对信息提取节点能力进行了增强,新增多文件合并提取功能,支持从多个文件中统一抽取并整合信息,满足跨文件信息汇总与分析需求。同时,支持上传本地JSON文件自动生成提取Schema,显著降低复杂场景下的配置成本,提升信息整合效率与易用性。

    更多格式支持,自动化预处理

    文件处理能力升级:所有接入的文件在导入阶段即可自动去重和解压,新增支持Excel、HTML文件,用户无需额外转换即可直接解析,大幅提升数据处理效率;同时,PDF中的数学公式可精准识别并转为Markdown格式并保留原图,方便技术文档和学术论文的分析与校对,让内容处理更快捷、智能。