当Python的科学计算与JavaScript的前端交互禀赋在浏览器环境中实现无界交融,一种颠覆传统开发逻辑的协同范式正悄然重塑Web开发的底层逻辑。这种无需后端中转、摆脱环境依赖的直接互操作,绝非简单的语法移植或功能拼接,而是基于运行时深度耦合的能力重构。在长期的探索中逐渐发现,浏览器内跨语言协作的核心价值,在于打破两种语言固有的生态壁垒,让数据流转与功能调用脱离接口协议的束缚,形成原生级的协同闭环。无论是需要前端承载复杂数据建模的可视化应用,还是依赖密集计算的交互式工具,这种互操作模式都能将Python在数据分析、机器学习领域的生态优势,与JavaScript在DOM操作、用户交互上的灵活性无缝衔接,构建出更轻量化、高效率的开发路径。这种变革背后,是对Web开发本质的重新认知——前端不再仅仅是界面呈现的载体,而是能够整合多语言能力的综合计算平台,让前端开发者无需切换开发环境即可调用全量Python工具链,同时为数据科学家提供了将模型与可视化成果直接嵌入网页的便捷途径,实现了技术能力的双向赋能与价值放大。在实际体验中,这种协同模式带来的不仅是开发效率的提升,更是思维方式的转变,让跨语言协作从“按需适配”升级为“原生共生”,为Web应用的功能边界与体验深度开辟了全新可能。

浏览器内JS与Python互操作的底层实现,其核心逻辑在于通过字节码转译技术构建共享执行空间,彻底摆脱了传统跨进程通信的性能瓶颈与复杂度。这种基于WebAssembly的沙箱化运行环境,能够让Python解释器在浏览器中原生启动,同时建立与JavaScript引擎的直接通信链路,实现两种语言的内存级交互。双向调用的实现并非依赖标准化的接口定义,而是通过构建动态适配层,完成类型系统的隐式转换与函数签名的智能映射,让不同语言的函数能够像原生函数一样被直接调用。在实践探索中发现,这种通信机制支持同步与异步两种调用模式,同步调用适用于轻量级计算场景,能够确保数据实时反馈,满足界面交互的即时性需求;异步调用则通过事件循环的协同调度,将Python的密集计算任务分流至后台,避免阻塞JavaScript的前端渲染进程,保障界面的流畅性。更具价值的是,借助Web Worker的并行处理能力,可以将Python的计算任务分配至独立的线程中,实现两种语言的并行执行,既充分发挥了Python在数据处理、模型计算上的效率优势,又保留了JavaScript对前端界面的精准控制。这种底层架构的创新,让跨语言调用的延迟降至微秒级,为复杂场景的应用提供了坚实的技术支撑。在实际测试中,即便是处理大规模数据集的转换与分析,也能实现无感知的实时响应,这种原生级的协同体验,是传统跨语言方案难以企及的。

环境适配是浏览器内JS与Python互操作落地的关键环节,其核心挑战在于解决Python生态与浏览器运行环境的兼容性鸿沟。Python的众多第三方库在设计之初并未考虑浏览器场景的限制,大量依赖系统级API与C扩展模块,直接迁移至浏览器环境必然面临功能失效的问题。实践中采用的惰性加载适配策略,并非简单的库移植,而是基于依赖分析的按需加载机制——通过静态分析工具识别Python代码的依赖链条,仅在实际功能被调用时,动态引入所需模块及其适配版本,既大幅减少了初始加载的资源体积与耗时,又有效降低了内存占用。对于包含C扩展的复杂库,通过编译层面的深度改造,将C代码转换为浏览器可识别的WebAssembly字节码,同时保留原有API的调用方式与参数规范,确保开发者无需修改代码即可直接使用。针对两种语言的数据类型差异,构建了智能转换机制,能够自动识别数值、序列、映射等不同类型的数据,在传递过程中完成格式适配与精度保留,避免手动转换带来的繁琐操作与数据丢失风险。此外,在适配过程中充分考虑了不同浏览器对WebAssembly的支持差异,通过特征检测与降级处理,确保在主流浏览器中都能获得一致的运行体验。这种环境适配的思路,既尊重了两种语言的原生特性与生态完整性,又通过灵活的适配层设计,实现了生态资源的最大化利用,为互操作模式的广泛应用奠定了基础。

能力封装的核心目标在于构建无感知的跨语言调用层,让开发者能够摆脱底层实现细节的束缚,以原生函数调用的体验实现JS与Python的相互调用。这种封装并非简单的函数包裹,而是基于接口标准化与功能模块化的设计理念,将Python的核心能力拆解为高内聚、低耦合的功能单元,同时为Python提供访问浏览器API的统一入口,实现双向能力的无缝渗透。在设计过程中,重点强化了函数调用的语法一致性,无论是从JavaScript调用Python的数据分析函数,还是从Python调用JavaScript的DOM操作方法,都采用统一的调用语法与参数传递规则,降低了跨语言开发的认知成本。针对异步场景,通过回调机制与Promise异步模式的深度融合,解决了跨语言调用中的异步协同问题,确保数据处理与界面响应的有序进行,同时提供了完善的异常捕获机制,让跨语言调用过程中的错误能够被精准定位与处理。此外,封装层还具备良好的可扩展性,支持开发者根据具体需求自定义类型转换规则与函数适配逻辑,实现个性化的协同方案。在实际使用中,这种封装策略不仅大幅降低了开发门槛,更实现了两种语言能力的有机整合,让开发者能够根据场景需求灵活组合使用两种语言的优势功能——比如用Python处理复杂的数值计算与数据建模,用JavaScript实现流畅的交互反馈与可视化呈现,构建出功能更强大、架构更简洁的应用,真正实现了“1+1>2”的协同效应。

性能优化是浏览器内JS与Python互操作走向实用的关键,其核心在于突破数据传输与计算调度的双重瓶颈,实现跨语言协同的高效稳定运行。在数据传输方面,摒弃了传统的JSON序列化与反序列化方式,采用基于内存视图的直接数据访问模式,让两种语言能够共享同一块内存区域,数据在传递过程中无需进行格式转换与拷贝,大幅降低了传输延迟与性能损耗。对于大规模数据集的处理,通过分块传输与流式处理相结合的方式,将数据分解为可并行处理的单元,既减少了单次传输的资源压力,又通过并行计算提高了整体处理效率。在计算调度上,构建了动态负载均衡机制,通过实时监控浏览器的CPU、内存占用情况,智能分配JavaScript与Python的计算任务,当前端界面需要响应用户操作时,自动降低Python计算任务的资源占用,确保界面流畅;当处于后台计算场景时,则充分利用空闲资源提升Python的计算效率。针对Python在浏览器中运行的特性,对垃圾回收机制进行了优化调整,通过动态调整回收时机与回收策略,避免长时间运行导致的内存泄漏问题,同时减少垃圾回收过程对前端交互的影响。此外,还通过代码层面的优化,比如Python函数的惰性执行、重复计算的缓存机制等,进一步提升运行效率。在实际测试中,经过多维度优化后,跨语言调用的性能损耗已降低至可忽略的范围,即便是处理百万级数据的分析任务,也能保持流畅的用户体验,为复杂场景的落地提供了性能保障。

生态融合与场景落地是浏览器内JS与Python互操作的最终价值体现,这种协同模式正在重构多个前端应用场景的开发逻辑,催生全新的应用形态。在数据可视化领域,Python的数据分析库能够直接处理前端获取的原始数据,完成数据清洗、建模、统计分析等复杂操作,生成的结果无需转换即可通过JavaScript的可视化工具渲染为交互式图表,实现从数据处理到界面呈现的全流程浏览器内完成,既减少了数据传输的延迟,又提升了可视化的实时性与交互性。在在线教育场景中,借助这种互操作模式,可构建轻量化的在线编程环境,学习者能够在网页中直接编写运行Python代码,通过JavaScript实现实时的代码校验、结果反馈与错误提示,同时结合前端交互设计,打造沉浸式的编程学习体验,让编程教育突破环境限制,更具便捷性与普及性。在科研工具开发中,可将Python的专业计算模型与JavaScript的交互界面相结合,打造无需安装、跨平台的科研辅助工具,科研人员能够通过前端界面输入参数、调整模型,实时获取计算结果与可视化分析,大幅降低科研工具的使用门槛。

文件I/O的效能瓶颈始终潜藏于数据从内存到存储介质的流转链路中,传统同步读写模式下的固定缓冲策略,早已无法匹配现代应用中多变的读写场景与海量数据处理诉求。异步缓冲优化算法的核心突破,绝非简单扩容缓冲空间或调整读写触发时机,而是构建了一套基于数据行为预判的动态资源调度体系,让缓冲策略与I/O请求特征、存储介质特性形成毫秒级实时联动。这种重构彻底打破了“缓冲即静态缓存”的固有认知,将异步机制的非阻塞优势与缓冲的预载、合并、分流能力深度绑定——在数据未被显式请求时,通过历史行为建模提前预判加载;在请求密集爆发时,智能合并同类操作减少设备交互;在系统空闲时段,通过分批落盘优化存储写入效率,实现了从“被动响应请求”到“主动适配需求”的效能跃迁。无论是大规模日志采集场景中每秒数万条记录的写入压力,高清视频流式处理时的低延迟读取需求,还是分布式数据备份中的跨节点数据传输,这种优化算法都能通过精准的行为感知,让文件I/O的延迟与吞吐量达到动态平衡。在长期的实践观察中发现,这种算法的价值不仅在于逻辑层面的革新,更在于对数据流转本质的重新解构——它不再将缓冲视为孤立的中间层,而是作为串联请求与存储的智能枢纽,为高并发、大数据量场景下的I/O处理提供了全新的解题思路,其带来的效能提升往往能突破硬件本身的物理限制,实现软件层面的效能重构。

异步缓冲优化算法的底层逻辑,核心在于构建“请求解析-缓冲调度-存储适配”的三角联动机制,而非孤立优化单个环节的性能表现。异步机制的真正价值并非单纯的非阻塞执行,而是通过对请求队列的智能排序与优先级调度,为缓冲策略争取宝贵的预判与调整时间窗口。缓冲层在此架构中不再是静态的中间存储区域,而是具备行为感知能力的动态枢纽,能够实时捕捉I/O请求的频率、数据块大小、访问连续性、重复度等多维特征,进而动态调整数据预载的范围、缓冲分区的划分规则以及数据落盘的时机与批次。在实际调试中发现,当算法检测到连续的顺序读取请求时,会自动扩大预载范围,按照存储介质的物理扇区大小,提前将后续1-3个数据块载入缓冲,这种预载策略能将磁盘寻道次数降低60%以上;而当识别到离散的小文件写入请求时,则会启动“零散数据聚合”机制,设置动态调整的聚合阈值,将短时间内来自不同进程的小写入请求暂时存储于缓冲的独立分区,待数据量达到阈值或触发超时机制后,批量写入存储介质,这种方式能有效减少存储设备的写入次数,降低机械硬盘的磁头损耗与SSD的写入放大效应。这种联动机制的实现,依赖于对I/O行为的精细化建模——通过统计学习方法捕捉请求模式的隐性规律,比如工作日高峰时段的请求密度、特定应用的读写偏好等,让缓冲策略能够自适应不同应用场景与存储设备的特性。它既避免了固定缓冲导致的资源浪费,又解决了异步调度中数据一致性与延迟控制的核心矛盾,在实际应用中,这种底层逻辑的优化能让文件I/O的整体效能提升30%-50%,实现了执行效率的根本性跃迁。

不同文件I/O场景的请求特征存在显著差异,异步缓冲优化算法的落地关键在于场景锚定与策略动态贴合,而非用一套固定方案适配所有情况。在高清视频流式处理场景中,I/O请求呈现大尺寸、连续性强、低延迟需求突出的特点,算法会针对性采用“大区块预载+增量缓冲”策略——将视频数据按帧组划分为固定大小的区块,通常以8MB或16MB为单位,在播放器解码当前区块时,提前载入后续1-2个区块的核心数据,同时根据解码进度动态补充剩余部分,既满足实时播放对低延迟的要求,又避免过量预载占用过多内存资源。实际测试中,这种策略能将视频加载的卡顿率降低70%以上,尤其在网络带宽波动或存储性能不稳定的环境中,表现更为突出。日志采集场景则以高频、小尺寸、离散写入为典型特征,算法会启用“请求聚合+延迟落盘”机制,设置基于系统负载动态调整的聚合阈值,当系统负载较低时,阈值可适当降低以保证数据实时性;当负载较高时,阈值自动提升以减少I/O交互。同时,通过缓冲分区隔离不同日志源的数据,防止多进程写入时的数据干扰,这种方式能将日志写入的吞吐量提升40%,且有效降低存储介质的写入压力。在分布式数据备份场景中,I/O请求伴随网络传输延迟与存储节点负载波动,算法会引入“缓冲水位动态调整”机制——实时监测网络带宽、节点响应速度与存储队列长度,动态调整缓冲的高低水位线。当网络拥堵时,提高水位线暂存更多数据,避免数据丢失或传输超时;当节点空闲时,降低水位线加速落盘,确保备份任务高效推进。这种场景化的适配思路,要求算法具备极强的灵活性,能够根据场景的核心痛点动态切换策略,在实际落地中,正是这种精准的场景适配让算法能够在不同领域都发挥出最优效能,避免了“一刀切”方案带来的适配短板。

缓冲的动态调整是异步优化算法的核心创新点,其关键在于摒弃传统的固定阈值模式,构建基于实时负载与请求特征的自适应调节体系。传统缓冲策略中,阈值设定往往依赖经验值,容易导致轻负载时缓冲利用率不足,重负载时缓冲溢出或数据积压,进而引发效能波动。新算法通过引入“缓冲生命周期管理”概念,将缓冲空间划分为预载区、活跃区、待落盘区三个动态分区,每个分区的大小根据实时I/O压力与系统资源状况动态伸缩,实现资源的最优分配。预载区的大小由请求连续性预测模型决定,模型通过分析近期请求的连续度、访问频率等数据,预判后续可能的访问范围,当预测到高连续性请求时自动扩容,离散请求时则收缩,确保预载的针对性;活跃区用于缓存当前高频访问的数据块,通过热度衰减机制淘汰长期未被访问的内容——设定基于访问次数与时间的双重权重,比如近5分钟内访问3次以上的数据视为热数据,超过30分钟未访问则自动标记为冷数据并释放空间,避免无效占用内存;待落盘区则根据存储介质的写入性能动态调整数据批量落盘的阈值,针对机械硬盘的高寻道延迟,适当提高阈值以减少写入次数;针对SSD的高速写入特性,降低阈值以保证数据实时性。同时,算法会实时监测系统内存占用、磁盘I/O队列长度等核心指标,当内存使用率超过80%时,优先释放非核心数据的缓冲空间;当磁盘I/O队列长度低于阈值时,主动清理待落盘区数据,确保缓冲资源在系统整体负载中处于最优分配状态。这种动态调整机制,让缓冲层具备了自我优化的能力,能够在复杂多变的运行环境中始终保持高效运转,避免了传统策略中“要么浪费资源,要么效能不足”的两难困境。

异步缓冲优化算法的性能调优,核心在于在延迟、吞吐量、资源占用三者之间寻求动态平衡,而非追求单一维度的极致提升。延迟控制的关键在于数据预载的精准度,算法通过分析历史I/O请求数据,构建请求序列预测模型——基于马尔可夫链或时序分析方法,捕捉请求的前后关联规律,提前预判后续可能被访问的数据块,将磁盘I/O操作提前至系统空闲时段完成,从而隐藏存储延迟。在实际调优中发现,预测模型的准确率每提升10%,I/O延迟可降低15%左右,因此模型的持续迭代优化成为延迟控制的核心。吞吐量优化则依赖于请求合并与并行调度的协同——将多个目标地址相同或相邻的I/O请求合并为单次操作,减少磁盘寻道与指令开销;同时,利用异步机制的并行处理能力,将不同分区的缓冲数据分配至独立的处理线程,实现数据预载、缓冲处理、磁盘写入的并行执行,这种并行调度能让吞吐量提升25%-40%,尤其在多进程并发读写场景中效果显著。资源占用的控制则通过缓冲池化管理实现,算法会根据系统整体资源状况,动态调整缓冲池的总容量,避免因缓冲过度占用内存导致系统卡顿;同时,采用“冷热数据分离”策略,将高频访问的热数据保留在高速缓冲中,低频访问的冷数据及时释放,确保缓冲资源的高效利用。在实际调优过程中,需要根据应用的核心诉求灵活调整三者的权重:实时性要求高的场景(如视频直播、实时监控数据写入)优先保障低延迟,适当牺牲部分吞吐量;数据传输密集型场景(如大数据批量处理、备份任务)则侧重提升吞吐量,在资源占用可控的前提下放宽延迟限制。这种多维度的精细化调控,让算法能够适配不同应用的性能需求,实现整体效能的最优解,而非单一指标的片面提升。

异步缓冲优化算法的落地价值不仅在于提升单一文件I/O的性能,更在于为复杂系统的底层效能重构提供了可复用的核心逻辑,其探索方向正朝着更智能、更贴合业务本质的方向延伸。在实际应用中,该算法已在多个非电商金融场景中展现出显著价值:在气象数据采集系统中,通过优化海量传感器数据的写入逻辑,将数据处理延迟降低40%以上,确保气象预测的实时性与准确性;在影视后期制作平台中,通过大文件分片缓冲与预载策略,实现了4K高清素材的流畅读写与实时编辑,让剪辑师无需等待数据加载,工作效率提升35%;在企业级备份系统中,通过请求聚合与动态落盘机制,将备份效率提升30%,同时减少了存储设备的写入损耗,延长硬件使用寿命达20%。这些落地案例充分证明,算法的价值并非停留在理论层面,而是能够切实解决实际场景中的效能痛点。未来的探索将聚焦于更深度的智能感知能力——比如结合存储设备的硬件特性(如机械硬盘的寻道时间、SSD的擦写寿命)进行自适应优化,根据不同硬件的性能曲线调整缓冲策略;基于业务逻辑的请求优先级动态排序,让核心业务的I/O请求获得更高的调度权重,确保关键操作的响应速度。

很多人以为在大厂工作,就是不停地写代码、解决技术难题。

但事实是:真正成功的工程师并不是那些代码写得最好的人,而是那些解决了代码以外事情的人。

本篇和你分享 21 条职场教训。

这些教训,有的能让你少走几个月的弯路,有的则需要数年才能完全领悟。

它们都与具体的技术无关,因为技术变化太快,根本无关紧要。

但这些教训,项目换了一个又一个,团队换了一批又一批,始终在重复上演。

希望能帮助到你:

1. 最优秀的工程师都痴迷于解决用户问题

很多人容易爱上一项新技术,然后到处找地方用它。

我干过,你肯定也干过。

但真正创造最大价值的工程师是反过来的:

他们专注于深入理解用户问题,并让解决方案从这种理解中自然而然地涌现。

以用户为中心意味着花时间处理支持工单,与用户沟通,观察用户遇到的困难,不断追问“为什么”,直到找到问题的症结所在。

真正理解问题的工程师往往会发现,优雅的解决方案比任何人预想的都要简单。

工程师如果一开始就想着如何解决问题,往往会为了寻找理由而人为地增加复杂性。

2. 正确很容易,共同达成正确才是真正的挑战

即使你在技术上胜券在握,最终也可能输掉项目。

我曾亲眼目睹一些才华横溢的工程师,自诩为房间里最聪明的人,但总是默默地积攒怨气。最终表现为“莫名其妙的执行问题”和“莫名其妙的阻力”。

关键不在于证明自己正确,而在于参与讨论以达成对问题的共识。

为他人创造发言空间,并对自己确信的观点保持怀疑。

3. 行动优先,先做,再做对,再做好

追求完美会让人停滞不前。

我曾经见过工程师花几周讨论一个从没建过的东西的理想架构。

但完美的方案很少从思考中产生,它都是从与现实的碰撞中产生。

先做出来,再做对,再做得更好。

把丑陋的原型放到用户面前,写出乱糟糟的技术文档初稿,发布那个让你有点尴尬的 MVP。

从真实反馈中学到的内容,哪怕只有一周,也远比一个月的理论辩论多得多。

4. 代码清晰远比炫技重要

我知道你想要写出酷炫的代码,那可以证明自己很牛逼。

但项目往往不止你一个人,以后还有其他同事要维护。

优化时要考虑他们的理解能力,而不是你的代码是否优美。

5. 谨慎选择新技术

新技术就像贷款,你要用 bug、招聘困难和认知负担来还。

关键不在于“永远不要创新”,而在于“只在因创新可以带来独特报酬的领域进行创新”。其他的一切还是应该回归平庸。

6. 你的代码不会替你说话,但人会

刚开始工作时,我相信是金子总会发光。

但我错了。

代码静静地躺在仓库里。你的领导在会议上提到你,或者没提。同事推荐你参与项目,或者推荐了别人。

在大公司,决策是在你没被邀请的会议上做出的,用的是你没写的总结,由只有五分钟时间和十二件事要处理的人做出的。

如果你不在场时没人能清楚说出你的价值,那你的价值就等于可有可无。

这不是让你鼓吹自己,而是告诉你:你需要让你的价值被所有人看到。

7. 最好的代码是你根本不用写的代码

工程师文化崇拜创造。

没有人会因为删除代码而获得晋升,即使删除代码往往比添加代码更能改进系统。

因为你不写的每一行代码,都意味着你永远不必调试、维护或解释。

在动工之前,先仔细思考一下:“如果我们不做这件事会发生什么?” 有时答案是“没什么坏处”,那就是你的解决方案。

问题不是工程师不会写代码,而是我们太会写了,以至于忘了问:该不该写?

8. 大规模时,连你的 bug 都有用户

用户多的时候,连你的 bug 都会有用户,这产生了一个职业级洞察:

你不能把兼容性工作当“维护”,把新功能当“真正的工作”。兼容性就是产品。

所以把你的“废弃”做成“迁移”,带上时间、工具和同理心。

9. 慢实际上是因为不协调

项目进展缓慢时,人们的第一反应往往是责怪执行:员工不够努力、技术不成熟、工程师人手不足。

但通常来说,这些都不是真正的问题所在。

在大公司,团队是并发执行的基本单位,但随着团队数量的增加,协调成本呈几何级增长。

大多数效率低下实际上源于目标不一致——人们在做错误的事情,或者以不兼容的方式做正确的事情。

所以高级工程师花更多时间澄清方向、接口和优先级,而不是“写代码更快”,那些才是真正的瓶颈所在。

10. 专注你能控制的,忽略你无法控制的

在大公司,无数的变数都超出你的掌控——组织架构调整、管理决策、市场变化、产品转型等等。

过度关注这些因素只会让你焦虑不安,却又无能为力。

所以高效的工程师,会锁定自己的影响圈。你控制不了是否会重组,但你能控制工作质量、如何应对、学到什么。

这并非被动接受,而是策略性关注。

把精力浪费在无法改变的事情上,就等于浪费了原本花在可以改变的事情上的精力。

11. 抽象并不能消除复杂性

每一次抽象都是一种赌博,赌你不需要理解下面是什么。

有时候你会赢,但总会有漏洞,一旦出现漏洞,你就需要清晰地知道你站在什么上面。

所以高级工程师即使技术栈越来越高,也要持续学习“更底层”的东西。

12. 写作让表达更清晰,以教带学是最快的学习方式

写作能带来更清晰的表达。

当我向别人解释一个概念——在文档里、演讲中、代码评审评论里、甚至和 AI 聊天,我都会发现自己理解上的不足。

所以如果你觉得自己懂了什么,试着简单地解释它。卡住的地方,就是你理解肤浅的地方。

13. 注重粘合性工作

粘合性工作——例如写文档、帮新人上手、跨团队协调、流程优化——至关重要。

但如果你总是无意识地做这些,反而可能会拖慢技术成长,把自己累垮。

陷阱在于把它当“乐于助人”的活动,而不是当作有边界的、刻意的、可见的影响力。

尝试给它设时限,轮换做,把它变成产出物:文档、模板、自动化。

让它作为“影响力”被看见,而不是作为“性格特点”。

14. 如果你赢得每一场辩论,你很可能是在积累无声的阻力

当人们不再和你争,不是因为你说服了他们,而是因为他们放弃了。

但他们会在执行中表达分歧,而不是在会议上。

所以真正的共识需要更长时间。你得真正理解别人的观点,吸收反馈,有时候需要你当众改变主意。

短期“我是对的”的快感,远不如长期和心甘情愿的合作者一起建设的现实来得珍贵。

15. 当衡量标准变成目标时,它就停止了衡量

你暴露给管理层的每个指标,最终都会被博弈。

不是因为恶意,而是因为人会优化被度量的东西。

追如果你追踪代码行数,你会得到更多的代码行数。如果你追踪开发速度,你会得到过高的估算值。

高手的做法是:对每个指标请求都提供一对指标。一个用于衡量速度,一个用于衡量质量或风险。然后,坚持解读趋势,而不是盲目追求阈值。

目标是洞察,而非监控。

16. 承认自己不知道的事情比假装自己知道更能带来安全感

资深工程师说“我不知道”并不是示弱——他们是在鼓励大家坦诚面对。

当领导者承认自己的不确定性时,就等于在暗示其他人也可以这样做。如果不这样的话,就会形成一种人人假装理解、问题被掩盖直到爆发的文化。

我见过团队里最资深的人从不承认自己不明白,我也见过由此造成的后果。问题不被问出来,假设不被挑战,初级工程师保持沉默因为他们以为别人都懂。

17. 你的人脉关系比你拥有的任何一份工作都更长久

职业生涯早期,我专注于工作本身,忽视了人脉经营。回头看,这是个错误。

那些注重人脉关系的同事,在接下来的几十年里都受益匪浅。他们最先了解机会,更快地建立人脉,获得职位推荐,和多年来建立信任的人一起创业。

你的工作不会永远持续下去,但你的人脉网络却会一直存在。

以好奇心和慷慨的态度去拓展人脉,而不是抱着功利主义的心态。

当需要向前迈进的时候,往往是人际关系打开了这扇门。

18. 大多数绩效的提升来自于减少工作量

当系统变慢时,人们的第一反应往往是加东西:加缓存、并行处理、使用更智能的算法。

有时候这样做是对的。

但我发现,通过询问“我们计算了哪些不必要的东西?”往往能带来更多性能提升。

删除不必要的工作几乎总是比更快地完成必要的工作更有成效。最快的代码是永远不会运行的代码。

所以在进行优化之前,先问问自己这项工作是否真的应该存在。

19. 流程存在的目的是为了减少不确定性,而不是为了留下书面记录

最好的流程是让协调更容易、让失败成本更低。

最差的流程是官僚主义——它的存在不是为了帮忙,而是为了出事时推卸责任。

如果你无法解释一个个流程如何降低风险或提高清晰度,那么它很可能只是增加了额外开销。

如果人们花在记录工作上的时间比做工作的时间还多,那就说明出了大问题。

20. 最终,时间会比金钱更有价值

刚开始工作的时候,你用时间换钱——这没问题。

但到了某个阶段,情况就完全不同了。你会开始意识到,时间才是不可再生资源。

我见过一些高级工程师为了晋升而累垮自己,只为了多拿几个百分点的薪酬。有些人确实升职了,但事后大多数人都在反思,自己放弃的一切是否值得。

答案不是“别努力工作”,而是“知道你在交易什么,并深思熟虑地进行交易”。

21. 没有捷径,但有复利

专业技能源于刻意练习——略微超越现有水平,然后不断反思,不断重复。年复一年,没有捷径可走。

但令人欣慰的是:学习的进步在于创造新的选择,而不仅仅是积累新的知识。

写作——不是为了吸引眼球,而是为了清晰表达。构建可复用的基础模型。将过往的经验总结成行动指南。

所以如果工程师把职业生涯看作是复利投资,而不是彩票,那么他最终往往会取得更大的成就。

22. 最后

21 条听起来很多,但它们可以归结为几个核心点:保持好奇,保持谦逊,记住工作始终是关于人的——你的用户、你的队友。

工程师的职业生涯足够长,可以犯很多错误。我最钦佩的工程师,不是那些什么都做对的人——而是那些从错误中学习、分享发现、并坚持不懈的人。

本篇整理自《21 Lessons From 14 Years at Google》,希望能帮助到你。

我是冴羽,10 年笔耕不辍,专注前端领域,更新了 10+ 系列、300+ 篇原创技术文章,翻译过 Svelte、Solid.js、TypeScript 文档,著有小册《Next.js 开发指南》、《Svelte 开发指南》、《Astro 实战指南》。

欢迎围观我的“网页版朋友圈”,关注我的公众号:冴羽(或搜索 yayujs),每天分享前端知识、AI 干货。

随着 AI 在开发者工具领域的迅速发展,Claude Code 已成为越来越多程序员、技术团队的重要助手。它不仅能理解自然语言,还能根据指令生成代码、调试、分析项目结构等,提高编程效率。然而,对于中国大陆的开发者来说,如何合法、安全、稳定地使用 Claude Code呢?有哪些方法?

本篇内容为大家介绍 Claude Code是什么、国内怎么用、合规网络环境、会员要求以及风险等问题,一起往下看看吧。

一、Claude Code 是什么?

Claude Code 是由美国 AI 公司 Anthropic 推出的智能编程助手工具,通过 Claude 模型(如 Sonnet、Opus)为开发者提供:

代码生成
代码修复与调试
代码上下文理解
自然语言指令驱动编程任务
它的定位是 “AI 编程伙伴”,适合从个人开发者到技术团队辅助开发和自动化脚本等广泛场景。相比一些传统代码补具,Claude Code 更强调对整个代码库的理解和对复杂任务的自然语言响应能力。

二、Claude Code 在国内可以使用吗?

答案是:可以使用,但有一些地区和网络限制。

Anthropic 的服务在全球范围内提供,但部分地区的访问可能受限或不稳定。对于中国大陆境内用户,由于国际访问网络限制和政策原因,直接访问 Claude Code 的官网或命令行服务可能会遇到:

网络阻断或延迟高
注册/订阅页面加载失败
个人/企业用户被限制访问
因此,想要在国内顺畅使用 Claude Code,需要提前准备好合规、稳定的网络工具,没有的话可以使用OSDWAN,提供稳定、合规的跨境网络专线。

三、Claude Code要会员吗?

需要付费订阅才能使用Claude Code,Claude本身有免费计划,但免费版不支持 Claude Code。

根据官方定价页面,Anthropic 提供了多个付费版本:

image.png

目前没有免费版 Claude Code,免费账户能使用 Claude AI 的基本聊天或简单能力,但无法用于完整的代码生成/执行任务。

image.png

四、Claude Code网络怎么解决?如何合法使用 Claude Code?

由于 Claude Code 是国外服务,对于国内用户来说,建议使用合法合规的网络来访问。

  1. 使用合规、安全的网络通道

要在国内访问国外服务,需要一个合法、稳定的国际出口网络:

传统国际网络专线
SD-WAN国际网络专线
SD-WAN专线是目前企业和专业开发者最主流、最稳定的方式,用合规的国际网络专线,把国内访问“直接接入”到海外网络环境。

避免使用未授权、风险高的私人代理或翻墙工具,因为这可能违反当地政策,也可能导致账号不稳定或者封号风险。

下面以OSDWAN为例,如何开通合法的SD-WAN专线:

开通流程一般是:

联系顾问 → 说明用途(访问Claude 或者其它/ 个人还是企业等)
选择线路节点(美国、新加坡、日本等)
开通账号,下载软件并登录OSDWAN
选择合适的模式(使用海外AI工具,可选择开发科研模式),连接即可使用了。
连接之后就可以稳定访问Claude Code了,以及其它海外AI工具,比如ChatGPT、Gemini、Github。

  1. 购买和使用 Claude Code会员

步骤大致如下:

注册 Claude 官方账号(可以使用Gmail邮箱注册)
登录官网或 app 进入 pricing/订阅页面
根据需求选择 Pro 或 Max 套餐购买
完成支付
激活订阅后即可使用 Claude Code
五、Claude Code 有没有封号风险?

很多人在国内使用国外 AI 工具时最担心的一个问题就是 账号会被封禁。

如何规避封号风险:

遵守官方使用规则和服务条款
不使用未授权破解工具
使用稳定网络避免异常访问行为
不转售账号或共享账号
只要按照官方规则使用,并保证网络与付费的合法性,一般不会轻易触发封号行为。

六、合规网络专线哪家好?

OSDWAN 是目前很多技术团队的选择之一,主要优势以下:

1、纯净度高

精准定位市场,提供纯净的原生住宅IP地址,真实原生网络环境,避免因IP不纯净导致被网站标记而封号。

2、节点覆盖全球

覆盖全球200+国家和地区,包括美国、日本、新加坡、东南亚等主流区域。

3、连接稳定

OSDWAN是国内专业跨境网络专线的服务商,是基于SD-WAN技术和SaaS技术的一款产品,支持cpe设备和软件连接,可访问国外任何网站,避免Claude登录中断。

4、使用灵活

多设备支持连接,Windows/安卓/苹果等都可以连接使用,独享专线企业可基于APP随时管理,比如上网日志审查、加密、终端管理、员工管理等各项操作。

七、常见问答

Q1:Claude Code 有没有免费使用方式?

答:不提供完整免费的 Claude Code 功能。目前付费订阅(如 Pro 或 Max)才包含 Claude Code 权限。免费账户仅能访问基础聊天和有限功能。

Q2:我能在国内直接用手机访问 Claude Code 吗?

答:可以尝试,但由于网络直连可能不稳定,建议使用合规网络加速服务以提升访问稳定性。

Q3::Claude Code 会随时封号吗?

答:只要你遵守官方条款、合理使用,并使用安全网络,封号风险较低。违规、多账号共享或自动化滥用更容易被封禁。

总结

要在国内合法、安全地使用 Claude Code:

使用官方账号并购买付费订阅(Pro/Max)
使用合法稳定的国际网络通道
遵守服务条款,避免异常访问或滥用
如果你正在考虑长期在国内将 Claude Code 用于开发、调试或生产力提升,这是完全可行的——前提是使用安全、合规、稳定的跨境网络专线。

OSDWAN作为国内专业的跨境网络服务商,为出海企业提供合规、高速、稳定的网络解决方案,支持硬件、软件方案灵活部署。

OSDWAN在全球的数据中心节点50个,POP节点超过200个,可以为出海企业提供海外加速、SaaS加速、SD-WAN组网、跨境组网、云专线等产品服务,助力中国企业开拓国际市场。

整理 | 华卫

 

DeepSeek V4 马上要来了?

 

正值 DeepSeek-R1 发布一周年之际,DeepSeek 的官方 GitHub 代码库意外曝光了代号为“MODEL1”的全新模型线索。

 

而综合泄露代码片段中呈现的架构调整、硬件优化与全新处理机制来看,“MODEL1”似乎绝非简单的版本迭代,而是一次全方位的架构重构。

 

此次 DeepSeek 在 GitHub 代码库的提前部署,在时间线上与业内疯传的“其新模型再次在春节期间发布”的消息高度吻合。本月初,也有外媒爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4。

新模型曝光,代码揭露全新架构能力

近日,DeepSeek 陆陆续续给其在 GitHub 上的 FlashMLA 代码库做了一系列更新。

 

而刚刚,有开发者发现,114 个文件中有 28 处都提到了未知的“MODEL1”大模型标识符。而且,在代码逻辑结构中,该标识符与现有模型“V32”(即 DeepSeek-V3.2)是并列且作为独立分支出现的。也就是说,“MODEL1”很可能代表一个不同于现有架构和技术路径的全新模型。

 

网友们也纷纷猜测,这个“MODEL1”很可能就是 DeepSeek 即将发布的新模型 V4 的内部开发代号或首个工程版本。

 

根据代码片段中披露的技术规格,这个新模型有重大架构变更,或在 KV Cache(键值缓存)布局、稀疏性处理及 FP8 解码支持等方面改变了策略和机制,还包括参数维度切换至 512 维以及针对英伟达下一代 Blackwell GPU 架构的专项优化。

 

在 FP8 解码路径上,该模型有多处针对性的内存优化调整。测试脚本中同步新增了 test_flash_mla_sparse_decoding.py 与 test_flash_mla_dense_decoding.py 两个文件,这一改动证实“MODEL1”具备稀疏与稠密计算并行处理的能力。在稀疏化实现方案中,键值缓存存储采用 FP8 精度,而矩阵乘法运算则使用 bfloat16 精度,以此保障计算准确性。这种混合精度设计表明,“MODEL1”通过在推理阶段对部分数据进行选择性稀疏化处理,有效降低内存占用压力,从而具备处理超长上下文窗口的能力。

 

在 csrc/api/common.h 文件内的代码显示,“MODEL1”的注意力头参数维度被配置为 512 维,与上一代产品 DeepSeek V3.2 采用的 576 维参数设置形成显著差异。这一架构调整意味着,DeepSeek 已对其多头隐式注意力(MLA)结构进行了重新设计。此前的 V3 系列采用非对称设计方案,将 128 维旋转位置编码(RoPE)与 448 维隐层维度相结合。此次转向标准化的 512 维参数配置,或许是为了更好地适配硬件性能,也可能是在隐层压缩率方面实现了技术突破。

 

代码更新记录还显示,DeepSeek 研发团队已围绕英伟达 Blackwell 架构开展了大量优化工作,预示着 DeepSeek 正为“MODEL1”量身打造下一代硬件适配方案。代码中新增了一批专门面向 Blackwell 指令集的接口,包括 FMHACutlassSM100FwdRun;相关文档明确指出,该模型若要在 B200 GPU 上运行,需依赖 CUDA 12.9 版本环境;内嵌的性能指标数据显示,即便在未完全优化的状态下,稀疏化 MLA 算子在 B200 硬件平台上的运算性能仍可达到 350 万亿次浮点运算每秒(TFLOPS)。在当前主流的 H800 GPU(基于 SM90a 架构)上,稠密型 MLA 算子的吞吐量则能达到 660 万亿次浮点运算每秒。

 

尽管本次代码提交的内容主要聚焦于算子层面的实现,但调度逻辑中仍提及多项新增功能。从代码仓库的结构可以推断,“MODEL1”集成了价值向量位置感知(VVPA)技术,这项技术有望解决传统 MLA 架构在长文本处理场景下存在的位置信息衰减问题。代码注释中还提到了一种名为 “记忆印记(Engram)机制” 的技术,但在已公开的代码提交记录中,相关实现细节尚不完整。从该机制在分布式处理模块中的部署位置推测,其功能大概率与分布式存储优化或高级键值压缩技术相关,旨在满足“MODEL1”对高吞吐量的性能需求。

 

前不久,DeepSeek 研究团队刚发布了 Engram 的技术论文。当时,就有业内观察者认为,Engram 模块可能会成为 DeepSeek V4 的重要组成部分,并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

 

这些优化能够表明,“MODEL1”在推理效率上可能有更好的表现。此前也有爆料称,DeepSeek V4 的代码表现已超越 Claude 和 GPT 系列,并且具备处理复杂项目架构和大规模代码库的工程化能力。

国内外万众期待,“中国 AI 站起来了”

“DeepSeek 刚刚泄露了一个模型,这可能会再次改变整个 AI 行业的格局。”在国内外的各大社交平台及社区,针对 DeepSeek 新模型的上线猜测、能力预测的期待帖子已大量涌现。

 

“中国 AI 站起来了。”昨日,全球最大的 AI 开源社区 Hugging Face 以“距离 DeepSeek 时刻一周年”为题专门发文,复盘了 R1 发布这一年来对中国开源社区及其对整个 AI 生态系统的影响。

 

“这是中国研发的开源模型首次跻身全球主流榜单。此后一年间,每当有新模型发布时,R1 都会被当作重要的参照基准。该模型迅速登顶 Hugging Face 平台历史最受欢迎模型榜单,而这一平台上最受青睐的模型,也不再以美国研发的产品为主导。”

 

在他们看来,R1 的真正价值在于降低先进 AI 能力的门槛或者说障碍,并提供了清晰的模式。

  • 技术障碍。通过公开分享其推理路径和训练后的方法,R1 将此前被封闭 API 锁定的高级推理转变为可下载、提炼和微调的工程资产。许多团队不再需要从零开始训练庞大的模型来获得强大的推理能力。

  • 应用障碍。R1 以 MIT 许可证发布,使其使用、修改和再分发变得简单。依赖封闭式模型的公司开始直接将 R1 投入生产。蒸馏、二次培训和领域特定适应成为常规工程工作,而非专门项目。

  • 心理层面。当问题从“我们能做到吗?”转变为“我们如何做好?”时,许多公司的决策发生了变化。对于中国 AI 社区来说,这也是罕见的持续全球关注时刻,对长期被视为追随者的生态系统意义重大。

 

“在 R1 模型发布一年后的今天,我们看到的不仅是一大批新模型的涌现,更见证了一个富有生命力的中国 AI 开源生态的加速成型。”

 

参考链接:

https://github.com/deepseek-ai/FlashMLA?tab=readme-ov-file

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

https://chinabizinsider.com/deepseeks-mysterious-model-1-surfaces-in-github-code-sparking-speculation-about-next-generation-ai-system/

X 正式开源其基于 Grok 的推荐算法,公开了回复加权机制、链接惩罚规则及相似聚类技术(SimClusters) 。开发者通过剖析代码,解锁了内容互动预测的核心逻辑 —— 这一举措在平台透明度承诺下,正重塑创作者的运营策略。
为践行透明度承诺,埃隆・马斯克旗下的 X 平台采取大胆举措:开源经重构的推荐系统,揭开了驱动用户信息流的复杂底层架构。2026 年 1 月 20 日,X 工程团队与马斯克本人通过平台发文宣布该消息,相关代码托管于 github.com/xai-org/x-algorithm,其核心采用支撑 xAI 公司 Grok 模型的 Transformer 架构。此次开源兑现了马斯克 1 月 10 日的承诺,包含详尽的开发者说明文档,并计划每四周更新一次 —— 这一行动背后,是社交媒体信息流面临的监管压力日益加剧。
此次披露正值 X 因算法 “低效” 饱受诟病之际,马斯克在回复中坦言:“我们深知当前算法存在不足,亟需大幅优化,但至少大家能实时看到我们以透明方式努力改进的过程。” 与竞争对手不同,X 主动开放算法供公众审视,马斯克强调:“没有其他社交媒体公司会这么做。”
X 平台上的开发者初步代码评审显示,该算法已从 “刚性规则驱动” 转向 “AI 预测驱动”。据 StockTwits 报道,代码仓库详细披露了内容推荐逻辑,但专家指出,训练模型权重等关键要素并未包含在内。

Transformer核心赋能互动预测

算法的核心是一个轻量版 Grok 变体,借助 Transformer 架构,每日对 1 亿条帖子进行用户反应预测 —— 包括点赞、回复、转发、收藏等行为。X 工程团队在推文中证实:“其采用与 xAI Grok 模型相同的 Transformer 架构。” 据 News9live 分析,这一设计用机器学习取代了传统启发式规则,优先推送更可能引发用户互动的内容。
X 平台用户 @bytebot(科林・查尔斯)剖析代码后表示:“基于 Grok 的 Transformer 排序机制,有效避免了信息茧房问题。” 关注账号的 “圈内内容” 将获得优先推荐,而 “圈外内容” 则依赖机器学习预测,且包含图片、视频等媒体形式的内容会获得权重加成。内容时效性是重要考量因素,当目标受众活跃时,近期发布的内容将更具优势。
创作者可信度通过历史互动数据体现,若高活跃度用户关注的账号发布内容,其排名会相应提升。不过,该代码未包含嵌入表、Phoenix 检索细节及垃圾邮件过滤器等模块,表明此次开源聚焦核心排序逻辑,属于部分披露。

回复链与停留时间成关键信号

回复被证实为权重最高的互动信号。用户 @barkmeta(巴克)总结:“务必回复评论 —— 算法对‘评论 + 作者回复’的权重设定,是单纯点赞的 75 倍。无视评论等同于扼杀内容传播力。” 用户 @GodsBurnt(石博)也呼应:“‘75 倍规则’是代码中最强信号:评论 + 作者回复的组合效应无可替代。”
收藏行为的权重乘数为 50 倍,这意味着具备参考价值的内容将获得更多曝光;而停留时间 —— 通过用户观看视频或点击 “展开更多” 的行为来衡量 —— 同样具有决定性作用。正如查尔斯所指出的:“观看时长为王,若用户快速划走,内容排名将大幅下滑。” 视频和系列推文因能更好地吸引用户注意力,表现尤为突出。
负面信号的惩罚力度显著:屏蔽和静音操作的负面影响是取消关注的 10 倍。具有争议性但非垃圾信息的内容可能获得较高传播度,而引发用户反感的内容则会被降低曝光。

链接惩罚与垂直领域锁定重塑发布策略

外部链接会触发 “链接税” 机制,据石博透露,内容曝光量可能骤降高达 400%:“链接会扼杀可见度,应将其放在个人简介或置顶推文里。” 创作者建议通过简介放置链接或自动回复引导等方式,让用户留在平台内 —— 这与算法 “抵制用户流失” 的设计倾向高度一致。
相似聚类技术(SimClusters)强化了内容的垂直领域属性。巴克警告:“坚守自身领域…… 若偏离垂直赛道(如加密货币、科技等),将无法获得任何流量支持。” 该系统会按主题对用户和内容进行聚类,对偏离主题的内容实施降权处理,以确保信息流相关性。
这些从 GitHub 代码中拆解的机制表明,算法更青睐互动性强的对话式内容,而非单纯的被动浏览。据 Hypebeast 报道,马斯克承诺将持续更新算法,以回应外界对信息流机制及 Grok 整合效果的密切关注。

开发者从代码解析中提炼运营指南

用户 @razroo_chief(查理・格林曼)基于算法逻辑设计了一款 Claude 提示词,旨在最大化多维度信号权重:“核心优化目标:停留时间…… 回复量…… 转发量…… 点赞量…… 收藏量。” 该提示词建议,内容应采用反直觉的开篇、结构化的机制解析,并以冷静、系统的语气呈现深度洞察 —— 摒弃浮夸表达,聚焦科技系统、行为模式等主题的知识性输出。
发布后首小时的早期互动数据会显著影响算法预测结果,标签(Hashtag)仍具备实用价值,而富含媒体元素的内容格式更具竞争力。标签有助于内容发现,但积累高活跃度粉丝群体,其重要性远超单一运营技巧。
@GodsBurnt 走红的指南中强调:“收藏量是黄金指标…… 停留时间:若用户未点击‘展开更多’或观看视频,内容将被降权。” 这一机制让内容传播更趋公平,奖励具有深度关联价值的内容,而非浅层数据表现。

Grok演进推动算法全面革新

马斯克过往推文记录了算法迭代轨迹:2025 年 5 月,他宣布用 Grok 替代原有算法以实现突破性优化;同年 10 月,该模型已能每日处理 1 亿条帖子,基于内容质量进行精准匹配;8 月,Grok 4 Mini 的测试版本动用了 2 万台 GPU,在延迟控制与性能提升之间实现平衡。
The Verge 回顾了马斯克 2023 年推特(现 X)的代码公开行动 —— 当时的更新并不规律,与此次承诺形成鲜明对比。路透社指出,马斯克曾在 1 月 10 日承诺,将在 7 天内公开完整的自然流量与广告算法代码。
News9live 详细报道了 Phoenix 系统从人工规则向 AI 驱动的转型,通过 Transformer 架构预测用户互动行为,且更侧重回复而非点赞数据。

透明度举措遭遇监管压力

据 TechSpot 观察,马斯克的透明度举措旨在回应外界对平台 “不透明” 的指责,但过往类似承诺的执行力度参差不齐。ComputerWeekly 强调,此次开源包含了全部推荐算法代码。
WebProNews 报道称,用户可通过自然语言自定义信息流,例如输入 “无政治内容,仅展示 AI 创新”,这一功能进一步凸显了与 Grok 模型的深度整合。而此时,欧盟与美国正针对算法偏见问题展开调查。
StockTwits 呼吁专家对开源代码进行深度评审,尽管存在部分缺失,但此次披露已覆盖推荐机制的核心运作逻辑。

对平台与创作者的深远影响

对行业内部人士而言,此次开源揭示了算法 “重预测” 的排序逻辑:早期回复会引发雪球效应,媒体内容能持续吸引注意力,垂直领域定位可集中流量资源。Hypebeast 指出,此次代码发布与外界对 Grok 的审视密切相关,X 承诺将提供完整访问权限并持续更新。
创作者需及时调整策略:快速回应评论、避免在推文中直接嵌入外部链接、打造能提升用户停留时间的内容格式。正如巴克总结的:“与受众保持互动,建立深度关系,让用户留在平台内。”
X 的开源模式向竞争对手发起挑战 —— 将 xAI 的技术优势与开放代码相结合,在公众监督下持续优化信息流。这一举措或将重塑社交媒体算法的行业生态。

本月早些时候,德国内政部长亚历山大・多布林特前往特拉维夫,与以色列总理本雅明・内塔尼亚胡签署一项网络防御合作协议。多布林特在一份声明中表示:“我们希望借鉴以色列打造网络穹顶的经验。”他所指的是以色列一套较新的网络防御系统,其在访问期间现场观摩了该系统的演示。

长期以来,以色列在网络安全领域有较强的技术积累,这在很大程度上源于其兵役制度为以色列国防军8200部队输送了大量人才——该部队职能与美国国家安全局相近。以色列多家网络安全领域的企业,如威兹(Wiz)和捷邦(Check Point),均由该部队退伍人员创立。以色列的网络安全实力也基于现实需求发展而来,以色列情报官员透露,去年全球3.5%的网络攻击目标指向以色列。

 

以色列的网络穹顶系统早有构想,本质上是一款集中化且部分自动化的威胁检测工具,借助人工智能对来自多个来源的数据流进行整合分析。

 

“网络穹顶”这一名称,对应以色列运行约15年的“铁穹”导弹防御系统。在去年6月的冲突中,两套“穹顶”系统均经历了实战检验。以色列国家网络局称,冲突期间,网络穹顶成功阻止了数十起针对关键基础设施的网络攻击。

 

总部位于柏林的科技智库“接口”(Interface)网络安全政策与韧性研究负责人斯文・赫皮格表示:“以色列已部署本国版本的网络穹顶系统,在系统运维、升级以及构建专业化的工业网络防御和网络攻击应对生态体系方面,具备实践经验。”他指出,德国大概率会从以色列在网络穹顶研发以及网络攻击应对生态体系构建方面的技术能力中获得助力。

 

目前,德国联邦情报局若对向德国发起网络攻击的对象实施反击、摧毁其境外基础设施,在法律层面处于违规状态。德国政府正准备修改相关立法,调整联邦情报局的职权范围,这份法律草案预计会引发较大争议。有报道称,该机构或将获准收集并存储民众的网络活动内容,人权组织已对此表达反对态度。

 

暂不考虑法律层面的不确定性,赫皮格认为:“目前尚不清楚德国能从以色列的网络穹顶系统和网络攻击应对生态体系中获得多少实际借鉴与收益。”

 

根据协议,两国将从合作中双向受益,共同开发新一代网络穹顶系统。双方还将共建一个“人工智能与网络创新”联合中心,重点攻关车联网安全以及能源基础设施防护领域的网络安全问题。

 

德以两国还将携手开展无人机侦测与防御方面的合作。近年来,以色列在应对无人机袭击方面积累了大量实战经验,以色列国防部上月曾宣布在该领域取得技术突破;德国对无人机威胁的关注度也日益提升。2025年,德国共记录到1000多起可疑无人机飞行事件,该国认为这些事件多数与安全威胁相关。此前曾有无人机出现在德国军事设施上空,还导致柏林和慕尼黑的机场运行中断。

 

本月两国签署网络防御合作协议时,内塔尼亚胡表示,这一协议是两国现有导弹防御合作的延伸。上月,德国与以色列续签合同,扩大了“箭–3”反导系统的采购规模。该系统近期被以色列用于拦截伊朗和胡塞武装发射的导弹,以色列方面称其具备反卫星能力。此次合同续签后,交易总价值达到约65亿美元,为以色列迄今为止最大的军售订单。

亚马逊首席执行官安迪・贾西(Andy Jassy)设想,在竞争对手纷纷推出 AI 购物代理的背景下,人工智能将通过复制实体店的 “惊喜发现感” 来改变零售业。亚马逊正在谈判向 OpenAI 投资约 100 亿美元,并与芯片使用量挂钩;与此同时,亚马逊也在开发 “帮我买”(Buy For Me)等内部工具,以维持其主导地位。这一战略转向旨在将创新与合作伙伴关系结合起来,以在未来的 AI 商务领域保持领先。

亚马逊的贾西在 AI 商务大战中前行:在购物代理竞争中押注 OpenAI

在达沃斯世界经济论坛的繁忙大厅里,亚马逊公司首席执行官安迪・贾西最近分享了他对零售业未来的愿景,强调人工智能可能会彻底改变消费者的购物方式。在一场小组讨论中,贾西指出,AI 有潜力弥合线上和线下购物体验之间的差距,并表示先进技术可能很快就能复制在实体店闲逛时那种 “偶然发现好物” 的感觉。
“在我看来,实体零售目前仍有一些优势的地方,是你可以走进店里,不知道自己想要什么,提出问题,不断细化问题,然后有人会给你推荐一些你甚至不知道存在的东西。” 据《The Information》报道,贾西这样说道。
这番评论发表之际,这家电商巨头正面临来自 OpenAI、谷歌和微软等竞争对手开发的 AI 购物代理的激烈竞争。这些工具允许用户直接在聊天界面内完成购买,对亚马逊在在线零售领域的主导地位构成潜在威胁。贾西的言论凸显了亚马逊的战略转向:它不仅在捍卫自己的地盘,还在积极探索合作伙伴关系,以在这个不断演变的领域保持领先。
最近的报道显示,亚马逊正就向 OpenAI 投资约 100 亿美元 进行深入谈判,这笔交易可能使这家 AI 公司的估值超过 5000 亿美元。据路透社 2025 年末的一篇文章详细报道,这笔潜在交易还包括 OpenAI 承诺使用亚马逊的 Trainium AI 芯片,这标志着双方技术联盟的深化。

AI 发展中的战略联盟

贾西对 AI 在提升购物体验方面作用的乐观态度,与更广泛的行业趋势一致。分析师指出,2026 年将是 AI 购物代理的关键一年,消费者将越来越多地为了便利和个性化而测试这些工具。《Modern Retail》的一篇文章指出,零售商和科技巨头正竞相完善这些代理,并押注它们会被广泛采用。
亚马逊面临的困境十分严峻:要么抵制这些可能绕过其平台的外部代理,要么整合类似功能以保留用户忠诚度。根据 CNBC 的分析,OpenAI 的 “即时结账”(Instant Checkout)和 Perplexity 的 “即时购买”(Instant Buy)等创新正在重塑交易方式,有可能将流量从传统电商网站分流。
作为回应,亚马逊一直在测试自己的功能,例如 “帮我买”(Buy For Me)选项,该功能允许用户在不离开亚马逊生态系统的情况下从第三方网站购买商品。行业观察人士在 X 上的帖子指出,这是一种防御策略,有用户注意到 AI 代理现在可以在一次对话中完成从产品研究到结账的所有操作,凸显了竞争压力。

与科技巨头的正面交锋

AI 与商务的融合,使主要参与者走上了直接竞争的道路。《The Information》的一篇报道描述了谷歌、亚马逊和 OpenAI 各自如何追求不同的战略,从专有代理到协作商务模式。这场竞争还延伸到了微软,微软最近推出了 “Copilot Checkout”,允许在其 AI 聊天机器人中无缝完成购买。
GeekWire 报道了微软进入这一领域的消息,并强调其企业关系可能使其相对于亚马逊和其他公司具有优势。“微软正在推出一项新的‘Copilot Checkout’功能,让购物者可以直接在其 AI 聊天机器人内完成购买,”GeekWire 的文章指出,并强调了在 AI 驱动的商务中对零售商关系的押注。
贾西在达沃斯的亮相中也谈到了围绕 AI 投资的泡沫担忧。《The Register》的一篇最新报道援引他的话称,他承认存在炒作,但重申亚马逊致力于从中挖掘价值,即使这些交易看起来有些 “循环”。

OpenAI 合作关系动态

对 OpenAI 潜在的 100 亿美元投资不仅仅是财务上的,更是为了确保技术优势。正如《Fortune》一篇文章所引用的专家观点,这被视为亚马逊在 “下一盘大棋”。分析师查尔斯・菲茨杰拉德(Charles Fitzgerald)表示:“如果 OpenAI 中了‘彩票’,那么他们就有足够的钱来支付这笔费用。” 他指的是芯片使用协议。
这种关系建立在亚马逊现有的 AI 计划之上,包括其 AGI 团队正努力超越 Anthropic 等合作伙伴的模型。2024 年 X 上的历史帖子回顾了亚马逊对 Anthropic 的投资,但此次转向 OpenAI 表明,在 OpenAI 自身内部发生变化的背景下,亚马逊正在采取多元化战略。
《印度时报》最近的消息详细报道了 OpenAI 从其前首席技术官领导的初创公司挖走人才的情况,这表明 OpenAI 内部存在动荡,而亚马逊可能通过投资加以利用。

正在重塑零售互动的创新

除了投资之外,亚马逊还在将 AI 深度嵌入其运营中。贾西 2025 年在 X 上的帖子宣传了新的智能体式 AI(agentic AI)功能,这些功能可以通过分析数据和自动化任务来帮助卖家扩展业务。这种内部关注与外部合作伙伴关系相辅相成,旨在创造无缝的购物旅程。
《Wired》探讨了一些开发者不愿让 AI 代理作为用户互动中介的担忧,正如一篇 WIRED 文章所讨论的那样,AI 正成为下一个平台。然而,亚马逊仍在推进,AI 已用于预测需求、优化配送路线,甚至在仓库中提供协助,正如 2023 年的 X 帖子所展示的那样。
X 上的行业情绪反映了对这些进步的兴奋。有帖子称,像亚马逊这样的数字商务平台正将 AI 转变为核心基础设施,触及从推荐到配送的各个方面。

挑战与消费者采用

尽管热情高涨,但挑战依然存在。贾西在达沃斯的评论提到了实体零售仍然持有的优势,这意味着 AI 必须不断发展,才能匹配那种探索的乐趣。分析师警告称,2026 年消费者对 AI 代理的接受程度将是真正的考验,正如《Modern Retail》的分析所指出的那样。
此外,潜在的 OpenAI 交易引发了有关反垄断审查的问题,考虑到投资规模和市场影响力。路透社关于谈判的报道强调了估值方面的影响,这可能会重塑 AI 融资动态。
a16z 等风险投资公司在 X 上的帖子认为,AI 正在将在线购物模式从 “量” 转向 “质” 和个性化,亚马逊必须谨慎应对这一转变,以免被边缘化。

AI 商务整合的未来轨迹

展望未来,亚马逊的战略似乎是多方面的:投资尖端 AI 公司、开发内部工具,并适应新兴的消费者行为。贾西早些时候在 2023 年 X 帖子中对 “亚马逊在 AI 方面落后” 的说法提出质疑,这表明他一贯强调实质而非炒作。
《The Information》详细描述了亚马逊与谷歌和 OpenAI 的正面竞争,这表明可能会出现共享商务模式,但专有优势将决定胜负。正如 GeekWire 所指出的,微软的 Copilot 举措又增加了一层竞争,它将利用其企业关系。
最终,随着 AI 设备的普及,《Wired》指出开发者存在犹豫,但亚马逊的规模可能使其处于领先地位。贾西在达沃斯提出的愿景强调了 “细化问题” 和 “发现”,指向一个未来:AI 代理将充当虚拟商店助理,将在线效率与线下的惊喜发现感完美结合。

在投资与内部增长之间取得平衡

亚马逊对 OpenAI 的潜在注资并非孤立存在,而是更广泛战略推进的一部分。《Fortune》的专家强调了这种战略耐心,亚马逊押注 OpenAI 的成功将推动芯片的采用。
内部开发项目,例如 2024 年 X 帖子中提到的 Olympus LLM,表明亚马逊在合作的同时也致力于自力更生。这种双轨方式可以减轻 OpenAI 危机带来的风险,正如《印度时报》所报道的那样。
X 用户最近对亚马逊的 “帮我买” 功能表示赞赏,认为它是对 OpenAI 即时结账的反击,有助于维持生态系统的控制权。

竞争压力与市场反应

根据《Modern Retail》的说法,AI 购物大战正在升温,2026 年将是关键时期。正如 CNBC 所描述的那样,亚马逊面临的困境是:与这些代理对抗,还是加入它们。
贾西在《The Register》中对 “泡沫” 的承认反映了他在乐观中的现实态度。“当然这是一个泡沫,而且这些交易是循环的 —— 但这并不意味着亚马逊不会努力从中榨取价值。” 他说。
X 上的情绪强调了 AI 在电商基础设施中的作用,从亚马逊到沃尔玛和 Shopify 等竞争对手,正如一篇帖子所对比的那样。

不断演变的消费者期望

消费者可能很快就会期望 AI 能够无缝处理复杂的购物任务。《The Information》对达沃斯的报道援引贾西的话,强调实体零售的优势,这正推动亚马逊在数字领域进行创新。
《Wired》关于 AI 平台的文章警告称存在开发者的抵制,但亚马逊的整合可能会促进采用。
正如 X 上的帖子所暗示的那样,AI 正在从头开始重塑购物,重点放在用户体验和价格优化上 —— 而这些正是亚马逊擅长的领域。

亚马逊的战略展望

在这种高风险环境下,亚马逊与 OpenAI 的谈判代表着一场大胆的赌注。路透社详细报道了 100 亿美元的数字,并将其与芯片承诺挂钩。
《Fortune》分析师认为,这是一种长期定位,将 OpenAI 视为 “AI 领域的舒洁(Kleenex)”。
贾西的领导能力在他关于卖家工具的 X 帖子中显而易见,这使亚马逊能够将 AI 创新与零售实力结合起来,从而在竞争中脱颖而出。
正如《The Information》所概述的那样,前进的道路包括在竞争中导航,确保亚马逊在 AI 商务的演变过程中保持核心地位。

Apache Airflow 已修复其 3.1.6 版本之前存在的两个独立的凭证泄露漏洞
这些漏洞可能允许攻击者通过日志文件和 Web 界面,提取嵌入在代理配置和模板化工作流字段中的敏感认证数据,进而可能危及网络基础设施和敏感数据管道的安全。
第一个漏洞影响 Apache Airflow 3.1.6 之前的版本,根源在于 Connection 对象中对代理 URL 的处理不当。
维度    CVE-2025-68675    CVE-2025-68438
受影响版本    Apache Airflow < 3.1.6    Apache Airflow 3.1.0–3.1.6
严重程度    低    低
泄露数据    代理凭证    API 密钥、令牌、机密信息
涉及组件    连接代理字段    渲染模板 UI
修复版本    3.1.6    3.1.6
代理配置通常以 http://username:password@proxy.example.com:8080 的形式包含嵌入式认证凭证。
这些字段未被标记为敏感信息,这意味着每当连接被渲染或显示时,代理凭证都会以明文形式记录在日志中。
在 Airflow 的日志架构中,当用户查看连接详情、排查数据管道问题或访问审计日志时,任何拥有日志访问权限的人都能看到这些代理凭证。
这在多团队共享 Airflow 实例的环境中尤其危险 —— 攻击者或心怀不满的内部人员可能提取这些凭证,用于拦截网络流量或通过代理基础设施横向移动。
第二个漏洞影响 Airflow 3.1.0 至 3.1.6 版本,涉及渲染模板 UI 中机密信息的屏蔽机制不当
然而,序列化过程中使用的机密信息屏蔽实例未识别用户注册的 mask_secret() 模式,导致敏感值在被截断前未被屏蔽而直接暴露。
该漏洞使拥有 Web 界面访问权限的攻击者,能够在渲染模板中查看 API 密钥、数据库凭证和令牌等敏感数据。
由于截断操作发生在序列化之后而非之前,屏蔽层失效,机密信息会完整暴露(除非恰好落在被截断的部分)。
这两个漏洞均要求攻击者要么直接访问日志文件,要么获得 Airflow Web 界面的认证权限,这也降低了它们的严重程度评级。
但在云环境中,日志通常会被集中汇总并允许跨团队访问,且 Web 界面的访问权限可能被广泛授予。
Apache 已在 3.1.6 版本中修复了这两个问题。企业应优先立即升级,因为这些漏洞会直接危及认证机密的安全。
此外,管理员应审查日志保留策略,并在集中式日志系统中实施机密信息编辑规则,以防止凭证意外泄露。
如需临时缓解风险,企业可限制 Airflow 日志和 Web 界面的访问权限、实施 IP 白名单,并轮换可能已泄露的所有凭证。
安全团队应审计近期日志,排查可疑的认证尝试或未授权的代理访问行为。
这两个漏洞由 lwlkr 和威廉・阿什发现,分别由安基特・乔拉西亚和阿莫格・德赛开发了修复方案。
依赖 Airflow 进行数据管道编排的用户,应将此次升级视为保护工作流基础设施和下游系统安全的关键任务

GNU libtasn1 中被发现一个潜在危险的漏洞。该库是无数应用用于处理安全通信和数字签名的基础软件组件。漏洞编号为 CVE-2025-13151,CVSS 评分为 7.5,属于栈缓冲区溢出,可能在安全敏感场景中导致内存破坏。
该库是密码学供应链中的关键组件,负责实现 ASN.1 数据结构的解析规则 —— 这正是 X.509 数字证书和 SSL/TLS 协议所使用的格式。
漏洞位于 decoding.c 文件中的 asn1_expand_octet_string 函数深处。根据漏洞说明,问题源于 “不安全的字符串拼接”,代码在构造局部栈缓冲区时没有进行适当的边界检查
在一个典型的编程疏忽中,开发者使用了 “无界字符串操作函数(strcpy 和 strcat)” 来将两个名称与一个点分隔符拼接在一起。
“在最坏情况下,两个源字符串都可能达到其最大允许长度,” 报告解释说。“当它们与一个额外的分隔符(‘.’)和一个终止 null 字节拼接时,目标缓冲区的大小少了一个字节。”
这个看似微小的计算错误导致最终的 null 终止符 “溢出分配的栈缓冲区一字节”。
虽然一字节溢出听起来微不足道,但在密码学领域,精度至关重要。“历史上,一字节栈溢出曾导致微妙的内存破坏问题,并可能在签名验证或证书解析等加密操作中引发崩溃或其他意外行为。”
不过,也存在一些缓解因素。触发该漏洞需要攻击者向库提供 “畸形的 ASN.1 数据”,这实际上打破了 “数据已由主应用验证” 的假设。此外,现代防御机制如 “栈保护(stack canaries)” 和 _FORTIFY_SOURCE 可能会限制漏洞被成功利用的可能性。
该漏洞由微软研究院的 Benny Zelster 披露。GNU libtasn1 项目已收到修复不安全字符串处理的补丁。
开发者和集成商被敦促 “评估该补丁并采取适当的缓解措施,例如使用有界字符串操作”,以消除其安全应用中的这一隐藏风险。

一场针对阿根廷司法系统的高精准鱼叉式钓鱼攻击已悄然出现,攻击者利用人们对合法法院通信的信任,投放危险的远程访问木马(RAT)。
该攻击活动使用看似真实的联邦法院预防性羁押复审文件,诱使法律专业人士下载恶意软件。
安全专家已将此次攻击归类为高度定向攻击,它采用多阶段感染技术,旨在长期获取敏感法律与机构系统的访问权限。
攻击始于收件人收到包含 ZIP 压缩包的邮件,该压缩包伪装成官方司法通知。
压缩包内,攻击者植入了一个伪装成 PDF 的恶意 Windows 快捷方式文件(LNK),同时包含一个批处理脚本加载器和一份看似真实的法院裁决文件。
当受害者点击看似标准的 PDF 文件时,恶意执行链随即启动,同时会显示一份极具迷惑性的诱饵文档以避免引起怀疑。这种社会工程学手法让该攻击在日常处理法院文件的司法人员中格外有效
Seqrite 的分析人员发现了这一攻击活动,并揭露了其复杂的多阶段传播机制。
研究团队发现,该恶意软件专门针对阿根廷法律行业,包括司法机构、法律专业人士以及与司法系统相关的政府部门。
诱饵文档以极高的精度模仿阿根廷联邦法院的真实裁决文件,使用正式的法律西班牙语、规范的案件编号、司法签名,并引用真实机构(如刑事与矫正口头法庭)。
这种高度的细节还原大幅提升了攻击在目标受害者中的成功率

感染机制:从快捷方式到远程访问木马(RAT)的部署

该攻击采用三阶段感染流程,旨在规避检测。恶意 LNK 文件会以隐藏模式启动 PowerShell,绕过执行策略以运行批处理脚本,该脚本连接到托管在 GitHub 上的基础设施。
此脚本会下载第二阶段载荷,该载荷伪装成 “msedge_proxy.exe”,存储在 Microsoft Edge 用户数据目录中以显得合法。
最终载荷是一个基于 Rust 语言开发的远程访问木马(RAT),具备强大的反分析能力。
该 RAT 在执行前会进行全面的环境检查,扫描虚拟机、沙箱和调试工具。如果检测到分析工具,恶意软件会立即终止运行以避免被调查。
一旦成功运行,它会建立加密的命令与控制通信,为攻击者提供包括文件窃取、持久化安装、凭证窃取,甚至通过模块化 DLL 组件部署勒索软件等多种功能。

安全研究人员发现了 Google Gemini 中的一个漏洞,该漏洞允许隐藏在会议邀请中的指令提取私人日历数据并创建具有欺骗性的日程事件
安全研究人员披露,Google Gemini 人工智能助手中存在一处缺陷,攻击者只需在会议邀请中植入精心构造的隐藏文本,就能悄无声息地获取用户的私人日历数据。
该漏洞由网络安全公司 Miggo 发现。该公司称,他们找到了一种绕过 Google 日历隐私控制的方法 —— 在日历事件描述中嵌入隐藏指令。在一篇解释此项研究的博客中,Miggo 指出,这一漏洞揭示了 AI 系统如何通过日常自然语言而非恶意代码被操控。
Miggo 研究主管利亚德・埃利亚胡表示:“这种绕过方式使得攻击者可以在无需用户任何直接交互的情况下,未经授权访问私人会议数据并创建具有欺骗性的日历事件。”

将 Gemini 的 “乐于助人” 变为攻击用户的工具

Gemini 在 Google 日历中扮演助手角色,可回答用户诸如 “我有哪些会议” 或 “某一天是否有空” 等问题。为此,它会自动读取事件标题、描述、时间及参会者详情。
Miggo 指出,正是这种集成机制成为了安全短板。
Miggo 解释道:“由于 Gemini 会自动导入并解析事件数据以提供帮助,攻击者只要能影响事件字段,就可以植入自然语言指令,供模型后续执行。”
在攻击场景中,攻击者向受害者发送日历邀请,事件描述中隐藏着一段用普通文字编写的提示。这段文字看起来毫无可疑之处,也不需要受害者点击任何链接。
恶意指令会一直处于休眠状态,直到受害者日后向 Gemini 提出一个正常问题(例如 “我某天是否有空”)时,就足以触发攻击代码的执行。

Everest 勒索软件团伙已宣称对麦当劳印度公司的重大网络攻击负责,并声称窃取了 861 GB 的敏感企业与客户数据。
威胁 actor 于 2026 年 1 月 20 日 在其暗网泄露站点发布了入侵细节,并威胁称,如果麦当劳未能在其设定的期限内回应,将公开发布这些数据。

据称的数据泄露规模

根据该勒索软件团伙的声明,此次入侵导致大量公司内部文档和客户个人信息被泄露。
攻击者表示:“你们客户的个人数据和内部文档已被泄露到我们的存储中”,其中包括 “大量各类客户个人文档和信息”。
被窃取的数据据报包含可能被用于身份盗窃和针对性钓鱼攻击的内部记录,影响范围覆盖印度数百万消费者。

关于 Everest 勒索软件团伙

Everest 是一个俄语系勒索软件组织,于 2020 年 12 月 首次出现。起初专注于数据窃取,随后在 2021 年初 发展出完整的勒索软件能力,采用 AES/DES 双重加密。
据 CSN 报道,该团伙擅长 “纯勒索” 策略,不仅加密文件,还会窃取并出售敏感企业数据。
其近期的知名受害者包括:
  • 华硕(ASUS)
  • 日产汽车公司(2026 年 1 月被窃 900 GB 数据)
  • 都柏林机场(2025 年 10 月泄露 150 万乘客记录)

麦当劳印度尚未确认泄露事件

麦当劳在印度通过两个实体运营:
  • Connaught Plaza Restaurants:负责印度北部和东部
  • Hardcastle Restaurants:负责印度西部和南部
自 1996 年进入印度市场以来,其门店为数百万消费者提供服务。
此次事件是该快餐巨头在印度运营面临的又一网络安全挑战。其印度业务此前曾在 2017 年2024 年 出现过数据安全问题。

潜在影响与担忧

客户个人数据的潜在泄露引发了对隐私侵犯以及是否符合印度数据保护法规的重大担忧,尤其是如果敏感信息落入犯罪分子手中并被滥用。

哈喽,我是老刘

2025年已成过往。随着iOS、Android、桌面端、Web与各类小程序的持续发展,原生开发的高墙已难以维系,成本与效率的矛盾达到顶峰。

跨平台不再只是备选项,而是个人和团队的必选项。但面对Flutter的全平台一致体验、React Native的新架构性能突破、uni-app x的原生编译能力、KMP的Compose全栈统一,究竟谁才是2026年的最优解?

如何在这个AI重塑代码的时代,把有限的资源发挥出最大的效率?

老刘每个月为大家画出最新的跨平台技术选型地图,帮你快速做决策。

本月,各大框架在“原生体验”与“AI提效”上都有重磅更新。


1. 2025年跨平台技术简单总结

  • 性能仍是核心

2025年,各个框架都在寻找性能的突破点。

Flutter全面普及Impeller引擎,解决了最后一公里的卡顿问题。

uni-app x和KMP则选择了另外一条路,通过编译为原生代码(Native Compilation),直接从物理层面消除了性能鸿沟。

RN则全面切换到新架构来实现性能的突破。

性能上向原生看齐是2025年跨平台技术的一个重要趋势。

  • 平台拼图补全

框架们不再满足于能跑,而是追求各个平台的完美适配。

Flutter在桌面端和Web端(Wasm)持续发力,真正实现六端同源。

KMP推出了Kotlin-to-Swift导出功能,让iOS开发者也能优雅地接入,填补了跨平台在iOS原生生态上的最后一块拼图。

  • AI与框架深度融合

AI不再只是外部辅助,而是开始进入框架内部。

Flutter推出的Dart MCP Server让AI能直接理解项目结构和组件树。

MAUI也在不断完善其AI功能,如Copilot Agent,试图通过AI赋能来改善开发者体验。

应该说我们离描述即应用的时代不远了。

2. 最新技术动态

2.1 React Native 新架构全面启用

React Native 0.83 发布日志: https://reactnative.dev/blog

React Native 0.83 版本随 Expo SDK 55 正式到来。新架构(New Architecture)已成为默认标准,遗留架构代码正在被加速移除。新版本集成了 React 19.2,并在构建时间和应用体积上取得了显著优化。开发者现在可以享受到更接近原生的性能体验,以及更强大的 DevTools 支持。

2.2 Kotlin Multiplatform 生态成熟加速

Kotlin 2.3.20-Beta1 新特性: https://kotlinlang.org/docs/whatsnew-eap.html

Kotlin 2.3.20-Beta1 于本月发布,标志着 KMP 生态的进一步成熟。

Compose Multiplatform for iOS 已经稳定,越来越多的团队开始从原生转向 KMP。

K2 编译器的全面普及以及 JetBrains 在 AI 辅助开发(如 Koog 和 Mellum)上的投入,使得 KMP 的开发效率达到了新高度。

2.3 .NET MAUI 企业级发展

.NET MAUI Roadmap: https://github.com/dotnet/maui/wiki/Roadmap

.NET 11的规划和早期迭代正在进行中。当前重点依然是提升产品质量和性能稳定性。微软正在深度集成 GitHub Copilot 和 Copilot Agent,试图通过 AI 赋能来改善 MAUI 的开发者体验。尽管社区仍有关于稳定性的讨论,但其在企业级市场的地位依然稳固。

2.4 Flutter 平台更新

Flutter 最新动态: https://docs.flutter.dev/release/whats-new

虽然社区对 Flutter 4.0 充满期待,但截止 2026 年 1 月,Flutter 3.38 仍是官方维护的最新稳定版本。目前的更新重点在于 Impeller 渲染引擎 的进一步优化与稳定性提升,该引擎现已在 iOS 和 Android 上默认启用,彻底解决了 shader 编译造成的卡顿问题。此外,Flutter 团队修复了 Android 端 Activity 销毁时的内存泄漏问题,并对 Android 15 的 16KB Page Size 提供了完整支持,继续巩固其在跨平台渲染一致性上的优势。

2.5 uni-app x 进展

uni-app x 更新日志: https://uniapp.dcloud.net.cn/release.html

近期 uni-app x 迎来了一系列重要更新(v4.87)。核心亮点包括:

  • 多线程能力增强
    新增 uni.createWorker API,正式支持 Worker 线程,显著提升复杂计算场景下的性能表现。
  • 鸿蒙生态深度适配
    将逻辑层 JSVM 迁移至独立子线程,彻底解决主线程阻塞问题;新增微信登录、分享及屏幕亮度调节等原生能力。
  • 新设备与系统兼容
    修复 Android 16KB 页大小模式下的录音问题,并提前适配 iPhone 17 系列机型。

2.6 Valdi 进展

Valdi GitHub 仓库: https://github.com/Snapchat/Valdi

本月Valdi框架没有新的进展,最新发布版本仍然是beta-0.0.1

接下来老刘按照跨平台技术框架的三种路线,分别介绍一下目前主流的跨平台技术。


3. 自渲染类框架

简单来说,就是框架自己携带渲染引擎,自己画界面,不用系统提供的组件。

这样做有什么好处?

  • 界面完全一致
    UI渲染不依赖系统组件,多端展示效果完全统一。
  • 性能媲美原生
    跳过系统UI层直接操作GPU绘制,架构与原生一致。
  • 无兼容性Bug
    不调用系统原生组件,规避了因系统差异导致的兼容性问题。

3.1 Flutter

2024年Stack Overflow调查显示,Flutter是最受欢迎的跨平台框架。

全球有超过500万开发者在使用。

连阿里巴巴、腾讯、字节跳动都在使用Flutter。

为什么这么多大厂选择Flutter?

  • 性能强劲
    切换Impeller引擎后,Flutter性能已与原生应用一致。
  • 开发高效
    热重载实现秒级预览,Dart语言在功能性与复杂度间达成完美平衡。
  • 生态成熟
    pub.dev拥有超4万插件,涵盖地图、支付等各类功能,开箱即用。
  • 测试友好
    拥有客户端领域最佳的单元测试支持,是TDD及敏捷团队的最优选择。
  • 拥抱AI

    • AI Toolkit

    集成Gemini API,快速实现聊天、识别等功能。

    • 本地部署

    支持TensorFlow Lite/ONNX,保障隐私安全。

    • Dart MCP Server

    让AI助手直接理解项目,辅助编码与调试。


4. 中间层类框架

简单来说,就是在你的代码和系统原生组件之间,加了一个"翻译官"。

比如你用JavaScript写界面逻辑,框架帮你翻译成原生的Button、TextView。

核心特点:

  • 成熟的开发体验
    复用React/Vue/C#等生态成熟的开发思路,上手快,学习成本低。
  • 原生组件渲染
    最终映射为系统原生组件,UI符合平台规范,质感原生。
  • 桥接性能损耗
    通过中间层与原生通信存在"翻译"开销,交互密集场景性能稍弱,常规界面无感知。

4.1 React Native

React Native是第二受欢迎的跨平台框架,是Facebook开源的项目。

为什么这么多人选择React Native?

核心优势:

  • 零门槛上手
    React开发者可直接复用JSX、组件化及状态管理经验,一周即可转型。
  • 生态庞大
    npm拥有超15万相关包,共享Web生态,导航、支付等库应有尽有。
  • 动态热更新
    支持不发布新版本App直接在线更新,无需发版即可修复Bug或上线新功能,迭代极快。
  • 架构升级
    Meta持续投入,新架构引入Fabric和TurboModules,性能提升30%,旧架构已退役。

4.2 .NET MAUI

2024年5月,微软正式停止了Xamarin的支持,.NET MAUI(Multi-platform App UI)成为微软官方的跨平台解决方案。

核心优势:

  • 企业级保障
    微软提供长期技术支持(LTS),确保企业应用所需的稳定性。
  • 数据处理强
    C#擅长处理复杂业务逻辑,特别适合金融、ERP等数据密集型应用。
  • 生态深度集成
    与Azure、SQL Server等微软全家桶无缝对接,集成体验最佳。

5. 转译类框架

简单来说,就是把你写的高级语言代码,"翻译"成目标平台的原生代码。

比如你用Kotlin写业务逻辑,框架帮你"翻译"成iOS的Swift代码。

或者你用类TypeScript的语法写界面,框架帮你"翻译"成Android的Kotlin和iOS的Swift。

核心特点:

  • 性能接近原生

因为最终运行的就是原生代码,没有任何中间层损耗。

就像你直接用Swift写iOS应用,用Kotlin写Android应用一样。

  • 能享受原生生态

转译后的代码可以直接调用平台的所有API。

  • 转译效果可能不完美

毕竟是机器"翻译"的代码,有时候可能不如手写的原生代码优雅。

特别是复杂的业务逻辑,转译后的代码可能需要人工优化。

但这个问题随着AI技术的发展,正在快速改善。

5.1 Kotlin Multiplatform (KMP)

KMP的核心用法:业务逻辑用KMP共享,UI用Compose Multiplatform统一开发

这是KMP的最新发展方向,结合了Compose Multiplatform的强大能力。

一套Compose代码可以运行在Android、iOS、Desktop、Web等所有平台。

KMP的特点

  • 真正的一套代码多平台

不仅业务逻辑共享,UI也可以共享,开发效率大幅提升。

  • 保持原生性能

    Compose Multiplatform在各平台都编译为原生代码,性能接近原生应用。

  • 技术栈统一

全部使用Kotlin生态,学习成本更低,团队协作更高效。

  • 渐进式迁移

你不需要重写整个应用,可以先从一个模块开始。

比如先把网络层用KMP重写,然后逐步迁移UI到Compose Multiplatform。

  • 生态仍需完善

生态仍在加速建设,注意版本兼容与插件成熟度,第三方库相对较少,但发展很快。

5.2 uni-app / uni-app x

传统uni-app
基于Vue.js + JavaScript,更适用于小程序开发

uni-app x
全新架构,使用UTS语言,性能达到原生级别

uni-app x的技术特点

  • 平台支持最全

一套代码可以发布到:iOS、Android、Web、各种小程序、快应用、鸿蒙...

总共支持14+个平台,这是其他框架做不到的。

  • 小程序优先的设计理念

如果你的产品需要同时支持App和小程序,uni-app几乎是唯一的选择。

其他框架都是App优先。

  • 国产化支持

对鸿蒙、信创等国产化平台支持最好。

这对国内企业来说非常重要。

  • uni-app的局限

    生态相对封闭
    主要依赖DCloud的生态
    国际化程度低
    海外开发者使用较少
    技术栈绑定
    主要适合Vue技术栈

5.3 Valdi

Valdi的核心思路属于转译方案的范畴,但是并发代码级转译。

它采用了介于转译和中间层之间的混合架构,将UI组件树编译为原生组件并交由C++引擎管理生命周期,同时保留业务逻辑在TS层(Worker)运行,从而实现无JS Bridge的高性能渲染。

这样的好处是在一定程度上避免了转译类方案代码翻译不到位造成的一些问题。

但是仍然会有中间层方案在高UI交互场景下的性能问题,这部分就需要把处理逻辑放到C++/Swift/Kotlin编写的Polyglot模块解决。

站在纯粹客户端跨平台开发的角度,转译类方案老刘目前更推荐KMP。

Valdi可以作为一个有潜力的备选,等生态更加成熟后再重新考虑。


6. 技术选型指南

看了这么多技术栈,是不是更晕了?老刘把复杂的选型逻辑浓缩成一份实战决策指南,帮你快速拍板。

6.1 核心推荐:Flutter (通用首选)

对于 90% 的新启动 App 项目,Flutter 是当前版本的最优解

  • 性能强悍
    自带 Impeller 渲染引擎,不依赖系统组件,体验无限接近原生。无论是复杂的动画还是高性能列表,都能轻松驾驭。
  • 效率极高
    Hot Reload (热重载) 让改代码像刷新网页一样快。一套代码覆盖 Android、iOS、Web 甚至桌面端,研发成本降低 40% 以上。
  • AI 友好
    作为 Google 亲儿子,Cursor、Claude 等 AI 工具对 Dart/Flutter 的支持极为成熟,能自动生成高质量 UI 代码。

⚠️ 避坑提示
如果你的应用极度依赖原生比如有大量历史遗留的原生代码,或对包体积有苛刻要求 (<10MB),需谨慎评估。

6.2 潜力观察:Kotlin Multiplatform (KMP)

极度依赖原生的最佳选择。

  • 核心定位
    逻辑共享,UI 原生
    它不强求 UI 统一,而是让 Android 和 iOS 共享数据层、网络层和业务逻辑代码。
  • 适用场景

    • 已经在原生层面积累了大量的UI组件和功能模块,可以逐步把业务逻辑切换到KMP。
    • 应用强依赖系统底层能力 (蓝牙、NFC、深度硬件交互),同时又希望保持跨平台的优势。
  • 现状判断
    技术理念先进,但第三方生态仍在爬坡期。2026 谨慎全量 All-in。

6.3 谨慎评估需求:App + 小程序 ≠ 一套代码

一个产品有App和小程序不代表他们的业务逻辑是完全一致的,小程序在产品定位上不应该是App的简化版。

  • 最佳实践:App和小程序承担不同的产品职责

    • App (Flutter/原生)
      负责沉浸式体验、复杂交互、高粘性留存 (如阅读、创作、社交)。
    • 小程序 (原生/Uni-app)
      负责营销裂变、即用即走、低成本获客 (如分享落地页、简单工具)。
  • 决策依据
    只有当功能重叠度 > 80% 且交互极其简单 (如纯展示类新闻、简单电商) 时,才推荐使用 Uni-app/Taro 等方案同时生成 App 和小程序。

6.4 决策速查表

你的项目场景推荐技术栈理由
从 0 到 1 新项目Flutter效率与体验的最佳平衡点
原生项目转型跨平台Flutter可以增量迁移,混合开发风险低
重度依赖原生底层KMP风险低,渐进式重构
App与小程序功能重叠Uni-app小程序支持好
系统级工具纯原生 (Swift/Kotlin)无中间层损耗,完全掌控硬件
团队 Web 背景React Native学习曲线平滑,社区资源丰富

7. 总结与建议

写了这么多,老刘最后给你一个终极建议。

2026年跨平台开发,记住这三个关键词:务实、聚焦、长期主义。

7.1 务实

软件开发没有银弹。

Flutter性能好但包体积大,React Native动态性好但有桥接损耗,KMP接近原生但生态不成熟。

选择技术的核心是:在当前约束条件下,哪个方案的收益最大。

7.2 聚焦

没有项目需要超过2种跨平台框架同时使用。

同样也不推荐团队同时在多个不同的跨平台框架上投入时间和精力。

建议:选定一个主力技术栈,最多再备一个备选方案。

7.3 长期主义

真正决定项目生死的,是你选定技术栈之后做的那些事。

  • 架构设计够不够清晰?
  • 开发流程够不够规范?
  • 代码规范够不够严格?
  • 技术债务管理够不够及时?

选定技术栈不是终点,而是起点。

做好这些基础建设,才是项目能持续健康演进的根本。

否则,再好的技术栈也救不了你。

最后,希望这篇跨平台开发地图能帮你避开那些坑,找到最适合你的路。

如果看到这里的同学对客户端开发或者Flutter开发感兴趣,欢迎联系老刘,我们互相学习。

点击免费领老刘整理的《Flutter开发手册》,覆盖90%应用开发场景。

可以作为Flutter学习的知识地图。

覆盖90%开发场景的《Flutter开发手册》

中央音乐学院联合研究:视频自动配乐还卡点


论文标题: Video Echoed in Music: Semantic, Temporal, and Rhythmic Alignment for Video-to-Music Generation

作者团队: 中央音乐学院、北京大学、阿里巴巴等

发布时间: 2025年11月12日

🔗 Github地址: https://vem-paper.github.io/VeM-page/
🔗 Lab4AI链接: https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...

✨ 研究背景:

视频配乐要同时"贴"内容、跟段落、能卡点。但自动配乐常出现情绪不匹配、分镜节奏不同步、转场对不上鼓点,导致视听割裂。

✨ 研究内容:

论文提出VeM: 以潜空间音乐扩散模型为主干,把视频先做"分层解析"再作为条件输入生成过程。

✨ 具体包括:

  • 分层视频解析: 同时提取全局语义/情绪、分镜级语义与时长结构、帧级转场时间点,把视频从"一个整体特征"变成可控的结构化条件。
  • 分镜引导对齐: 在扩散网络中用分镜条件做交叉注意力,引导音乐跟随镜头段落推进,并通过位置/时长编码保持时间同步,使音乐的主题与段落变化更贴视频。
  • 转场—节拍精细同步: 将转场序列与节拍信息对齐,构造节奏约束特征,再用适配器注入扩散过程,强化"转场落在节拍边界附近"的卡点效果

DeepSeek提出mHC,改造何恺明残差连接

大模型实验室Lab4AI论文阅读

✔️研究背景

深度学习中,残差连接ResNetTransformer 等架构(含 LLM)的基础,其恒等映射特性保障了大规模训练的稳定性与效率。Hyper-Connections(HC)通过扩展残差流宽度、多样化连接模式提升模型性能,但因连接无约束,破坏了恒等映射特性,导致训练不稳定、扩展性受限,且存在显著内存访问与通信开销,这一问题限制了 HC 在大规模训练中的实际应用,形成研究缺口。

✔️研究目的

本文解决 HC 架构存在的训练不稳定性、扩展性差及系统开销大的核心问题,同时保留 HC 扩展残差连接带来的性能优势,提出一种兼顾稳定性、扩展性与效率的通用残差连接框架,支撑大规模深度学习模型(尤其是 LLM)的高效训练。

✔️核心贡献

提出 Manifold-Constrained Hyper-Connections(mHC)框架,通过将 HC 的残差映射投影到双随机矩阵流形(Birkhoff 多面体),恢复恒等映射特性,保障信号传播稳定性;
对输入 / 输出映射施加非负约束,避免信号抵消,同时通过核融合、选择性重计算、DualPipe 通信重叠等基础设施优化,降低系统开销;
实证验证 mHC 在大规模预训练中的有效性,为深度网络拓扑架构设计提供新视角,推动基础模型的演进。

✔️研究方法

  • 1)核心方法论:采用 Sinkhorn-Knopp 算法将残差映射 H_res 熵投影到双随机矩阵流形,对 H_pre 和 H_post 用 Sigmoid 函数施加非负约束;
  • 2)基础设施优化:基于 TileLang 实现混合精度核融合,通过选择性重计算降低内存占用,扩展 DualPipe 调度实现通信与计算重叠;
  • 3)实验设计:在3B至27B参数的语言模型上进行预训练实验,对比基线、HC和mHC的稳定性、下游任务性能及缩放特性。

✔️研究结果

  • 1)稳定性提升:mHC在27B模型训练中消除HC的损失突增现象,梯度范数保持稳定(对比HC的3000倍信号增益峰值,mHC最大增益仅1.6倍)。
  • 2)性能优势:在推理、阅读理解、数学问题解决等任务上全面优于基线和 HC,27B 模型在 BBH 上较 HC 提升 2.1%;
  • 3)扩展性与效率:支持模型规模与训练数据量的高效扩展,n=4 时仅增加 6.7% 时间开销,显著降低内存访问与通信成本。

爬虫代理IP是爬虫技术中很常用的一种方法,方便于隐藏爬虫的真实IP地址,防止被目标网站识别并封锁。可是,在实际应用中,爬虫代理IP可能会因为很多原因而失效。下面是一些很常见的让爬虫IP代理失效的因素:

一、代理服务器问题

代理服务器故障:

代理服务器可能因硬件故障、软件错误或网络问题而暂时或永久失效。

代理服务器负载过高:

当代理服务器处理的请求量超过其处理能力时,可能会导致请求处理延迟增加,甚至请求被拒绝。

代理服务器被封锁:

目标网站可能已经识别并封锁了某些代理服务器的IP地址,导致通过这些代理服务器发出的请求被直接拒绝。

二、网络环境问题

网络延迟与不稳定:

网络延迟或不稳定可能导致请求无法及时到达目标服务器,或响应无法及时返回给爬虫。

网络配置错误:

爬虫或代理服务器的网络配置错误可能导致连接问题,如错误的端口号、IP地址或路由设置。

三、目标网站策略

动态IP封锁:

目标网站可能采用动态IP封锁策略,根据请求的特征(如请求频率、请求头信息等)来识别并封锁代理IP。

验证码验证:

当目标网站检测到异常请求模式时,可能会要求用户通过验证码验证来确认身份,从而阻止爬虫继续访问。

用户行为分析:

目标网站可能通过用户行为分析(如点击模式、停留时间等)来识别爬虫,并采取相应的封锁措施。

四、爬虫自身问题

请求频率过高:

如果爬虫发送的请求频率过高,可能会触发目标网站的防爬虫机制,导致代理IP被封锁。

请求头信息不当:

如果爬虫在请求头中包含了与目标网站不兼容的信息(如错误的User-Agent、Referer等),可能会导致请求被拒绝。

爬虫策略不当:

爬虫的策略(如访问顺序、访问间隔等)如果设计不当,也可能导致代理IP被封锁。

五、其他因素

代理IP质量:

低质量的代理IP(如共享IP、频繁更换的IP等)可能更容易被封锁。

第三方服务限制:

如果爬虫使用了第三方提供的代理服务,这些服务可能有限制(如请求次数、请求速度等),超过限制可能导致代理失效。

爬虫代理IP失效可能由很多原因引起,为了防止这种情况,爬虫开发者需要密切关注代理服务器的状态、网络环境的变化、目标网站的策略调整以及爬虫自身的行为模式,并采取相应的措施来优化爬虫策略和增加代理IP的有效性。

埃隆・马斯克在刚刚过去的长周末表示,特斯拉计划重启 Dojo3 项目 —— 这家电动汽车公司此前已放弃的第三代 AI 芯片。但这一次,Dojo3 的目标不再是在地球上训练自动驾驶模型。马斯克称,它将专门用于 “天基 AI 计算”
这一转变发生在特斯拉实际上关闭 Dojo 项目五个月之后。在 Dojo 负责人彼得・班农(Peter Bannon)离职后,公司解散了负责 Dojo 超级计算机的团队。大约 20 名 Dojo 员工随后加入了 DensityAI—— 一家由前 Dojo 主管 Ganesh Venkataramanan 以及前特斯拉员工 Bill Chang 和 Ben Floering 共同创立的新 AI 基础设施初创公司。
在 Dojo 项目关闭时,彭博社曾报道,特斯拉计划更多依赖英伟达以及 AMD 等合作伙伴提供算力,并依靠三星进行芯片制造,而不是继续开发自己的定制芯片。马斯克的最新言论表明,这一战略再次发生了转变。
这位亿万富翁高管、共和党大金主在 X 上发文称,重启 Dojo 的决定是基于其内部芯片路线图的进展,并指出特斯拉的 AI5 芯片设计 “进展顺利”
特斯拉的 AI5 芯片由台积电制造,旨在为该汽车制造商的自动驾驶功能和 Optimus 人形机器人提供算力。去年夏天,特斯拉与三星签署了一份价值 165 亿美元的协议,用于生产 AI6 芯片。该芯片有望为特斯拉车辆和 Optimus 提供动力,并支持数据中心中的高性能 AI 训练。
AI7 / Dojo3 将用于天基 AI 计算,” 马斯克在周日表示,将这个被复活的项目定位为更具 “登月性质” 的探索。
为实现这一目标,特斯拉目前正准备重建几个月前解散的团队。马斯克在同一条帖子中直接招募工程师,写道:“如果你有兴趣参与开发未来世界上产量最高的芯片,请发送邮件至 AI_Chips@Tesla.com,并附上你解决过的三个最棘手的技术问题(用要点列出)。”
这一宣布的时机值得注意。在 2026 年 CES 上,英伟达推出了用于自动驾驶的开源 AI 模型 Alpamayo,直接挑战特斯拉的 FSD 软件。马斯克在 X 上评论称,解决驾驶中那些罕见的 “长尾边缘案例” 是 “超级困难的”,并补充道:“我真心希望他们成功。”
马斯克和其他几位 AI 行业高管认为,数据中心的未来可能在地球之外,因为地球电网已经接近极限。Axios 最近报道,马斯克的竞争对手、OpenAI 首席执行官山姆・奥特曼(Sam Altman)也对将数据中心送入轨道的前景感到兴奋。马斯克相比同行拥有一项优势 —— 他已经掌控了运载火箭。
据 Axios 报道,马斯克计划利用 SpaceX 即将到来的 IPO 来资助他的愿景:使用星舰(Starship)发射一组计算卫星星座,使其能够在持续的阳光下运行,全天候收集太阳能。
尽管如此,要让太空 AI 数据中心成为现实仍面临诸多障碍,尤其是在真空中为高功率计算设备散热的挑战。马斯克关于特斯拉打造 “天基 AI 计算” 的言论符合他一贯的模式:先提出一个听起来有些牵强的想法,然后试图用 “蛮力” 将其变为现实。

ImageMagick 中发现了一个新的高危漏洞。ImageMagick 是一个无处不在的图像处理库,从社交媒体平台到内容管理系统都在使用。该漏洞编号为 CVE-2026-23876,攻击者只需上传一个特制的 XBM 图像文件,即可触发大规模堆缓冲区溢出
该漏洞的 CVSS 评分为 8.1,对任何处理不可信图像的网络服务都构成重大风险,可能导致内存破坏或程序崩溃。
漏洞位于 XBM 图像解码器(coders/xbm.c)中,该组件负责处理 X Window System Bitmap 格式。根本原因是典型的整数截断问题 —— 程序认为需要的内存量与实际使用的内存量不一致。
根据漏洞报告,问题发生在软件计算新图像的缓冲区大小时。它将图像的行数(一个 64 位值)强制转换为 32 位无符号整数。
“在第 349-350 行,image->rows(size_t 类型)被截断为 unsigned int 以进行分配…… 然而,第 369-377 行的写入循环使用的是原始未截断的 image->rows 值。”
这造成了危险的不一致。如果攻击者提供一个非常大的图像行数(例如 0x500000001),系统会截断该数值,只分配一个极小的缓冲区(大约 1 字节)。然而,后续的循环却不知道这一点,它会根据原始的巨大数值继续写入数据。
“循环迭代次数:bytes_per_line * 21474836481 → 大规模溢出。”
让这个溢出特别危险的是,攻击者对溢出过程具有高度控制权。报告指出,“溢出大小” 可通过图像尺寸(行数和列数)控制,而 “写入的数据” 可通过 XBM 文件中的十六进制值控制。
这使得攻击者可以在分配的缓冲区之外写入可控字节(0x00-0xFF),从而覆盖堆上的关键内存结构。
由于 ImageMagick 是网络的基础组件,该漏洞的影响范围非常广泛。报告强调了几个主要目标:
  • 网络服务:任何带有图像上传功能的网站,例如缩略图生成器或格式转换器。
  • 内容管理系统:像 WordPress 和 Drupal 这样的流行平台通常依赖 ImageMagick 后端来处理媒体库。
  • CI/CD 流水线:自动处理用户提交的图像或资源的系统。
攻击向量非常简单:“任何使用 ImageMagick 处理不可信图像的应用程序” 都可能通过一次简单的网络上传被攻破。
该漏洞影响 7.1.2-13 之前的 7 系列版本6.9.13-38 之前的 6 系列版本
维护者已经发布了修复整数截断逻辑的补丁。使用 ImageMagick 的管理员和开发者被强烈建议立即升级到 7.1.2-13 或 6.9.13-38 版本,以降低远程攻击风险。

在生成式 AI 重构数据生产力的时代,BI 工具正从"被动响应"走向"主动洞察"。在 2025 年 4 月 InfoQ 举办的QCon 全球软件开发大会(北京站)上,阿里云智能集团瓴羊高级技术专家王璟尧分享了“从数据到决策:AI 驱动的 Quick BI 架构设计与实践”,他介绍了阿里云 Quick BI 如何通过技术架构跃迁、结合大模型的突破实现从传统 BI 到 AI 驱动的智能 BI 的跨越式进化。并重点解析领域大模型与 BI 引擎的协同设计、NL2SQL 算法调优与架构演进、AI + BI 在场景落地实践过程中的技术权衡,为行业提供可复用的技术范式。

预告:将于 4 月 16 - 18 召开的 QCon 北京站策划了「AI 重塑数据生产与消费」专题,将深入探讨如何系统化地运用大模型与智能体技术,重塑数据全链路的每一个环节。内容涵盖引擎与架构优化、数据治理、开发与运维提效、下一代 BI 与数据工具,以及智能的取数与分析等多个方向。如果你也有相关方向案例想要分享,欢迎提交

以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)。

BI 领域的技术演进及趋势

传统 BI VS 大模型驱动 BI

早期 BI 是在数据仓库和数据库不断发展演进后形成的需求场景:数据仓库会将各类数据融合到一起进行数据清洗和分析,随后业务人员对自助分析产生了一系列诉求,早期的 BI 工具便应运而生,像 90 年代的 Business Object 就是一个比较有代表性的例子,具有一定限度的自助式分析能力。当时其实还没有“商业智能”这一概念,随着自助分析能力要求的不断提高,可视化、自助式可交互的分析需求也越来越强烈,于是敏捷 BI 应运而生:基于可视化的自助式、可交互的分析,以 Tableau/Qlik 为代表,其最大特点是可通过拖拉拽、按钮点击等简单操作就能完成报表的搭建工作。

进入大模型时代,大模型强大的语言分析和生成能力以及更接近人类思维的推理方式,让 BI 领域进行了重新定位:即从一个单纯的工具到数字助手的进化,模型能力的突破让正在的商业“智能”可以从 DEMO 和实验室走向实际应用。Quick BI 也在各类大模型技术发展的时代洪流中逐步演进,不断成熟与发展,实践落地智能小 Q 系列,给用户带来全新的、端到端到产品体验。

传统数据分析存在局限性,它几乎主要聚焦于报表平台的工作流程:业务方提出需求,产研团队加工执行,然后制作简单的报表,以辅助管理仪表板。传统数据分析主要面向一线业务和老板,工具即使再敏捷,交付物本质上也是以固定式报表作为承载。尽管敏捷 BI 的诞生缓解了部分问题,但业务团队和数据团队之间难以融合贯通的问题依然无法避免。而在 AIGC 时代,大模型加持的对话式分析可以对自然语言灵活响应,简单、自动地完成需求,或许“人人都是数据消费者”及“数据民主化”不再仅仅是一句口号了。

大模型驱动的业务落地方向

基于用户的实际需求和大模型 Agent 技术发展,我们对大模型驱动的业务落地演进方向做了大致判断。从执行到思考,从智能到智慧,难度系数逐步增加。大模型刚出现的初期,大家都在做 Copilot(即搭建助手):用户通过 Copilot 用简单指令或描述就能辅助搭建报表,从而降低 BI 工具的使用门槛和成本。然后是 Chat BI,理论上它会改变整个分析流程,用户像和人类对话一样向系统提问,由系统即时理解并返回准确的分析结果,所有人都可以随时随地的获取数据,降低传统 BI 报表和仪表板出现的必要性。

再接着是洞察分析:基于数据、业务知识,利用机器学习算法、数据挖掘技术的融合,叠加上大模型的语言理解和推理能力,让使用传统算法的洞察分析脱胎换骨,实现更精准的总结、诊断、归因,能够自动发现数据中隐藏的价值。第四阶段可能还为时过早,很多厂商将其称为 DI(即决策智能 Decision Intelligence)。

随着数据量爆炸式增长和分析技术进步,如多模态、多元信息整合、多 Agent 技术等,我们可能不再满足于单个功能,产品形态会演变成分析平台主动在海量数据中发现价值,通过完整数据报告或主动 Feeds 流方式推送给我,不仅能给出“发生了什么”,还能进一步解释 “为什么会发生”、“未来会怎么样”,为用户提供更高阶的决策支持,这是也许是目前能看得到的数据分析领域的理想态。

基于对业务落地的判断,企业级智能 BI 分析离不开 BI 工具、大模型和企业私域知识这三者的有效融合。首先,BI 工具作为核心框架,凭借强大的数据分析和可视化能力,将规模庞大和复杂的数据转化为直观易懂的图文报表,为企业搭建洞察业务的桥梁。要最大化的发挥 BI 工具本身的作用,如高性能分析引擎、可视化、安全管控、开放集成能力、协调办公能力等。其次,BI 工具并非孤立的存在,大语言模型的加入为其注入了灵魂,通过大模型理解自然语言指令,精准理解用户意图,大大降低数据分析门槛。此外,随着多模态、multi-agent 等技术的成熟,大模型的记忆、推理、规划、反思、工具使用能力反过来推动大模型在各领域的丰富应用,包括数据分析产品。最后,绝大部分企业级的智能数据应用都离不开私域数据,作为大模型应用的根据,只有将企业数据、企业内部知识、行业知识深度整合,才能让 BI 分析更具针对性和业务价值。

大模型落地 QuickBl 全景

Quick BI 是阿里云上的一款 SaaS 的 BI 产品,连续 6 年入选 Gartner 的商业智能和数据分析魔力象限,也连续 6 年作为国内唯一入选榜单的国产 BI 产品,承载其智能化能力的产品叫智能小 Q。

大模型重塑整个 BI 分析流程

在大模型时代,有句话说得非常到位:所有产品都值得用大模型技术重做一遍,BI 产品也不例外。传统的 BI 产品,其分析流程在模式上相对比较固定,从数据到结果,基本要经历从数据连接、到数据建模、到数据分析、到数据可视化、再到数据协同和消费的整个流程。这个流程离不开业务人员的人工搭建操作,对用户的模型理解和配置技能有较高要求。而在大模型时代,这个流程的每一个环节都有可能被重塑。例如,在数据连接环节,我们可以对数据准备的 ETL 任务进行辅助开发,对连接的数据源进行数据探查和校验;在建模上,可以对字段质量进行评估,实现计算字段生成优化和 SQL 诊断;在数据分析阶段,对报表一键美化、洞察归因和自然语言生成报表;在消费端,有 Chat BI 智能问数;最终的消费态则可以有智能决策和数据解读报告这样的形态。当我们打开思维去尝试探索后会发现,这里面的发挥空间会非常大。

BI Copilot

BI Copilot 的具体形式就是智能搭建。分析师在原有搭建报表的流程时,用自然语言替代繁杂的功能寻找、拖拉拽按钮和配置,直接完成用户想要的操作。在这个领域,我们更多瞄准的是那些高频多步的、或者强依赖分析师经验的功能。例如:

  1. 金额大于 3000 的标红 - 就是个典型的条件格式场景;

  2. 帮我美化下这个报表

  3. ……

从技术流程图可以看出,我们将原本强耦合在底层产品内部的一些能力做了解耦和开放,在渲染引擎、搭建引擎和用户会话之间构建了一整套指令系统和前端 API 层。大模型作为稳定的“中介”,负责对接会话层和指令系统,将用户自然语言意图转换成底层引擎能识别的“API”指令。在这个部分,我们基于基座模型微调了适合 QBI 搭建的增强指令识别系统,即带有指令 CMD 和参数 Params 的 NL2API。初级 API 进过指令系统的复杂处理,如依赖检测、指令调度、执行等,最终会调用暴露出来的 API 层,最终在渲染引擎和搭建引擎的加持下,完成一整套动作。不过,在这层面上 NL2API 系统相对封闭,因为大模型本质上主要是为 Quick BI 或自身应用系统内部业务服务的。

BI copilot 的另一个重要应用是数据洞察。用户对洞察的期望通常是:看懂图表 ->补充信息 ->分析和解释数据现象 ->定位问题 ->支撑行动决策。这几个步骤里,任意一个步骤想要做好都需要天时地利人和的:算法够优秀、支撑数据够多、流程组织够清晰。

目前我们在洞察领域做了如下三方面的探索:

一是 内置洞察算法,这部分主要使用经典统计计算模型,毕竟智能化并不能完全等于大模型。例如,关注指标变动是否正常,若不正常,是哪些维度造成异常,本质上是参考历史数据、行业经验及其他关联数据,寻找对业务目标最具解释力的维度,这就是内置洞察算法。

二是 大模型的洞察解读,将报表数据和背后所在数据集的数据以及配置元数据等信息组合,利用通用模型在数据解读、语义理解等方面的优势,通过 Prompt 工程 +Multi-Agent 的方式完成的解读方式。

第三,QuickBI 具备外置 Agent 接入能力(如 Dify 或百炼等),让客户特定的工作流和业务逻辑对接到小 Q 对话流里。作为一款通用工具型产品,一定没法满足所有用户的个性化定开需求,这算是一种体验很好的曲线救国方式。

Chat BI

在当今的商业智能(BI)领域,Chat BI 这一概念正逐渐成为焦点。Quick BI 已经成功落地了智能问数这一场景,这在国内国际都引起了众多企业的浓厚兴趣。目前,众多厂商的 Chat BI 产品都在致力于实现类似的功能,技术路线也呈现出多样化,如 NL2DSL(自然语言到领域特定语言)、NL2Python、NL2SQL 等,可谓是百家争鸣。

以 QuickBI 的智能问数为例,一个智能问数的用户旅程大致如下:用户首先输入一个问题,系统在前置处理阶段会进行权限管控和流量管理等操作。随后,我们利用经过训练的大模型领域模型对问题意图进行判断。如果该任务需要多步才能完成,系统会将其拆分为多个子任务;若单步即可返回结果,则直接进入核心流程。通过一系列召回算法,我们将元数据、知识库等信息组合起来,输入到大模型中。最终,大模型以 DSL 和 SQL 的形式将结果传递给 BI 底层的查询引擎。查询引擎负责方言翻译、高级计算下推等复杂流程,并最终以图表形式呈现结果。这些图表在呈现过程中仍然可以进行交互和调整。整个流程的关键在于,我们能够清晰地梳理从上到下的所有字段血缘关系。

通用大模型与自研领域模型的混合流程设计

在通用大模型与自研领域模型的流程设计中,我们秉持着开放的态度。本质上,用户的自然语言通过大模型转换为代码,代码再通过我们工程内部的方式转化为技术逻辑,最终在产品中体现为具体的展现形式。BI Agent(在某些场合被称为 AI 中间层),它通过组织编排各种大模型的输出和流程代码,实现自然语言与代码的有效连接。BI Agent 会定义一些 API 和 DSL,为了让模型能够与应用系统有效交互,我们正在通过 MCP 的方式将其能力开放。

BI Agent 与中间层的控制中心配合,经过业务上下文处理、意图识别、任务拆分等步骤,使 BI 系统能够理解模型的返回结果,并据此进行进一步的操作。此外,在处理复杂任务时,我们还会按照正确的顺序执行编排的子任务,确保任务的成功完成。举个例子,需要获取“X 部门的经营分析报告”,LLM 本身是不会直接总结的,它需要调用取数工具先获取每个月的销量情况,再基于各种拆解数据做归纳分析,这里的“取数工具”就作为最原子化的 BI Agent 存在。

工程架构设计

在设计工程架构的最初阶段,我们在最初阶段经历了诸多纠结与讨论。我们曾反复思量,是要打造一个代码助手,还是 SQL 插件,又或是增强版的 BI 工具呢?无论最终选择何种形态,技术路径的抉择都必须着重考量几个关键问题。首先,该系统是否具备企业级的特性。这关乎到权限管理、租户隔离等诸多方面,以及它能否与现有的业务场景无缝兼容。其次,系统的前端界面是否交互便捷、易于使用,这至关重要。再者,系统是否拥有开放集成的能力,能否提供 API 接口,是否能够嵌入到自有系统,或是接入自有知识库和数据源。此外,多场景的适应性也不容忽视。在早期,我们发现许多开源的 Demo 项目,它们仅用几行代码就跑起来一个 Chat BI,虽在特定场景下效果显著,但难以在企业级的真实场景中落地应用。最后,系统的未来拓展性也是必须考量的因素之一。

智能小 Q 分层架构

下图展示了智能小 Q 的整体技术架构。从图中可以清晰地看到,智能小 Q 从上至下依次为应用层、AI 中间层、自研领域大模型和通用模型层,以及 BI 基座引擎层。AI 中间层处于上层应用与大模型之间,主要承担任务分发与协同的职责。我们通过构建 API 和 DSL,实现了 Agent 与算子的有效对接,让大模型应用更具确定性,避免以前通过自然语言输入的应用表达不稳定,使得在 BI 领域的大模型的应用编程变成确定性应用编程。作为支撑小 Q 的关键部分,基座的 BI 引擎确保了数据分析的强复用性。分析引擎涵盖了从数据连接建模到复杂分析的全方位能力,而渲染引擎则承载着图表可视化及交互的重任。整套系统都是在 Quick BI 已有的能力基座上进行开发的。

自研模型在 SQL 语义生成的可控性

在自研模型的 SQL 语义生成技术路线上,目前 主流的有两种方式:Text to SQL 和 Text to DSL。我们对这两种技术路线进行了长期且深入的对比分析。Text to SQL 是直接将文本转换为 SQL 语句,直接在物理数据源上进行查询;而 Text to DSL 则是先经过一层抽象的语法,再分发到数据源进行查询。从业务特性来看,Text to SQL 在门槛较低的情况下,能够充分利用大模型的泛化能力,简化数据分析过程。然而,它也存在一些局限性。由于缺乏数据模型的抽象定义,直接对标物理表,使得大模型生成 SQL 的过程变得异常复杂。

此外,大模型不可能被训练去了解市面上众多数据源的方言。以 Quick BI 为例,它支持四五十种方言,如果要对私域数据进行私有模型训练,成本将难以控制。而且,即使是同一数据源的不同版本,如 MySQL 5.7 和 8.0,它们支持的函数也有差异(如开窗函数),这对大模型来说并不友好。从技术限制角度而言,DSL 的灵活性相对较弱,其查询能力受限于 BI 引擎的能力边界。从适用场景来看,Text to SQL 更适合门槛较低、没有复杂业务分析要求的场景;而 Text to DSL 则更适合业务场景明确、面向大型团队和企业级应用的场景。对于 QuickBI 来说,技术路线从纯 Text to DSL 到 Text to SQL to DSL,再到混合模式,可谓是吸收各个路线的优势。

一个问数问题的工程链路

我们从工程链路的角度剖析一下问数。用户问了一个相对复杂的问题后,经过模型的复杂链路处理,包括 Agent 路由、各种实体召回,由自研 BI 大模型生成 DSL,经由工程端的查询参数构造后,发给查询引擎进行取数。查询分析引擎会处理复杂计算字段(如 LOD 函数、自定义抽象函数)、注入用户的行列权限等,最终翻译成物理 SQL 和内存计算进行取数处理。从下图的例子可以看到,相对抽象的 LOD 函数会被稳定转义成适配不同数据源方言的 JOIN, 大大降低了模型生成 SQL 的难度和稳定性。在这种工程架构下,可以解决传统 NL2SQL 面临的三大关键问题:1)保证可用,具备企业级的管控能力,如完备的权限能力、开放集成能力等;2)保证可信,BI 引擎的引入降低模型生成原生 SQL 的难度,对取数的每个链路都做到逻辑有迹可循,查询元数据血缘透出,提升结果的可信度;3)结果可交互,复用了 BI 丰富的可视化能力,在生成的图表后链路上可修改并进行二次查询。

工程架构设计

NL2SQL 算法的挑战

与通用模型处理的其他类型问题相比,NL2SQL 算法领域面临的挑战主要集中在以下三个部分:

  1. 语义的模糊到精确:自然语言天然是非精确的,同样一个意图可以有多种不同方式的表达,而 SQL 代码及执行是精确的,用户对结果的正确性的容忍度非常低。因此 NL2SQL 天然属于模糊到精确的多对多映射问题。

  2. 语言结构化:SQL 是“结构化查询语言”,而对比与 Python/C++ 等其他编程语言是过程化的语言。这里有什么区别呢?过程化语言可以做片段化的逻辑生成,对模型推理的要求偏低,但结构化语言需要结构和逻辑整体正确,难度相对大些。

  3. 在问数任务的绝大部分场景下,用户的问题只提供了信息的局部,只是回答信息必须上下文的很少一部分。有更多信息以企业内部约定俗称、表元数据的简称、数据的具体内容形式存在。这点相信在这个领域的各位应该也有比较深刻的体会。事实上,有大量的 Query 之外的“隐藏信息”需要补全,而这又无形中对系统的配套设施提出了更高要求。

我们在训练模型前,对要达到的效果做了定义和预演。即什么样的数据分析助手是“好”的助手?

首先在风格和调性上来说,主要有以下几点:

  1. 有效性,模型必须保证准确和稳定,即单位 token 的有效信息密度高,不啰嗦;

  2. 准确性,在最小可用的数据和关联拓展之间做一个平衡。用户问数往往是看一系列数据,不是单个数据,我们会在某些场景下主动给一些关联数据,实践下来带来会给用户一些“小惊喜”;

  3. 在复杂任务上的表现,过程中逐步规划、反馈,通过多个简单任务组合解决复杂任务。当然,这里如何拆分子任务、子任务的粒度也是另外一个较大的话题了(过于原子化和过于抽象都是有问题的)。

其次对于大模型能力,主要有以下几点:

  1. 基础能力稳定性高:在问数基础、高频场景下需要稳定且高准确度的表现,避免过多的过程性解释;

  2. 在数据分析场景下的专业性:模型训练能够对数据分析师、业务常用的分析思路有理解,能给出专业的数据建议。比如用户问单个指标的时候,同时看一下指标趋势也没有坏处;

  3. 规划、矫正能力:具备将复杂任务拆解为用户易于理解。易于干预的子任务,能根据不同的上下文、用户提示,矫正复杂任务的执行规划。

一个问数问题的大模型旅程

从算法的视角来重新看问数的链路:大模型在生成抽象 SQL/DSL 的过程中,经历了元数据选取、上下文添加、问题改写、完整 Prompt 构建、输出、转译等步骤。。这其中最重要的一步就是领域模型的训练,领域模型训练需要足够的信息来进行正确推理,这些信息主要包括任务描述和通识能力,例如大模型不知道今天是哪天,我们需要将当前时间戳加入其中。其次是表和字段信息,这是非常关键的,如果没有表的字段信息和维度枚举值,对于 NL2SQL 来说将是一场灾难。再者是私域知识库,相关的知识条目以及是否做强制改写等,都会给大模型提供启发。另外,参考样例也很重要,什么是好、什么是坏的,我们在产品上通过点赞、点踩等方式给大模型提供真实的 few-shot 示例。经过各种选表问题改写 SQL 等流程后,最终生成的 Prompt 会交给领域模型完成推理。

基于 BI 引擎的 NL2SQL 算法演进

前面有讲到,最初我们定义了特定的查询语言 DSL, 用于表达对于不同查询参数的描述,由大模型直接学习并生成 DSL,再通过中间层将抽象的 DSL 在元数据和知识库的召回后实例化,转换成实际 QBI 的查询参数执行真实的取数;这里的几个好处,比如 SQL 方言屏蔽、高级计算能力复用等等。但随着支持的问数能力越来越多,问数的意图千变万化,要准备这套 DSL 语义的样本成本在逐渐增大,毕竟 DSL 是我们自定义的,通用模型训练并不含这部分内容。同时,各类通用基座模型本身对意图转简单 SQL 确是有大量积累的。于是我们在单表查询的标准 SQL 基础上拓展了抽象函数和高级计算符,变成增强 SQL 语言,以训练基座模型对于增强 SQL 的生成来提升对复杂意图的理解准确度,然后通过自研语法解析器来改写成 DSL 映射。也就是说,增强 SQL 和 DSL 是可以稳定转换的。这样既能巧妙利用通用模型的能力,又能大大降低训练样本的准备成本。至此,复杂查询意图到取数流程就被串联起来了。

Text2DSL:丰富的算子和函数

对于上述架构的最终选择,有两个重要因素支撑才能成立。第一个是丰富的算子和函数,得益于 Quick BI 内置大量逻辑函数,如聚合数值处理、文本处理,以及 LOD 函数、时间算子等。例如,计算环比对于 SQL 来说可能很复杂,我们会将大量复杂分析场景定义封装在这些算子和函数里,大模型在生成增强 SQL 时不需要感知这些复杂内容,它只需要知道如何使用这些算子和函数即可,这有点像现在流行的 Agent 方式。第二个是完善的数据模型,我们作为 BI 系统本身就支持很多关联模型,包括自定义 SQL 模型,如单表星形、雪花星系等经典 BI OLAP 模型。实际上,我们会将复杂的多表关联合并和嵌套查询下推到数据建模层,这些信息对大模型来说是透明的。大模型不需要感知这些,因为 Chat BI 不仅仅是 NL2SQL 算法的炫技,更重要的是解决实际客户的问题。有时我们会将复杂建模放在前面,对于整个大模型来说,它只是一个单表的、带有各种复杂函数的 SQL 生成逻辑。

另一个重要的计算逻辑是多步计算。多步计算是为了解决一些纯 NL2SQL 无法处理的问题,转而通过 NL2Python,或者说 NL2Python Agent 的方式来解决。举个简单例子,询问销售金额日环比超过 40% 的用户有哪些?我们可能只能算日环比,超过 40% 对于人来说很简单,但实际上这是一个多步计算的解决方案。在这个流程中,大模型会进行多次推理,这里的 Python Agent 会触发大模型在当前输入上进行二次推理。通过合理的任务拆解,可以降低整个复杂问题的解决难度。

此外,关于领域模型的训练,我们这边的训练主要分为三个部分:继续预训练、微调和 GRPO。简单来说,在预训练阶段,我们会把 Query 质量不高但有大量抽象 SQL 的东西作为预训练的一部分。在微调阶段,我们会把高质量的 query 和 SQL 对应关系放到微调中进行训练。最终通过强化学习 GRPO 的方式把整个模型训练好。

大模型与好数据:训练数据准备

大模型是离不开好数据的,只有大量 + 优质的训练数据加持,模型才有可能突破。下图是我们数据准备的一个数据飞轮:

一方面我们依赖了人工构造,我们有一只专门的数据团队去构造、收集复杂的训练数据。其次,利用模版、AI 去生成,各类大小模型的结合提升训练数据的质量和覆盖。然后是数据蒸馏,对一些复杂问题,我们会通过大模型训练小模型的方式。与此同时,我们还会在数据准备过程中利用若模型生成一些有价值的错误,这些样本随后可以在执行引擎的协助下执行验证并进行错误归纳,相当于反例的标注,这对于训练非常有必要。我们实践下来发现,有价值的错误在整个训练过程中是非常有必要的。

业务价值与展望

智能小 Q 客户实践场景

以零售品牌为例,它们直接利用我们的 SaaS 产品来推进功能演进。还有快消品客户,更是将我们的小 Q 直接嵌入到他们的业务系统中。实际上,在客户那里,我们进行了一些实践和调优工作。作为一个通用的 BI 工具,无需任何配置的前提下想要直接达到 90% 以上的准确率是不现实的。事实上,脱离具体应用场景谈准确率,多少有些不切实际。这里有一个案例,一开始我们完全没有介入时,准确率仅为 65%。通过交付过程中的介入,引导用户如何使用、如何提问,以及让用户通过点赞、点踩的方式参与,我们的模型可以自动进行 SFT。在这种场景下,最终将模型强化后的问数准确率提升到了 92%。主要提升点在于指标维度的扩充、指标覆盖等,让用户尽可能多地提供信息,针对复杂问题进行自动拆解。很多时候,客户的问题并非单纯的问数问题,比如他们可能会让你去分析一下某个情况,这就需要进行问题拆解。此外针对无法回答的问题,提供用户提示,即拒识方面的引导优化也是非常有必要的。

Bl 未来发展

目前大模型擅长的包括:语义理解、代码生成、分析思路、文本生成、任务编排… 我认为大模型在以下几个方面会有长足进步,具体进步包括:

  1. 动态推理能力:包括任务拆分、逻辑推演、冲突解决;

  2. 多模态感知能力:未来可能会整合跨平台的报表数据、根据截图、报告来挖掘出更有意义的数据科学部分;

  3. 模型能力本身的持续进化、自我反思机制的增强:在整体水位线上能让智能来的更加真切;

  4. 自主决策能力:非预设路径的行动生成和决策。在更高的角度来看,随着大模型这些能力的持续进化,我相信将会推动智能 BI 从任务执行者向决策主体跨越,进而让整个领域在交互模式和能力边界上都有相应的变化。

嘉宾介绍

王璟尧,毕业于浙江大学信电系,10 年数据产品建设和技术架构经验。现任阿里云智能集团高级技术专家,Quick BI 数据智能研发负责人,负责 BI 平台架构、新一代智能 BI 建设等工作,在元数据管理、BI + AI、大模型应用等领域上有丰富经验。

会议推荐

从基础设施、推理与知识体系,到研发与交付流程,再到前端、客户端与应用体验——AI 正在以更工程化的方式进入软件生产。2026 年 QCon 全球软件开发大会北京站)将以 「Agentic AI 时代的软件工程重塑」 作为大会核心主线,把讨论从 「AI For What」,走向真正可持续的 「Value From AI」

撰稿 | 陈姚戈、高允毅

编辑 | 王一鹏

一场从线下蔓延至线上的舆论战争,正发生在伊朗。

线下,伊朗当局正在组织“反骚乱”集会;线上,断网、媒体管制和信息封锁同时发生。

在网络被关闭的时段,伊朗国营媒体几乎成为唯一的信息源。信息真空之中,大量影像只能在社交平台上传播,却很难被证实或证伪。

网民和非营利组织通过自发事实核查发现,伊朗官方发布了使用后期编辑和 AI 生成影像,刻意营造了“反骚乱”的舆论氛围。这类内容在 X 平台上获得了数万次观看。

与此同时,另一方同样出现大量 AI 生成内容。一段被广泛转发的视频显示,有人从建筑物上扯下国旗,发布者称有人撤下了伊朗国旗。这段视频经过反向图片搜索后,被证实拍摄于 2025 年 9 月尼泊尔抗议活动。

非营利组织 WITNESS“技术威胁与机遇”项目副主任 Mahsa Alimardani 指出,在传播过程中被 AI“增强画质”的现场照片,反而被当局用来否定影像本身的真实性,对抗议事实进行整体抨击。

真假在这一过程中被同时稀释,AI 让“知晓真相”这件事变得更难了。

这并非人们第一次意识到 AI 的风险。近几年,从《要求暂停更强模型训练的公开信》,到《针对超级智能的联合声明》,理想主义者反复呼吁放慢脚步、建立约束。但现实是,这些警告几乎没有改变产业的整体方向,也未能阻止更强模型和更激进应用的持续推出。

尤其是在战争中。

从俄乌冲突、以伊冲突,再到今天在伊朗发生的舆论战,包括生成式 AI 在内的技术被广泛采用,而战场也正成为前沿 AI 技术和武器的“实验场”

中国航空报》指出,乌克兰战事加速了 AI 在实战中的应用落地,如自主导航、目标识别和交战以及情报处理等。根据《青年参考》,大量军事科技初创企业和国防创新企业在乌克兰聚集,使乌克兰逐渐演变为相关技术的重要孵化地。

更深层的变化在于,科技公司、金融资本与国家战争机器之间,正在形成紧密绑定。

2025 年 11 月,美国国防部长 Pete Hegseth 公布新一轮国防采购改革,明确指出原有国防体系已难以应对新的战争形态,并宣布启动新的“作战采购系统”,以缩短交付周期、提升灵活性。

美国国防部试图引入硅谷的投资和迭代逻辑,重塑军备采购体系,让军队像科技公司一样快速试错、快速部署、快速扩张。

资本迅速跟进。今年 1 月,a16z 宣布新一轮募资超过 150 亿美元,其中明确投向国防科技领域的资金超过 11 亿美元。与此同时,a16z 还与美国陆军参谋长 CTO Alex Miller 和美国海军部 CTO Justin Fanelli 等美国军方要员共同推出播客和专栏,教初创企业如何拿下国防部订单。

以色列政府通过初创公司加速器计划 Innofense、增加对本土初创企业的采购额等,系统性地推动私营技术进入军事和安全体系。围绕这一政策环境,近几年集中涌现出一批专注国防科技的初创公司和投资机构,“Patriotism as a Service”成为了以色列创投圈的时髦概念。

类似的转向也正在欧洲发生。2024 年,欧盟投资银行放宽了对军民两用技术项目的投资限制,并参与设立规模约 1.75 亿欧元的国防股权基金,以吸引更多社会资本进入相关领域。《环球》杂志指出,这些政策为初创企业提供了关键的早期订单和市场入口;同时,在技术、市场、资本与战略因素的共振下,欧洲初创企业大力进军军工产业,欧洲军工创业投资正迎来爆发式增长。

世界正处这样的时刻:AI 的能力已被大规模引入战争中最敏感的场景,而大型科技公司缺乏主动约束自身的动力;本应推动规则协调与共识形成的国际组织,在关键议题上的作用仍然有限。

伊朗现场,正在发生的 AI 信息战

一段“万人上街支持政府”的航拍视频,在 1 月 12 日突然刷屏社交平台。

画面中,伊朗记者坐在一架直升机敞开的舱门边,一边俯瞰地面“集会人群”,一边对着镜头解说:伊朗民众自发走上街头,支持本国政府,对抗美国和以色列的干预。

镜头掠过,整条街道被伊朗国旗铺满,整齐庞大的队伍,看上去就是一场“全民拥护政府”的壮观场面。

很快,这段视频就被贴上了另一个标签:AI 造假。

伊朗政策分析师 Behnam Gholipour 公开质疑画面真实性,并谴责这是人工智能生成的虚假信息。

有网民对画面细节提出质疑,并逐帧分析指出:记者坐在直升机舱门边,却未见任何安全防护;衣着与面部状态未呈现高速气流下的正常反应;手部动作存在异常形变;街道背景中还出现了已被烧毁的建筑……

质疑声越滚越大,IRIB 很快放出第二段“证据视频”:

画面里,记者坐在电脑前,播放完整的集会录像,试图证明,先前那段航拍并非伪造。

但马上有人发现新录像存在前后矛盾之处。

而另一张广泛流传的关于集会的图片,有眼尖网民放大画面,发现有人“长”在伊朗国旗上,上半身悬在空中,下半身则直接消失。

社交平台的评论画风逐渐一边倒,IRIB 不仅在用可疑的视频讲述“盛大集会”,还在用同样粗糙的方式掩盖伪造。

网民对伊朗官方的愤怒,很快堆积在评论区。

有人开始恶搞那位直升机记者,用各种 AI 工具生成新的“伪造视频”和恶搞图。“既然你用 AI 篡改现场,那我们就用 AI 把你变成梗。”这种“以梗对梗,以 AI 反制 AI”的创作,在社交平台上快速扩散。

AI 玩梗是“技术抵抗”和消解意义的一种方式。但以 AI 对抗 AI 终不是种解法。

非营利组织 WITNESS “技术威胁与机遇”项目副主任 Mahsa Alimardani 在网络欺骗、审查和监控领域有超过 15 年的研究经验。她在最近发表的文章《怀疑如何在伊朗成为一种武器》中指出:“AI 对信息的操纵,以及围绕这种操纵产生的怀疑,本身都会成为掩盖真相的工具。”(AI manipulation, and the very suspicion of it, serves those who have the most to hide.)

Mahsa Alimardani 回忆称,集会自 12 月 28 日爆发后仅数小时,伊朗当局相关账号就开始将抗议现场的真实影像贴上“AI 伪造”的标签。

一个典型案例发生在抗议爆发后的第二天:一段在德黑兰拍摄的低清视频中,一名抗议者坐在街道中央,面对安保力量。该事件已被多方核实确认属实。

但随着视频在网络上不断传播,出现了经过 AI 增强画质的版本。BBC 波斯语记者 Hossein Bastani 发布了这段清晰版视频,但未注意到其已被 AI 处理。支持伊朗官方的相关账号随即抓住这一点,将 AI 修图留下的痕迹当作“证据”,以此否定这张照片和其他抗议影像的真实性。

上图为低清原视频;下图为 AI 增强后的版本。Hossein Bastani 已就未注意到其 AI 增强特性而道歉。

Alimardani 认为,深度伪造让 AI 贴上“欺骗工具”的标签,但实际上很多常用的图片编辑工具都带有生成式 AI 的能力,公众很难分辨出哪一种是善意修图、哪一种是恶意伪造。正因为如此,伊朗不仅可以利用 AI 本身,还可以利用公众对 AI 的怀疑,把这种怀疑变成一种“加速剂”,进一步压制和否定抗议信息。

AI 如何改变现代战场

在战场中,AI 不仅影响人们理解战争,更近一步参与战争本身。

俄乌冲突与以伊冲突,为观察 AI 如何介入舆论战与实际作战提供了清晰案例。

欧盟资助的虚假信息意识与韧性项目团队(DARE),在调研俄乌冲突时的信息操纵时发现,相关舆论操纵活动已明显呈现出自动化、规模化特征。调查显示,水军账号不再主要依赖人工运营,而是借助 AI 工具批量生成虚假社交身份,并模拟真实用户的行为轨迹。

以 Meliorator 为代表的 AI 软件包,可以自动生成包含头像、兴趣与互动历史的账号资料,并通过技术手段规避平台的异常检测机制,使这些账号在短时间内融入正常的信息流。同时,AI 生成的图像与视频被用于构建情绪指向明确的叙事,削弱受众对信息真实性的判断能力。

这种变化在中东地区的冲突中表现得更加直观。

以伊冲突期间,一张“伊朗击落以色列 F-35 战斗机”的图片在社交平台迅速传播。图片中,一架喷气式战机坠毁在沙漠中,残骸周围挤满围观民众。这一画面一度让外界误以为伊朗在空中对抗中占据上风。

但图像本身的物理逻辑存在明显漏洞。现场人物与车辆比例失衡,沙地上也缺乏高速坠毁应有的冲击痕迹。

据澎湃新闻旗下事实核查栏目“澎湃明查”梳理,在 2025 年伊以冲突期间,基于 AI 生成的虚假视频和图像数量显著上升,规模甚至超过了俄乌冲突初期。

这些内容往往画面粗糙、叙事夸张,甚至直接截取自游戏画面,却频繁被用于“重构”战斗场景,成为信息战的重要组成部分。凡是包含武器、废墟或宗教符号的影像,都可能被抽离原有背景,重新拼接成一个看似连贯、实则失真的“中东战场”。

如果说舆论战主要作用于认知层面,那么从俄乌冲突开始,AI 已逐步进入直接参与作战的阶段,战场也成为 AI 技术快速试验和迭代的环境。

2025 年 6 月的“蛛网”行动,集中体现了 AI 与无人机系统结合后所展现出的作战能力。在这次行动中,乌克兰国家安全局策划并实施代号为“蛛网”的特种作战,出动约 150 架远程无人机,对俄罗斯境内 5 座空军基地发动袭击,损坏包括 Tu-160、Tu-22 和 Tu-95 在内的 41 架战机。乌方称俄方损失约 70 亿美元,而单架无人机的成本不足 1000 美元。

伴随技术升级,战争的参与结构也在发生变化。商用武器、AI 技术和军事需求的结合,正在塑造一个由政府和企业共同参与的作战生态。这一模式部署灵活、更新迅速,但相应的监管与约束机制尚未同步建立。

在这一过程中,私营商业科技公司开始进入更核心的位置。乌克兰在冲突中广泛使用由美国民用软件公司 Palantir 提供的信息分析系统,对多源战场数据进行整合与研判,为指挥决策提供支持。相关系统能够在短时间内处理光学影像、雷达数据与火力分布信息,从而提升行动效率。

Palantir 是由 PayPal 创始人 Peter Thiel 创立的国防科技公司,已经成为多国国防部的供应商。就在今年 1 月,Palantir 与乌克兰国防科技集群 Brave1 启动 Dataroom 项目。该平台允许工程师利用大量经实战验证的数据训练和测试 AI 模型,目标之一是开发新一代自主拦截无人机,使其在缺乏人工干预、且 GPS 与通信受干扰的环境下,仍能完成探测、分类与拦截任务。

科技企业正主动嵌入战争的运行机制之中。技术开始按市场与投资逻辑被快速设计、部署和迭代,战争由此进入一套新的商业-政治结构,对既有国际规则形成持续挤压。

当一段伪造影像就足以影响大规模公众判断,当低成本无人系统能够在复杂环境中自主锁定并打击高价值目标时,如何为 AI 的军事应用划定清晰边界,已成为无法回避的现实问题。

当科技、资本和政治形成 AI 联盟

正在美国和以色列发生的事情,为我们提供了一种更现实的视角:当科技公司、金融资本与国家安全机器深度绑定,战争的技术形态、节奏与激励机制都会随之改变。

一个共同趋势正在显现——私营科技公司再次被系统性地拉入国防体系核心。它们不再只是为军方提供工具的外包商,而是直接参与战争工具的设计、部署,甚至作战本身。

从资金流向上看,这并非零星现象。根据 PitchBook 数据,全球防务科技的风险投资在过去十年持续抬升,并在近两轮战争节点出现明显跃升。

无论是交易金额还是交易数量,在俄乌冲突、加沙战争这些时间点,“发战争财”都变得异常活跃。

硅谷回到五角大楼

在美国正在发生的事情是,硅谷与五角大楼关系的重新加温。

虽然硅谷的诞生与美国国防技术的发展息息相关,但过去二十年中,风险投资企业对国防科技的关注度,从未像今天如此之高。风险投资机构们纵使不出于道德考虑,也因为昂贵的硬件、未经证实的商业路径以及传统国防承包商的垄断,一直徘徊在五角大楼门外。

但这个平衡正在被打破。

一方面,政策环境发生变化。

特朗普通过一系列行政命令和《FoRGED 法案》等立法支持,对传统军工承包商施加严格的财务与绩效惩罚,同时大幅放松采购监管,以扶持高增长的科技企业。并推动一套得到两党支持的采购改革方案,核心逻辑只有一个:让军队像科技公司一样采购、迭代和部署技术

2025 年 11 月 7 日,美国国防部长 Pete Hegseth 正式公布新一轮国防采购改革,目标是缩短装备交付周期,为长期僵化的采购体系引入更大的灵活性。在面向国防与科技行业高管的演讲中,他直言原有的“国防采购系统”已经走到尽头,并宣布启动全新的“作战采购系统”。

随后,五角大楼发布《采购转型战略》及配套指令,明确三项改革重点:一是整体转向作战采购体系;二是推进对外军售(FMS)与直接商业销售(DCS)的现代化;三是重塑联合需求审查流程。国防部释放出的信号十分明确——现有规则不再适配新的战争形态。

另一方面,资本明确进场。

就在今年 1 月 9 日,a16z宣布新一轮募资超过 150 亿美元,金额占 2025 年美国所有风险投资总额的 18% 以上。新基金的领域的金额包括: American Dynamism(11.76 亿美元)、Apps(17 亿美元)、Bio + Health(7 亿美元)、Infrastructure(17 亿美元)、Growth(67.5 亿美元)和其他风险投资策略(30 亿美元)。其中 “American Dynamism” 明确指向国防与国家安全相关产业。

在 a16z 的官网,你可以看到这样两行露骨的文字——

“a16z 致力于推动动态的国防科技改革,以重建美国的国防工业基础。以创新保障安全。是时候行动了。”

“美国——这个创新者和建设者的国度——已经因为官僚主义和中央计划而失去了国防工业基础。”

2025 年 6 月,美国陆军在官网宣布,正在组建第 201 分队“陆军高管级创新团”。来自 Meta、OpenAI、Palantir 和 Thinking Machines Lab 的 4 位高管,以高级顾问身份兼职宣誓加入陆军预备役。陆军在公告中表示,通过引入私营领域的专业能力,第 201 分队正为包括陆军转型计划在内的多个项目提供支持,目标是让军队变得更加精简、智能和高效。

2025 年 6 月 13 日,美国陆军参谋长 Randy A. George 为四名新任美国陆军中校主持宣誓就职仪式。

Randy A. George 对面从左至右分别是 Meta 首席技术官 Andrew Bosworth、Thinking Machines Lab 顾问和 OpenAI 前首席研究官 Bob McGrew、Palantir 首席技术官 Shyam Sankar、OpenAI for Science 副总裁 Kevin Weil。

硅谷不再只是为战争“提供工具”,也开始参与战争体系的设计。

从金融到科技公司,以色列的“全民皆兵”模式

相比美国,以色列并不缺乏军队和科技企业融合的历史,大量科技公司,如 Palo Alto Networks、Wix 的创始人都来自 8200 情报部队。8200 情报部队的退伍军人还组成了非盈利组织“8200 校友”,为青少年提供编程培训、为创业公司提供服务。

但真正的变化起源于 2019 年之后。当时,以色列前参谋长 Aviv Kochavi 发起了 Tnufa 五年计划,旨在将以色列国防军(IDF)转型为一支更致命、数字化的多域作战力量。与此同时,以色列国防部(IMoD)、研发局(MAFAT)与民间机构合作成立初创企业加速器 Innofense,寻找和集成能够改变战场游戏规则的军民两用技术,并为企业提供早期资金支持,加速其产品化进程。

在 2023 年的 10/7 事件后,虽然 Tnufa 计划宣告破产,但以 Innofense 为代表的军队与初创公司合作的模式被保留下来。除 Innofense 之外,以色列政府和军队还大力推进“绿色通道计划”(Green Lane Track),为初创企业和年收入不超过 2500 万新谢克尔 (NIS) 的小型公司提供精简流程,使其能够注册成为国防部的正式供应商。结果是,与标准国防采购相比,该通道大幅缩短了反馈响应时间,并放宽了合同条件,为初创企业简化了采购流程。

10/7 事件,是指 2023 年 10 月 7 日,在哈马斯袭击以色列之初,从加沙地带潜入以色列的哈马斯武装分子对在雷姆基布兹附近参加诺瓦音乐节的平民发动大屠杀。这个事件被认为是以色列的“911”。

上文提到的 Tnufa 计划中,以色列军队为了追求“高效、灵活”削减了一些传统的地面部队规模,导致以色列边境常规驻军过少且缺乏随时可用的预备役动员方案,增援部队花费了数小时甚至十数小时才到达受袭社区。2026 年,现任以色列国防军总参谋长 Eyal Zamir 宣布了新的多年计划 Hoshen,以替代 Tnufa。

图片为以色列国家图书馆推出的“10 月 7 日纪念墙”,展示了 2023 年 10 月 7 日以来遇难的平民、以色列国防军士兵的照片和姓名。

根据公开信息,截止 2025 年 12 月,以色列国防部与超过 300 家初创公司合作,其中三分之一直接参与战争相关项目,大多为军民两用技术。

10/7 事件也直接影响了许多以色列金融和科技经营的投资和创业逻辑。

“过去 18 到 24 个月内成立的这批国防科技初创公司,绝大多数都是在‘10/7’事件之后才诞生的。它们源于真实的军事需求、作战需求,甚至是个人切肤之痛,并且已经经过实战验证、正在发挥作用。”Aurelius Capital 创始人 Alon Lifshitz 在最近的对谈播客中表示。

成立于 2024 年的 Kela 是这一代公司的代表。其目标是“帮助西方防务体系快速、无缝整合商业与军事系统”,已从红杉资本、Lux Capital 以及 In-Q-Tel 筹集 1 亿美元资金,最新一轮估值约 2 亿美元。值得一提的是,In-Q-Tel 虽为非盈利机构,其资金却来自 CIA ,它也是 Palantir 的早期投资者。

Aurelius Capital 则代表了这批公司背后,以色列投资机构的新风向。它成立于 2025 年 1 月,专注以色列国防领域投资,目前已经完成首轮约 5000 万美元的募资。 创始人 Alon Lifshitz 曾经在采访中表示,他此前创立的 Haneco Venture 因 LP 限制无法涉足国防领域,而 10/7 事件直接促使他与妻子另起炉灶,成立一家明确服务于国防方向的新基金。

这种转向甚至开始被包装为一种“以色列爱国主义”投资叙事。

在以往频繁讨论 Platform as a Service、Model as a Service 的以色列投资界,出现了“Patriotism as a Service”的说法。以色列风投机构 TLV Partners 在 10/7 事件后公开提出这一理念,并表示国防领域将成为其投资生态的重要部分。 TLV Partners 投资的 AI 视觉识别公司 Airis Labs,试图将日常数字影像转化为可直接用于任务的情报资产,服务于国家安全、公共安全、边境管理和应急响应等场景。

Airis Labs 在官网介绍,传统情报工具并非为去中心化、多模态的信息环境而设计,而以色列的对手正日益利用用户生成内容进行协调、招募和传播。借助 Airis Labs 的 User-Generated Field Intelligence,任何来源的媒体内容都可以被转化为可计算、可调用的情报资产。短短几句的描述,已经为我们勾勒出一个《疑犯追踪》中大规模、定制化监控系统。

从资金规模看,以色列国防相关部门和公司的合作已经具有明显规模效应。

根据多方公开信息梳理,与以色列国防部研发局(MAFAT)合作的国防科技初创企业,在 2025 年通过融资和并购已吸引超过 10 亿美元资金。报道同时指出,2024 年虽然也是国防领域融资金额创纪录的一年,但全年融资规模仅约 1.5 亿美元;在 2025 年之前,该领域初创企业历年来累计融资总额约为 4.22 亿美元。

很多人可能已经忘了互联网开始于军用网络。而今天这些科技公司、金融资本与国家安全机器在“国防”领域的合作,无疑都在提醒我们,一个把科技当作美好创新代表的时代已经结束了

这正是我们今天讨论 AI 治理,无法回避的现实背景。

失效的 AI 治理

今天,AI 治理正同时经历着道德共识、国际机制与企业自律的三重失效。

来自 AI 行业引领者的警告一直从未缺席。

2025 年 10 月,非营利组织未来生命研究所发起了《针对超级智能的联合声明》,包括人工智能先驱杰弗里·辛顿、苹果公司联合创始人史蒂夫·沃兹尼亚克等多位知名人士参与签署。

但这份声明没有激起什么讨论的水花。

也许你还记得 2023 年 3 月,科技界曾发起《要求暂停更强模型训练的公开信》,呼吁所有人工智能实验室立即暂停训练比 GPT‑4 更强大的模型,暂停时间至少 6 个月,并建议在企业不配合的情况下由政府强制介入。结果是,没有任何一家关键公司或实验室真正停下,包括签署公开信的埃隆·马斯克本人。2023 年 11 月,xAI 正式推出 Grok‑1 的抢先体验版本——很难相信这是一场“暂停”之后的产物。

杰弗里·辛顿频繁公开演讲、不断签署声明,但这些努力并未改变产业的集体行动方向,并未改变和他一样的聪明头脑。

这些公开信之后的“缺乏行动”无疑反映出,大型科技公司缺乏主动约束自身的动力,行业内部也未能形成真正可执行的治理共识。

如果说道德呼吁无法转化为行动,本应承担“共识塑造”与规则协调角色的国际组织,同样未能填补这一真空。

军事领域负责任人工智能峰会(REAIM),是少数能够聚集全球近一半国家和地区代表,专门讨论军事人工智能治理的国际平台。2024 年,该峰会形成了一份“行动蓝图”,提出了关于“负责任使用军事人工智能”的最低共识,例如强调人工智能应用应符合伦理、以人为本,人类仍需对人工智能的开发和使用承担责任;同时明确指出,人工智能技术应接受法律审查,并遵循包括国际人道主义法和国际人权法在内的适用国际法框架。

但即便是这样一份最低限度的原则文件,在会议期间仍未获得完全认可,约有 30 个政府代表拒绝接受相关表述。

直到 2025 年 8 月,联合国才正式设立具备明确职能和常设架构的 AI 治理机制,包括“人工智能独立国际科学专家组”和“全球人工智能治理对话平台”。

但这份好不容易到来的“治理机制”并不试图建立一套具有强制力的普适规则,而是强调在部分议题上促进协调与共识,同时有意避开高度敏感的领域。尤其值得注意的是,独立政策研究机构 Chatham House 观察到,人工智能在军事领域的应用,被明确排除在联合国讨论议程之外,这也直接引发了对“军民两用技术”将如何被监管的广泛疑虑。

在国际治理尚未就 AI 在军事中的应用达成广泛共识之前,AI 企业自身已率先调整了边界。

2024 年 1 月,OpenAI 在其服务条款中删除了明确禁止人工智能用于“军事和战争”应用的条款,转而采用更模糊的措辞,要求用户不应“利用我们的服务伤害自己或他人”,包括“研发或使用武器”。

同年 11 月,Meta 宣布将向政府机构提供其 Llama 生成式人工智能模型用于“国家安全应用”,并与国防承包商 Anduril 合作,开发军用 AR/VR 头戴设备和训练系统。TechRadar 评论称,这一行动与 Llama 之前的可接受使用政策存在显著差异——该政策原本禁止模型用于“军事、战争、核工业或间谍活动”,并明确禁止武器开发和宣扬暴力。

2025 年,Google 修改《AI 原则》,删除“不开发武器”“不用于监视”等明确限制条款,转而采用更模糊的表述,强调技术应用需服务于“国家安全、民主与防卫”。这打破了 2018 年谷歌的承诺。当时 Google 因参与五角大楼 Project Maven 项目引发员工抗议,随后发布《AI 原则》,明确承诺不将技术用于武器开发或特定监控用途。

伦敦国王大学讲师 Nick Srnicek 在其新书《硅谷帝国:人工智能的未来之争》中,描述了 AI 巨头们卷入美国军事行动的故事。

他观察到 ,科技巨头正借助“竞争威胁”的叙事抵制监管,并与国家安全体系深度绑定。

过去几年中,关键人物的立场已发生明显转变:Sam Altman 从呼吁中美合作,转向强调“美国领导的志同道合国家联盟”;Anthropic 首席执行官 Dario Amodei 也从担忧竞赛风险,转向主张美国必须在 AI 竞争中取胜。

Srnicek 总结,这标志着“硅谷共识”的瓦解——曾以全球化与开放为目标的技术秩序,正在被技术民族主义和阵营对抗取代。

投资机构以及进入“国防”领域的初创公司,则进一步借助“安全困境”理论为自身行为提供正当性。

国防科技公司 Anduril 与投资机构 Founders Fund 的创始人 Trae Stephens 曾发表过一篇广为流传的文章《国防科技发展的伦理:一个投资者的视角》,为私企和资本加大对“国防”技术的投入“正名”。这篇文章的核心观点是,战争应当是“万不得已的最后手段”,对国防技术的投资恰恰是为了避免和慑止战争。

与此同时,他强调更高科技的武器有可能带来更少的伤害:高度精确、由 AI 驱动的打击手段,有可能减少无辜平民的伤亡,并降低大规模、无差别攻击发生的概率。

是的,技术有可能做到这一点。

但现实是,“精准打击”往往不顾及平民伤亡。根据冲突检测机构 Airwars,2023 年 10 月,以色列通过 AI 赋能的监听技术锁定哈马斯指挥官 Ibrahim Biari 后,对他所在地区展开空袭,袭击中超过 125 名平民丧生。

当这群世界上“最聪明”“最有野心”的人聚集在一起,不断提高武器创新和部署的效率时,很难相信“威慑”仍是他们唯一的动机——当从战争中公开获利变得越来越容易,又有什么理由真正去阻止战争的发生?

RustFS 支持容器化部署模式,可以用 docker run 命令或 docker compose 来快速安装一个 RustFS 实例。由于 podman 也是一个可以对容器进行管理的工具,大多数情况下是可以兼容 docker 命令的。因此,也可以用 podman 对 RustFS 进行容器化安装。本文分享两种安装方式。

安装前提

  • podman 环境,本文所需的 podman 环境信息如下
# podman 版本
podman --version

# podman-compose 版本
podman-compose --version
podman-compose version: 1.0.6
['podman', '--version', '']
using podman version: 4.9.3
podman-compose version 1.0.6
podman --version 
podman version 4.9.3
exit code: 0

安装方式

可以使用 podman runpodman compose 进行安装。

podman run 安装

使用如下命令即可:

podman run -d -p 9000:9000 -p 9001:9001  \
    -v $(pwd)/data:/data -v $(pwd)/logs:/logs \
    docker.io/rustfs/rustfs:latest
注意,需要把 datalogs 目录的权限改成 10001,因为 RustFS 是非 root 用户运行,不修改权限,会导致权限问题。

查看容器状态:

podman ps
CONTAINER ID  IMAGE                           COMMAND     CREATED       STATUS       PORTS                             NAMES
593c5bffbce9  docker.io/rustfs/rustfs:latest  rustfs      21 hours ago  Up 21 hours  0.0.0.0:9000-9001->9000-9001/tcp  exciting_herschel

podman compose 安装

将如下内容写入 podman-compose.yml 文件:

services:
  rustfs:
    image: docker.io/dllhb/disk-cap:0.0.1
    container_name: rustfs
    hostname: rustfs
    environment:
      - RUSTFS_VOLUMES=/data/rustfs{1...4}
      - RUSTFS_ADDRESS=0.0.0.0:9000
      - RUSTFS_CONSOLE_ENABLE=true
      - RUSTFS_CONSOLE_ADDRESS=0.0.0.0:9001
      - RUSTFS_ACCESS_KEY=rustfsadmin
      - RUSTFS_SECRET_KEY=rustfsadmin
      - RUST_LOG=warn
    ports:
      - "9000:9000"  # API endpoint
      - "9001:9001"  # Console
    volumes:
      - ./data1:/data/rustfs1
      - ./data2:/data/rustfs2
      - ./data3:/data/rustfs3
      - ./data4:/data/rustfs4

    networks:
      - rustfs

networks:
  rustfs:
    driver: bridge
    name: rustfs

接着执行:

podman compose up -d

查看容器状态:

podman compose ps
CONTAINER ID  IMAGE                           COMMAND          CREATED             STATUS             PORTS                             NAMES
f6496b7856f3  docker.io/dllhb/disk-cap:0.0.1  /usr/bin/rustfs  About a minute ago  Up About a minute  0.0.0.0:9000-9001->9000-9001/tcp  rustfs
注意,需要把 data* 目录的权限改成 10001,因为 RustFS 是非 root 用户运行,不修改权限,会导致权限问题。

使用 RustFS

不管用哪种方式,当 RustFS 运行正常后,就可以通过 http://IP:9001 的方式登录 RustFS,默认用户名和密码都是 rustfsadmin/rustfsadmin