2026年1月

西北工业大学StereoMV2D突破3D物体检测深度难题,精度与效率兼得

论文标题:StereoMV2D: A Sparse Temporal Stereo-Enhanced Framework for Robust Multi-View 3D Object Detection

作者团队:西北工业大学苏州科技大学

发布时间:2025年12月19日

论文链接:

大模型实验室Lab4AI论文阅读

✔️研究背景

多视图3D物体检测需在检测精度和计算效率间取得平衡。稀疏查询基方法(如MV2D)通过2D检测结果初始化3D查询,提供了高效的端到端检测范式,但单帧2D检测存在深度模糊问题,导致3D查询初始化不准确。

现有融合时序立体建模的方法多依赖密集代价体构建,引入大量计算与内存开销,难以兼容稀疏查询类方法的高效特性,形成研究缺口。

✔️研究内容

针对单帧 2D 检测的深度模糊缺陷,以及现有时序立体建模方法计算开销大的问题,本研究旨在提出一种统一框架,将时序立体建模融入稀疏查询检测范式,在保持稀疏查询类方法高效性的同时,增强深度感知能力,提升多视图 3D 目标检测的精度与鲁棒性,实现精度与效率的良好平衡。

✔️核心思想

1️⃣匹配同一物体

汽车运动、场景变化时,系统需在前一帧与当前帧图像中匹配同一物体。
论文采用 “运动感知软匹配” 模块,结合物体外观与运动趋势,建立跨帧关联。

2️⃣物体区域内算深度

匹配到同一物体的跨帧图像后,StereoMV2D 仅在物体对应的感兴趣区域(RoI)内开展精细立体计算,减少计算量;通过对比物体在两帧图像中的细微位移,精准计算其真实距离。

3️⃣智能筛选有效信息

针对现实场景中物体新出现或被遮挡的动态情况,论文设计动态置信门控机制,自动判定采用立体测量结果,还是回退至单帧图像的推测结果。

现在互联网行业竞争这么激烈,网页界面设计得好不好,不光影响用户用着顺不顺手,还直接关系到产品能不能留住人。大厂设计师能做出让人眼前一亮的界面,除了自身本事硬,背后肯定少不了好用的设计工具帮忙。下面就给大家盘点 7 款 UI 设计师平时常用的网页设计软件,不管是新手还是老手,都能找到适合自己的。
一、UXbot:原型、交互、开发一条龙搞定
核心功能:

  • 多页面自动生成:你只要把想法用文字说清楚,它就能自动画出完整的用户使用流程,还会告诉你背后的设计思路。可以自己选要生成哪些页面,一次性做出整套界面,不用再一点点拼凑,大大节省时间。
    image.png
  • 自由编辑超灵活:既能用说话、打字的方式快速操作,也有专业的精细编辑器,能精准调整到每一个像素。不管是改页面布局、换设计风格,还是换图片文字,都能精准满足需求,创意和专业性都不耽误。
    image.png
  • 交互原型一键分享:马上就能生成能实际操作的演示原型,点一点、滑一滑都跟真的产品一样,还能直接分享给别人。不管是给客户演示、团队内部讨论,还是项目推介,都能让大家直观看到效果,更有说服力。
    image.png
  • 自动生成前端代码:界面设计一确定,它就会自动生成能直接用的前端代码,还能适配 vue.js 这种常用框架。设计效果和代码能无缝衔接,甚至能一键传到云服务器上,再也不用纠结设计和开发脱节的问题了。
    image.png
  • 多平台协作方便:能一键导出 HTML 或 Sketch 格式,还能设置不同人的查看、编辑权限,团队随时随地都能协作,设计和开发衔接更顺畅。

适用场景:
中小型企业、工作室做项目演示,能快速把商业想法变成可展示的原型;企业做数字化项目,跨部门一起做内部工具或客户产品;设计和开发团队合作,减少沟通误会,提高原型评审和代码转化效率;产品更新优化时,快速验证新功能的逻辑和用户体验。

二、Adobe Illustrator:矢量设计的王牌
核心功能:

  • 专门做矢量图形,用来设计网页里的图标、装饰图案、品牌插画再合适不过了,不管放大多少倍,画面都清晰锐利,不会出现模糊、边缘变形的情况。
  • 有钢笔工具、形状生成器这些强大的图形编辑功能,不管是复杂的几何形状,还是自定义的创意图形,都能轻松画出来,满足各种视觉设计需求。
  • 文字排版能精准调控,字体、字号、行间距、字间距都能细细调整,能做出整齐又好看的界面文字布局,让整个页面的视觉质感更棒。
    适用场景:
    主要用来设计网页里的矢量元素,比如企业官网的品牌 LOGO、导航栏的功能图标、页面里的装饰插画,还有需要精细排版的标题、说明文字等。
    image.png

三、Sketch:UI/UX 设计的高效小帮手
核心功能:

  • 就是为 UI/UX 设计量身做的,界面简单明了,新手也能快速上手,不用花好多时间学操作。
  • 有智能自适应布局功能,设计能适配不同屏幕的网页时,调整一个元素的大小,和它相关的其他元素会按照预设的规则自动调整,不用手动一个个改位置、调大小,省了好多事。
  • 支持装各种插件,比如切图、填充数据、生成标注的插件,能大大提高设计效率,和开发团队合作也更顺畅。
  • 有符号复用功能,把按钮、输入框这些常用元素设为 “符号”,后面只要改一下原始的 “符号”,所有用了这个 “符号” 的地方都会自动更新,能保证整个设计的一致性。
    适用场景:
    特别适合互联网创业公司快速做产品原型,比如开发新的网页应用时,设计师能用它高效完成界面设计和原型制作,快速验证产品思路,缩短项目周期。
    image.png

四、Adobe Photoshop:界面视觉精修神器
核心功能:

  • 经典的图像处理软件,功能特别全,调颜色、抠图、合成图片、修细节都能搞定,能给网页界面打造出精致的视觉效果。
  • 用图层来管理内容,导航栏、正文、背景图这些元素可以分别放在不同的图层上,能灵活控制每个图层的显示、隐藏和透明度,改一个元素的时候不会影响到其他内容。
  • 有各种滤镜和特效工具,能快速做出模糊、阴影、发光这些效果,让界面更有层次感和立体感,看起来更吸引人。
    适用场景:
    适合对视觉效果要求高、需要大量处理图片的网页项目。比如电商平台的首页设计,商品图片精修、促销海报制作、页面氛围渲染这些工作,用它都能高效完成。
    image.png

五、Axure RP:专业的交互原型工具
核心功能:

  • 是专门做原型设计的工具,不光能做出高还原度的界面,还能做可交互的产品原型。可以给元素加点击跳转、滑动切换这些交互效果,甚至能设置条件逻辑,完整模拟用户实际使用的流程。
  • 有丰富的元件库,还能自己做自定义元件,轻松做出表单、弹窗、导航菜单这些常见的界面组件,还能给元件改样式,贴合项目的整体设计风格。
  • 支持多人一起编辑,团队成员能共同管理原型项目,生成的 HTML 格式原型文件,开发、测试的同事不用装专门的软件,直接就能查看和体验。
    适用场景:
    在网页产品的前期规划和交互设计阶段特别有用。比如开发新的网页应用,或者给现有网站改版时,设计师和产品经理能用它快速搭建原型,做用户测试和方案验证,确保产品的交互逻辑符合用户需求。
    image.png

六、Adobe XD:设计到原型无缝衔接
核心功能:

  • 把设计、原型制作、动效设计三个功能整合到一起,设计师不用在好几个软件之间来回切换,在一个界面里就能完成从静态设计图到动态原型的全部工作。
  • 支持响应式设计布局,设置好断点和约束条件,就能快速适配电脑、平板、手机等不同屏幕尺寸,让设计更灵活、适用范围更广。
  • 有重复网格功能,设计新闻列表、产品列表这种界面时,只要做好一个列表项,一键就能生成多个相同样式的元素,不用重复设计,省了好多时间。
    适用场景:
    适合 UI/UX 设计师做网页界面设计和原型制作,尤其是需要给客户展示设计效果、给团队评审交互流程的时候。比如做方案汇报,用它生成的可交互原型,能让大家更直观地感受到产品的功能和操作体验。
    image.png

七、InVision:原型测试和团队反馈的高效平台
核心功能:

  • 专注于原型设计和团队协作,能导入 Sketch、Adobe XD 等多种格式的设计文件,方便整合不同来源的设计资源。
  • 有丰富的交互动画模板,设计师能轻松给原型加页面切换、元素弹出、下拉刷新这些动画效果,让原型更真实、更有吸引力。
  • 评论批注功能很方便,团队成员和客户能直接在原型上标注意见和建议,设计师能快速找到需要修改的地方,不用反复沟通确认,能加快项目推进速度。
    适用场景:
    在网页项目的后期测试和反馈阶段优势特别明显。比如完成界面设计和原型制作后,用这款工具能快速和开发团队、测试团队、客户对接,收集大家的意见,及时优化设计方案,确保最终的产品符合预期。
    image.png

总结
总的来说,这 7 款网页设计软件各有各的优势,UI 设计师可以根据项目的具体需求、团队的协作方式来灵活选择。对于做网页设计的从业者和爱好者来说,摸清这些工具的特点和适用场景,熟练用它们辅助设计,既能提高工作效率,也能让自己的作品更有竞争力,做出更优质的网页界面。

随着数字化转型的加速,客户关系管理(CRM)系统已成为企业不可或缺的工具。无论是销售、市场还是客户服务团队,CRM都在提升效率、优化客户体验、推动业绩增长方面发挥着核心作用。2026年,CRM市场竞争更加激烈,各大厂商不断创新,功能日益强大。但对于预算有限的中小团队,如何选择一款既实用又经济的CRM系统,成为了亟需解决的问题。

本文将盘点目前市场主流的CRM系统,包括Salesforce、Zoho CRM、HubSpot CRM、Microsoft Dynamics 365、Pipedrive、Freshsales等,从权威评测和用户反馈中提炼优缺点,并针对预算有限的团队给出建议。


一、主流CRM系统概览

根据Gartner、Capterra、PCMag等权威机构2026年最新评测,以下几款CRM系统在全球市场占有率和用户口碑方面表现突出:

  1. Salesforce CRM
  2. Zoho CRM
  3. HubSpot CRM
  4. Microsoft Dynamics 365
  5. Pipedrive
  6. Freshsales

二、各CRM系统优缺点详解

1. Salesforce CRM

优点

  • 功能最全:作为全球领先的CRM,Salesforce拥有极为丰富的功能模块,包括销售自动化、营销自动化、服务管理、分析报表、AI智能助手等,适用于各类企业。
  • 高度可扩展:支持自定义开发、API集成,拥有庞大的应用生态(AppExchange),可根据业务需求进行深度定制。
  • 数据安全与合规性:通过多项国际认证,数据安全和隐私保护能力强。

缺点

  • 价格昂贵:基础版起步价较高,功能越多费用越高,适合预算充足的大中型企业。
  • 学习成本高:系统复杂,员工培训和实施周期较长。
  • 小团队功能过剩:许多功能对小型团队来说用不上,造成资源浪费。

适用建议

预算有限的团队不建议首选,除非对功能有极高要求。


2. Zoho CRM

优点

  • 性价比高:Zoho CRM以实惠的价格提供全面的CRM功能,尤其适合中小企业和初创团队。
  • 易用性强:界面简洁,操作直观,上手快,支持中文界面和本地化服务。
  • 功能丰富:涵盖销售管理、市场营销、自动化流程、数据分析等,支持多渠道集成(邮件、社交、电话等)。
  • 生态完善:与Zoho旗下其他产品(如Zoho Campaigns、Zoho Desk、Zoho Finance等)无缝集成,形成一体化办公平台。

缺点

  • 高级定制有限:虽然支持一定程度的定制,但与Salesforce相比,深度开发和复杂流程支持略弱。
  • 第三方集成略少:部分外部应用集成不如Salesforce丰富,但主流需求基本覆盖。

适用建议

预算有限的团队首选之一,尤其适合追求高性价比和易用性的企业。


3. HubSpot CRM

优点

  • 免费基础版:核心CRM功能完全免费,适合预算极其有限的团队。
  • 营销自动化强:HubSpot在营销自动化和内容管理领域表现突出,适合需要市场推广的团队。
  • 界面友好:设计现代,用户体验好,支持拖拽式自定义。

缺点

  • 进阶功能收费:如销售自动化、分析报表、客户服务等高级功能需付费,且价格逐级递增。
  • 本地化支持有限:中文支持和本地服务不如Zoho CRM。

适用建议

预算有限且对营销自动化有需求的团队可以优先考虑,尤其是初创企业。


4. Microsoft Dynamics 365

优点

  • 与Office生态无缝整合:适合已采用微软产品的企业,提升协同效率。
  • 功能全面:涵盖销售、市场、客服、项目管理等模块。
  • 强大分析能力:集成Power BI,数据分析和报表功能突出。

缺点

  • 价格偏高:整体费用不低,功能模块按需购买,成本易超预算。
  • 实施复杂:需要专业IT团队支持,学习曲线陡峭。

适用建议

预算有限的团队不建议优先考虑,适合已有微软生态的大型企业。


5. Pipedrive

优点

  • 专注销售流程:以销售为核心,流程清晰,适合销售驱动型团队。
  • 价格合理:基础版价格较低,按需升级,适合中小企业。
  • 易于使用:界面简洁,功能聚焦,学习成本低。

缺点

  • 功能相对单一:以销售为主,市场营销、客服等模块较弱。
  • 分析能力有限:数据分析和报表功能不如Salesforce和Zoho CRM全面。

适用建议

预算有限且以销售为主的小型团队可以优先考虑。


6. Freshsales(Freshworks CRM)

优点

  • 一体化解决方案:集成销售、市场、客服于一体,适合需要全流程管理的团队。
  • 价格亲民:基础版价格适中,功能覆盖日常需求。
  • 自动化强:支持销售自动化、邮件跟进、线索评分等。

缺点

  • 本地化支持一般:中文支持和国内服务有待提升。
  • 生态有限:与第三方应用集成不如Salesforce和Zoho CRM广泛。

适用建议

预算有限且希望一体化管理的小型团队可以考虑。


三、权威评测与用户反馈

Gartner魔力象限(2026)

  • 领导者象限:Salesforce、Microsoft Dynamics 365
  • 挑战者象限:Zoho CRM、HubSpot CRM
  • 远见者象限:Freshsales、Pipedrive

Capterra用户评分(2026)

CRM系统总分(满分5)易用性性价比客户支持
Salesforce4.64.23.84.5
Zoho CRM4.44.54.74.4
HubSpot CRM4.54.74.64.3
Dynamics 3654.34.03.94.2
Pipedrive4.34.64.54.1
Freshsales4.24.44.34.0

媒体点评(PCMag、TechRadar、Forbes)

  • Salesforce:功能无敌,但价格高昂,适合大企业。
  • Zoho CRM:中小企业首选,性价比极高,功能实用。
  • HubSpot CRM:免费入门,营销自动化强,适合初创团队。
  • Pipedrive:销售团队利器,流程简明,价格合理。
  • Freshsales:一体化管理,适合成长型企业。

四、预算有限团队的选择建议

1. 明确需求

首先,团队需明确自身需求:是以销售为主、市场为主,还是需要全流程管理?是否需要高度定制?对本地化支持有无要求?

2. 价格与功能平衡

  • 预算极低且重视营销自动化:优先考虑HubSpot CRM免费版,后续可根据需求升级。
  • 追求高性价比与易用性Zoho CRM是最佳选择,价格合理,功能全面,支持中文及本地服务。
  • 专注销售流程Pipedrive简单高效,适合销售驱动型团队。
  • 一体化管理Freshsales功能均衡,价格适中。
  • 对微软生态有依赖:可考虑Dynamics 365,但需预估预算与实施成本。

3. 试用与评估

大多数CRM厂商都提供免费试用期,建议团队先实际操作,体验界面、功能和服务,再做最终决定。


五、Zoho CRM的独特优势

Zoho CRM在预算有限团队中的独特优势:

  • 价格透明,套餐灵活:支持按需选择,避免资源浪费。
  • 本地化服务强:中国区设有专属团队,支持中文界面、微信集成等。
  • 生态系统完善:可无缝连接Zoho旗下办公、财务、项目等产品,提升团队整体协作效率。
  • 自动化与智能分析:通过AI助手Zia,实现线索评分、销售预测、自动提醒等功能,帮助小团队提升业绩。
  • 安全合规:通过GDPR、ISO等国际认证,保障数据安全。

六、结论

2026年CRM市场百花齐放,各大系统各有千秋。对于预算有限的团队,选择CRM时应以“实用性、性价比、易用性”为核心标准。综合权威评测与用户反馈,Zoho CRMHubSpot CRMPipedriveFreshsales是最值得推荐的四款,能够兼顾成本与功能,助力中小团队高效管理客户关系,实现业绩增长。

最后建议,团队应结合实际需求,积极试用,多参考权威评测和用户口碑,选出最适合自己的CRM系统。未来,CRM将继续智能化、自动化,成为企业数字化转型的强力引擎。

Mistral 近日发布了其光学字符识别(optical character recognition,OCR)模型的最新版本,Mistral OCR 3,该版本专注于在多种文档类型上实现更高的精度,包括手写笔记、表单、低质量扫描件以及结构复杂的表格。

 

据 Mistral 表示,OCR 3 相较于前一代产品是一次重大的飞跃。在基于真实客户文档工作流的内部评估中,新模型在整体表现上以 74%的胜率超越了 Mistral OCR 2,尤其在表单、手写内容和含大量表格的文档上优势更为显著。这些基准测试采用模糊匹配(fuzzy-match)指标与人工标注的真实结果进行比对,旨在反映实际业务场景,而非理想化的合成数据。

图片来源:Mistral 博客

 

从技术角度看,Mistral OCR 3 不仅能够提取文本,还能识别并保留嵌入的图像,同时完整保留原始文档的结构信息。它的输出格式为 Markdown,其中表格通过 HTML 标签(如 rowspan 和 colspan)重建,使下游系统不仅能获取纯文本,还能保留布局语义。这一特性使其非常适合需要结构化 JSON、可搜索档案的管道,或集成到智能体(agentic)和检索增强系统(RAG)中。

 

在以往通常依赖人工复核的场景中,该模型也展现出显著的进步。它能够高效处理手写内容,包括连笔的笔记和批注。在表单解析方面,对标签、复选框及混合输入项的识别更加准确。此外,OCR 3 对扫描档案中常见的倾斜、压缩伪影、低分辨率以及背景噪点等问题具备更强的健壮性。

 

早期用户特别强调了其性能提升和多语言方面的支持能力。ICT 安全负责人兼 AI 安全专家 Patrick Jacobs评论说:

在速度方面,真的令人印象深刻,而且它处理荷兰语毫无压力。

 

得益于准确率的大幅提升,Mistral OCR 3 的生产部署正在快速扩展。Techseria 创始人兼首席顾问 Niraj Bhatt分享了其实际应用的变化:

我们一直在生产环境中使用 Mistral OCR 处理销售和采购发票,实现 ERP 系统的零人工数据录入。现在 v3 在表单和手写内容上准确率提升了 74%,终于让我们能够将覆盖范围扩展到送货单、水电账单以及过去只能靠人工处理的遗留档案。

 

在定价方面,Mistral OCR 3 的标准费率为每 1000 页 2 美元;若使用 Batch API,成本可降至每 1000 页 1 美元,使其成为许多企业级 OCR 系统的高性价比替代方案。开发者可通过 API 直接集成模型(标识符为 mistral-ocr-2512),非技术用户则可通过拖放式的 Document AI Playground 界面轻松使用。

 

对于具有严格数据治理要求的组织,Mistral 提供了私有化的部署选项,确保 OCR 工作负载完全运行在客户可控的基础设施内。

 

如今,Mistral OCR 3 已经可以使用了,并完全向后兼容 OCR 2。

 

原文链接:

Mistral Releases OCR 3 With Improved Accuracy on Handwritten and Structured Documents

本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

我们采访了百度智能云平台产品事业部算法架构师、千帆策略部负责人吴健民,他指出,Agentic 模型训练最大卡点不是模型,是真实环境复刻,外部接口、数据库、登录依赖等真实链路的稳定访问,技术实现门槛极高。在当前,通用全能的 Agentic 模型现阶段不可能实现,业务场景、工具、环境差异过大,通用模型泛化性有限,针对垂直场景的模型定制和持续学习或是破局关键。

在多模态模型发展方面,吴健民指出,视觉生成主流为 模型框架从 Diffusion Model 发展到 Flow Matching,效果、稳定性碾压前代方案,视觉理解模型仍以 ViT Encoder 嫁接语言模型的主流方案,模型能力迭代的主要聚焦在垂直方向的数据合成。虽然工业和学术界有很多尝试,当前未真正实现多模态理解和生成的统一建模,目前分开独立优化效果依旧优于融合建模。

下面是详细对话内容,以飨读者。

“没有模型可以支持所有 Agent 场景”

InfoQ:如何让大模型更好支持 Agent 应用?技术有哪些瓶颈?

吴健民:目前我们的研发目标,是让模型能够在各类 垂直 Agent 场景中更好地发挥作用。其中,最核心、发展也最快的场景是 Coding Agent,包括通用编程以及面向网页开发或特定垂直领域的 Agent 应用。现阶段,我们的工作重点之一就是更具体地聚焦在网页开发相关的 Agent 能力上。

在这一过程中,有一个重要的问题需要回答:SOTA 的通用模型是否能在各种垂直 Agent 场景下都能达到工业级的效果。就目前来看,具备这种能力的通用模型还没有出现。

原因在于,不同 垂直 Agent 所处的场景设定、可使用的工具集合以及运行环境差异极大,而当前的通用模型尚不足以在如此多样的场景中实现稳定泛化。因此,围绕具体应用场景定制模型,反而更容易形成优势。

此外,不同场景对效果的评估标准也存在显著差异,即 Reward 的定义并不通用。如果一个场景能够清晰地定义 Reward,并且该 Reward 判断能够高效自动地完成,那么针对这一场景通过强化学习在通用基座模型上定制训练的 Agentic 模型,往往可以显著超过现有通用模型。

第二个难点在于环境的复杂性。以代码场景为例,其运行环境不仅涉及代码本身,还包括外部接口调用、工具使用、数据库依赖,以及登录、扫码等一系列真实应用中的外部依赖。在训练过程中,这些依赖都必须能够被高并发、稳定地访问,这对技术实现提出了很高要求。

第三个挑战在于强化学习系统本身。当前业内已形成共识,即要实现模型在特定场景中的持续迭代,必须依赖一套在该场景下运行顺畅、具备高效率和高吞吐能力的强化学习系统。由于强化学习系统本身的架构复杂性,也出现了不少 RLaaS 的平台产品,把算法复杂性封装在平台内,业务仅需要聚焦在业务场景定义,Reward 评估方案制定和迭代。这也是百度千帆平台 26 年的重点业务方向。

InfoQ:那现在有没有比较通用、效果较好的强化学习框架?

吴健民:目前开源社区中已有不少强化学习框架,例如 OpenRLHF、TRL 以及 VeRL 等,它们基本覆盖了强化学习流程中的主要环节。但在工业级应用中,这些框架仍然不够成熟,特别是涉及多轮工具调用的 Agentic 场景,往往需要进行深度定制和打磨。

打磨方向主要在两个方面:首先是模型规模支持,严肃应用往往依赖参数量较大的 SOTA 模型,例如百度文心或 DeepSeek 开源的模型,强化框架能否高效支撑这类大模型至关重要;其次是 Agent 训练能力,早期的强化学习多集中于单步任务,例如数学推理,而代码类、客服、DeepReasearch 等 Agent 更依赖多轮工具调用的复杂交互,这就要求强化训练框架能够配合一整套稳定、高效的脚手架系统。

此外,工业级 Agentic 模型的 研发对整体技术栈的要求极高,包括沙盒环境以及高性能、高并发的调度运行能力;若涉及联网搜索,还需要稳定的高并发搜索 API 支持。因此,具备云计算或搜索基础能力的团队往往更具优势。

InfoQ:要在基座模型上增强 Agentic 能力,需要哪些技术支持?

吴健民:这一问题的核心仍然在于强化学习如何在基座模型之上更好地服务于具体场景。强化训练的本质并不是创造全新的能力,而是激发和稳定模型在特定场景中的既有能力。因此,首要前提是基座模型本身在目标场景上具备优势。这种优势通常来源于预训练阶段的数据分布。例如,搜索相关数据占比更高的模型,在代码类 Agent 场景中往往更具潜力,不同场景基座模型的选择,通常观察基座模型在对应场景的 Pass@k 指标,即推理多次能得到正确答案的比例。Pass@k 指标高的模型,有更大空间通过强化学习训练激发并稳定模型在对应场景的表现。

另一个关键依赖是训练效率。强化学习的过程本质上更接近一种搜索机制:模型通过大量尝试生成不同路径,Reward 对每次尝试进行优劣评估,并将表现较好的路径通过强化训练反馈到模型参数中。在这一过程中,生成尝试路径(Rollout)通常占据 80%—90% 的时间成本。因此,是否能够以高吞吐方式高效完成 Rollout,是强化训练成败的关键。这个过程的关键是“训推一体”的技术,实现训推计算资源的高效利用以及训练精度差异的对齐。

InfoQ:另外,现在强化学习的 scaling 在业内似乎未形成共识?

吴健民:的确不像预训练 scaling 一样普遍的共识。过去,强化训练通常只占总体训练很小的一部分,被视为对预训练模型的微调,给预训练模型的蛋糕上放一个樱桃。而现在,强化训练的样本规模已经可以扩展到百万级,系统性地提升了模型推理和复杂问题解决能力。

要实现大规模多场景的强化训练,前提是结果评估能够准确自动完成,且最好能有稠密的评估奖励反馈。在代码或数学等评估相对确定的场景中,这一点相对容易实现,模型在代码和数学解题方向能力也得到显著提升。但在通用问答或复杂垂直场景中,由于缺乏统一、自动化的评估方案,规模扩展变得困难。这也是模型尚未在更通用场景实现泛化的重要原因。

尽管如此,业内普遍认为强化训练依然具有显著的 scaling 效果,问题的焦点转化到可泛化到评估奖励方案设计上。从依赖人工反馈的小规模 RHF,到基于规则甚至更通用奖励方案的 RLVR 强化训练,随着规模扩大,模型效果确实在持续提升,这一点在实际应用中也得到了验证。

InfoQ:通用 Agent 与专用 Agent 之间的能力差距,该如何弥补?

吴健民:当前主要存在两种思路。一种是追求在所有方向上都表现出超过人类的全能模型或 Agent,这本质上指向 AGI。业内对实现 AGI 需要的时间判断差异很大,而我们认为这一目标仍然相当遥远。另一种更现实的路径,是在特定专业场景中不断提升模型和 Agent 能力,能够在局部任务上超过人类水平,这在相当长一段时间内仍将是主流方向。

我们负责研发的全球领先的可商用自我演化超级智能体百度伐谋,为可以准确定义评估验证方案的 NP-hard 问题,提供高效的最优解演化方案,实现超过人类水平的效果。

InfoQ:长上下文能力对 Agent 的支持非常重要,应当如何建设?

吴健民:模型支持的上下文长度与 Agent 能力之间存在直接关系。上下文决定了模型能够记忆和理解的信息规模,而在复杂任务中,Agent 需要不断与环境交互,每一次反馈都会进入上下文,成为下一步决策的依据。因此,交互轮次越多,对模型长上下文理解能力的要求就越高。

在此基础上,业界也在探索通过 Agent 脚手架本身“放大记忆”的方案。类似人类并不会记住所有信息,而是通过笔记、字典或工具进行辅助,Agent 也可以通过工具使用来弥补上下文长度的限制。例如,在审核数百页合同的场景中,即便无法一次性将全文放入上下文,Agent 仍可以借助工具调用逐页查看、回溯关联内容,从而完成整体审核任务。从这个角度看,通过工具增强记忆能力,也是实现长上下文处理的一种有效路径,体现了 Agent 开发中 Progressive Disclosure 的原则。

InfoQ:在一些偏注意力机制的底层架构方面,业内是否做了调整?

吴健民:这个涉及模型网络结构本身的问题了。无论通过何种工具把上下文扩展得更长,模型本身的上下文理解能力始终存在上限。比如目前常见的 128K 或 256K 甚至 1M 上下文,长上下文能力的关键是模型能否准确理解高效处理,这依赖高效的注意力机制设计和实现。

模型利用上下文,在生成下一个 token 时,一个重要的观察是:并非全部上文 token 都对预估当前 token 同等重要,真正起作用的往往只是其中一小部分。基于这一特性,注意力机制可以采用稀疏化策略,不必对全部 128K 的 token 做同等精细的计算,可以采用比如 DeepSeek DSA 方案,先租略进行一次快速扫描,再对相关性高的部分 token 进行精细注意力计算。另一个思路是把上文 token 进行分块,先筛选相关的块,再对相关块内 token 进行精细注意力计算。结合两个方案的优势,也是一个实现的思路。

InfoQ:2025 年 MoE 架构被广泛采用,是否意味着更强模型的整体方向已经基本确定?

吴健民:MoE 架构被广泛应用到搜索、推荐等不同预估场景。大模型提到的 MoE,实际上是稀疏 MoE。其实从去年年初开始,这项技术就在业内受到较多关注。它要解决的核心问题仍然是 Scaling Law:随着模型参数规模不断增大,训练和推理成本也在持续上升,是否能在保持参数规模扩展的同时,控制实际训推计算的成本。

MoE 给出的答案是肯定的。通过这种方式,可以在继续增大模型总参数的同时,让训练和推理所实际使用的参数规模保持次线性增长。具体而言,在 Transformer 架构中,MoE 将原本的全连接层拆分为多个对等的小模块,即“专家”,在每次前向推理只激活其中一部分,从而显著降低计算成本。稀疏 MoE 已逐渐成为业内的主流选择,稀疏比耶做到了 5% 甚至更低的水平,成为推动模型规模继续扩展的一种现实可行方案。

多模态模型架构层逐渐收敛

InfoQ:从单一模态发展到多模态并引入 Agent,在底层架构上发生了哪些变化?

吴健民:一个最显著的变化,是在原有语言模型基础上引入视觉能力,这也是从去年开始 VLM 大量出现的主要方向。实际工作中,核心仍然在语言模型本身:通常是在语言模型训练到一定阶段后,引入视觉编码器,并用图文对其数据与语言模型联合训练,对齐文本和视觉 token,使模型能够理解视觉信号。这种 “桥接”或“嫁接”的方案,逐步成为当前的主流方案。

在多模态领域,一个长期目标是希望视觉模型也能像语言模型一样有很好的Scaling Law,但这一问题至今仍未解决。视觉信号本身的信息密度比较低,它更像是自然世界的直接映射,并不一定承载明确的知识结构。相比而言,互联网上存在的海量文本数据,是人类产生的对世界知识的总结压缩,信息密度很高。这使得仅依赖视觉输入进行大规模训练,难以达到语言模型那样的效果。

因此,现有方案高度依赖图文对齐数据,即为图片配备高质量、细粒度的文本描述,通过充分对齐文本与图片,来提升模型的理解能力。但这类数据难以规模化获取,不易全面覆盖实际的图片分布,目前行业可用的规模大致在 3–5T token,量级上存在明显差距,也限制了多模态模型的进一步 scale。

InfoQ:2025 年文生图、图生图模型更新频繁,突破点主要在哪里?

吴健民:这属于视觉生成方向。从 Sora 开始,这一领域受到了广泛关注,也出现了不少高质量的开源项目,支持生成效果不断提升。但像 Sora 2 或 Nano Banan 等业内 SOTA 的生成模型,其具体实现细节并未完全公开。

从算法角度看,视觉生成方案本身仍在快速演进,从早期的 Stable Diffusion 到当前的 Flow Matching,建模方法和训练效率都得到了显著优化。不过,从能力定位上看,视觉生成模型更偏向专精模型,主要解决“生成”的问题,也有观点认为,生成模型可能进一步发展为所谓的“世界模型”,即在理解物理规律的基础上生成符合现实约束的内容,进而通向 AGI 的实现。

2026 方向:生成与理解的统一建模

InfoQ:在此基础上,未来一段时间,尤其是 2026 年,大家主要会沿着哪些方向继续演进?

吴健民:一个非常重要的方向,多模态生成与理解的统一建模。很多公司都在尝试通过统一的多模态建模方式,让生成能力和理解能力形成协同效应,而不再是彼此割裂。这意味着模型既不是单纯为生成而设计,也不是只服务于理解任务。外界对 GPT-5 等模型也曾寄予类似期待,尽管目前看相关路径尚未完全跑通,但可以确定的是,这一方向仍在持续探索之中。

InfoQ:在专家视角下,生成与理解真正实现统一,应当达到什么样的效果?

吴健民:最终评价标准仍然是结果导向。如果通过统一训练得到的模型,在生成和理解两个维度上的表现,都优于分别独立训练的模型,那么这种统一才是有意义的。举例来说,如果一个生成 - 理解统一模型在生成质量上能够超过当前生成领域的 SOTA 模型,那么就可以认为内生的理解能力确实提升了生成效果。但就目前来看,分开针对生成和理解进行优化,独立效果仍然更好。

InfoQ:也就是说,目前融合后的效果还不如单独优化?

吴健民:是的,至少在现阶段仍是如此。

InfoQ:但很多团队似乎还是在把各种能力揉合进一个模型里。

吴健民:确实存在这种趋势,但并非所有团队都选择同一条路径。不同团队对通用人工智能实现方式的理解并不一致。

一种思路是将多种能力融合到单一模型中,希望模型像人一样具备听、说、读、写等多种模态能力,这是一种全模态模型的路线。

另一种思路则是强调模型学会使用工具。人类智能的显著提升,本质上源于工具使用能力的不断演进,从最原始的简单工具到今天的计算机系统,工具极大放大了人的能力。Agent 的发展,本质上正是沿着“工具使用”这一路径展开的,不同理解会带来不同的技术路线和实现方式,当前没有看到哪条路一定能走通。

InfoQ:2025 年“世界模型”这个概念被频繁提及,从语言模型到动态模型再到世界模型,这条演进逻辑是怎样的?

吴健民:“世界模型”这一说法本身就存在多种理解。最早在 Sora 第一代发布时,其自称为世界模型,核心目标是通过建模来理解物理世界的运行规律,尤其是借助视觉输入,让模型学习空间关系和物理约束,例如生成的视频必须符合基本物理常识。这一路线随后发展得很快,重点在于提升模型的空间感知推理和物理一致性。

但也存在另一种理解路径。例如 Meta 前段时间发布的 CWM 模型,强调的是代码能力和工具调用能力,同样定义为世界模型。在这种视角下,只要模型能够高效使用现实世界中的各种工具,就可以被视为对“世界”的一种建模。

Agentic 模型是今年必答题

InfoQ:展望明年,大模型能力提升的核心突破点可能来自哪些技术路线?

吴健民:明年的变化大概率会延续 2025 年已经显现的趋势。2025 年一个非常明显的方向是 Agentic Model,即模型具备稳定、准确的工具调用能力。代码场景已经率先验证了这一点,明年这一能力很可能扩展到更多应用场景,模型将不再只调用编程相关工具,而是能够使用更广泛的现实世界 API,这是一个较为明确的发展趋势。

InfoQ:那面对复杂环境,大模型将如何应对?

吴健民:通用场景的环境通常非常复杂,模型需要对接的 API 接口、数据库、人际交互界面等系统差异较大。针对后者,目前较为可行的方案,仍然是让模型在特定场景的 Agent 脚手架中学会熟练使用该场景所涉及的工具。尽管应用场景很多,但每个场景对应的工具集合通常是相对有限的。模型通过场景反馈不断优化工具使用方式,就可以逐步适应复杂环境。代码 Agent 场景正是一个典型例子,模型通常只需要掌握十几种工具调用方式,随着打磨程度提升,其在该场景下的表现也会持续改善。

在 Ubuntu 的默认配置中,当系统检测到仅存在一个操作系统时,GRUB 启动菜单会被隐藏,系统会直接进入内核启动流程。这种“无感启动”在桌面用户场景下较为友好,但在 服务器、运维、开发和多内核管理场景 中,会带来一系列明显的痛点。

可通过配置grub控制默认是否显示grub界面以及倒计时相关的配置

配置文件路径

  1. ubuntu grub配置文件路径

/etc/default/grub

  1. centos grub配置文件路径

/etc/sysconfig/grub

默认配置文件内容

# If you change this file, run 'update-grub' afterwards to update
# /boot/grub/grub.cfg.
# For full documentation of the options in this file, see:
#   info -f grub -n 'Simple configuration'

GRUB_DEFAULT=0
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=0
GRUB_DISTRIBUTOR=`lsb_release -i -s 2> /dev/null || echo Debian`
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"
GRUB_CMDLINE_LINUX=""

# Uncomment to enable BadRAM filtering, modify to suit your needs
# This works with Linux (no patch required) and with any kernel that obtains
# the memory map information from GRUB (GNU Mach, kernel of FreeBSD ...)
#GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"

# Uncomment to disable graphical terminal (grub-pc only)
#GRUB_TERMINAL=console

# The resolution used on graphical terminal
# note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo'
#GRUB_GFXMODE=640x480

# Uncomment if you don't want GRUB to pass "root=UUID=xxx" parameter to Linux
#GRUB_DISABLE_LINUX_UUID=true

# Uncomment to disable generation of recovery mode menu entries
#GRUB_DISABLE_RECOVERY="true"

# Uncomment to get a beep at grub start
#GRUB_INIT_TUNE="480 440 1"

主要关注以下三个参数

GRUB_DEFAULT=0
GRUB_TIMEOUT_STYLE=hidden
GRUB_TIMEOUT=0

GRUB_DEFAULT

默认引导项,可以有以下几种值

  1. saved 代表上次启动时选择的引导项
  2. 从0开始的数字,第一个引导项是0,第二个引导项是1,以此类推

如上图Previous Linux Versions存在的子菜单可以用2>0或者2>1表示

  1. grub选项名

GRUB_TIMEOUT_STYLE

grub显示风格,默认值是menu

可选值有menu,hidden,countdown

如果该选项未设置或者值设为menu,启动时将显示grub,并开启GRUB_TIMEOUT倒计时。倒计时结束前可以按任意键中断倒计时,否则倒计时结束后会引导GRUB_DEFAULT启动项。

如果选项设置为hiddencountdown,在显示grub界面之前会开启GRUB_TIMEOUT倒计时。倒计时结束前按ESC键中断倒计会进入grub界面,如果没有按ESC键进行中断操作,倒计时结束后会引导GRUB_DEFAULT启动项。

hiddencountdown的区别在于,hidden不显示倒计时读秒,countdown显示倒计时读秒

GRUB_TIMEOUT

这个参数代表grub的超时时间,单位是秒,默认值为5,设置为0代表不显示grub界面,-1代表一直等待

例子

GRUB_DEFAULT=0
GRUB_TIMEOUT_STYLE=menu
GRUB_TIMEOUT=5

修改后执行update-grub应用配置,重启后必定进入grub界面

GRUB_DEFAULT=1
GRUB_TIMEOUT_STYLE=countdown
GRUB_TIMEOUT=5

修改后执行update-grub应用配置,重启后在5秒倒计时结束前按ESC必定进入grub界面

GRUB_DEFAULT="2>1"
GRUB_TIMEOUT_STYLE=menu
GRUB_TIMEOUT=5

修改后执行update-grub应用配置,重启后在5秒倒计时结束后会引导指定启动项,这个方法对于客户要求进入旧版本内核比较好用

清华联合字节刷新 3D 头像技术!FlexAvatar 实现 “少图输入 + 高保真动态” 双重突破

论文标题:FlexAvatar: Flexible Large Reconstruction Model for Animatable Gaussian Head Avatars with Detailed Deformation

作者团队:清华大学字节跳动

发布时间:2025年12月19日

论文链接

大模型实验室链接Lab4AI论文阅读

🔍背景

以前做 3D 头像,要么得用专业设备拍几十上百张不同角度的照片,普通人搞不定;要么做出来的头像假,侧面看变形,做表情时没细节;要么动起来卡顿,或者只能做几种固定表情,没法自然还原复杂动作;要么得花几小时甚至几天调教模型,没法快速得到自己的头像。

🔍研究目的

本研究旨在构建一个无需相机位姿与表情标注、支持单张或稀疏输入的高保真可驱动3D头部虚拟人生成框架。

无需相机姿态和表情标签,仅从单张或稀疏图像中生成高保真、几何一致的可动画 3D 头部头像,同时兼顾实时渲染效率与动态细节真实性,填补现有技术在灵活性、保真度与实时性之间的平衡缺口。

🔍本文核心贡献

1️⃣灵活的重建模型:提出首个免相机位姿、免表情标签、支持任意数量输入的3D高斯虚拟人框架,基于结构化头部查询令牌(Head Query Tokens)实现特征聚合;

2️⃣动态高斯变形解码:设计以UV位置图为条件的UNet解码器,在UV空间生成表情相关的高斯属性变化,实现实时高保真驱动;

3️⃣数据分布调整策略:通过锚点表情筛选与相似帧检索,平衡训练集表情分布,提升动态细节学习效率;

4️⃣高效微调机制:10秒级的测试时优化可增强身份细节,且不影响实时驱动性能。

在数据分析与报表制作场景中,透视表凭借强大的维度聚合能力成为开发者的核心工具。但传统透视表的排序功能往往受限于固定规则,当用户需要根据业务逻辑自定义调整字段项顺序时,操作繁琐、灵活性不足的问题尤为突出——比如想按业务优先级调整产品类别顺序,或按部门协作逻辑重组数据维度,都需要额外编写复杂代码或手动修改数据源,严重影响工作效率。

为解决这一痛点,SpreadJS V19.0 重磅推出透视表拖动(自定义)排序功能,让用户无需复杂配置,通过直观的拖拽操作即可实现字段项顺序的自由调整,彻底重构透视表数据整理的便捷性。下面,我们将深入解析这一特性的核心价值与使用细节。

核心功能解析:灵活拖拽,精准控序

SpreadJS V19.0 的透视表拖动排序功能,以“直观操作+全面兼容”为设计核心,覆盖多种使用场景,满足不同用户的排序需求:
在这里插入图片描述

1. 多维度拖拽选择,适配多样操作习惯

功能支持四种灵活的拖拽选择方式,无论用户习惯精准选择还是批量操作,都能快速上手:

  • 仅选择字段头(PivotField Header):精准调整单个字段的整体顺序,不影响字段下的值区域;
  • 选择字段头及部分值区域:针对字段下的特定数据项进行排序调整,保留其他项的原有位置;
  • 选择字段头及全部值区域:批量移动整个字段及下属所有数据项,实现维度整体迁移;
  • 点击字段头选择全部值区域:一键选中字段关联的所有数据,简化批量拖拽操作。

2. 可视化拖拽流程,操作直观无门槛

拖拽过程全程伴随清晰的视觉指引,降低操作学习成本:

  1. 鼠标移动到选中区域边缘时,光标自动切换为“移动状态”,明确提示当前区域可拖拽;
  2. 按下鼠标开始拖拽后,系统会显示动态拖拽指示器,实时标注目标插入位置,避免误操作;
  3. 拖拽过程中,指示器会根据鼠标坐标智能判断:列字段按水平(x坐标)定位插入点,行字段按垂直(y坐标)定位,精准匹配透视表结构;
  4. 若拖拽的是父字段,指示器会自动跳过所有子字段的数据区域,确保层级结构不混乱;
  5. 释放鼠标后,选中的字段项会自动插入到指示器标注的位置,排序结果即时生效。

3. 排序选项智能联动,状态同步不脱节

拖拽排序后,字段项的排序状态会自动同步到透视表的排序选项对话框:当用户打开排序设置时,排序方式会默认切换为“手动(manual)”,清晰标识当前为自定义拖拽排序结果,避免与系统自动排序规则冲突,也方便用户后续按需切换排序方式。

典型应用场景:让数据整理更贴合业务逻辑

这一特性的推出,让透视表排序彻底摆脱固定规则的束缚,在多个核心场景中发挥价值:

  • 业务优先级排序:在销售报表中,将重点推广的产品类别拖拽到靠前位置,直观突出核心数据;
  • 协作场景适配:跨部门协作分析时,按协作流程拖拽调整部门、项目等维度顺序,让报表更符合团队工作逻辑;
  • 个性化报表展示:根据汇报对象需求,自定义调整透视表字段顺序,让数据呈现更具针对性;
  • 临时数据重组:数据分析过程中,快速拖拽字段项进行多维度组合尝试,无需修改数据源即可探索不同数据视角。

操作指南:3步完成自定义拖拽排序

  1. 选中目标:在透视表中选择需要排序的字段项(支持前文提到的四种选择方式);
  2. 开始拖拽:鼠标移动到选中区域边缘,待光标变为移动状态后,按下鼠标并拖动;
  3. 确认插入:拖动过程中观察拖拽指示器,到达目标位置后释放鼠标,字段项自动完成排序调整。

注意事项:这些边界场景需留意

为确保功能使用顺畅,以下两类操作暂不支持,开发者需提前知晓:

  1. 不支持选中整行或整列进行字段项拖拽:仅能通过选中“字段头”或“字段头+值区域”的方式进行拖拽,全选行/列无法触发字段项排序;
  2. 不支持同时选择不同父字段下的同名子字段进行拖拽:SpreadJS 仅支持单个子字段的独立拖拽,避免多父字段下的子字段混淆。

总结与展望:让透视表更懂业务需求

SpreadJS V19.0 推出的透视表拖动自定义排序功能,以“直观操作、灵活适配、精准控制”为核心优势,彻底解决了传统透视表排序灵活性不足的痛点,让数据整理更贴合业务逻辑,大幅提升报表制作与数据分析效率。

作为一款面向企业级应用的纯前端表格控件,SpreadJS 始终聚焦开发者与终端用户的实际需求,持续优化透视表等核心功能的使用体验。除了拖动排序,V19.0 还为透视表带来了日期分组、受保护工作表中启用透视表等多项增强能力,全方位提升数据处理能力。

如需了解更多功能细节,可访问 SpreadJS 官网 查看产品文档,或通过 在线 Demo 直接体验新特性。SpreadJS V19.0 即将正式发布,敬请期待这款更强大、更灵活的前端表格控件,为你的业务系统注入新的活力!

在全球汽车产业加速迈向电动化、智能化的背景下,数字化制造已成为车企提升竞争力的核心手段。传统汽车制造依赖固化的流水线和经验驱动决策,难以满足市场对个性化定制、快速迭代与质量精益化的需求。而数字化制造通过集成物联网、人工智能与数字孪生等技术,正推动工厂向“柔性、透明、智能”方向演进。这一趋势下,选择一家能够真正解决制造痛点的数字化服务商,成为车企战略布局中不可忽视的一环。
一、为什么数字化制造是整车领域的必选项?
汽车制造业的复杂程度远超其他行业。从冲压、焊接、涂装到总装,四大工艺环环相扣,精度要求极高。在传统模式下,生产线灵活性不足,订单响应慢,质量问题往往在最终环节才暴露,导致高额返工成本。例如,某传统车企的总装车间里,每台车的组装需要300名工人流水作业,焊接、拧螺丝、质检等环节高度依赖人工经验,不仅效率低下,更难保证品质一致性。
相比之下,数字化制造通过设备互联、数据互通与业务协同,显著提升了生产效率和质量管控能力。以实时数据采集为例,系统能够动态优化排产计划,应对混合车型共线生产的需求;借助AI视觉检测技术,车身焊点质量可实现100%在线评判,大幅降低漏检率;利用数字孪生技术,新车导入前即可在虚拟环境中验证工艺可行性,缩短量产爬坡周期。这些技术的集成应用,不仅解决了传统制造的痛点,更让工厂具备了快速响应市场变化的能力。
二、数字化服务商的关键能力是什么?
整车数字化制造涉及多技术融合与深层次行业知识,因此服务商的选择至关重要。一家优秀的数字化服务商,不仅需要提供技术平台,更需将技术落地为业务价值。这要求他们具备以下核心素质:
首先,服务商必须深度理解整车制造工艺,熟悉冲压回弹控制、焊接参数优化、涂装膜厚管理等具体场景。其次,技术整合与定制化能力不可或缺。由于车企设备品牌繁多、系统异构性强,服务商需具备软硬一体集成能力,实现从边缘设备到云平台的数据贯通。比第三,全局优化与生态协同能力是数字化制造的精髓。数字化转型不是单点工具替换,而是供应链、生产与售后全链路协同。最后,服务商需具备国际化服务与本土适配能力。随着中国车企出海,海外工厂的落地需要解决当地人才与标准差异问题。
三、案例:国内顶尖服务商的实践与成果
广域铭岛:从汽车集团走出的数字化专家
作为吉利体系孵化的工业互联网平台企业,广域铭岛基于Geega(际嘉)OS构建了整车数字化制造解决方案。在极氪智慧工厂,其通过工艺质量一体化系统,实现白车身尺寸精度控制在±0.5mm以内,订单交付周期缩短20%。同时,其智能能源管理系统帮助工厂年减排二氧化碳超过万吨,成为绿色制造的行业标杆。
长安汽车:全球领先的智慧工厂解决方案样板点
长安汽车与华为、中国联通共同打造的数智工厂,是全球首个全域5G数智AI柔性超级工厂。通过C2M模式驱动的柔性制造革命,长安实现了从“以产品为中心”到“以客户为中心”的转变。
赛力斯:AI赋能的未来工厂典范
作为新能源汽车领域的领军企业,赛力斯重庆两江分公司入选2024年重庆市未来工厂——AI赋能示范型。

我们在实际的项目开发的过程中,有时候不得不将文件从一种格式转换为另一种格式。

DOCX(由 Microsoft Word 使用)是一种非常常见的文件格式,被很多人使用。有时候,我们希望将 Word 文档转换为 HTML。

这可以通过 Mammoth 包轻松实现。它是一个用于将 DOCX 文件转换为 HTML 的简单、高效、快速的库。在本文中,我们将学习如何在 Python 中使用 Mammoth 将 DOCX 转换为 HTML。

安装 Mammoth

首先,在安装之前准备好并激活你的虚拟环境:

python3 -m venv myenv
. myenv/bin/activate

然后,使用pip安装 Mammoth:
pip3 install mammoth
本教程使用的 Mammoth 版本是 1.4.15。在测试的时候,请确保它是.docx 文件!

以上环境准备好后,现在让我们开始提取文本并将其转换成 HTML。

提取 DOCX 文件的原始文本

在转换为 HTML 时保留格式是 Mammoth 的最佳功能之一。这里我们只需要几行代码转换成你需要 DOCX 文件的文本。

使用 extract_raw_text()方法来获取它:

import mammoth

with open(input_filename, "rb") as docx_file:
    result = mammoth.extract_raw_text(docx_file)
    text = result.value # The raw text
    with open('output.txt', 'w') as text_file:
        text_file.write(text)

注意,此方法不会返回有效的 HTML 文档。它只返回页面上的文本,因此我们使用.txt 扩展来保存它。如果你确实需要保持布局或格式,你需要提取 HTML 内容。

将 Docx 转换为 HTML 并自定义样式映射

默认情况下,Mammoth 将文档转换为 HTML,但它不会提供有效的 HTML 页面。虽然网页浏览器可以显示内容,但它缺少一个<html>标签来封装文档,以及一个<body>标签来包含文档。

假设使用的是带有模板的网络框架。可能会定义一个模板来显示 Word 文档,并将 Mammoth 的输出加载到模板主体内。

Mammoth 不仅在如何使用其输出方面具有灵活性,而且在如何创建输出方面也具有很大的灵活性。特别是在我们想要样式化我们生成的 HTML 时,我们有很多选项。我们通过将每个 DOCX 格式规则匹配到相应的 CSS 规则来映射样式。

要查看你的 DOCX 文件有哪些样式,你有两个选择:

  1. 使用 MS Word 打开您的 docx 文件,并检查样式工具栏。
  2. 通过用解压管理器打开你的 DOCX 文件来研究 XML 文件,然后导航到/word/styles.xml并找到你的样式。

第二个选项适用于无法使用 MS Word 或无法解释和显示样式的替代文字处理程序的用户。

Mammoth 已经默认涵盖了某些最常用的样式映射。例如,Heading1在 docx 样式中映射到 HTML 元素的<h1>,bold被映射到 HTML 元素的 strong,等等。

我们还可以在映射时使用 Mammoth 来自定义文档的样式。例如,如果您想将 DOCX 文件中的所有bold出现次数更改为 HTML 中的斜体,可以这样子实现:

import mammoth

custom_styles = "b => i"

with open(input_filename, "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map = custom_styles)
    text = result.value
    with open('output.html', 'w') as html_file:
        html_file.write(text)

通过 custom_styles 变量,左边的样式来自 DOCX 文件,而右边的是相应的 CSS。
custom_styles = "b => "
有时我们转换的文档会有很多样式需要保留。这个时候再这样实现就会变得不切实际,要为每一个我们要映射的样式都创建一个变量。

不过有解法,我们可以使用docstrings一次映射我们想要的任意多个样式:

custom_styles = """ b => del
                    u => em
                    p[style-name='Heading 1'] => i"""

你可能已经注意到,最后的映射与其他的有点不同。在映射样式时,我们可以使用方括号[]并在其中添加条件,这样只有部分元素会以这种方式进行样式设置。

在我们的示例中,p[style-name='Heading 1']选择具有样式名称的段落Heading 1。我们也可以使用p[style-name^='Heading']来选择具有以Heading开头的样式名称的每个段落。

样式映射还允许我们将样式映射到自定义 CSS 类。通过这样做,我们可以随心所欲地修改 HTML 的样式。让我们举一个例子,我们在文档字符串中定义基本的自定义 CSS:

custom_css ="""
    <style>
    .red{
        color: red;
    }
    .underline{
        text-decoration: underline;
    }
    .ul.li{
        list-style-type: circle;
    }
    table, th, td {
    border: 1px solid black;
    }
    </style>
    """

现在我们可以更新我们的映射,以引用我们在<style>块中定义的 CSS 类:

custom_styles = """ b => b.red
                    u => em.red
                    p[style-name='Heading 1'] => h1.red.underline"""

并将 CSS 和 HTML 合并在一起:
edited_html = custom_css + html
这个时候如果 DOCX 文件包含任何这些元素,就能看到我们设置的样式结果。

通过以上方法我们已经知道如何映射样式,那就让我们使用一个更著名的 CSS 框架(以及相关的 JS)来让我们的 HTML 看起来更好,并练习一个更有可能的现实场景。

使用 Bootstrap(或其他任何前端框架)映射样式
就像我们之前处理custom_css一样,我们需要确保 CSS 与 HTML 一起加载。我们需要将 Bootstrap 文件 URI 或 CDN 添加到我们的 HTML 中:

bootstrap_css = '<link rel="nofollow" href="https://mybj123.com/links?url=aHR0cHM6Ly9jZG4uanNkZWxpdnIubmV0L25wbS9ib290c3RyYXBANS4wLjAtYmV0YTIvZGlzdC9jc3MvYm9vdHN0cmFwLm1pbi5jc3M=" rel="stylesheet" integrity="sha384-BmbxuPwQa2lc/FVzBcNJ7UAyJxM6wuqIj61tLrc4wSX0szH/Ev+nYRRuWlolflfl" crossorigin="anonymous">'
bootstrap_js = '<script src="https://cdn.jsdelivr.net/npm/bootstrap@5.0.0-beta2/dist/js/bootstrap.bundle.min.js" integrity="sha384-b5kHyXgcpbZJO/tY9Ul7kGkf1S0CWuKcCD38l8YkeH8z8QjE0GmW1gYU5S9FOnJ0" crossorigin="anonymous"></script>'

这里我稍微调整我们的 custom_styles,以匹配我们的新 CSS 类:

custom_styles = """ b => b.mark
                    u => u.initialism
                    p[style-name='Heading 1'] => h1.card
                    table => table.table.table-hover
                    """

在第一行,我们将粗体 DOCX 样式映射到具有类的 HTML 元素,该类是 HTML 标签的 Bootstrap 类,用于突出显示文本的一部分。bmark <mark>

在第二行,我们为 HTML 元素添加了类,稍微减小了字体大小,并将文本转换为大写。initialism u

在第三行,我们选择所有具有样式名称的段落,并将其转换为具有 Bootstrap 类的 HTML 元素,该类为元素设置多个样式属性,例如背景颜色、位置和边框。Heading 1 h1 card

在最后一行,我们将 docx 文件中的所有表格转换为 HTML 元素,并使用 Bootstrap 的类来给它一个新的外观,同时我们通过添加 Bootstrap 类使其在悬停时高亮显示。table table table-hover

和之前一样,我们使用点符号将多个类映射到同一个 HTML 元素,即使这些样式来自另一个来源。

最后,将 Bootstrap CDNs 添加到我们的 HTML 中:

edited_html = bootstrap_css + html + bootstrap_js

现在可以分享我们的 HTML,以下是完整的代码以供参考:

import mammoth

input_filename = "file-sample_100kB.docx"

custom_styles = """ b => b.mark
                    u => u.initialism
                    p[style-name='Heading 1'] => h1.card
                    table => table.table.table-hover
                    """


bootstrap_css = '<link rel="nofollow" href="https://mybj123.com/links?url=aHR0cHM6Ly9jZG4uanNkZWxpdnIubmV0L25wbS9ib290c3RyYXBANS4wLjAtYmV0YTIvZGlzdC9jc3MvYm9vdHN0cmFwLm1pbi5jc3M=" rel="stylesheet" integrity="sha384-BmbxuPwQa2lc/FVzBcNJ7UAyJxM6wuqIj61tLrc4wSX0szH/Ev+nYRRuWlolflfl" crossorigin="anonymous">'
bootstrap_js = '<script src="https://cdn.jsdelivr.net/npm/bootstrap@5.0.0-beta2/dist/js/bootstrap.bundle.min.js" integrity="sha384-b5kHyXgcpbZJO/tY9Ul7kGkf1S0CWuKcCD38l8YkeH8z8QjE0GmW1gYU5S9FOnJ0" crossorigin="anonymous"></script>'


with open(input_filename, "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map = custom_styles)
    html = result.value 

edited_html = bootstrap_css + html + bootstrap_js

output_filename = "output.html"
with open(output_filename, "w") as f: 
    f.writelines(edited_html)

此外,需要注意的一点是,在实际情况下,你可能不会像我们在这里所做的那样直接将 Bootstrap CSS 添加到 HTML 内容中。相反,你会将 HTML 内容加载或注入到一个特殊的 HTML 页面中,该页面已经包含了必要的 CSS 和 JS 捆绑包。

Mammoth 还允许我们修改我们正在转换的内容。

处理我们不想分享的图片

假设我们希望跳过 DOCX 文件中的图像不进行转换。convert_to_html()方法接受一个convert_image参数,这是一个图像处理函数。它返回一个应该转换并添加到 HTML 文档中的图像列表。

当然,如果我们覆盖它并返回一个空列表,它们将从转换后的页面中省略:
`def ignore_image(image):

return []`

现在,让我们将该函数作为参数传递到convert_to_html()方法中:

with open(input_filename, "rb") as docx_file:
    result = mammoth.convert_to_html(docx_file, style_map = custom_styles, convert_image=ignore_image)
    html = result.value
    with open('output.html', 'w') as html_file:
        html_file.write(text)

就是这样! Mammoth 在生成 HTML 文件时将忽略所有图像。

到目前为止,我们一直在用 Python 编程方式使用 Mammoth。Mammoth 也是一个命令行工具,因此我们有了另一个将 DOCX 转换为 HTML 的接口。让我们在下一节中看看它的工作情况。

使用命令行工具将 DOCX 转换为 HTML

使用 Mammoth 的 CLI 进行文件转换通常如下所示:

mammoth path/to/input_filename.docx path/to/output.html

如果你想将图像从 HTML 中分离出来,可以指定一个输出文件夹:

mammoth file-sample_100kB.docx --output-dir=imgs

我们也可以像在 Python 中那样添加自定义样式。首先需要创建一个自定义样式文件:
touch my-custom-styles
然后,我们将在其中添加自定义样式,语法与之前相同:

b => b.red
u => em.red
p[style-name='Heading 1'] => h1.red.underline

现在我们可以生成带有自定义样式的 HTML 文件:

mammoth file-sample_100kB.docx output.html --style-map=my-custom-styles

大功告成!您的文档已按定义的自定义样式进行转换。https://mybj123.com/28792.html

结语

文件类型转换在处理网页技术时是一种常见需求。将 DOCX 文件转换为易于操作的 HTML 格式,使我们能够根据需要重建数据。使用 Mammoth,我们学会了如何从 docx 中提取文本并将其转换为 HTML。

在转换为 HTML 时,我们可以使用我们创建的 CSS 规则或常见的 UI 框架提供的规则来样式化输出。我们还可以省略不需要在 HTML 中可用的数据。

吊塔旋转,机器轰鸣,尘土飞扬——这是你印象中的工地。

但如果你看得再仔细一点,会发现一些“不同寻常”的事情正在发生:

项目经理不再对着电话咆哮要数据,而是平静地对手机说句话,所有经营数字瞬间清晰呈现;

采购员不再为核查供应商背景熬夜翻网站,系统3秒自动生成一份风险“体检报告”;

材料员面前那堆如山的手写票据,正被手机摄像头快速“吞食”,自动变成系统里的规整记录……

这不是科幻电影。这是一场正在全国无数工程项目部真实上演的“静默革命”。

而掀起这场革命的,是一群特殊的“新员工”——它们不吃不喝不领工资,却24小时在岗;它们没有实体,却无所不在。它们就是红圈AI系列智能产品中的AI Agent,一群更懂工程企业经营的“数字大脑”。

今天,让我们走进施工现场,看看这群“智能同事”如何在最粗犷的行业里,干着最精细的活儿。

告别“表哥表姐”:一个能听懂人话的BOSS助理

“昨天华东区的产值是多少?”“钢筋价格波动对我们在建项目影响多大?”“帮我比一下王队和李队这个月的施工效率。”……曾几何时,项目经理的每一个问题,都可能让下属团队手忙脚乱,上演一场跨部门的数据“搬运”与“组装”大战。电话、微信、表格、报告,在碎片化的信息流中,决策的速度与准确性被大幅损耗。

红圈AI的BOSS助理Agent,终结了这种低效循环。它被设计成“更懂管理者的‘数据员’”。其核心能力在于“智能理解”与“精准呈现”。管理者可以用最自然的语言下达指令,这位助理能借助AI大模型的推理能力,精准挖掘企业自有数据模型,智能生成全面、准确的经营数据汇报。它能迅速抓取全域业务数据,精准呈现多维报表及数据卡片。

它带来的改变是颠覆性的。首先,是决策的即时性。任何时间管理者下达的指令,都能智能理解随时快速汇报,有问必答。其次,是洞察的深度。它能告别需多人汇报的繁琐与校验,直接提供分析结果。最后,也是工程企业最为看重的数据安全。它依托红圈系统权限和数据建模能力,确保核心数据不被大模型采集与留存。

从此,在飞驰的车上、在喧闹的工地旁、在深夜的办公室,管理者与关键经营数据之间,只剩下一个简单提问的距离。数据不再是需要费力挖掘的矿石,而是随时可供引用的清泉。

风险“扫描仪”:在供应商进门之前,先看透它的底牌

工程行业有句老话:“利润是干出来的,也是省出来的,但更是‘防’出来的。”一个劣质供应商带来的合同纠纷、材料延误、质量隐患,足以吞噬一个项目的全部利润。传统的供应商评估,严重依赖个人经验、有限的工商查询和耗时耗力的背景调查,如同雾里看花,风险防不胜防。

红圈AI的采购助理Agent,就像一台高精度的风险“扫描仪”。它整合多维度供应商企业数据并通过AI算法智能动态评分,减少人工主观误差。它的工作流程快如闪电:3秒完成信用数据抓取,40秒AI完成各风险排查及评估,10秒生成完整报告。

这份报告的价值,在于其令人信服的“硬核”细节。报告会进行多维评估,基于六大维度数据采集,逐项风险排查分析。例如,面对一家高风险供应商,报告会列出“异常情况总览”,包括企业存在破产案件记录、被列为限制高消费企业(存在多条限制消费令)、存在终本案件、因未按规定提交年度报告被列入经营异常名录等。

更令人惊叹的是它对法律风险的深度剖析。报告中会详细拆解法律诉讼情况:包括总诉讼案件、涉诉金额、作为被告/原告的次数及金额。它会分析主要案件类型(如买卖合同纠纷),并指出企业作为被告的纠纷金额较大,显示在大量交易中存在违约风险;同时企业作为原告也发起多起诉讼,反映其业务合作中可能存在较多争议。最终给出穿透性判断:民事纠纷频发且存在不利判决,表明企业在合同管理和履约合规性方面存在明显短板。

这套系统不仅是“守门员”,更是“监护仪”。它能对已合作的供应商进行定期智能排查,自动刷新风险等级及各项评分,并通过风险变化通知进行提示。企业可以设置限制合作标准,快速终止合作并系统溯源追查从此,采购部门的工作,从“救火”变成了主动“防火”。

“秒懂”一切单据:让最繁琐的录入工作,变得“毫无存在感”

如果说数据决策和风险防控是“高大上”的脑力活,那么单据录入就是工地里最接地气、也最让人头疼的“体力活”。混凝土小票、机打送货单、手写签收单、甚至偶现的外文单据……它们格式不一、字迹潦草、数量庞大,却是成本归集的第一道生命线。传统的人工录入,是重复、枯燥且错误率高发的代名词。

红圈AI录单助手Agent pro,正是为了消灭这种“毫无创造力的痛苦”而生。它通过大模型自动识别各类单据,实现从图像识别到高质量系统录入的秒级闭环。它能智能提取关键字段、智能匹配相关数据并回填业务系统。

它的智能远不止于“识别”,更在于“理解”与“关联”。智能分析入库材料匹配的合同明细并挂接,从而厘清成本发生源头。效率的提升是数量级的:处理5张单据约50条明细,人工录入需20-30分钟,而AI录入仅需3-5分钟,减少90%人工操作。

为了实现极高的匹配准确率,它融合了多种智能策略。“精准匹配” 根据入库单的物资名称、规格型号等字段精准匹配合同明细。据同一个项目历史匹配的数据,自动做对应数据匹配。当遇到模糊或复杂情况时,“智能判断” 功能启动,借助大模型语意识别及通识能力,智能判别入库明细与合同明细的相似性并完成匹配。这种能力,让低成本完成实际成本归集统计,实现后期精准统计及溯源成为可能。材料员和成本会计,终于可以从无尽的表格中直起身来,将智慧用于更重要的管理工作。

不止于此:一张看不见的智能矩阵

红圈AI在工地的应用瞬间,远不止于上述几个高光场景。它更像一个多维度的“智能矩阵”,将AI能力编织成一张覆盖工程经营全链条的隐形守护网。这个由多个AI助手构成的智能体军团,正在将“更懂工程企业经营”的承诺,落地为一个个具体而微的智能解决方案。

想象一下,在每周至关重要的项目经营例会前,项目经理不再需要带领团队熬夜准备庞杂的数据报告。他只需轻点“项目360°AI解读”功能,这个“项目经营的‘智能指挥官’”便能整合资金、成本、合同、付款等全维度经营指标,一键生成项目的全景作战图。大模型会对经营数据进行深度解读,不仅指出“项目经营毛利率为-0.63%,存在严重风险”,更能精准揭示“垫资施工存在资金风险”、“项目回款困难”、“实物工期超出合同工期”等核心问题。它甚至能调用行业专家经验,对项目进行智能评级和趋势预测,并直接给出“规范管理成本、制定详细应对计划”等结构化建议。这使得会前准备时间从以天计缩短到以分计,会议效率得以十倍提升,将管理者从数据整理的苦海中解放,真正聚焦于决策本身。

而在财务与采购部门,AI则以另一种形式发挥着“智能分析官”的作用。面对繁杂的《供应商应付管理表》,AI报表助手能够秒级解析业务数据,自动定位异常。它能快速识别供应商付款链条中的差异与风险,并基于历史合作履约情况、账期账龄等多维度数据,对所有供应商进行应付优先级排序,智能建议优先支付对象,识别付款底线,从而辅助财务进行科学的付款统筹。这改变了以往风险识别被动滞后、分析与资金情况脱节的局面,让付款决策从“凭感觉”走向“凭数据”。

当一位新员工加入公司,面对浩如烟海的制度、工艺和历史项目资料时,AI企业知识库便成为他最强的“知识中枢”。员工可以用最自然的语言提问,例如“马上要投XX智慧校园项目,找3个同类中标方案”,红圈AI能在3秒内从向量数据库中锁定历史标书、技术方案和报价分析报告,并生成对比摘要。对于法务人员,AI能快速从诉讼智库中检索相似判例,提炼风险规律与应诉策略;对于运维人员,它能即刻调取故障排除指南和历史维修方案,实现快速诊断。无论是查询差旅标准、年假天数,还是了解固定资产申请流程,AI都能做到有问必答、全年无休,将分散的企业知识转化为即问即答的能力,让核心经验传承效率提升3倍。

最后,在业务风险防控的最前线,“AI业务助手”扮演着“智能决策引擎”的关键角色。在合同审查环节,它能自动识别合同主体合法性、项目范围明确性、金额付款条款、违约责任对等性等维度的风险,将审核效率提升20倍,帮助规避80%的基础风险。面对潜在的合作方,它能自动汇总分散在工商、司法、舆情等多源信息,生成结构化的风险报告,让关键信息与风险一目了然,彻底改变了过去信息分散、耗时易错、评估片面的困境。

从项目全局指挥到单据扫描录入,从风险智能预警到知识即时获取,红圈AI系列智能产品已然构成一个协同工作的有机生态。它们并非彼此孤立的功能点,而是一个贯穿项目全生命周期、渗透业务各毛细血管的“智能矩阵”。这张网,让数据得以流动,让经验得以传承,让风险无处遁形,最终让每一个工程企业都能拥有一个全天候在线的“最强大脑”,稳健地驶向经营的下一个时代

当AI的“最强大脑”真正下沉,与工地的钢筋水泥、机械轰鸣融合,改变的远非几个岗位的效率。它正在重塑一种工作方式:让决策基于全域实时数据而非经验猜测,让风险防控于未然而非事后补救,让繁琐重复的劳动被智能释放,让管理者的视野穿透层层报表直达业务本质。红圈AI ,这些施工现场的新“工友”,正以其无声却强大的力量,推动着中国工程建造走向一个更加智能、精准与安全的未来。这,才是技术革命在产业深处,最动人、也最坚实的模样。

看到了 v 友的分享 https://www.v2ex.com/t/1186743 ,给我打开了新思路。

刚好,我最近刚搭建了一个 n8n ;刚好,我有一个 CalDAV 账户;刚好,我有一个 OpenWeather 的 API 。

于是我就让 AI 给写了一段代码,如果你正在折腾 n8n 可以尝试下我这个工作流。

仓库地址:https://github.com/eyebrowkang/n8n-workflows

下面简单介绍一下这个工作流:

通过 Schedule 定时触发 http request (默认 30 分钟更新一次),获取返回的数据,然后通过 python 代码写入到 CalDAV 中指定的日历里面。可以设置保留过去的天气信息,其中当天的信息用的是 current 。由于 CalDAV 是通用协议,因此不局限于 Apple ,任何日历软件只要支持 CalDAV 就行。顺便要夸一下果子,默认的日历对于 CalDAV 的集成真的是顶级的。

目前跑了一下没问题,还有不少需要完善和不太优雅的地方,比如凭据我直接写在了代码里,因为免费版不让用 variables ,我后面再折腾下看 n8n 怎么在代码里用密钥会比较优雅。

以上,感谢 v 友的分享

当下全球智能化发展迅猛,企业和创作者对品牌线上平台的要求越来越高——不仅要搭建得快、能适配全球不同场景,质感还得够专业。传统建站方式受限于技术门槛高、多设备适配麻烦、开发周期长等问题,根本跟不上全球业务快速拓展的节奏。AI技术的突破,催生了一批智能又高效的建站工具,还能适配全球场景,彻底改变了大家搭建线上平台的思路。下面精选8款全球热门AI建站工具,包括UXbot、CodeWP、10Web、Unbounce、Hostinger、Jimdo、Framer、Shopify,从技术核心、全球适用场景、实际用法和适用范围四个方面详细说明,给全球用户提供靠谱的选型参考,帮大家快速做出高质量的数字化平台。
一、核心工具深度解析

  1. UXbot:自然语言驱动的零代码个性化建站标杆
    UXbot是青颖飞帆旗下的旗舰AI建站产品,基于自然语言操作,就能让不懂技术的人也轻松建站。借助成熟的AI语义理解技术,用户不用复杂操作,只需简单几句话说清品牌需求、想要的功能和视觉偏好,就能快速拿到专属的个性化网站方案。
    它最核心的价值就是打破了技术壁垒,集网页和应用界面设计、可交互原型制作、Web前端代码生成为一体。哪怕完全没有代码基础,也能把脑子里的想法,或是细致的产品需求,变成有完整使用流程、交互效果出色的多页面项目。
    不管是设计师打磨视觉效果、产品经理测试功能逻辑,还是前端开发实现设计和交互,UXbot都能帮上忙。全球的中小企业、创作者,不用懂代码就能快速做出有品牌特色、够专业的线上平台,不管是跨境电商、个人品牌展示,还是服务型企业拓客,都能适配。
    image.png
  2. CodeWP:WordPress生态的AI化主题转化引擎
    CodeWP专门针对全球常用的CMS平台WordPress打造,形成了“有设计想法→AI帮忙转化→生成可用主题”的完整流程。它通过学习大量WordPress主题的结构和设计标准,能把用户给的视觉设计稿、创意描述,精准转换成支持多设备适配的WordPress主题,在全球主流浏览器上都能正常显示。
    它的优势在于和WordPress生态深度契合,能直接搭配Yoast SEO、WooCommerce这些全球热门插件使用,帮做跨境业务的用户快速搭建符合不同区域搜索引擎规则的网站。但它也有不足:只针对WordPress平台,没法跨其他系统使用,而且设计稿和最终生成的主题,细节上偶尔会有偏差,需要手动微调。
    image.png
  3. 10Web:WordPress生态的轻量化智能建站解决方案
    10Web主打“AI辅助+快速复刻”,给全球WordPress用户提供轻便的建站服务。靠AI智能识别技术,短短几分钟就能把已有的网站完整复制下来,还能直接迁移到WordPress平台,大大节省了跨境建站的时间和成本。
    它自带的AI拖放编辑器,操作简单还能满足专业需求,再加上全球海量正版图片和多语言插件,能适配不同区域品牌的视觉和功能需求。这款工具很适合依赖WordPress、想快速建站的全球用户,但因为只支持这一个平台,部分小众插件可能不兼容,建议提前测试。
    image.png
  4. Unbounce:AI驱动的全球营销型着陆页优化利器
    Unbounce是全球营销建站领域的常用工具,核心目标就是提高页面转化率,打造了一套AI驱动的着陆页全流程管理功能。不用懂代码,用户就能通过AI编辑器做出符合全球审美、适配不同区域流量场景的高质量着陆页,内置的100多种行业模板,能覆盖跨境营销、全球活动推广、品牌获客等多种需求。
    它的实时AI数据分析功能,能动态跟踪全球访客的行为和转化路径,给出具体的优化建议,还能通过不断学习升级算法,帮全球营销人员提升跨区域流量的转化效果。缺点是高级优化功能不太好上手,新手需要花时间熟悉操作。
    image.png
  5. Hostinger:一体化AI建站与全球主机服务提供商
    Hostinger把“AI建站+全球主机运维”整合到一起,是跨境用户的常用选择。它的AI拖放编辑器支持用日常语言生成网站内容、调整页面布局,再加上Cloudflare全球CDN节点,能明显提升全球不同地区的网站访问速度,还能增强安全防护,解决了跨境建站的性能难题。
    工具自带的AI文本生成功能,能满足多语言创作需求,帮品牌快速在多个区域搭建线上平台。需要注意的是,它的共享主机没有专用IP,基础套餐的存储空间也比较有限,要根据跨境业务规模选合适的套餐。
    image.png
  6. Jimdo:Dolphin AI赋能的全球极速建站工具
    Jimdo靠自研的Dolphin AI系统,实现了三分钟快速建站,特别适合全球中小企业和个体创作者快速上线网站的需求。AI会自动分析用户的业务类型、品牌偏好和目标受众,生成专属网站方案,还能自动优化多设备适配,确保全球用户在手机、电脑等不同终端上,都能有一致的使用体验。
    它的简易电商模块,能快速搭建跨境线上店铺,完成商品上架、订单管理、支付对接等核心操作,流程简单易懂,对新手十分友好。但它的设计自由度不如专业工具,没法满足高端品牌的深度定制需求。
    image.png
  7. Framer:AI驱动的全场景Web应用设计开发平台
    Framer是全球AI建站领域的创新工具,靠先进的AI设计预测功能,能覆盖从简单品牌主页到复杂跨境Web应用的各种需求。它的优势是AI会实时给设计建议,帮用户做出符合全球审美趋势的页面,还能轻松添加悬停效果、多语言滑块、跨境表单等交互元素,提升全球用户的访问体验。
    它打通了设计和开发的全流程,做好的网站能直接对接全球服务器部署,适配不同区域的技术环境。不过丰富的AI功能对新手有一定难度,部分交互元素在不同浏览器上的显示效果也略有差异,需要留意。
    image.png
  8. Shopify:
    AI赋能的全球电商建站生态平台Shopify专注于全球电商场景,用AI技术优化了跨境电商的建站和运营方式,是行业内的标杆工具。它的AI功能能预测购物趋势、分析全球访客行为、自动处理多区域运营任务,给跨境商家提供数据支持,帮助做决策。用户能快速搭建有品牌感的跨境电商网站,配置专属全球域名,内置的AI智能客服还能支持多语言咨询,实时解答客户疑问、引导下单,提升全球用户的购物体验。平台生态完善,能对接全球主流支付渠道和物流服务商,帮商家快速布局全球市场。但高级AI运营功能比较复杂,中小商家需要慢慢摸索,前期学习成本不低。
    image.png

二、全球场景选型指南
以上8款工具覆盖了全球建站的各种场景,能精准匹配不同用户的需求:不懂技术、想快速落地跨境业务的创业者,优先选UXbot、Jimdo,零代码就能做出适配全球的网站;习惯用WordPress的跨境用户,CodeWP、10Web最适配,兼顾生态兼容性和建站效率;做跨境电商的商家,Shopify的全流程AI电商功能能满足全球运营需求;专注跨区域营销获客的,Unbounce的转化率优化功能很实用;追求专业设计与开发一体化的中高端用户,Framer的全场景适配能力更强;需要同时解决主机和建站问题的跨境用户,选Hostinger更省心高效。
在全球数字化转型的关键时期,AI建站工具已经成为品牌拓展全球市场的重要助力。选对适合自己业务、能适配全球场景的工具,既能大幅降低建站成本,又能提升线上平台的专业质感,为全球业务发展筑牢基础。

在Web界面设计领域,从创意构想到可交付原型的全链路,往往要经历繁琐流程,迭代速度慢,严重影响团队效率。而AI设计工具的不断升级,不仅支持智能生成可编辑的UI界面、快速搭建带交互的原型,还支持灵活迭代,大幅提升设计效率。下面就为大家梳理六款兼顾实用性与专业性的AI设计工具,帮助设计创意更快落地、创造价值。

  1. UXbot
    核心定位:国内AI原型设计的实用标杆工具,能打通“文字提需求-高保真原型-界面设计-Web前端开发”全环节,实现一站式智能协作。
    UXbot能精准理解文字需求、拆解业务逻辑,不管是网站、移动应用还是平板端界面,都能直接生成高保真设计稿,不用人工搭建基础框架。同时还能自动生成可视化PRD,不用再分开做设计和写文档,解决了两者脱节的问题,大大减少重复工作量。生成的界面还能直接设置复杂交互和页面跳转,完整还原用户使用流程。
    它有两种编辑方式可选:既能通过AI对话微调局部设计,也能用自带的专业编辑器精细化打磨,不管是快速验证想法,还是深度优化设计,都能满足需求,精准度能达到像素级控制。
    另外,还支持把高保真界面转换成Web前端代码,通过云端服务器完成全流程测试,生成的代码可导出为Vue格式,直接导入开发环境使用。
    这套“需求-设计-交互-开发”的完整流程,能帮中文语境下的产品和设计团队,高效推进网站开发落地。
    image.png
  2. Galileo AI
    核心定位:主打视觉美感的高保真UI生成工具,适合探索设计风格、制作视觉原型。
    Galileo AI的视觉渲染效果很出色,生成的界面既美观又有细节,用来做情绪板、快速尝试不同设计风格非常合适。设计好的内容可以直接同步到Figma里,进行可无限放大不失真的编辑,方便进一步优化打磨,精准落地设计想法。
    不过它也有不足:对中文指令的理解不够准,处理复杂业务逻辑时不如UXbot好用。所以更适合以视觉设计为主、常用英文指令的场景,要是涉及复杂中文需求或业务流程,还需要人工调整校准。
    image.png
  3. Uizard
    核心定位:能把手绘创意转成数字界面的工具,降低非设计人员做原型的门槛。
    Uizard最核心的功能就是识别手绘草图,把纸上的创意快速数字化。只要拍下手绘稿上传,AI就能自动识别按钮、输入框、图片等元素,生成可编辑的数字UI界面。工具操作特别简单,不用具备专业设计技能,就能把白板上的想法落地成原型,很适合创业者、跨部门团队在需求评审后,快速验证创意是否可行。
    image.png
  4. Relume
    核心定位:专注网页结构设计的AI工具,擅长快速搭建营销官网和SaaS产品着陆页。
    Relume做网页设计时,会先理清逻辑再动手:根据需求生成站点地图,梳理好网页层级和信息排布,再用海量Web组件拼装线框图,既能保证页面逻辑清晰,又能兼顾视觉统一。上千种组件可灵活组合,既不耽误设计效率,又能保留创意空间,能快速做出实用又美观的网页原型,为后续优化打下基础。
    image.png
  5. Vev AI
    核心定位:融合可视化编辑与AI生成功能的全流程网页工具,打通设计与开发的衔接瓶颈。
    只要用文字描述需求,Vev AI就能生成分图层、可编辑的网页界面,还自带基础交互效果,能快速验证用户体验。平台内置可视化编辑模块,可精准调整设计细节,同时支持一键导出HTML/CSS代码,直接交付开发使用,大幅缩短设计到开发的转化时间,很适合网页设计与前端开发协同工作的场景。
    image.png
  6. Framer AI
    核心定位:践行“设计即代码”理念,能把设计稿快速转成可访问的网页。
    Framer AI的代码生成能力很强,可直接把UI设计元素转换成HTML、CSS或React组件,让设计和开发无缝衔接。同时支持制作高保真动效和微交互,设计时就能预览实际呈现效果,让网页体验更生动。设计完成后,还能直接发布成可访问的网页链接,跳过中间转化步骤,加快产品上线速度,适合以前端开发为核心的高效落地项目。
    image.png

工具选型战略指南
上述六款工具覆盖了手绘转数字、视觉设计、代码输出等全场景设计需求,能满足不同团队的多样化需求。如果团队侧重中文语境下的全流程高效落地,想从文字需求直接做出可交付的交互原型,还能同步生成设计和产品资料,UXbot会是最优选择,它能打通全流程环节,帮团队高效实现从创意到落地的转化。

生成式 AI 的投资回报远超预期?Snowflake 调研全球 1900 位企业与 IT 专业人士后发现平均 ROI 高达 41%!点击下载完整报告

在 2025 年稳步发展的基础上,2026 年将成为智能体 AI 在企业中实现真正落地的关键之年。

 

回顾 2025 年初,行业曾普遍预测智能体 AI 将迎来爆发式增长与颠覆性普及。尽管技术进步显著且持续加速,但这一年的更深层意义在于,它重塑了我们对技术可行性的理解。各类组织已超越简单的聊天机器人应用场景,开始积极探索能够自主规划、执行任务并持续迭代的智能体系统。如今,核心智能体能力显著提升,已可胜任一年前仍难以处理的复杂多步骤任务。随着市场的迅速扩张,投资与创新正形成叠加效应,持续推动着该领域的发展。

 

为制定本年度的 Snowflake 数据与人工智能预测报告,我与十余位 Snowflake 的领导者共同梳理了对未来一年的行业展望。报告的核心观点是:智能体将在企业级应用中取得实质性突破。以下摘录本年度报告中的部分预测要点:

 

上下文窗口与记忆能力将成为提升智能体性能的关键:未来一年,上下文窗口与记忆能力的重大改进将使智能体能够基于更宏观的情境理解,以更高的自主性应对复杂挑战。Snowflake 工程与支持高级副总裁 Vivek Raghunathan 指出:“这是一种更趋近于人类的能力——能够记住更广泛的情境信息以解决当前问题。”

 

工作者需精通人与 AI 的协作与沟通:人类仍将处于决策闭环之中,部分原因是驱动决策的数据并非全部对 AI 开放。Snowflake 产品副总裁 Chris Child 强调,AI 能对其掌握的数据进行深度分析,但人类直觉仍不可或缺。他表示:“AI 模型将深入理解您的数据,但您仍需学会何时存疑、何时在行动前进行深度追问。”

 

数据战略将决定 AI 就绪度与最终成效:Snowflake 首席信息官 Mike Blandina 指出:“当 AI 提供准确答案时,还必须确保私有或专有数据不被泄露。用户是否拥有查看此答案的权限?您的营销聊天机器人是否在泄露员工的社保号或客户的信用卡信息?这并非 AI 本身的问题,而是关乎如何治理与保护数据。”

 

到 2026 年末,核心问题将不再是人工智能能做什么,而是人与人工智能如何协同工作。换言之,重点将转向角色如何演变、决策权如何分配,以及领导者在自主性日益增强的环境中如何建立信任与明确责任。

 

十年前,首席数据与分析官(CDO)的职责主要聚焦于数据治理。但随着智能体化人工智能的到来,这一角色已扩展至统筹企业内智能体的协同运作。首席数据与分析官需负责保障智能体所依赖数据的质量与合规性,设计智能体嵌入的工作流程,并对这些系统在现实场景中的表现承担最终责任。这使得首席数据与分析官的职能更接近真正的“人工智能首席运营官”——其职责横跨工程技术、合规监管、安全防御、运营维护及产品团队,确保人工智能运行模型具备稳定性、可信度以及与业务目标的高度一致性。

 

到 2026 年,企业面临的挑战将不再局限于将智能体简单部署至生产环境。管理者需要围绕智能体建立起系统化的管理体系,这意味着必须构建可靠的验证框架、厘清人机协同的职责边界,并实现全链路的可观测性,确保每个智能体的行为皆可审计、可解释、可信任。这一趋势将催生正式的 AI 质量控制职能,通过持续监测与评估,保障智能体行为始终与商业意图保持一致。对于注重可靠性的企业而言,这已成为必然的演进方向。

 

实现此类管控体系,依赖于坚实且集中的数据基础与治理架构。在早期实验阶段行之有效的联邦模型虽有助于提升开发效率,但随着智能体系统的扩展,必须确保跨工作流的高度一致性:统一的语义规范、严格的权限管理以及不容妥协的安全保障,已成为系统规模化运作的必要条件。

 

随着企业推进流程与决策权限的重构,建立贯穿组织全局的反馈闭环至关重要。此类闭环可协助团队优化规则边界、改进模型行为,并确保责任机制始终保持清晰。短期来看,智能体系统将最适用于边界明确、结构化程度高且风险可控的工作流程。随着数据成熟度、治理体系以及组织适配能力的持续提升,智能体将逐步进入更复杂的决策链路,获得更高自主权,并产生更具战略价值的影响。

 

智能体 AI 并非替代人类工作,而是重塑工作模式,开拓新的机遇维度与规模化潜力。若需深入了解更多前沿趋势,敬请参阅《Snowflake 数据与 AI 预测报告(2026)》

原文地址:https://www.snowflake.com/en/blog/data-ai-predictions-2026/

AI 时代,“眼高手低”不一定是缺点,很多时候反而会赢。别急着反驳,我说的不是那种“只会嫌弃、从不动手”的嘴强王者,而是另一种人:标准很高、判断很快、方向感很强,只是过去“手艺活”跟不上,所以经常被一句“你行你上”堵死。问题是,现在这个“你行你上”,AI 可以替你上了。

过去社会奖励什么?奖励“能做出来”。你会写代码、会剪视频、会画图、会做 PPT 、会写文案,你就有产出,你就更值钱。所以“眼高手低”被当成毛病——想得大、做不到、拖延、烂尾、焦虑。可现在的变化是,AI 正在把“做出来”这件事变成低门槛,甚至变成“基础工种”。你不会写? AI 写。你不会剪? AI 剪。你不会画? AI 出十个版本给你挑。产出这件事开始廉价,开始泛滥,开始像自来水一样拧开就有。那接下来真正稀缺的是什么?不是“谁更能干活”,而是“谁更知道该干什么、怎么才算好、哪里该删、哪里必须保留、什么是有效、什么是垃圾”。

我觉得很多人没意识到一个很刺耳的事实:AI 正在把“会做”贬值,把“会挑”升值。以前你挑剔会被当成事儿多,因为你挑完也做不出来;现在你挑剔如果挑得对,那叫审美、叫标准、叫判断力、叫总导演。AI 能一口气给你十个版本,但十个版本里九个半都只是“像那么回事”,离“真对”永远差半口气。那差的半口气是谁补?就是那个“眼高”的人——一眼能看出来哪里不对,知道怎么改,知道改到什么程度就停,知道为谁服务、为啥服务。未来越来越像这样:AI 负责堆产出、跑流程、填细节,人负责方向、标准、取舍、验收。执行不再稀缺,判断开始稀缺。

更反直觉的是,未来最容易被淘汰的,可能不是懒人,而是“勤奋但没标准”的人。以前你只要肯做,多少都会有回报;现在你肯做? AI 比你更肯做,24 小时不休息,版本比你多十倍,你靠“我更努力”去跟服务器拼耐力?这比赛从一开始就输了。你唯一能赢的是:你能提出更好的问题,你能给出更清晰的目标,你能设定更高的标准,你能在一堆“差不多”里挑出“对的”,你能决定什么值得做、什么不值得做。说白了,人类的价值正在从“做事”迁移到“做决定”。而“眼高”这件事,本质上离“做决定”更近。

“眼高手低”会不会逐渐变成优势?我的答案是:会,甚至会成为分水岭。因为当“手”被技术托底之后,“眼”决定上限、决定方向、决定值不值钱。未来会出现一种很不公平但很真实的局面:所有人都能产出,但只有少数人能产出值钱的东西。那少数人靠的往往不是更会干活,而是更会判断、更会取舍、更敢设标准、更能把标准讲清楚并坚持验收。

引言

在数字化转型的浪潮中,企业信息化建设面临的核心挑战已从“是否转型”转变为“如何高效推进”。然而,数据孤岛问题成为阻碍企业发展的普遍难题——系统割裂、数据无法互通、业务流程低效。传统解决方案如外包开发或Excel管理,往往成本高、周期长且难以适应快速变化的业务需求。

活字格低代码开发平台通过可视化开发、跨系统集成、AI增强等能力,帮助企业将开发周期缩短60%,实现数据互通与流程自动化。本文将深入解析其技术原理、实践案例及行业价值,为企业的数字化转型提供新思路。

一、数据孤岛的成因与行业痛点

1. 系统割裂的典型场景

  • 多系统并存:集团与子公司使用独立ERP、OA系统,数据需人工导出导入。
  • 工具依赖:Excel管理导致版本混乱、权限失控,如某制造企业因表格版本错误损失百万订单。
  • 接口开发成本高:传统集成需编写复杂API,平均耗时3-6个月,且维护困难。

2. 传统解决方案的局限性

  • 外包开发:周期长(平均6个月)、灵活性差,需求变更时需重新付费。
  • 定制化集成:成本高昂,某零售企业集成CRM与供应链系统花费超200万元。

案例:某能源集团因数据孤岛导致决策延迟,月度报表汇总需5天,错失市场机会。

二、活字格的技术突破:如何破解孤岛?

1. 可视化数据集成:WebAPI与SSO

  • HTTP-based WebAPI:通过配置化服务端命令调用远程API,无需编写底层代码。

    • 优势:比数据库直连安全,比消息队列易管理,支持实时数据同步。
    • 实践:某物流企业集成TMS与WMS系统,数据同步效率提升90%。
  • 单点登录(SSO):统一入口访问多系统,用户无需重复登录。

2. 类Excel设计器:业务人员也能开发

  • 拖拽式表单构建:支持动态规则、数据验证,如某医院1天内搭建疫情填报系统。
  • 简化的BPMN流程引擎:支持加签、回退等复杂逻辑,审批流程上线时间缩短70%。

代码示例:配置服务端命令调用API

// 活字格中调用远程WebAPI  
Forguncy.Command.executeWebAPI({  
  url: "https://api.erp.com/sales",  
  method: "GET",  
  onSuccess: (data) => { console.log(data); }  
});  

三、效率提升:从“月”到“周”的飞跃

1. 开发周期缩短60%的底层逻辑

  • 模块化复用:预置模板库(如CRM、进销存)覆盖80%通用场景。
  • 运行时热更新:修改流程或表单无需重新发布,某电商促销系统迭代速度提升3倍。

2. 行业对比数据

方案平均周期成本灵活性
外包开发6个月50万+
传统低代码2个月20万
活字格2周5万起
案例:某汽车经销商用活字格2周上线售后工单系统,传统开发需3个月。

四、扩展性与AI赋能:面向未来的架构

1. 混合开发模式

  • 低代码+编码:JavaScript插件扩展复杂逻辑,如封装高性能数据清洗API。
  • 一键迁移:将Access应用转为Web系统,某政府单位3天完成老旧系统升级。

2. AI增强全流程

  • 设计时:自然语言生成SQL查询(如“查询2023年销售额TOP10客户”)。
  • 运行时:AI助手自动检测数据异常,某银行风控系统误报率降低40%。

结论

活字格低代码平台通过四大核心能力——可视化集成、敏捷开发、混合扩展、AI增强,为企业提供了一条高效破解数据孤岛的路径。其价值不仅体现在“开发周期缩短60%”的效率提升,更在于重构了企业数字化的协作范式:

  1. 从被动响应到主动创新:业务部门可直接参与系统搭建。
  2. 从孤立系统到生态协同:ERP、OA、CRM等无缝互通。
  3. 从固定流程到智能进化:AI持续优化业务流程。

在数字化转型的竞赛中,活字格正成为企业赢得敏捷性的关键引擎。

上次写程序还是三年前,早上给当教师的小妹爬点数据,用了 chatgpt 和 github 内置 ai 问答,没想到一个几百行的爬虫代码+调试,半个小时就搞定了。真的不得不感叹 ai 进步神速。
说下步骤:
1 、说清诉求,例如我要的是爬取列表页和详情页数据,并最后输出 markdown 字符串。
2 、介绍环境,给出列表页、详情页的 html 结构和个字段对应关系
3 、由于只有 10 多页,我告诉它我希望的大概流程,即我在 list 页面执行脚本,给我输出当前所有 list 的 detail 信息,并组装成 markdown 格式。然后我手动执行十多遍。
4 、输出代码,调试。。。

虽然解决了问题,但姿势感觉还是比较山寨,离开发工作久了,想看看大家平时是怎么用 ai 进行编程的。

一、背景

得物经过10年发展,计算任务已超10万+,数据已经超200+PB,为了降低成本,计算引擎和存储资源需要从云平台迁移到得物自建平台,计算引擎从云平台Spark迁移到自建Apache Spark集群、存储从ODPS迁移到OSS。

在迁移时,最关键的一点是需要保证迁移前后数据的一致性,同时为了更加高效地完成迁移工作(目前计算任务已超10万+,手动比数已是不可能),因此比数平台便应运而生。

二、数据比对关键挑战与目标

关键挑战一:如何更快地完成全文数据比对

现状痛点:

在前期迁移过程中,迁移同学需要手动join两张表来识别不一致数据,然后逐条、逐字段进行人工比对验证。这种方式在任务量较少时尚可应付,但当任务规模达到成千上万级别时,就无法实现并发快速分析。

核心问题:

  • 效率瓶颈:每天需要完成数千任务的比对,累计待迁移任务达10万+,涉及表数十万张。
  • 扩展性不足:传统人工比对方式无法满足大规模并发处理需求。

关键挑战二:如何精准定位异常数据

现状痛点:

迁移同学在识别出不一致数据后,需要通过肉眼观察来定位具体问题,经常导致视觉疲劳和分析效率低下。

核心问题:

  • 分析困难:在比对不通过的情况下,比对人员需要人工分析失败原因。
  • 复杂度高:面对数据量庞大、加工逻辑复杂的场景,特别是在处理大JSON数据时,肉眼根本无法有效分辨差异。
  • 耗时严重:单次比对不通过场景的平均分析时间高达1.67小时/任务。

比数核心目标

基于以上挑战,数据比对系统需要实现以下核心目标:

  • 高并发处理能力:支持每天数千任务的快速比对,能够处理10万+待迁移任务和数十万张表的规模。
  • 自动化比对机制:实现全自动化的数据比对流程,减少人工干预,提升比对效率。
  • 智能差异定位:提供精准的差异定位能力,能够快速识别并高亮显示不一致的字段和数据。
  • 可视化分析界面:构建友好的可视化分析平台,支持大JSON数据的结构化展示和差异高亮。
  • 性能优化:将用户单次比对分析时间从小时级大幅缩短至分钟级别。
  • 可扩展架构:设计可水平扩展的系统架构,能够随着业务增长灵活扩容。

三、解决方案实现原理

快速完成全文数据比对方法

比数方法调研

待比对两表数据大小:300GB,计算资源:1000c


经过调研分析比数平台采用第二种和第三种相结合的方式进行比数。

先Union再分组数据一致性校验原理

假如我们有如下a和b两表张需要进行数据比对

表a:


表b:


表行数比较:

select count(1) from a ;
select count(1) from b ;

针对上面的查询结果,如果数量不一致则退出比对,待修复后重新比数;数量一致则继续字段值比较。

字段值比较:

第一步:union a 和 b

select 1 as _t1_count, 0 as _t2_count, `id`, `name`, `age`, `score`
from a
union all
select 0 as _t1_count, 1 as _t2_count, `id`, `name`, `age`, `score`
from b

第二步:sum(_t1_count),sum(_t2_count) 后分组

select sum(_t1_count) as sum_t1_count, sum(_t2_count) as sum_t2_count, `id`, `name`, `age`, `score`
from (
select 1 as _t1_count, 0 as _t2_count, `id`, `name`, `age`, `score`
from a
union all
select 0 as _t1_count, 1 as _t2_count, `id`, `name`, `age`, `score`
from b
) as union_table
group by `id`, `name`, `age`, `score`


第三步:把不一致数据写入新的表中(即上面表中sum_t1_count和sum_t2_count不相等的数据)

drop table if exists a_b_diff_20240908;
create table a_b_diff_20240908 as select * from (
select sum(_t1_count) as sum_t1_count, sum(_t2_count) as sum_t2_count, `id`, `name`, `age`, `score`
from (
select 1 as _t1_count, 0 as _t2_count, `id`, `name`, `age`, `score`
from a
union all
select 0 as _t1_count, 1 as _t2_count, `id`, `name`, `age`, `score`
from b
) as union_table
group by `id`, `name`, `age`, `score`
having sum(_t1_count) <> sum(_t2_count)
) as tmp

如果a_b_diff_20240908没有数据则两张表没有差异,比数通过,如有差异如下:

第四步:读取不一致记录表,根据主键(比如id)找出不一致字段并写到结果表中。

第五步:针对不一致字段的数据进行根因分析,如 json 、数组顺序问题、浮点数精度问题等,给出不一致具体原因。

哈希值聚合实现高效一致性校验

针对上面union后sum 再 group by 方式 在数据量大的时候还是非常耗资源和时间的,考虑到比数任务毕竟有70%都是一致的,所以我们可以先采用哈希值聚合比较两表的的值是否一致,使用这种高效的方法先把两表数据一致的任务过滤掉,剩下的再采用上面方法继续比较,因为还要找出是哪个字段哪里不一致。原理如下:

SELECT count (*),SUM(xxhash64(cloum1)^xxhash64(cloum2)^...) FROM tableA 
EXCEPT 
SELECT count(*),SUM(xxhash64(cloum1)^xxhash64(cloum2)^...) FROM tableB

如果有记录为空说明数据一致,不为空说明数据不一致需要采用上面提到union 分组的方法去找出具体字段哪里不一样。

通过哈希值聚合,单个任务比数时间从500s降低到160s,节省大约70%的时间。

找到两张表不一致数据后需要对两张的数据进行分析确定不一致的点在哪里?这里就需要知道表的主键,根据主键逐个比对两张表的其他字段,因此系统会先进行主键的自动探查,以及无主键的兜底处理。

精准定位异常数据实现方法

自动探查主键:实现原理如下

刚开始我们采用的前5个字段找主键的方式,如下:

针对表a的前5个字段 循环比对
select count(distinct id) from a 与 select count(1) from a 比较 ,如相等主键为id ,不相等继续往下执行
select count(distinct id,name) from a 与 select count(1) from a比较,如相等主键为id,name ,不相等继续往下执行
select count(distinct id,name,age) from a 与 select count(1) from a比较,如相等主键为id,name,age ,不相等继续往下执行,直到循环结束

采用上面的方法不一致任务中大约有49.6%任务自动探查主键失败:因此需重点提升主键识别能力。

针对以上主键探查成功率低的问题,后续进行了一些迭代,优化后的主键探查流程如下:

一、先采用sum(hash)高效计算方式进行探查:

1.先算出两张表每个字段的sum(hash)值  。

select sum(hash(id)),sum(hash(name)),sum(hash(age)),sum(hash(score)) from a 
union all 
select sum(hash(id)),sum(hash(name)),sum(hash(age)),sum(hash(score)) from b;

2.找出值相等的所有字段,本案例中为 id, name。

3.对id,name 可能是主键进一步确认,先进行行数校验,如 select count(distinct id,name) from a 的值等于select count(1) from a 则进一步校验,否则进入到第二种探查主键方式。

4.唯一性验证,如果值为0则表示探查主键成功,否则进入到第二种探查主键方式。

slect count(*) from ((select id,name from a ) expect (select id,name from b))

二、传统distinct方式探查:

针对表a的前N(所有字段数/2或者前N、后N等)个字段 循环比对:

1.select count(distinct id) from a与select count(1) from a比较 ,如相等主键为id ,不相等继续往下执行。

2.select count(distinct id,name) from a 与 select count(1) from a比较,如相等主键为id,name ,不相等继续往下执行。

3.select count(distinct id,name,age) from a 与 select count(1) from a比较,如相等主键为id,name,age ,不相等继续往下执行,直到循环结束。

三、全字段排序模拟:

如果上面两种方式还是没有找到主键则把不一致记录表进行全字段排序然后对第一条和第二条记录挨个字段进行分析,找出不一致内容,示例如下:

slect * from a_b_diff_20240908 order by id,name,age,score asc limit 10;


通过以上结果表可以得出两表的age字段不一致 ,score不一致(但按key排序后一致)。

如果以上自动化分析还是找不到不一致字段内容,可以人工确认表的主键后到平台手动指定主键字段,然后点击后续分析即可按指定主键去找字段不一致内容。

通过多次迭代优化找主键策略,找主键成功率从最初的50.4%提升到75%,加上全字段order by排序后最前两条数据进行分析,相当于可以把找主键的成功率提升到90%以上。

根因分析:实现原理如下

当数据不一致时,平台会根据主键找出两个表哪些字段数据不一致并进行分析,具体如下:

  • 精准定位: 明确指出哪条记录、哪个字段存在差异,并展示具体的源数据和目标数据值。
  • 智能根因分析: 内置了多种差异模式识别规则,能够自动分析并提示不一致的可能原因,例如:
  • 精度问题:如浮点数计算1.0000000001与1.0的差异。
  • JSON序列化差异:如{"a":1, "b":2}与{"b":2, "a":1},在语义一致的情况下,因键值对顺序不同而被标记为差异。同时系统会提示排序后一致。
  • 空值处理差异:如NULL值与空字符串""的差异判定。
  • 日期时区转换问题:时间戳在不同时区下表示不同。

  • 比对结果统计: 提供总数据量、一致数据量、不一致数据量及不一致率百分比,为项目决策提供清晰的量化依据。
  • 比数人员根据平台分析的差异原因,决定是否手动标记通过或进行任务修复。
  • 效果展示:

四、比数平台功能介绍

数据比对基本流程

任务生成:三种比对模式

  • 两表比对: 最直接的比对方式。用户只需指定源表与目标表,平台即可启动全量数据比对。它适用于临时比对的场景。
  • 任务节点比对: 一个任务可能输出多个表,逐一配置这些表的比对任务繁琐且易遗漏,任务节点比对模式完美解决了这一问题。用户只需提供任务节点ID,平台便会自动解析该节点对应的SQL代码,提取出所有输出表,并自动生成比对任务,极大地提升任务迁移比对效率。
  • SQL查询比对: 业务在进行SDK迁移只关心某些查询在迁移后数据是否一样,因此需要对用户提交的所有查询SQL进行比对,平台会分别在ODPS和Spark引擎上执行该查询,将结果集导出到两张临时表,再生成比对任务。

前置校验:提前发现问题

在启动耗时的全量比对之前,需要对任务进行前置校验,确保比对是在表结构一致、集群环境正常的情况下进行,否则一旦启动比数会占用大量计算资源,最后结果还是比数不通过,会影响比数平台整体的运行效率。因此比数平台一般会针对如下问题进行前置拦截。

  • 元数据一致性校验: 比对双方的字段名、字段类型、字段顺序、字段个数是否一致。
  • 函数缺失校验: 针对Spark引擎,校验SQL中使用的函数是否存在、是否能被正确识别,避免因函数不支持而导致的比对失败。
  • 语法问题校验: 分析SQL语句的语法结构,确保其在目标引擎中能够被顺利解析,避免使用了某些特定写法会导致数据出现不一致情况,提前发现语法层面问题,并对任务进行改写。

更多校验点如下:




通过增加以上前置校验拦截,比数任务数从每天3000+下降到1500+, 减少50% 的无效比数,其中UDF缺失最多,有效拦截任务1238,缺少函数87个(帮比数同学快速定位,一次性解决函数缺失问题,避免多次找引擎同学陆陆续续添加,节省双方时间成本)。

破解比数瓶颈:资源分配与任务调度优化

由于比数平台刚上线的时候只有计算迁移团队在使用,后面随着更多的团队开始使用,性能遇到了如下瓶颈:

1.资源不足问题: 不同业务(计算迁移、存储迁移、SDK迁移)的任务相互影响,基本比数任务与根因分析任务相互抢占资源。

2.任务编排不合理: 没有优先级导致大任务阻塞整体比数进程。

3.引擎参数设置不合理: 并行度不够、数据分块大小等高级参数。

针对以上问题比数平台进行了如下优化:

  • 按不同业务拆分成多个队列来运行,保证各个业务之间的比数任务可以同时进行,不会相互影响。
  • 根因分析使用单独的队列,与数据比对任务的队列分开,避免相互抢占资源发生“死锁”。
  • 相同业务内部按批次分时段、分优先级运行,保障重要任务优先进行比对。
  • 针对Spark引擎默认调优了公共参数、并支持用户自主设置其他高级参数。

通过以上优化达到到了如下效果:

  • 比数任务从每天22点完成提前至18点前,同时支持比数同学自主控制高优任务优先执行,方便比数同学及时处理不一致任务。
  • 通过优化资源队列使用方式,使系统找不到主键辅助用户自主找主键接口响应时间从58.5秒降到 26.2秒。

五、比数平台收益分享

平台持续安全运行500+天,每日可完成2000+任务比对,有效比数128万+次,0误判。

  • 助力计算迁移团队节省45+人日/月,完成数据分析、离线数仓空间任务的比对、交割。
  • 助力存储迁移团队完成20%+存储数据的迁移。
  • 助力引擎团队完成800+批次任务的回归验证,确保每一次引擎发布的安全及高效。
  • 助力SDK迁移团队完成80%+应用的迁移。

六、未来演进方向

接下来,平台计划在以下方面持续改进:

智能分析引擎: 针对Json复杂嵌套类型的字段接入大模型进行数据根因分析,找出不一致内容。

比对策略优化: 针对大表自动切分进行比对,降低比数过程出现因数据量大导致异常,进一步提升比对效率。

通用方案沉淀: 将典型的比对场景和解决方案能用化,应用到更多场景及团队中去。

七、结语

比数平台是得物在迁移过程中,为了应对海量任务、大数据量、字段内容复杂多样、异常数据难定位等挑战,确保业务迁移后数据准确而专门提供的解决方案,未来它不单纯是一个服务计算迁移、存储迁移、SDK迁移、Spark版本升级等需要的数据比对工具,而是演进为数据平台中不可或缺的基础设施。

往期回顾

1.得物App智能巡检技术的探索与实践

2.深度实践:得物算法域全景可观测性从 0 到 1 的演进之路 

3.前端平台大仓应用稳定性治理之路|得物技术

4.RocketMQ高性能揭秘:承载万亿级流量的架构奥秘|得物技术

5.PAG在得物社区S级活动的落地

文 /Galaxy平台

关注得物技术,每周更新技术干货

要是觉得文章对你有帮助的话,欢迎评论转发点赞~

未经得物技术许可严禁转载,否则依法追究法律责任。

工业AI大模型正逐渐成为现代制造业数字化转型的核心驱动力。与通用型AI模型不同,工业AI大模型深度融合行业知识、工艺流程与多模态数据,为制造企业提供从研发、生产到运营的全链路智能化解决方案。
一、工业AI大模型的发展现状与特点
工业AI大模型的发展并非一蹴而就,它经历了从单一算法应用到平台化、模块化智能体的演进过程。与传统的工业软件或通用AI模型相比,工业AI大模型更加注重场景适配性、多模态融合与知识沉淀能力。
不仅如此,工业AI大模型还表现出强大的自学习与自适应能力。它能够基于实时数据动态调整模型参数,适应不同的生产环境与外部条件变化。例如,在复杂排产场景中,传统方法往往需要人工干预,而工业AI大模型可以通过强化学习与优化算法,在极短时间内生成全局最优解,大幅提升资源利用效率。
然而,工业AI大模型的落地仍面临一些挑战。数据质量不高、行业知识沉淀不足、系统集成复杂度高等问题,限制了其规模化应用。正因如此,平台化与生态化逐渐成为工业AI大模型发展的重要方向。
二、工业AI大模型的核心优势与应用价值
工业AI大模型的核心优势在于其能够实现全局优化与跨环节协同。传统工业软件往往局限于某一特定环节,例如MES系统负责生产执行,ERP系统侧重资源规划,而工业AI大模型可以打通这些系统之间的数据壁垒,实现从订单接收到产品交付的全流程智能化管理。
具体而言,工业AI大模型在以下方面展现出显著价值:
首先,它能够大幅提升生产效率和资源利用率。通过智能排产、能耗优化、质量预测等功能,企业可以实现更精细化的运营管理。
其次,工业AI大模型支持多模态数据的融合处理,这在质量检测、设备健康管理等场景中尤为重要。例如,通过结合视觉识别与传感器数据,AI模型可以实时监测生产线上的异常情况,并提前预警,避免非计划停机。此外,工业AI大模型还表现出较强的泛化与迁移能力。一家企业在某个场景中训练优化的模型,可以通过微调快速适配到其他类似场景中,这大大降低了AI应用的开发与部署成本。
三、工业AI大模型的应用案例与实效分析
在实际应用中,工业AI大模型已经帮助众多制造企业取得了显著成效。以下是几个典型案例:
广域铭岛为领克成都工厂提供的工业互联网平台,是一个典型的全链路智能化应用。该平台通过整合订单管理、生产排程、质量控制和物流调度等环节,实现了工厂级的数据协同与决策优化。其中,基于AI大模型的智能排产系统,能够在考虑设备状态、物料供应和人员安排等多重约束条件下,快速生成高效生产计划。结果显示,该工厂订单交付周期缩短15%,质量损失成本降低13%,物流效率提升10%。
阿里巴巴旗下犀牛智造通过AI大模型实现服装行业的柔性生产,能够根据市场需求快速调整生产计划。
华为云推出的工业智能体方案,则专注于高端制造领域的预测性维护与质量控制。这些案例共同表明,工业AI大模型正在成为制造业转型升级的重要技术支撑。

有个视频网站学习的时候不点暂停或者视频学完,就一直没有任何包,也没有心跳包,也不会更新视频学习进度学时。

点暂停或者视频学习完了,就会更新视频学习的进度学时。

点暂停没有包,点继续就也只会有一个下载 mp4 的包。

有大神知道这是如何更新视频学习进度 的吗