Copilot 啥情况, 为啥没同步更新 GPT5.5
claude Opus4.7 更新的时候,都同步更新了一个阉割版本的。
GPT5.5 现在没还更新。
xiaohack博客专注前沿科技动态与实用技术干货分享,涵盖 AI 代理、大模型应用、编程工具、文档解析、SEO 实战、自动化部署等内容,提供开源项目教程、科技资讯日报、工具使用指南,助力开发者、AI 爱好者获取前沿技术与实战经验。
claude Opus4.7 更新的时候,都同步更新了一个阉割版本的。
GPT5.5 现在没还更新。
早期,我用 deepseek-reasoner 连最基本的问题在生产项目都搞不定。但是 V4 确实能力比之前强很多了。token 也很贵,一个简单的问题 V4 Pro 花了我 5 块钱多钱
「创界 API 」已经正式支持以下模型:
👉 简单说下特点:
目前已经有一些做 AI 应用、工具站、自动化业务的在用,整体反馈还不错。
有需要接入 API 或者做长期合作的老板欢迎来对接👇
https://makerend.com/console
也欢迎 V2EX 的朋友测试反馈,我们会持续优化 👍
随着 LoRa Alliance 推动 LoRaWAN 技术在全球快速落地,越来越多的传感器、仪表和终端设备开始采用 LoRaWAN 通信方式。但在实际项目部署中,很多用户会发现一个问题:设备虽然都叫 LoRaWAN 设备,却不一定能轻松实现统一管理。 原因在于,大多数厂商遵循的是 LoRaWAN 的通信层标准,而在数据格式、命令控制、参数配置等应用层部分,往往采用各自定义方案。因此,对于多品牌设备并存的项目来说,真正需要统一的,不只是网络接入,更是应用协议管理。 本文将从工程实施角度,解析为什么 LoRaWAN 系统的协议统一,更适合放在物联网平台层完成。 LoRaWAN 标准主要解决的是设备如何接入网络、如何传输数据、如何进行安全认证等问题,例如: 设备通过 OTAA 或 ABP 方式入网,并完成身份认证。 包括频段、扩频因子、信道、发射功率、ADR 自适应速率等。 采用 AES128 加密机制,保障数据传输安全。 这些标准保证了不同厂商设备能够接入同一 LoRaWAN 网络服务器,但并不代表数据内容天然一致。 例如同样是温湿度传感器,不同厂家可能存在以下差异: 这也是很多用户接入多个品牌设备后,发现平台集成复杂度迅速增加的根本原因。 理论上,让所有设备厂商统一应用协议最理想,但现实中往往难以落地。 大量项目设备已安装在楼宇顶部、地下管井、工厂车间、农田或野外环境中。若要统一协议,往往意味着升级固件甚至更换设备,实施成本极高。 很多 LoRaWAN 终端依赖电池供电,追求多年续航。一旦频繁升级程序,可能增加功耗,甚至影响稳定性。 不同设备厂商已形成自己的产品逻辑与数据格式,短期内很难形成完全一致的行业标准。 客户项目通常要求快速交付,不可能等待所有厂商重新定义协议后再实施。 因此,在终端侧推动统一,理论可行,但工程效率往往最低。 相比设备端统一,在物联网平台层做协议适配,是当前更高效、更可持续的方案。 无论前端设备上传格式如何,平台可解析后统一输出标准字段,例如: 这样上层系统无需关心设备品牌差异。 若协议解析存在问题,只需修改平台 Decoder / Encoder,无需到现场处理设备。 同一项目可同时接入多个品牌传感器、网关、执行器,降低采购依赖风险。 统一后的数据更容易接入: 北京门思科技有限公司 推出的 ThinkLink 平台,就是针对多品牌 LoRaWAN 项目而设计的统一管理平台。 若平台部署在网关侧,可实现: 对于工业园区、楼宇、能源站点、海外项目尤其适合。 LoRaWAN 的开放生态让设备选择更加丰富,但也带来了应用协议碎片化问题。真正成熟的 LoRaWAN 项目,不是要求所有设备使用同一协议,而是在平台层完成统一解析、统一管理、统一对接。 这也是为什么越来越多企业在部署 LoRaWAN 系统时,会优先选择具备协议兼容能力的物联网平台,而不是被单一设备厂商绑定。LoRaWAN 统一了通信层,但未完全统一应用层
网络接入机制
无线通信参数
安全机制
为什么不建议在设备端强行统一协议?
1. 已部署设备升级成本高
2. 低功耗设备升级风险大
3. 厂商协议各自独立
4. 项目周期不允许等待标准统一
为什么平台侧统一更现实?
平台可统一数据模型
平台更容易维护升级
支持多品牌混合部署
更适合对接第三方系统
门思科技的 LoRaWAN 平台方案
ThinkLink 主要特点
边缘部署优势
结语
在数据分析和报表制作过程中,Excel 批注(Comment)是一种非常实用的功能,用于对特定单元格进行补充说明、添加备注或记录审核意见。例如,在财务报表中对异常数据进行标注说明,在项目进度表中添加状态备注,或在数据审核流程中记录审核人的意见。然而,当需要处理大量数据或进行批量标注时,手动添加和编辑批注不仅效率低下,还容易出现遗漏或格式不一致的问题。通过 Python 编程实现批注的自动化管理,可以大幅提升工作效率,确保标注的规范性和一致性。 本文将使用 Free Spire.XLS for Python 展示如何在 Excel 工作表中添加、编辑和删除批注,结合实际业务场景的数据示例,帮助你快速掌握批注自动化管理技能。 首先需要安装 Free Spire.XLS for Python: 安装完成后,我们可以开始创建 Excel 工作簿并准备数据。下面是一个创建 Excel 文件的简单示例: 说明: 假设我们正在管理一个项目进度表,需要记录各任务的完成情况和负责人。我们可以在代码中直接生成数据: 工作表预览: 说明: 批注可以为单元格添加补充信息,例如对进度异常的任务进行说明。我们为"后端开发"任务添加批注: 工作表预览: 说明: 在实际工作中,批注通常需要记录作者信息,例如审核人对数据的意见。我们为"测试验收"任务添加带作者的批注: 工作表预览: 说明: 当任务状态发生变化时,需要更新批注内容。我们修改"后端开发"的批注: 工作表预览: 说明: 当批注不再需要时,可以将其删除。我们删除"后端开发"的批注: 工作表预览: 说明: 在某些场景下,需要读取批注内容进行分析或导出。我们读取工作表中的所有批注: 说明: 在前面的章节中,我们展示了如何使用 Free Spire.XLS for Python 添加、编辑、删除和读取批注。从技术实现角度来看,批注管理的核心流程可以总结为以下几个关键步骤: 通过理解上述关键类、方法和属性,你可以灵活地管理 Excel 批注,并根据业务需求进行精细定制。掌握这些技术细节,能让你在实际项目中快速实现批注的自动化管理,提高数据标注的效率和规范性。 本文以实际项目进度表为例,展示了如何使用 Free Spire.XLS for Python 在 Excel 工作表中添加、编辑、删除和读取批注,实现数据标注的自动化管理。通过编程方式处理批注,不仅避免了手动操作的繁琐和易错问题,还能轻松应对批量标注和复杂数据审核需求。 掌握这一技能后,你可以将数据标注与审核流程完全自动化,从而节省时间,提高效率,并为团队协作提供可靠的标注支持。结合 Free Spire.XLS 的其他功能,如条件格式、数据验证和图表操作,可以进一步打造智能化的 Excel 自动化工作流,让企业的数据管理更加规范和高效。更多 Python 操作 Excel 方法,请参考 Spire.XLS for Python 官方教程。1. 环境准备与库安装
pip install spire.xls.freefrom spire.xls import Workbook
# 创建一个新的工作簿
wb = Workbook()
sheet = wb.Worksheets[0]
sheet.Name = "项目进度表"
# 保存初始文件
wb.SaveToFile("ProjectProgress.xlsx")
wb.Dispose()
print("Excel 文件已创建:ProjectProgress.xlsx")Workbook 对象代表整个 Excel 文件,Worksheets[0] 获取第一个工作表。这里我们创建了一个名为"项目进度表"的工作表,为后续写入数据和添加批注做好准备。2. 在 Excel 中写入业务数据
from spire.xls import Workbook
wb = Workbook()
sheet = wb.Worksheets[0]
sheet.Name = "项目进度表"
# 写入表头
headers = ["任务名称", "负责人", "完成进度", "备注"]
for col, header in enumerate(headers, start=1):
sheet.Range[1, col].Text = header
# 写入示例数据
project_data = [
["需求分析", "张三", "100%"],
["系统设计", "李四", "80%"],
["前端开发", "王五", "60%"],
["后端开发", "赵六", "45%"],
["测试验收", "孙七", "20%"],
]
for row, data in enumerate(project_data, start=2):
for col, value in enumerate(data, start=1):
sheet.Range[row, col].Value = value
# 自动调整列宽
sheet.Range.AutoFitColumns()
wb.SaveToFile("ProjectProgress.xlsx")
wb.Dispose()
print("项目数据已写入 Excel 文件")
这里我们模拟了一个项目进度表,包含任务名称、负责人和完成进度等信息,便于后续添加批注进行说明和标注。3. 添加批注:为任务添加详细说明
from spire.xls import Workbook
wb = Workbook()
wb.LoadFromFile("ProjectProgress.xlsx")
sheet = wb.Worksheets[0]
# 为"后端开发"单元格添加批注
range_comment = sheet.Range["A5"]
comment = range_comment.AddComment()
comment.Text = "后端开发进度较慢,主要原因是接口文档不完善,需要补充API说明。"
comment.Width = 200
comment.Visible = True
wb.SaveToFile("ProjectProgress_AddComment.xlsx")
wb.Dispose()
print("批注已添加")
通过 range.AddComment() 方法为指定单元格添加批注,comment.Text 设置批注内容,comment.Width 设置批注框宽度,comment.Visible = True 使批注默认显示。4. 添加带作者的批注:记录审核意见
from spire.xls import Workbook, ExcelColors
wb = Workbook()
wb.LoadFromFile("ProjectProgress_AddComment.xlsx")
sheet = wb.Worksheets[0]
# 为"测试验收"单元格添加带作者的批注
range_comment = sheet.Range["A6"]
author = "项目经理:周八"
text = "测试用例覆盖率不足,建议补充边界测试和异常场景测试。"
comment = range_comment.AddComment()
comment.Text = author + ":\n" + text
comment.Width = 250
comment.Visible = True
# 设置作者部分的字体样式
font = wb.CreateFont()
font.FontName = "Tahoma"
font.KnownColor = ExcelColors.Black
font.IsBold = True
comment.RichText.SetFont(0, len(author), font)
wb.SaveToFile("ProjectProgress_CommentWithAuthor.xlsx")
wb.Dispose()
print("带作者的批注已添加")
通过 wb.CreateFont() 创建字体对象,使用 comment.RichText.SetFont() 方法为批注中的作者部分设置加粗样式,使批注更加规范和易读。5. 编辑批注:更新任务说明
from spire.xls import Workbook
wb = Workbook()
wb.LoadFromFile("ProjectProgress_CommentWithAuthor.xlsx")
sheet = wb.Worksheets[0]
# 获取第一个批注并编辑
comment = sheet.Comments[0]
comment.Text = "后端开发进度已提升至60%,接口文档已完善,开发工作正常推进。"
wb.SaveToFile("ProjectProgress_EditComment.xlsx")
wb.Dispose()
print("批注已编辑")
通过 sheet.Comments[0] 获取工作表中的第一个批注对象,直接修改 comment.Text 属性即可更新批注内容。6. 删除批注:清理过期标注
from spire.xls import Workbook
wb = Workbook()
wb.LoadFromFile("ProjectProgress_EditComment.xlsx")
sheet = wb.Worksheets[0]
# 获取所有批注
comments = sheet.Comments
# 删除第一个批注
if comments.Count > 0:
comments[0].Remove()
print("批注已删除")
wb.SaveToFile("ProjectProgress_RemoveComment.xlsx")
wb.Dispose()
通过 comments.Remove() 方法删除指定批注,comments.Count 可以获取批注总数,便于批量处理。7. 读取批注:提取标注信息
from spire.xls import Workbook
wb = Workbook()
wb.LoadFromFile("ProjectProgress_CommentWithAuthor.xlsx")
sheet = wb.Worksheets[0]
# 读取所有批注
comments = sheet.Comments
print(f"工作表中共有 {comments.Count} 条批注:\n")
for i in range(comments.Count):
comment = comments[i]
print(f"批注 {i+1}:")
print(f" 内容:{comment.Text}")
print(f" 位置:{comment.Range.RangeAddressLocal}\n")
wb.Dispose()
通过遍历 sheet.Comments 集合,可以获取每个批注的内容和位置信息,便于进行批量处理或数据分析。8. 技术细节总结与关键类方法概览
Python Excel 批注管理步骤总结
将业务数据写入 Excel 工作表,确定需要添加批注的单元格位置。
使用 range.AddComment() 方法为指定单元格添加批注,设置批注内容和显示属性。
通过 comment.Width、comment.Visible 等属性设置批注框大小和可见性,使用 RichText.SetFont() 设置字体样式。
通过 sheet.Comments[index] 获取批注对象,修改 comment.Text 属性更新内容。
使用 comment.Remove() 方法删除不需要的批注。
遍历 sheet.Comments 集合,提取批注内容和位置信息。关键类、方法与属性
类 / 方法 / 属性 说明 WorkbookExcel 工作簿对象,支持创建、加载和保存文件 Workbook.LoadFromFile()从本地文件加载 Excel 工作簿 Workbook.SaveToFile()保存 Excel 文件到指定路径 Worksheet表示单个工作表,是操作数据和批注的主体对象 sheet.Range[row, col]获取或设置指定单元格的内容 range.AddComment()为指定单元格添加批注对象 sheet.Comments获取工作表中所有批注的集合 comment.Text设置或获取批注的文本内容 comment.Width设置批注框的宽度 comment.Visible设置批注是否可见 comment.RichText.SetFont()设置批注文本的字体样式 comment.Remove()删除批注 wb.CreateFont()创建字体对象用于设置批注样式 总结
本文测评 ONES、Tower、Jira、Azure DevOps、GitLab、Linear、ClickUp、Asana、Trello、monday,围绕需求管理系统的需求池、迭代管理、研发协同、DevOps 集成、效能数据与企业选型价值,为研发团队和工具选型人员提供参考。 市场上可选需求管理系统很多,包括面向企业级研发管理的 ONES,偏轻量协作的 Tower、Trello,面向敏捷研发的 Jira,偏工程交付链路的 Azure DevOps、GitLab,强调高速产品开发体验的 Linear,以及覆盖多职能协作的 ClickUp、Asana、monday。 从研发管理视角看,需求管理系统不是一个简单的任务记录工具。它要解决的是业务需求如何进入研发体系、如何被评审和排序、如何拆解为可执行工作、如何进入迭代或版本、如何与测试和发布形成闭环,以及如何在交付后沉淀为数据资产。 因此,2026 年做需求管理系统选型,建议先判断企业所处阶段: 一句话概括:小团队优先选轻量透明,成长型团队优先选闭环协同,中大型企业优先选治理能力,DevOps 团队优先选工程数据打通。 ONES 是一套组织级研发管理平台,覆盖流程管理、进度管理、团队协作、效能改进、开放拓展等能力,并强调从需求管理、迭代跟进到测试的端到端软件研发管理;同时也覆盖敏捷研发、瀑布研发、研发效能管理、测试管理、服务台和工单管理等场景。 从需求管理角度看,ONES 的核心价值在于把需求放进完整研发链路中处理。需求不只是产品经理写下的一条描述,而是可以继续关联迭代、任务、缺陷、测试、知识库和效能数据的管理对象。对于研发组织来说,这一点非常关键。因为组织规模越大,需求本身越容易变成跨部门协作问题:谁提出、谁评审、谁排期、谁开发、谁验收、谁对结果负责,都需要被系统化承载。 在实践中,ONES 更适合那些已经意识到单一协作工具无法解决研发治理问题的企业。比如金融、政企、制造、企业服务、软硬件结合等团队,需求往往伴随审批、合规、版本、质量和交付责任。如果没有统一平台,需求评审和项目执行很容易脱节,测试质量也难以回溯。ONES 的优势在于能把项目管理、需求管理、测试管理和知识沉淀放到同一个体系里,让研发过程更容易标准化和可追踪。 Tower 的优势在于轻量、直观和低门槛。官方资料显示,Tower 在软件研发场景中支持迭代计划、需求管理、Bug 管理,可用于拆分和规划任务、分派负责人、跟踪项目进度,提高测试效率并支持团队实践敏捷研发;其 Bug 管理模板也支持在一个地方记录和跟踪 Bug,并通过状态、自定义字段、版本、产品线等信息提高修复过程透明度。 对中小研发团队来说,需求管理系统首先要解决的是透明度问题,而不是复杂治理问题。团队规模较小时,需求往往来自老板、客户、销售、产品经理和研发自身,如果没有统一入口,就会出现每个人都觉得自己说过,但没人知道当前状态的情况。Tower 的价值就在于用较低成本把需求、任务、Bug 和项目进度放到可见空间中,让团队先形成基本协作秩序。 它适合需求数量适中、流程不复杂、团队重视执行效率的场景。产品经理可以用任务列表维护需求池,研发负责人可以按迭代拆解任务,测试人员可以记录 Bug,项目负责人可以通过看板或甘特图观察进度。相比重型平台,Tower 的学习成本更低,团队迁移阻力也更小,这对早期团队尤其重要。 Jira 的优势在于成熟、灵活和生态丰富。Atlassian 官方资料显示,Jira 中的 epics、stories、tasks 是帮助团队组织和跟踪工作的层级 issue 类型,其中 epic 通常代表较大计划,story 用于捕捉用户需求,task 用于具体行动或技术工作。 从需求管理视角看,Jira 的强项是模型灵活。团队可以用 Epic 承载大需求或产品主题,用 Story 表达用户价值,用 Task 或 Sub-task 拆解研发工作,用 Bug 管理缺陷,再通过 Sprint、Backlog、Workflow、Automation 和报表实现敏捷管理。对于已有成熟敏捷实践的团队,Jira 能把复杂研发过程拆解成可管理、可追踪、可度量的工作单元。 不过,Jira 的使用效果高度依赖组织治理能力。很多团队使用 Jira 后感到复杂,并不是因为工具本身不可用,而是因为组织没有先定义清楚需求层级、状态流、字段口径和报表指标。结果是每个团队都在工具里建立自己的工作流,短期看灵活,长期看数据不可比较,管理层也难以从系统中获得可信结论。 因此,Jira 适合敏捷成熟度较高、具备工具管理员和流程治理角色的组织。如果企业只是想快速搭建需求池和任务看板,Jira 可能显得过重;但如果企业已经有 Scrum、项目组合管理、多团队协同和工程数据分析需求,Jira 的可扩展性仍然很有价值。 Azure DevOps 更适合工程平台型组织,尤其是微软技术栈较重的团队。其通过 boards、backlogs、sprints 支撑复杂项目管理,并可连接 GitHub 仓库,将 commits、pull requests 与 work items 关联起来。 从需求管理能力看,Azure DevOps 的优势在于与工程交付链路结合紧密。需求、用户故事、功能、任务、缺陷可以作为 work items 进入 backlog 和 sprint,再与代码仓库、流水线、测试和发布流程形成关联。对于工程管理者来说,这种链路的价值在于能把需求是否完成进一步细化为代码是否提交、构建是否通过、测试是否覆盖、发布是否完成。 它适合已经使用 Azure、Visual Studio、.NET、Microsoft 365 或企业级微软身份体系的团队。在这类组织中,工具链一致性本身就是效率来源。需求管理不再是独立系统,而是工程平台的一部分,研发团队可以围绕同一套身份、权限和交付流程推进工作。 局限在于,Azure DevOps 的体验偏工程侧。业务方、产品运营或非技术干系人可能需要一定学习成本。对于那些更强调市场反馈、产品探索和跨部门业务协同的团队,Azure DevOps 可能需要搭配产品路线图、知识库或客户反馈工具一起使用。 GitLab 的需求管理能力建立在其 DevOps 一体化平台之上。GitLab Roadmap 官方文档显示,roadmap 可通过时间线视图展示 epics 和 milestones 的计划工作与进展,用于沟通项目战略方向、依赖关系、风险和里程碑。 从需求管理角度看,GitLab 最适合技术团队把需求、任务、代码和交付结果放在同一平台中管理。Requirements 可以承载较稳定的产品或系统行为要求,Issues 可以承载功能、任务、缺陷,Epics 用于组织更大的计划,Milestones 则适合版本或阶段性目标。对于强调 DevOps 的团队来说,这种结构的好处是减少工具切换,让研发活动天然靠近代码和流水线。 但 GitLab 更适合研发工程侧主导的组织,不一定适合作为业务方和产品运营的主需求入口。如果企业需求大量来自销售、客服、市场或管理层,且需要复杂评审、路线图沟通和跨部门决策,GitLab 可能需要与其他产品管理或协同工具组合使用。 Linear 的定位非常清晰:面向现代产品开发团队,可以把对话和客户反馈转化为 actionable issues,并进行路由、标记和优先级处理。 从使用体验看,Linear 更像是为高节奏、高自驱的产品研发团队设计的需求管理系统。它不追求复杂流程,而是追求让需求、反馈、issue、project、cycle 和 roadmap 之间的流转足够快、足够轻。对于 SaaS、AI 产品、开发者工具、互联网产品团队来说,这种工具体验可以显著降低管理摩擦,让团队把注意力放在交付本身。 Linear 的优势在于减少噪音。很多工具功能很完整,但最终被大量字段、状态和流程拖慢。Linear 反过来强调清晰的工作队列、简洁的 issue 管理和顺滑的团队协同。这种设计特别适合工程文化强、团队自治度高、产品节奏快的组织。但对于需要复杂权限、审批流程、测试管理、审计合规、多项目组合管理和本地化服务的企业,Linear 可能需要额外系统配合。 ClickUp 的特点是覆盖广、配置灵活。ClickUp for software development 可将产品、工程、QA、设计团队放在一个 Workspace 中,用于维护产品路线图、交付产品功能、修复 Bug,并支持 Scrum 或 Kanban 方法。 从需求管理角度看,ClickUp 更像一个综合协作平台。产品团队可以用 Docs 编写需求背景,用任务和自定义字段管理优先级、负责人、版本、状态和工作量,用看板、列表、时间线等不同视图满足不同角色的工作习惯。对成长型团队来说,这种灵活性很有吸引力,因为组织经常处在流程不断变化的阶段。 ClickUp 的价值在于能把产品、设计、研发、测试、运营等多职能工作放在一个空间中。需求不再只是研发任务,而能延伸到需求调研、设计评审、开发执行、测试验证、上线准备、运营动作等环节。对跨部门协同较多的团队来说,这比单纯的研发看板更贴近真实工作方式。 但灵活工具最大的风险也是灵活。字段、状态、视图、自动化如果没有治理,很容易变成每个团队都有一套规则。短期看大家都能用,长期看数据无法汇总,管理层无法比较不同团队的效率。 Asana 更偏产品计划、路线图和跨部门协同。Asana 可用于规划发布、确定功能优先级、跟踪状态和依赖,并使利益相关者围绕时间线和目标保持一致。 从需求管理视角看,Asana 的优势不在深度研发过程,而在需求与业务目标的对齐。很多企业的需求失败,不是因为研发执行不力,而是因为需求在进入研发前没有形成清晰优先级,也没有和公司目标、发布节奏、业务资源形成一致。Asana 擅长把路线图、里程碑、负责人、时间线和跨部门任务放在清晰视图中,帮助团队统一节奏。 它特别适合产品运营协同强、发布活动复杂、需要多部门共同推进的团队。例如一个功能上线,除了研发完成,还需要市场预热、销售培训、客户成功准备、帮助文档更新和运营数据追踪。Asana 能较好承载这类跨职能协同工作。 但 Asana 不是典型的深度研发管理系统。它对代码、测试、缺陷、流水线等工程环节的原生支撑有限。如果企业需要严格管理需求到代码、测试和发布的链路,Asana 往往需要与工程工具配合使用。 Trello 的核心优势是可视化、简单和低学习成本。Trello 可用于产品路线图管理,帮助团队优先排序和规划产品路线图,并支持产品团队围绕路线图和回顾进行协作。 对小团队来说,需求管理系统最重要的不是复杂能力,而是能不能快速让团队形成共识。一个 Trello 看板可以作为需求池,卡片代表需求或任务,列表代表状态流转,标签代表优先级、模块或类型,成员和截止日期用于责任追踪。它足够直观,也足够容易被非技术角色理解。 Trello 适合早期产品团队、创新项目组、临时项目或流程尚未稳定的小型研发团队。它能用较低成本帮助团队完成从口头沟通到可视化协作的转变。对很多团队来说,这一步本身就能减少大量遗漏和重复沟通。 但当需求开始出现多层级拆解、跨项目依赖、复杂审批、版本治理、测试追踪和效能分析时,Trello 就会显得不足。它可以作为轻量需求协作工具,也可以作为个人或小团队的需求入口,但不适合作为复杂研发组织的核心治理平台。 monday 面向软件研发全生命周期。官方资料显示,团队可用 monday 管理产品规划、路线图、需求池梳理、冲刺执行、Bug 跟踪、QA 工作流、发布、报表和跨职能协作。 从需求管理视角看,monday 的优势在于跨部门可视化。它不是只服务研发工程师,而是试图让产品、设计、研发、QA、运营、客户成功等角色围绕同一条产品交付链路协作。对需求来源复杂、业务部门参与度高的组织来说,这种统一空间有助于减少业务不知道研发进展,研发不知道业务优先级的问题。 不过越灵活的平台,越需要明确数据模型,否则不同团队会创建不同字段、状态和自动化规则,最终影响整体数据质量。选型 monday 时,不应只看页面是否好看、模板是否丰富,还要评估它与现有代码、测试、CI/CD、知识库和服务系统的集成深度,以及企业是否有能力持续维护统一流程。 适合研发团队的需求管理系统有哪些?这个问题没有唯一答案。真正成熟的选型,不是寻找功能最多的工具,而是判断企业当前处在什么研发成熟度阶段,以及下一阶段最需要补齐什么能力。 小团队应优先选择轻量透明的工具,先让需求可见、责任明确、状态可追踪。成长型团队应关注需求到交付的闭环,避免产品、研发、测试各用一套语言。中大型企业应把需求管理系统放到组织治理和研发效能体系中评估,重点关注流程、权限、数据、质量和集成。DevOps 成熟团队则应优先打通需求与工程交付链路,让管理判断建立在真实工程数据之上。 一套好的需求管理系统,最终不只是让团队把需求记下来,而是让组织看清楚:哪些需求值得做,哪些资源正在被占用,哪些交付存在风险,哪些流程需要改进。它的终极价值,是让研发从被动响应需求,走向主动管理价值。 1. 需求管理系统和项目管理工具有什么区别? 2. 小团队是否需要专门的需求管理系统? 3. 企业级需求管理系统最应该看什么? 4. 需求管理系统是否必须和 DevOps 工具打通?一、需求管理系统选型标准
企业阶段 核心问题 更适合关注的工具类型 初创研发团队 需求分散、任务不透明、责任不清 轻量看板、协作型需求管理工具 成长期研发团队 需求增多、优先级冲突、交付节奏不稳定 支持需求池、迭代、Bug、路线图的综合工具 中大型企业 多团队、多项目、多角色、多流程并行 企业级研发管理平台、可配置流程与效能分析 DevOps 成熟团队 需求、代码、测试、发布数据割裂 与代码仓库、CI/CD、测试和发布打通的工具 跨部门产品团队 业务、产品、研发、运营协同复杂 路线图、里程碑、跨职能协作工具 二、2026 年主流需求管理系统速览对比
工具 更适合的研发团队 需求管理定位 核心优势 选型注意点 ONES 中大型研发组织、复杂项目制团队 企业级研发管理平台 需求、项目、测试、知识库、效能一体化 需要配合流程梳理与实施规划 Tower 中小研发团队、轻量项目协作团队 团队级协作与需求推进工具 上手快、视图直观、协作成本低 深度研发治理与效能分析能力相对有限 Jira 敏捷成熟团队、国际化研发组织 高灵活度敏捷研发管理工具 工作流、层级模型和生态成熟 配置治理成本较高 Azure DevOps 微软技术栈团队、工程平台型组织 工程交付链路中的需求管理工具 与代码、流水线、测试协同紧密 非微软生态团队需评估适配成本 GitLab DevOps 一体化团队 需求到代码交付的一体化平台 requirements、issues、epics、CI/CD 链路短 产品管理体验偏工程化 Linear 高速产品研发团队 面向现代产品开发的轻量需求系统 体验流畅、反馈到 issue 链路清晰 复杂流程治理能力需要评估 ClickUp 成长期多职能团队 灵活型综合协作平台 roadmap、bug、Scrum/Kanban、Docs 覆盖广 需防止字段和流程膨胀 Asana 产品路线图与跨部门协同团队 产品计划与发布协作工具 目标、优先级、里程碑和干系人对齐强 深度研发流程支持有限 Trello 小团队、早期项目团队 轻量看板式需求协作工具 简单直观、低学习成本 不适合复杂需求层级和组织级治理 monday 多部门产品研发协作团队 软件研发全生命周期协作平台 roadmap、backlog、sprint、QA、release 覆盖完整 长期配置治理成本需关注 三、需求管理系统深度测评
1. ONES:适合研发团队的企业级需求管理系统

2. Tower:适合中小研发团队的轻量需求管理系统

3. Jira:适合敏捷成熟团队

4. Azure DevOps:适合工程平台型团队

5. GitLab:适合 DevOps 一体化团队

6. Linear:适合高速产品研发团队

7. ClickUp:适合成长型多职能团队

8. Asana:适合产品路线图与跨部门对齐

9. Trello:适合小团队快速上手

10. monday:适合多部门协同

四、结尾总结
五、常见选型问题 FAQ
项目管理工具通常关注任务、负责人、时间、进度和交付计划;需求管理系统更强调需求从来源、评审、优先级、拆解、研发、测试到发布的完整链路。在研发团队中,需求管理系统应当同时连接产品价值、研发执行和质量验证。只管理任务状态,不能代表真正完成了需求管理。
小团队不一定需要复杂系统,但一定需要统一的需求管理方式。早期团队最容易出现的问题是需求口头化、状态不透明、优先级随时变化。如果团队人数较少,可以先选择轻量工具建立需求池和看板。等到需求数量增加、跨角色协作变复杂,再考虑引入更完整的研发管理平台。
企业级需求管理系统最应该看四点:流程可配置、数据可追踪、权限可治理、工具链可集成。对中大型组织来说,工具体验只是基础,真正影响长期 ROI 的是系统能否帮助组织形成统一管理标准,并持续沉淀研发效能数据。
如果企业已经建立代码管理、CI/CD、自动化测试和发布体系,那么需求管理系统应尽量与 DevOps 工具打通。否则管理层看到的是需求计划,研发团队执行的是工程事实,两者之间会存在判断断层。对工程成熟度较高的团队来说,需求、代码、测试和发布数据打通,是提升研发效能和交付可信度的重要基础。
AI Agent 正以前所未有的速度进入企业视野。近期,TVP 们围绕 AI Agent 的行业落地展开了一场深度讨论。这并非又一场概念沙龙——参与者聊的是真金白银的投入、彻夜踩坑的经历,以及一个绕不开的核心命题:AI Agent 在企业场景中到底能否真正落地并持续运行? 参与对话专家: 唐昕龙:清华大学五道口金融学院"数字中国"企业家项目高级主管 姜正林:泰康口腔集团 CIO 张志强:北汽福田汽车全球信息安全负责人 黄培:e-works 数字化企业网 CEO 于雷:致趣百川联创、首席客户营销官 姚杨:拈花湾文旅大营销负责人、拈花云科副总经理 谌鹏飞:绝味集团首席数智增长官 沈欣:半天妖集团 CIO ● 唐昕龙: 过去任何一轮技术浪潮,从未出现这样的局面。我们前几天一天面试 10 个企业家,其中 6 个一把手在亲自部署和调试 AI Agent,大多数不是简单的云端试用,而是在本地搭建运行环境、进行公司化运营。市值加起来万亿规模的私董会上,老板们的学习率高达 90%——放在以往,这绝不可能。过去说服企业负责人使用AI工具已属不易,让他们自己搭个工作流更是难上加难。 但这一次的根本不同在于认知层面的转变——把 AI 当技术,本能反应是让下属研究汇报;把 AI 当生产力革命,就会意识到这已经不是 IT 部门能独立承担的课题,必须由决策层亲自推动。但一旦让技术团队全面接手,一把手驱动的 AI 变革往往就此止步。我自己就是个例子——我搞第二只 Agent 时把系统搞崩了,Gateway 不停重启,我自己不会修 bug,全靠 Agent 自身删除所有 Bot 并重新构建了一遍。这条路虽然艰难,却必须走下去。 ● 谌鹏飞: 这次 AI Agent 浪潮,确实很多一把手、董事长非常敏感和重视。最近出现了一些“养虾私董会”,成员企业总市值合计近万亿,而这些老板自己学习率高达90%,放在以往绝不可能。老板把 AI 当成一个技术,本能反应就是让下面人搞明白汇报,充其量是个+AI;老板认知这是一次社会生产力跃迁,就会明白 CIO 背不起这口锅,本质要有结果是 AI+。 ● 姜正林: AI Agent 的生命周期是持续运转的循环:部署上线→在线等待→接收任务→执行任务→主动巡查→再执行……没有终止节点。这套机制让它特别适合干三类企业工作:第一类是需要持续监控的流程,如库存预警、患者异常监测、设备状态巡检,过去需要人轮班盯的事,交给它自动跑。第二类是跨平台的消息协调,客诉来自天猫、京东、微信三个渠道,内部通知要同时发飞书和钉钉——Gateway 统一接入,一套逻辑全覆盖。第三类是有时间节点的周期性任务,定时报告、复诊提醒、合同到期预警——Cron 调度到点自动触发,不需要人工跟踪。 ● 张志强: 综合来看,AI Agent 至少解决了以下痛点: 流程壁垒被打破——业务流程是贯穿企业运营的血脉,Agent 深度应用解决了跨系统操作繁琐的问题,自动化联动研发、生产、供应、销售、服务等关键系统,无需人工在不同系统间反复切换与录入数据,有效缩短周期,降本增效。 数据孤岛实现互联互通——数据源打通,深度关联并挖掘数据价值,解决数据沉睡问题,通过自主分析海量内部数据,主动推送业务洞察或风险预警,变事后统计为事前干预。人力得以释放——将人工从高重复、标准化、低价值的数字劳动中解脱出来,如自动处理财务对账、简历初筛、合同审查、合规解读等工作。 此外,还实现了意识直达——改变传统的菜单式交互,用户无需学习复杂软件操作,只需用自然语言说出目标,即可直达结果。 ● 黄培: 在制造业场景中,这些能力可以进一步具象化。企业往往部署了 ERP、MES、PLM、SCM 等多种系统,各自独立、接口不统一,工程师大量精力耗费在数据搬运而非数据分析与决策上。如果 AI Agent 能以低代码、自然语言方式快速对接各系统,自动完成数据采集、清洗和汇总,将极大降低企业数字化最后一公里的成本。比如接到一个非标订单,希望 Agent 自动从 PLM 中调取类似图纸、从 ERP 中查询库存和采购周期、从 MES 中查看当前产线负荷,最后自动整合成一份详细的订单可行性评估报告,全程无需人工干预。 此外,文档自动化与知识传承也是重要方向——生产报表自动生成、异常告警自动研判、工单自动派发、供应链波动自动预警、工艺文档自动检索与更新。利用 Agent 的记忆系统,将工程师解决技术难题的过程和思路记录下来,形成团队共享的数字经验库,有效解决制造业技术传承难的问题。7×24 小时的情报监控同样具有显著价值——自动访问行业网站、政府招标网、海关数据平台,筛选整理每日情报简报,早上上班前自动推送到工作群。 ● 于雷: 我最近一周多,把公司的 Salesforce、工单、产品消费等数据都接入后,基本就不去登录管理软件系统了。分析起来更方便,简单,出报表分析也很快。以前非常头疼业务团队的拜访与服务跟进,现在客户成功团队的数据直接拉通,自动发,自动提醒。关于实操方法论,一个关键原则是:不能让大模型直接分析数据,而要让大模型先写代码,再用代码去分析。把大模型当会写脚本的程序员去用,而非当分析师去用。这样能大幅减少幻觉问题,保证结果的可靠性。这个原理同样适用于 Claude Code 等工具。 ● 唐昕龙: 在金融领域也有初步探索,有学生用 AI Agent 做量化交易,10 天 8 次交易总共获得 19% 回报率。投资可能是最快速见到回报的途径,毕竟金融行业数据和钱离得最近,变现路径最短。但其中偶然性较大,也有优化空间。一个越来越强烈的感受是:当自己是任务驱动者时,真觉得跟人沟通比跟 Agent 沟通费劲多了。4 点改个海报,5 点终身教务处下班,都没来得及改好发过去审核,又得等一天——为什么这些工作不换成智能体呢? ● 张志强: 应用顾虑确实存在。首当其冲的是安全底线与成本投入:AI Agent 的主动执行需要高系统权限,一旦遭遇恶意指令或模型幻觉,可能导致不可预估的后果,如数据误删除、隐私泄露甚至系统瘫痪。还有物理机权限被滥用的问题,以及提示词注入攻击——如诱导模型忽略前置指令、暴露敏感信息等。企业会部署隔离环境,但风险更大。成本更是不小,所以我们也是区域性的试点,不敢铺开。 ● 黄培: 制造业是强合规、强安全、零容错的领域。一个指令表述不清,或者AI理解偏差,会不会删掉产线服务器的关键配置文件?AI 的幻觉现象、决策不可解释、执行不稳定,在制造业可能导致产线停机、生产中断。制造企业的图纸、配方、工艺参数是核心资产,是企业生存发展的生命线,而 AI Agent 要实现跨系统协同、自动化执行,必须获取系统级权限,这就带来了极大的安全隐患。国家互联网应急中心已明确提示,这类 AI 智能体存在提示词注入、误操作等安全风险,值得所有企业高度警惕。 Token 消耗同样是不容忽视的问题,工业任务往往链条极长、流程复杂,一个复杂的仿真任务、一次跨系统的全面数据汇总,可能导致 Token 消耗指数级增长。企业引入 AI Agent,不仅要算效率账,更要算经济账。 此外,监管部门已对国企、银行等关键领域使用 AI Agent 持谨慎态度,甚至要求开展排查工作。对于上市公司和大型制造国企,合规是不可逾越的红线。如果采用开源自研方式适配工业场景,需要满足怎样的等保要求?不解决合规性问题,AI Agent 在大型企业只能停留在研究室的沙箱里,无法进入核心业务系统。 ● 唐昕龙: 昨天我们在 AI 原点社区开了个 AI Agent 与一人公司的研讨会,大家也是这个感受——个人应用做好沙箱隔离就值得冒险,企业级应用安全代价很大。我自己在云端使用时也总会担心数据泄露,清华大学出版社会始终提醒知识产权问题,在本地部署隔离一下会有些掌控感,其实安全性未必更高,但缓解焦虑也是通用需求。现在云厂商共同补贴,Token 全是折扣甚至免费。等到正常定价时,有多少应用 ROI 能算得过来账?3 月 18 日,阿里云、百度智能云双双发布调价公告。 ● 沈欣: 去年买了 DeepSeek 一体机的,今年都赚翻了——作为理财收益很高。不过好几家云厂商最近双双发布调价公告,韭菜终于都养成了用 AI Agent 的习惯。 ● 姜正林: AI Agent 一旦大规模企业流程上线以后,原则上真的得减人了。否则一边烧着 Token,一边还要养着人。今天下午我们跟业务开会讨论到 2026 年的 AI 应用,比如说财务过去用 RPA 去做很多后台机械性的动作,但现在有 AI Agent 以后也可以做,但是成本到底哪一个更有 ROI? ● 姚杨: 部署企业内公开发布的机器人时,不配置 Agent 和 Workspace 隔离吗?会有风险——比如你给 Agent 发的文件和内容,能被其他人问出来。 ● 于雷: 关于模型选择,大量流程性的工作并不需要特别聪明的模型。遇到特别需要深度思考的,就用贵的模型;平常的工作只要让他用便宜的模型就行了。比如说拉取Salesforce与工单系统做分析,GLM足够用了;AI EDM需要创意输出,Gemini 3 Pro才行;AI Meeting类的,DeepSeek就够了。 ● 姚杨: 人工路由没法解决企业大规模使用的场景。AI Agent自己现在没带这么复杂的路由规则,OpenRouter路由也无法做到很好的路由,经常是同一个任务下忽聪明忽笨拙,最后总成本更高。 用 A 模型形成的记忆和 Cron,切换成 B 模型时,都会有遵从性降低的问题。如果是多 Agent 各用各模型时,在企业场景,谁来思考和决定用哪个模型?如果这变成了一个专业化的事情,就还是收口 IT 团队来交付了——与人人用 AI 的构想完全不符。我自己技术出身自己做自己调当然没问题,但这不单是一个可行性话题,是一个落地的组织形式和组织分工的话题。 ● 唐昕龙: 对于传统产业的企业家,面前实质上只有两条路。第一条路是用AI战略迅速变革自身,成为行业中率先用好AI的企业。第二条路是赶紧收摊,把钱收回来,去做一二级投资。在中间的,基本上就是等死,不知道死在哪一天。 企业在推进数字化的过程中,还要承担巨大的机会成本。很多人一次尝试不顺,就断言自己不适合数字化战略,最终反而把自己困在原地。AI Agent 本质上是可高度自定义的工具,企业家首先要想清楚自己要解决什么问题。否则,如今购入的一体机,很可能会像去年的 DeepSeek 一体机一样,最终闲置落灰。 不过,我们也看到了小微企业数字化的新希望。前几年中小企业问数字化能做什么,答案十分有限;而现在依托 AI,只要创始人迈过 AI 应用这道门槛,就有机会真正落地。当然,对于产业附加值不足以支撑 Token 成本的场景,仍需要更轻量化的方案设计与更高效的算法。 我们 AI 首期班的一位学员总结得很到位:出来混最重要的是什么?是先出来!安全意识固然重要,但更要先行动起来,不要被过度顾虑束缚脚步。发展中的问题要用发展的思路解决,先找到真正能创造收益的应用场景,再评估风险、及时优化,为时未晚。 ● 姜正林: 很多传统行业的业务部门对 AI 的认知,还停留在聊天机器人层面,往往不清楚 AI 的真正应用目标。这就需要技术团队先帮他们梳理清楚:把重复、分散、需要持续跟进的流程交给系统自动运转,将人的精力释放出来,专注处理需要专业判断的例外情况。把这个底层逻辑理顺后,再落地到具体行业场景就会非常顺畅。 ● 黄培: 我认为,AI Agent 在工业领域的落地,应该先小场景验证、再流程固化、后规模化推广。我们需要的不是通用的、充满不确定性的 Demo,而是开箱即用、但又能实现物理隔离的安全版本;需要的是能自我纠错、稳定可靠、可追溯的企业级 Agent。 ● 唐昕龙: 可以关注一下 Circle:AI Agent 为它带来了全新定位 ——智能体时代的通用支付媒介。如今智能体之间大量使用 USDC 进行相互结算,单笔交易平均仅 0.8 美元,呈现小额高频特征,传统支付体系完全无法适配。Circle 甚至还会向智能体直接发放激励,以推动交易发生。 我另一位同学所在的头部商业火箭公司,也在尝试打造全智能体组织,虽然仍处于实验阶段,但 Token 消耗量已十分惊人。有些场景最终可能还是会回归 AIGC 或 RPA,但这类前沿实验依然值得做 —— 尤其现在云厂商正大力推广、价格优惠,现在不试水,将来成本只会更高。 我们还能从一个侧面感受下市场热度:上周一,清华大学出版社向我约稿一本 AI Agent 科普书。我立刻联合一位亚马逊技术顾问共同撰写,当天就通过绿色通道完成立项并签署出版协议。借助 AI 工具,我们到周日就完成了全书初稿。本以为速度已经很快,结果发现当天上会的 5 个选题里,有 3 本已经进入定稿、走完三审三校流程。 ● 张志强: 感觉我在训练一个可以干掉我自己的数字人。 ● 于雷: 让自己有更多的闲暇。毕竟,若为自由故,两者皆可抛。Taste与critical thinking,AI不好替代。 ● 姜正林: 人负责创造情绪价值。基于数据运营和管理,AI倒是完全可以替代人工。 讨论落下帷幕,TVP 们对 AI Agent 企业落地总体抱有审慎乐观的态度。安全意识不可忽视,但首先必须行动起来——发展中的问题需要用发展来解决。合理的推进路径是先小场景验证,再流程固化,后规模化推广。AI Agent 已进入实际应用阶段,接下来的竞争胜负,取决于谁能率先将其转化为可持续的业务价值。 TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional), 是腾讯云颁发给各领域顶级技术专家的一项荣誉认证,以感谢他们在各个行业和领域为推动云计算及相关技术的发展和落地所作出的贡献。TVP 致力打造与行业技术专家的交流平台,促进腾讯云与技术专家和用户之间的有效沟通,从而构建云计算技术生态,实现“用科技影响世界”的美好愿景。引言
01 一把手亲自下场,这一次有什么不同?
02 AI Agent 能为企业做什么?
03实操者的真实反馈
04 安全、成本与合规:三大核心挑战
05 模型选型与成本平衡
06战略选择:两条路没有中间地带
07 前沿信号:Agent经济初现雏形
天啊!震惊! 神奇的bug ! 我自己的网站,我自己都登录不进去了? 稍等,等我娓娓道来!我的一个维护中的站点Wordpress 构建的! 前提声明:xxx 指代域 我刚想进后台,输入我以前保留的地址! xxx/old\_login 域名一直跳转到 xxx/en/old\_login 然后一直响应 404 分析原因: xxx/old\_login 是我通过 wp\_login\_hide 插件 修改的 正常wordpress后台 是xxx/wp-admin 或者域名xxx/wp-login.php 即可访问登录的 翻译插件: 但是由于我上回修改了翻译插件 ,站点是由一级主域名切换变成了二级子目录才能切换 就是原本站点 xxx/ 即可访问 现在默认全部跳转到 xxx/en or xxx/en了所以我每次访问 xxx/old\_login 都会跳转到xxx/en/old\_login. 然后返回我404 最终解决: 登录服务器将插件wp\_login\_hide 项目目录改名为 wp\_login\_hide\_bak 禁用即可 ,访问 wordpress 默认后台登录地址即xxx/wp-admin 或者 xxx/wp-login.php 登录即可! 由可以看出 wordpress 建站迅速的同时,插件很多有时有些莫名的bug , 代码流程复杂凌乱, 这就是传统开源开发的痛吧!你有遇到什么奇怪的bug 吗 欢迎评论区聊聊 本文首发Thinkwind技术文档 上一篇 独立站从0到1操作指引之第一节认识与注册shopify 下一篇 这个nextjs 漏洞真的太逆天了! AI生产级事故,注意!
📝 wordpres遇见的一次bug
一个很直观的现象是,2026 年 4 月的模型发布节奏被压缩到了"按天计"。过去一款旗舰模型从发布到铺开通常需要一两周缓冲期,但现在: 其它模型(Kimi K2.6、Qwen3-Max、文心 5.5 等)也在同一时间段内发布,但这四款覆盖了开源 vs 闭源、编程 vs 推理 vs 文字、大参数 vs 小激活四对关键维度,最具横评价值。 把核心规格压缩到一张表里: 参数规模直观对比(总参数 B,越长越大): 激活参数对比(真实推理成本的关键指标): ⚠️ 一个容易忽略的点:激活参数才是真实推理开销的指标,总参数决定知识上限,但每次推理只激活其中一小部分。MiniMax M2.7 激活仅 10B,这就是它能把输出速度拉到 ~100 TPS(接近主流模型 2 倍)的底层原因。 编程能力是本轮最值得关注的赛道,因为四款模型有三款都把它列为主打能力。 SWE-bench Pro(真实 GitHub 仓库修复,业界公认最硬的编程评测): 三款国产模型在 55~58% 区间高度贴靠,统计误差范围内实力相当。GPT-5.5 在这项上"策略性失踪"——按 OpenAI 惯例不公布意味着数据不够漂亮。第三方测试显示它被 Claude Opus 4.7 压制明显。 Terminal Bench 2.0(CLI / 终端多步操作,最接近真实 DevOps 场景): 这项差距一下拉开了约 25 个百分点——说明 GPT-5.5 在多步 Shell 任务、状态维护、工具链协作上有系统性优势,这恰恰是企业级 Agent 落地最吃力的环节。 GPQA Diamond(研究生级物理/化学/生物推理题): HLE(Humanity's Last Exam,极难知识广度测试): DeepSeek-V4-Pro 在纯推理和知识广度上优势非常显著——这与它 1.6T 的超大总参数高度相关。如果你的工作场景是科研、数学推导、复杂 STEM 问题,它几乎是开源选项里的唯一答案。 GDPval(覆盖 44 种真实职业的知识工作评测,任务来自律师、医生、数据科学家等): GPT-5.5 在这项上是最强,因为它的训练数据和 RLHF 大量针对"职业交付"场景调优。MiniMax M2.7 的 AA 分榜(Artificial Analysis)位列开源第一,办公自动化(Excel / PPT / Word 复杂编辑)表现突出。 API 输入定价对比($/百万 tokens,柱长与价格成正比): 横向换算一下,同样是做 100 万 tokens 输入: GPT-5.5 的价格是 MiniMax M2.7 的 17 倍。对于内容生产、客服对话、轻量 Agent 这些高频调用场景,这个差距足以决定项目生死。 智谱 4 月 10 日发布并开源的旗舰模型,最核心的卖点是长程 Coding Agent 能力——官方和第三方都在强调"能连续自主工作 8 小时"。 亮点: 痛点: 适合谁:大型代码仓库重构、全栈应用生成、需要深度 Agent 能力的开发团队。 3 月 18 日发布。它最大的故事不在参数上,而在训练方式上——首款由模型自身深度参与训练迭代的 MiniMax 模型。通过 Agent Harness 系统,模型在训练中自主修改脚手架代码、调整采样参数,甚至给自己写新的操作规范。 亮点: 痛点: 适合谁:内容生产、营销文案、客服对话、办公自动化,以及对成本和速度同时敏感的 To C 产品。 今天(4 月 24 日)凌晨刚在 Hugging Face 放出的预览版。目前参数规模最大的开源模型——1.6T,超过 GLM-5.1 的 754B、Kimi K2.6 的 1.1T。 亮点: 痛点: 适合谁:科研机构、大型代码库分析、需要 1M 上下文的文档处理、以 MIT 协议做二次开发的企业。 4 月 23 日发布,是 OpenAI 自 GPT-4.5 以来首次全面重训的基础模型。此前的 GPT-5.x 系列都在同一个基座上做后训练迭代,而 5.5 是从训练流程开始重建。 亮点: 痛点: 适合谁:企业级 Agent、复杂 DevOps 流水线、对广泛职业场景有覆盖需求、同时对价格不敏感的团队。 按 5 个核心能力维度(1~10 分)对比: 可视化条形图(代码能力): 可视化条形图(推理 / STEM): 可视化条形图(文字创作): 可视化条形图(性价比): 根据具体使用场景,给出明确推荐: 在横评过程中,几个容易被"标题党"带偏的点: 误区一:总参数越大越强 误区二:Terminal Bench 代表整体实力 误区三:开源 = 免费 误区四:低幻觉 = 不瞎说 如果你只能选一款长期用: 如果可以同时接入多款(推荐做法): 这样一套组合下来,平均成本能控制在 $0.8~$1.5/M,同时保留了"关键时刻顶得住"的最终武器。 用一句话概括四款模型: 这四款模型没有绝对的赢家,但每款都有不可替代的那部分。2026 年这个节点,"一款模型打天下"的时代已经结束,多模型组合 + 场景路由才是未来 6~12 个月的标配。 未来几周,随着 DeepSeek-V4-Pro 稳定版落地、GPT-5.5 价格可能的调整、以及 Kimi K3 和 Qwen4 的可能发布,格局还会继续演变。值得持续跟踪。 本文为 JeecgBoot AI 专题研究系列文章。数据来源:OpenAI 官方博客、智谱开放文档、MiniMax 官网、DeepSeek Hugging Face 模型卡、Atlas Cloud、DataLearnerAI、VentureBeat、TechCrunch 等。发布时间:2026 年 4 月 24 日。JeecgBoot AI专题研究 | 2026 年 4 月大模型四强横评:参数、基准、价格、场景全维度对比
48 小时内两款旗舰接连亮相——昨天 GPT-5.5,今天 DeepSeek-V4-Pro。加上 4 月初发布的 GLM-5.1 和 3 月稳住阵脚的 MiniMax M2.7,四款顶级大模型一齐摆在桌面上。这篇文章只做一件事:把它们拉到同一把尺子下,告诉你谁擅长什么、差在哪里、怎么选最划算。

写在前面:为什么是这四款?
一张图看懂四款模型
维度 GLM-5.1 MiniMax M2.7 DeepSeek-V4-Pro GPT-5.5 发布时间 2026-04-10 2026-03-18 2026-04-24(今日) 2026-04-23 开源协议 ✅ 开源 ✅ 开源 ✅ MIT ❌ 闭源 总参数 754B (MoE) 未公开 (MoE) 1.6T (MoE) 未公开 激活参数 40B ~10B 49B 未公开 上下文窗口 200K 262K 1M 1M (API) / 400K (Codex) 多模态 文本 + 代码 文本 + 代码 文本 + 代码 文本 + 代码 输入定价 ~$1.74/M $0.30/M $1.74/M $5.00/M 本地部署 ✅ ✅ ⚠️(Pro 版 865GB) ❌ DeepSeek-V4-Pro ████████████████████████████████████████ 1,600B
GLM-5.1 ██████████████████▊ 754B
MiniMax M2.7 未公开(MoE,激活 ~10B)
GPT-5.5 未公开(闭源)DeepSeek-V4-Pro ████████████████████████████████████████ 49B
GLM-5.1 █████████████████████████████████ 40B
MiniMax M2.7 ████████ 10B
GPT-5.5 未公开基准测试一:编程与软件工程
GLM-5.1 ██████████████████████████████████████████ 58.4%
MiniMax M2.7 ████████████████████████████████████████▌ 56.2%
DeepSeek-V4-Pro ███████████████████████████████████████▊ 55.4%
GPT-5.5 未公布(Opus 4.7 以 64.3% 领先对比项)GPT-5.5 ██████████████████████████████████████████████████████████████ 82.7%
GLM-5.1 ████████████████████████████████████████▎ ~57%
MiniMax M2.7 ████████████████████████████████████████ 57.0%
DeepSeek-V4-Pro 未公布基准测试二:推理与知识
DeepSeek-V4-Pro █████████████████████████████████████████████ 90.1%
MiniMax M2.7 ███████████████████████████████████████████▌ 87.0%
GLM-5.1 未公布
GPT-5.5 未公布DeepSeek-V4-Pro ██████████████████▊ 37.7%
MiniMax M2.7 ██████████████ 28.0%
GLM-5.1 未公布
GPT-5.5 未公布基准测试三:真实职业工作
GPT-5.5 ███████████████████████████████████████████▌ 84.9%
MiniMax M2.7 ████████████████████████▌ 50 ELO (AA, 开源最高)
GLM-5.1 未公布
DeepSeek-V4-Pro 未公布价格对比:谁更能打"性价比"?
MiniMax M2.7 █▊ $0.30 ← 最低
GLM-5.1 ██████████ $1.74
DeepSeek-V4-Pro ██████████ $1.74
GPT-5.5 █████████████████████████████ $5.00 ← 最高深度解析一:GLM-5.1
深度解析二:MiniMax M2.7
深度解析三:DeepSeek-V4-Pro(今日发布)
深度解析四:GPT-5.5(昨日发布)
能力雷达图:一眼看出各自的"形状"
能力维度 GLM-5.1 MiniMax M2.7 DeepSeek-V4-Pro GPT-5.5 代码生成 9 7 8 8 推理 / STEM 7 5 10 8 文字创作 7 10 7 9 Terminal/Agent 7 6 8 10 性价比 7 10 8 4 上下文 6 7 10 10 服务稳定性 6 8 7(预览版待观察) 10 GLM-5.1 █████████████████████████████████████████████ 9
MiniMax M2.7 ███████████████████████████████████ 7
DeepSeek-V4-Pro ████████████████████████████████████████ 8
GPT-5.5 ████████████████████████████████████████ 8GLM-5.1 ███████████████████████████████████ 7
MiniMax M2.7 █████████████████████████ 5
DeepSeek-V4-Pro ██████████████████████████████████████████████ 10
GPT-5.5 ████████████████████████████████████████ 8GLM-5.1 ███████████████████████████████████ 7
MiniMax M2.7 ██████████████████████████████████████████████ 10
DeepSeek-V4-Pro ███████████████████████████████████ 7
GPT-5.5 █████████████████████████████████████████████ 9GLM-5.1 ███████████████████████████████████ 7
MiniMax M2.7 ██████████████████████████████████████████████ 10
DeepSeek-V4-Pro ████████████████████████████████████████ 8
GPT-5.5 ████████████████████ 4选型决策树:你该选谁?
你的场景 首选 备选 选型理由 大型代码仓库 Agent / 全栈开发 GLM-5.1 DeepSeek-V4-Pro SWE-bench Pro 国产第一,8 小时长程能力 超长文档 / 完整代码库投喂 DeepSeek-V4-Pro GPT-5.5 1M 标准上下文 + 开源可本地化 内容生产 / 营销文案 / 办公自动化 MiniMax M2.7 GPT-5.5 文字第一 + 速度快 + 价格最低 数学 / STEM / 科研推理 DeepSeek-V4-Pro GPT-5.5 GPQA 90.1%,HLE 37.7%,开源最强 Terminal / DevOps / 计算机操控 GPT-5.5 GLM-5.1 Terminal Bench 领先 25 个百分点 企业级广泛职业工作 GPT-5.5 MiniMax M2.7 GDPval 84.9%,覆盖广 高频低成本调用(客服、轻 Agent) MiniMax M2.7 GLM-5.1 $0.30/M + 100 TPS 开源 + 私有化部署 DeepSeek-V4-Pro GLM-5.1 MIT 协议 + 超大参数 幻觉敏感场景(法律、医疗) GLM-5.1 — 幻觉压制为国产第一梯队最佳 常见误区:别被单一指标忽悠
DeepSeek-V4-Pro 1.6T 参数确实在知识广度上占优,但激活只有 49B。对大多数场景而言,激活参数决定推理质量上限,总参数决定长尾覆盖。编程、对话、写作这些日常任务,40B 激活已经够用。
GPT-5.5 在 Terminal Bench 上 82.7% 遥遥领先,但这只说明它在"多步 Shell 命令、状态维护"这一类任务上强。它在 SWE-bench Pro 上的表现(未公布,推测低于 58%)恰恰说明单一基准不能说明全部。
三款开源模型都可以本地部署,但 DeepSeek-V4-Pro Pro 版本 865GB,H100×8 集群起步,单月硬件成本 10 万+。"能跑"和"跑得起"是两件事。MiniMax M2.7 的小激活设计反而在私有化场景更友好。
GLM-5.1 宣传"幻觉压制为国产第一梯队最佳",但这只是相对前代和国产同类的说法。绝对水平上,Claude Opus 4.7 的 36% 幻觉率仍是业界最低,低成本的代价是回答的"硬度"和"胆量"。一个开发者的实用建议
总结
刚刚,DeepSeek 在官方公众号发文宣布,全新系列模型 DeepSeek-V4 的预览版本正式上线,并同步开源! DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能三大维度上均实现了国内与开源领域的领先。 秉承 DeepSeek 一贯的开放精神,本次发布的模型按大小分为两个版本,欢迎开发者、研究者和企业用户前往体验和下载。 模型按大小分为两个版本: DeepSeek-V4 模型开源链接: https://huggingface.co/collections/deepseek-ai/deepseek-v4 https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4 DeepSeek-V4 技术报告: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf Pro 版本面向的是高性能,Flash 版本则主攻性价比。 API 服务已同步更新,通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。 从技术报告来看,有一点特别值得注意,DeepSeek V4 并不是只在 NVIDIA 体系内做优化,而是明确将细粒度专家并行(EP)方案同时在 NVIDIA GPU 和华为 Ascend NPU 上完成验证,这说明其推理路径已经具备跨算力平台的适配能力。但在开源层面,当前释放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM,底层实现深度绑定 NVIDIA 工具链。 另外,官方 API 页面还提到,受限于高端算力,目前 V4-Pro 的服务吞吐仍有限,预计下半年昇腾 950 超节点批量上市后,Pro 价格会大幅下调。这意味着,DeepSeek 一边在现有 CUDA 生态内持续做极致优化,一边也在为华为 Ascend 等多算力环境预留空间,开始尝试把模型运行时从单一硬件依赖中解耦出来。 Agent 能力大幅提高:相比前代模型,DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中,V4-Pro 已达到当前开源模型最佳水平,并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。 丰富的世界知识:DeepSeek-V4-Pro 在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。 世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。 相比 DeepSeek-V4-Pro,DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹,但展现出了接近的推理能力。而由于模型参数和激活更小,相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。 在 Agent 测评中,DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当,但在高难度任务上仍有差距。 官方公众号文章中介绍,DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求。 从现在开始,1M(一百万)上下文将是 DeepSeek 所有官方服务的标配。 DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化 值得注意的是,DeepSeek-V4 还针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例: 目前,DeepSeek API 已同步上线 V4-Pro 与 V4-Flash,支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时,base_url 不变, model 参数需要改为 deepseek-v4-pro 或 deepseek-v4-flash。 V4-Pro 和 V4-Flash 均提供 1M 上下文长度,并同时支持非思考模式与思考模式。后者可通过 reasoning_effort 参数调节思考强度(可选 high 或 max)。对于复杂的 Agent 类任务,建议启用思考模式并将强度设为 max。具体调用方式及参数设置请查阅 API 文档。 需注意:旧接口中的 deepseek-chat 和 deepseek-reasoner 两个模型名将于 2026 年 7 月 24 日 停止使用。过渡期内,它们分别指向 deepseek-v4-flash 的非思考模式与思考模式。 CSA 与 HCA 是关键创新是 V4 系列最关键的创新之一。传统注意力机制处理长序列时,每个 token 都需要与所有历史 token 计算注意力,导致计算量随序列长度平方增长。V4 设计了两种互补的压缩注意力架构: 压缩稀疏注意力(CSA):首先将每 m 个 token 的 KV 缓存压缩为 1 个条目(m=4),然后使用 DeepSeek 稀疏注意力,每个查询 token 仅需关注 k 个压缩后的 KV 条目(k=512~1024),引入 Lightning Indexer(轻量索引器)高效选出重要的压缩块,整体将序列长度压缩至 1/m。 高度压缩注意力(HCA):采用更激进的压缩率(m'=128),将每 128 个 token 压缩为 1 个,保持稠密注意力(不稀疏),适用于信息密度较低的场景,CSA 与 HCA 以交错方式堆叠,兼顾效率与表达力。 工程亮点:支持 RoPE 部分位置编码(仅最后 64 维),维持相对位置信息;引入滑动窗口注意力分支捕获局部依赖;采用 Attention Sink 技术让注意力得分总和可以不为 1。 此外,Engram 和 mHC 两个版块上的创新也同样很关键。 首先是 Engram (条件记忆模块):这是 DeepSeek 创始人梁文锋署名论文中的核心概念。它试图解决传统 Transformer 架构将记忆与推理混为一谈的根本问题,模型既需要用注意力去“检索”知识,又需要用注意力去“推理”。 工作原理是 Engram 将模型能力从连续的神经计算转移到确定性的哈希查找。它将那些固定的、需要记忆的模式(如实体名、固定搭配)存入一个类似“字典”的查找表中,使模型能以 O(1) 的复杂度快速调用,而无需消耗大量算力去“计算”记忆。 实际效果:这使得模型能将宝贵的注意力资源解放出来,专注于复杂的组合与推理任务。在实验阶段,一个集成了 270 亿参数 Engram 的模型,在参数和浮点运算次数(FLOPs)同等的情况下,性能超过了纯 MoE 模型。 mHC (流形约束超连接,Manifold-Constrained Hyper-Connections):这是一个旨在解决极深网络训练不稳定性的创新。传统 Transformer 模型在堆叠到很深的时候,容易出现梯度爆炸或消失等信号 degradation 问题。 通过将连接矩阵约束在双随机矩阵流形上,mHC 确保了信号增益在每一层都保持稳定(约 1.6 倍),从而让深层表示得以保留。这使训练更深、更强的模型成为可能,将计算利用率从行业平均的约 60%提升到了 85%以上,同时减少了 30%+的原始计算依赖。 除了核心架构的创新,V4 在训练和推理工程层面也进行了大量优化。 V4 首次在万亿参数 MoE 模型上大规模采用 Muon 优化器。 团队设计了一套混合 Newton-Schulz 迭代策略:前 8 步使用快速收敛系数,后 2 步切换为稳定系数,在正交化精度与收敛速度间取得最优。为解决 ZeRO 并行与 Muon 需要完整梯度矩阵的矛盾,团队设计了混合 ZeRO 分配策略——稠密参数限制并行度并用背包算法负载均衡,MoE 专家参数独立展平后均匀分布。进一步地,MoE 梯度在同步前以随机舍入方式量化到 BF16,通信量减半;同时采用“all-to-all + 本地 FP32 求和”规避低精度加法器的累积误差。 V4 在 MoE 专家权重和 CSA 索引器的 QK 路径上应用了 FP4 量化感知训练。一个关键发现是:FP4 到 FP8 的解量化是无损的——因为 FP8 拥有更大的动态范围,FP4 子块的细粒度尺度信息可以被完全吸收。这使得整个量化流程可以无缝复用现有的 FP8 训练框架。 在推理和 RL rollout 阶段,直接使用真实 FP4 权重,实现实时的显存节省和计算加速。对索引器分数的 FP32→BF16 量化更是带来了 2 倍加速,同时保持 99.7%的召回率。 MoE 模型的专家并行受限于跨节点通信。传统方案中,Dispatch 和 Combine 阶段是纯通信瓶颈。V4 的创新是将专家切分为“波”——每个波包含一小部分专家。当波内专家的通信完成后,计算立即开始,无需等待其他专家。稳态下,当前波的计算、下一波的 token 传输、已完成专家的结果发送三者同时进行。这一细粒度流水线在 NVIDIA GPU 和华为昇腾 NPU 上实现 1.5~1.73 倍加速,在 RL rollout 等高敏感场景下可达 1.96 倍。 团队还提出了硬件设计建议:当前每 GBps 互联带宽足以覆盖 6.1 TFLOP/s 的计算需求,盲目增加带宽会带来收益递减。这一洞察对未来 AI 加速器设计具有指导意义。 训练万亿参数模型时,非确定性行为可能导致难以调试的 loss 尖峰。 V4 实现了全面的批量不变性和确定性:任何 token 的输出不因 batch 内位置而改变;每次运行的梯度累积顺序保持一致。技术难点包括:注意力反向传播中放弃 split-KV 方案,改用双核策略(满波时单 SM 处理、部分波时多 SM 协作但保证累积顺序);MoE 反向传播通过 rank 内 token 顺序预处理加 rank 间 buffer 隔离解决竞争;mHC 中小矩阵乘法(输出维度仅 24)被迫使用 split-k 时,先输出各 split 部分再通过专用核确定性归约。 这些工程打磨使得大规模训练的可复现性达到新高度。 为支撑数百个融合核的开发,V4 团队采用 TileLang 领域特定语言,并实现了主机代码生成——将数据类型、形状约束等元数据嵌入生成的 launcher 中,运行时验证开销从数十微秒降至 1 微秒以下。同时集成 Z3 SMT 求解器进行形式整数分析,支持向量化优化、屏障插入等高级编译优化。严格对齐数值精度与 CUDA 工具链,保证 bit 级可重现性。 万亿 MoE 模型的训练稳定性是一大挑战。V4 识别出 loss 尖峰与 MoE 层异常值的强相关性,且路由机制会加剧异常值。为此设计了预知路由:在 step t 使用历史参数θ_{t-Δt}计算路由索引,当前参数仅做特征计算,通过管线执行与通信重叠将额外开销控制在 20%,且仅在尖峰发生时动态激活。 配合 SwiGLU 钳位(线性分量钳位到[-10,10],门控分量上界钳位到 10),有效消除了异常值,且不影响性能。 V4 的框架优化覆盖了训练与推理全流程: 上下文并行适配:两阶段通信策略解决压缩边界跨 rank 的问题,每个 rank 发送最后 m 个未压缩 KV,all-gather 后融合为完整序列。 张量级激活检查点:扩展自动微分框架,支持对单个张量标注重计算,框架自动计算最小重计算子图,释放显存并复用指针,开发者无需关心底层内存细节。 异构 KV 缓存管理:分离状态缓存(SWA+未就绪压缩 token)和经典 KV 缓存,支持磁盘存储以实现共享前缀请求的零重复预填充。 V4 的后训练采用“独立专家训练→同策略蒸馏”两阶段范式。首先针对数学、代码、Agent、指令跟随等领域独立训练专家模型,每个专家经过 SFT 和 GRPO 强化学习,支持三种推理模式(Non-think/Think High/Think Max)。 特别地,使用了生成式奖励模型替代传统标量奖励模型,模型的 actor 与 judge 角色统一,将推理能力内化到评估中。 然后通过同策略蒸馏将十多个专家融合到一个统一模型。采用逆向 KL 散度作为目标,并使用全词表 logit 蒸馏(而非 token 级 KL 估计),梯度估计更稳定。工程上,教师权重 offload 到分布式存储,仅缓存最后一层 hidden states,训练样本按教师索引排序确保每个教师头只加载一次,使得在万亿参数级别进行多教师蒸馏成为现实。 不得不说,DeepSeek-V4-Pro-Max(最大推理强度模式)在多项基准上重新定义了开源模型的天花板: 知识:SimpleQA-Verified 达到 57.9%,远超前代开源模型(约 30%); 编程:Codeforces Elo 3206 分,排名人类第 23,首次有开源模型在该任务上追平 GPT-5.4; Agent:SWE-Verified 80.6%,接近 Claude Opus 4.6 的 80.8%;Terminal Bench 2.0 67.9%,与 GPT-5.4 的 68.5%持平; 中文任务:功能性写作以 62.7%的胜率优于 Gemini 3.1 Pro,创意写作在写作质量维度达到 77.5%胜率。 V4-Flash-Max 则以极低成本实现了与 GPT-5.2 和 Gemini 3.0 Pro 相当的推理性能,证明了高效架构的可行性。 2025 年除夕夜,当大多数用户还沉浸在年味中时,DeepSeek 低调发布了DeepSeek-R1。没有发布会、没有铺天盖地的宣发,但几天之内,这个模型迅速在技术社区、研究圈与开发者社群中扩散开来。事后来看,R1 更像是一个信号:推理模型,开始从“研究话题”走向“工程现实”。 DeepSeek 发布了在数学、代码编写和逻辑推理方面表现卓越的 DeepSeek-R1 模型。其性能直追 OpenAI o1,并能够展示详尽的思维链。该模型通过 MIT 协议开源了相关权重和代码,不仅产生了深远的技术影响,更直接重塑了全球开源与商业大模型,乃至中美大模型的技术竞争格局。 R1 之后:持续迭代,而非“一次性爆款”。 3 月 25 日,DeepSeek V3 模型已完成小版本升级,欢迎前往官方网页、APP、小程序试用体验(关闭深度思考),API 接口和使用方式保持不变。 DeepSeek 反馈称此次 DeepSeek-V3 的小版本升级,版本号为 V3-0324,主要聚焦于体验优化和性能提升。在官方网页、App 和小程序中,用户关闭“深度思考”功能,可获取更快的响应速度,适合对实时性要求高的场景(如简单问答、代码片段生成)。 5 月 28 日,DeepSeek R1 模型已完成小版本升级,版本为 DeepSeek-R1-0528。这款开源大模型支持 128K 超长上下文,中文能力超越 GPT-4-Turbo 登顶 SuperCLUE 榜首,代码性能媲美顶级闭源模型。亮点包括:处理整本小说/超长文档的"大海捞针"能力、MIT 开源协议支持商用、免费开放使用。适用场景涵盖企业文档分析、教育科研、编程辅助等。 8 月 21 日,DeepSeek-V3.1 正式发布。本次升级包含以下主要变化: 混合推理架构:一个模型同时支持思考模式与非思考模式; 更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短时间内给出答案; 更强的 Agent 能力:通过 Post-Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。 官方 App 与网页端模型已同步升级为 DeepSeek-V3.1。用户可以通过“深度思考”按钮,实现思考模式与非思考模式的自由切换。 DeepSeek-V3.1 上下文已扩展为 128K。同时,API Beta 接口支持了 strict 模式的 Function Calling,以确保输出的 Function 满足 schema 定义。 9 月 22 日,DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus 版本。据 DeepSeek 介绍,此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:语言一致性:缓解中英文混杂、偶发异常字符等情况。在 Agent(智能体)能力方面,进一步优化 Code Agent 与 Search Agent 的表现,DeepSeek-V3.1-Terminus 的输出效果相比前一版本更加稳定。 9 月 29 日,DeepSeek 发布 DeepSeek-V3.2-Exp 模型,这是一个实验性(Experimental)的版本。 作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。 DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。 12 月 1 日,DeepSeek 官方同时发布两个正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。 DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。 在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。 DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索模型能力的边界。 V3.2-Speciale 是 DeepSeek-V3.2 的长思考增强版,同时结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备更好的指令跟随、数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。 V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。其中,ICPC 与 IOI 成绩分别达到了人类选手第二名与第十名的水平。 DeepSeek 官方表示,在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。 再然后到了 2026 年 1 月 13 日,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,梁文锋再次出现在合著者名单中。 与传统的大模型架构相比,该方法提出了一种新的“查—算分离”机制,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。代码与论文全文均已开源。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 代码地址:https://github.com/deepseek-ai/Engram 这种查和算分离的 Engram 新方法的整体架构如下图所示: 我们为什么需要 Engram ? 目前主流的大语言模型架构依然基于 Transformer 和 Mixture-of-Experts(MoE)结构。MoE 是目前推进参数规模和能力扩展的关键技术之一,通过动态路由机制,只激活部分参数以降低计算成本,同时在任务容量方面实现大规模扩展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先进的 MoE 方法进行扩展训练。 但在这些传统的 Transformer 架构(无论是 Dense 还是 MoE)中,模型的参数实际上承担着两种截然不同的角色: 事实性记忆(Memorization): 存储海量的知识事实。例如,“法国的首都是哪里?”、“世界最高的山脉是哪座”等。这类信息相对死板,更多依赖于“查表”式的检索。 逻辑推理与计算(Calculation): 负责复杂的逻辑链条、多步推理和情境理解。例如,“根据这段代码的逻辑推导可能的 Bug”、“解析一段复杂的哲学论证”。 目前的大语言模型倾向于将这两者混在一起。当你试图让模型记住更多知识时,你不得不增加参数量。而在传统的 Dense 模型中,参数量增加意味着前向传播时的计算量(FLOPs)也会同步激增。MoE 架构虽然通过稀疏激活解决了“算力随参数同步爆炸”的问题,但 DeepSeek 研究发现,MoE 专家在处理“死记硬背”的任务时依然不够高效。 神经网络本质上是连续的数学变换,用高昂的矩阵运算去模拟简单的“查表检索”,本身就是一种极大的浪费。DeepSeek 的 Engram 正是为了打破这一困境——“该查表的查表,该算的算”。

DeepSeek-V4-Pro:性能比肩顶级闭源模型


DeepSeek-V4-Flash:主攻性价比

百万上下文已成标配



拆解关键技术创新
混合注意力机制
Engram 记忆模块
mHC 流形约束超连接
Muon 优化器:万亿参数的新训练范式
FP4 量化:无损压缩与推理加速
专家并行:通信-计算深度融合
确定性内核:大规模训练的可复现性保障
TileLang DSL:高性能内核的高效开发
训练稳定性:预知路由与 SwiGLU 钳位
框架层优化:长上下文 RL 落地
后训练范式:同策略蒸馏
过去一年 DeepSeek 重要发布回顾


今日,DeepSeek-V4-Pro 1.6T 旗舰模型(1.86 万亿参数)及 DeepSeek-V4-Flash 284B 高效模型(2840 亿)正式发布。由智源研究院牵头研发的众智 FlagOS 第一时间对两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash 在 8 款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,后续即将开源。 首先完成在八款芯片适配的 DeepSeek-V4-Flash 采用混合专家(MoE)架构,总参数量 284B,激活参数仅 13B,支持 100 万 token 上下文长度。该模型在架构上引入了混合注意力机制(结合压缩稀疏注意力 CSA 与高度压缩注意力 HCA,大幅提升长上下文效率)、流形约束超连接(mHC,增强跨层 信号传播稳定性)以及 Muon 优化器(加速收敛、提升训练稳定性)。预训练数据超过 32Ttoken,后训练采用两阶段范式——先通过 SFT 和 GRPO 强化学习独立培养领域专家,再通过在线策略蒸馏将多领域能力统一整合到单一模型中。在最大推理力度模式(Flash-Max)下,给予更大思考预算使其推理能力可接近 Pro 版本水平;受限于参数规模,在纯知识类任务和最复杂的 Agent 工作流上略逊于 Pro。 围绕 DeepSeek-V4-Flash 多芯适配,此次 FlagOS 系统软件技术栈突破了三大关键技术:FlagGems 全算子替代(实现多芯片统一适配)、为 o-group 采用独立张量并行策略解锁更多低显存场景、以及“FP4+FP8 混合精度”的原生权重到 FP8/BF16 的精度路径转换。当下国内出货的 AI 芯片,都没有 FP4 的支持。英伟达也只有在 Blackwell 及之后的高端芯片才支持 FP4。这三项关键技术,使得 DeepSeekV4 能够在当前各种厂商的主流 AI 芯片上稳定运行,而非仅限于支持 FP4 和大显存的少数高端 AI 加速卡。 本次 DeepSeek-V4-Flash 的适配,FlagGems 实现了模型推理链路中全部算子的替代。这意味着: 彻底脱离 CUDA 算子依赖:DeepSeek-V4-Flash 的 MoE 专家调度、Attention 计算、RMSNorm、TopK 路由等全部核心计算模块,均由 FlagGems 基于 Triton/Triton-TLE 语言重新实现,不调用任何 cuDNN/cuBLAS 等 NVIDIA 私有库。 无需芯片厂商逐一适配:传统模式下,每款新模型上线,芯片厂商需要投入工程团队做算子适配。现在通过 FlagGems+FlagTree 编译器的组合,新模型的算子可以直接编译到多款芯片后端,芯片厂商不需要做任何额外工作。 新算子即时可用:DeepSeek-V4-Flash 引入的新计算模式(如 o-group 相关的分组路由机制),FlagGems 已经实现了对应的新算子,并通过 FlagTree 编译器统一编译到所有支持的芯片后端。 FlagGems 作为全球最大的 Triton 单一算子库,已拥有超过 400 个大模型常用算子,并已正式进入 PyTorch 基金会生态合作项目。在 40 个主流模型上,推理任务算子覆盖度达到 90%~100%,完整支持 DeepSeek-V4-Flash 的全部计算需求。 DeepSeek-V4-Flash 为了进一步降低计算开销采用了分组输出投影技术(Grouped Output Projection),配置为 o-group=8,这导致在传统的张量并行时候,最多切 8 份。而当前一些主流国产芯片的单卡显存为 32GB 或 64GB,尤其在 BF16 格式情况下,需要张量并行大于 8 份才能放的下。 为了解除这个限制,FlagOS 专门针对 o-groups 进行了单独张量并行策略设计和实现,确保 o-groups 切分不超过 8 份的前提下,能够让模型其他部分还采用经典的张量并行策略,并且实现超过 8 份的切分。通过不同的张量并行策略组合,能够实现多于 8 台设备的张量并行运行。 FlagOS 团队对 o-group 张量并行改动包括: 独立的并行策略:独立于已有的张量并行通信组之外,为 o-group 单独构建所需要的张量并行通信组,确保其他模型结构张量并行切分超过 8 的情况下,o-group 的张量并行在 8 以内。 参数转换调整:对 o-group 相关的参数,也进行了对应单独的张量并行切分处理,以确保在新的独立张量并行策略下,也能够被正确加载。 覆盖面扩展:这一优化能够将 DeepSeek-V4-Flash 在单独采用张量并行策略下,将可运行芯片范围从"仅限单机 80GB 以上显存的个别高端卡"扩展到"多机 64GB/32GB 的更多主流国产芯片",包括海光、沐曦、天数智芯等厂商的主力产品线。 DeepSeek-V4-Flash 模型发布时首次采用 FP4+FP8 混合精度,该精度只有在 Blackwell 及之后的英伟达最新硬件上才有支持,但当前所有国内非英伟达 AI 芯片都未能支持,只有摩尔线程原生支持了 FP8,其余依然以 BF16 为主。 FlagOS 完成了从 FP4 到 BF16 的完整精度转换: 权重反量化:将 FP4 量化权重转换为 BF16 格式。这不是简单的类型转换,而是需要根据 DeepSeek 的量化方案进行逆量化计算,确保数值精度。 计算路径重建:FP4 和 BF16 在底层计算上有本质差异——FP4 的动态范围更窄,累加精度、溢出处理策略均不同。FlagOS 对推理链路中的 GEMM、Attention、MoE 路由等关键计算节点逐一适配了 BF16 路径。 精度对齐验证:经过标准评测集验证,BF16 版本与 FP4 原生版本在核心能力指标上保持对齐,确保精度转换不引入业务层面的效果损失。 本次,FlagOS 推出了 FP8 和 BF16 两种适配版本,让 DeepSeek-V4-Flash 不再是“只有最新 NVIDIA 卡才能跑”的模型,而是真正可以部署在 FP8 及 BF16 生态的主流国产芯片上。 本次新发布的 DeepSeek-V4-Flash 共有大约 67 个算子,FlagGems 已全量支持。新支持了 Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform 等 5 个新算子,实现了对 DeepSeek-V4-Flash 的全面支持,也为跨芯适配打下重要基础。 为了支持更多 AI 芯片的使用,FlagOS 对 DeepSeek-V4-Flash 中使用的新算子使用 Triton 语言进行重新实现,基于 FlagTree 统一编译器,性能全部超过原生性能。 C++ Wrapper 技术是 FlagOS 技术社区专门为提升基于 Triton 语言的算子内核调用效率而打造的技术。目前已经支持了该技术的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、及英伟达等。使用了 C++ Wrapper 技术,在普通的 Transformers 框架下,可以显著提升使用了 Triton 算子的模型的端到端效率,实现跨芯普适、和高效推理的双重目标。通过端到端效果评测(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快 11%,比 Python Wrapper 版快 39%。 1. 核心能力与原生版本对齐 经 GPQA_Diamond、AIME 等权威评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash,在语言理解、复杂推理、代码生成、数学计算等核心能力上,与 CUDA 原生版本对齐,可放心应用于金融、教育、政企服务、代码开发等场景,无需担心适配导致业务效果折损。 评测数据: 注:本测试结果仅用于对迁移前(Nvidia-Origin)和迁移后(-FlagOS)版本的互相对齐验证,并不代表 DeepSeek 模型的官方性能,DeepSeek 模型的官方性能以 DeepSeek 官方公布数据为准。 2. 极简部署:开箱即用,底层优化无感知 FlagOS 将核心算子库、编译器等技术组件前置内置到 DeepSeek-V4-Flash 代码框架中,开发者加载模型时,底层优化代码自动生效,无需手动添加任何 FlagOS 初始化代码。同时,基于 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模型版本,标准化 Docker 镜像 + 一键加速命令,解决了开发者最头疼的环境配置、效果对齐、性能优化等问题。三大技术突破:为什么对支持多种 AI 芯片十分重要
突破一:FlagGems 提供支持 8 种以上芯片的全算子替代——真正意义上的跨芯方案
突破二:为 o-group 采用独立并行策略——解除张量并行最多单机 8 卡限制
突破三:从“FP4+FP8 混合精度” 到 BF16 的精度转换——打通主流芯片的计算路径
FlagGems 开源高性能新算子全面支持 DeepSeek-V4-Flash
FlagGems 支持 DeepSeek-V4-Flash 新算子的性能对比


开发者体验优化:“发布即多芯” + “极简部署”

周五下班前,无心工作,只想摸鱼~ 🐟🐟🐟
夜游徐汇滨江,浦江秀色可餐


一人食 之 烧鸟店



一人食 之 小炒肉+酸辣鸡杂



一人食 之 冷面

https://deepwiki.com/vitejs/vite
我想看 vite3 的 🤔
随着混合办公模式的全面常态化与企业数字化转型的持续深入,文档这一基础信息载体正在从“静态记录工具”向“动态协作枢纽”演进。在日常办公中,用户不仅需要基础的打字排版,还面临跨地域实时共编、公文版式固化与防篡改、历史扫描件数字化转换、业务系统文档能力集成等多元需求。 传统文档处理工具常在“易编辑”与“保格式”之间难以兼顾。流式文档(如Word)便于修改,但在跨设备流转时可能出现格式错乱;版式文档(如PDF、OFD)能精准呈现,但二次编辑效率较低。流式与版式之间的割裂,以及协作效率与格式准确性之间的矛盾,仍是当前文档处理领域的常见痛点。以“格式精准、云端协同、流版融合”为特点的新一代智能文档工具正逐步进入市场。 基于2026年多款文档处理软件的功能表现、技术架构与用户反馈,本文从中立角度对部分工具进行简要梳理,供个人及企业在选型时参考。 一、综合办公与云端协作类 二、流版融合与文档中台类 该产品将AI能力嵌入在线文档编辑流程,支持流式文档的协同编辑与格式调整。用户可在浏览器中创建或上传文档,完成文本输入、图片插入、表格绘制、字体段落设置等基础操作。其差异化功能体现在AI辅助方面:在撰写合同、报告、通知等常见公文时,系统可自动识别条款风险并给出修改提示;选中一段文字后,可一键提取其中的金额、日期、人员姓名等关键信息并结构化展示;支持与AI对话式交互,输入自然语言指令(如“写一份会议通知”“总结这段内容”),AI生成的内容可直接插入文档。此外提供拼写与语法纠错、排版优化建议,并内置电子签章功能,保障文档签署安全与法律效力。适用于日常文档起草、修改与信息整理,同时具备流式文档与版式文档的切换能力。 三、文档转换与OCR识别类 四、智能排版与行业合规类 结语 文档处理已从单纯的“打字排版”逐步演变为企业数字化基础设施的组成部分。从上述工具中可以看到,文档处理软件正朝着智能化、平台化与生态化方向发展。流式与版式之间的技术边界正在消融,“编辑即固化、固化可再编辑”逐步成为可能。无论是关注格式准确性、云端协作效率,还是文档中台建设,基于自身业务场景选择匹配的工具,有助于在数字化环境中释放文档的数据价值与协作能力。 值得注意的是,不同工具在不同版本、不同部署方式下的实际表现可能存在差异。建议用户在正式选型前,结合自身文档样本进行实测,以验证格式还原度、转换准确率、协作响应速度等关键指标。
该产品支持本地文档与在线文档的格式转换,协作过程中格式与数据的丢失率控制在较低水平。权限管控方面提供仅查看、可评论、可编辑等细粒度设置,并与智能表单功能联动。适用于校园团队及中小型企业的信息收集与多人协编场景。其云端存储与历史版本回溯功能也较为完整,可满足日常办公的基本协作需求。
在流式文档编辑的流畅度与格式兼容性方面表现稳定。云端版本支持多人实时共编,与本地客户端的衔接较为顺畅,编辑内容可实现近乎实时的同步。该产品提供标准的评论、批注及任务分配功能,适用于对文档排版要求较高、以国际交流为主的团队。对于已经部署微软生态的企业,其单点登录与权限继承的便利性较为突出。
该产品专注于PDF、OFD等版式文件的阅读、注释与轻量编辑、电子签章。支持高保真渲染,确保文档在不同设备上显示效果一致。提供附注、高亮、删除线、下划线等文本注释工具,以及直线、椭圆、矩形、多边形、箭头等图形注释工具。内置动态水印、打印控制、下载控制、复制控制等安全防护机制。用户可在版式文档上进行手写签批,手写笔迹可识别为文本并归档。适用于党政机关、企事业单位对版式文档的受控阅读与批注场景。
该产品将文档处理能力封装为中台服务,提供标准化的API接口,便于集成至企业现有的OA、ERP、CRM等业务系统。中台涵盖文档在线编辑、版式预览、格式转换、电子签章、批量套红、自动比对等功能,可实现文档从起草、审核、定稿到归档的全流程自动化。对于希望将文档能力嵌入自有业务系统的企业,该产品可减少重复开发成本。
在版式文档特别是OFD国产标准领域,福昕提供了较为完整的工具链。其阅读器加载速度较快,支持OFD与PDF双格式的解析与相互转换。内置电子公章、动态水印、阅后即焚等安全保护机制,并兼容信创环境下的多种操作系统。该产品适用于党政机关、事业单位及国有企业等对版式文档合规性有明确要求的场景。
该工具提供多功能格式转换与OCR识别服务,覆盖PDF与Word、Excel、PPT、图片等多种文件格式的互转。其桌面端支持多核处理与一键批量操作,在线端则提供云端识别选项,可处理较大体积的文件。对于需要频繁将扫描件、纸质文稿转换为可编辑文本的用户而言,其识别速度与准确率能够满足日常办公的基本要求。
作为安证通文档处理系列的独立模块,该转换软件专注于流式文档与版式文档之间的高保真互转。在处理包含复杂排版、嵌套表格、数学公式、印章图片等元素的文档时,转换后的结果能够较好地保留原有布局与内容样式。支持常见格式如DOC、DOCX、WPS、PDF、OFD、图片等之间的双向转换,并提供批量转换接口。该服务可被单独调用,也可集成至智能文档中台,适用于对转换质量要求较高的业务场景。
该类工具无需安装客户端,支持单文件200MB、最多600页的超大文档在线解析。其OCR识别准确率标称较高,对复杂表格和公式的排版保留能力较强。转换后支持实时编辑与校对,并提供临时云端存储。适用于偶发性的重度转换需求,如处理历史档案、扫描版书籍等,用户无需购买长期授权即可按次使用。
该产品面向金融、法律等对合规性要求较高的行业。依托大模型技术,提供智能排版、智能核稿与智能比对功能。其内置金融专有词库与法律术语库,能够审查术语错误、逻辑连贯性及格式规范。支持完全本地化部署,核心业务数据可在企业内网环境中处理,无需上传至公有云。适用于金融机构处理合同、研报、招股说明书等高密级文档,也适用于律师事务所的文书审阅。
该产品在政务与教育领域有较多应用案例。支持多人同时编辑同一文档,编辑视图实时同步,并提供完善的批注、修订记录与版本对比功能。对于需要组团备课、公文联合起草、政策文件协同修订的团队而言,其协作流程设计较为贴合国内用户的使用习惯。同时,永中Web Office提供私有化部署选项,可满足部分单位的数据安全要求。
互联网时代,电子邮件早已成为各行各业进行商务沟通的核心载体,具备庞大的商业价值。正因如此,邮件安全事故频频出现:或伪造企业领导邮件骗取财务进行转账,或利用邮箱窃取合同附件,甚至利用员工身份发送非法链接进行钓鱼攻击……一系列攻击事件的背后,不仅体现了电子邮件的价值,也暴露出企业对此缺乏安全认知,未对邮件进行数字签名和加密保护。S/MIME证书可对邮件进行数字签名,确保发件人的身份真实,确保内容有效未被篡改,同时可对信息进行加密处理,确保指定的收件人才能阅览。对于企业而言,选择合适的邮件签名证书,才是真正发挥电子邮件价值的关键。 选邮件安全证书的核心标准 验证强度:优先选择组织验证型证书,可在邮件客户端显示企业名称,提升品牌辨识度,增加收件方信任。 邮件签名证书的作用与需求 防范钓鱼攻击:经过签名的邮件自带安全标识,收件人可直接确认发件人真实身份,有效杜绝伪造。 全球主流CA证书能力对比 Digicert:S/MIME提供端到端加密,防范网络钓鱼、篡改和中间人攻击,确保发送或接收的每封邮件都能安全传送,不会受任何操纵。 JoySSL:邮件签名证书可验证发件人真实身份,避免邮件欺诈;同时邮件传输过程中受非对称加密保护,确保邮件的安全性,防止恶意篡改。 Sectigo:通过数字签名消息,验证发件人真实身份,S/MIME可防止未经授权的访问,确保消息的安全性,并保护敏感信息免受网络威胁。 CFCA:支持所有主流浏览器,可对邮件地址拥有者进行身份标识,用于邮件发送过程中的数据加密和签名。 邮件安全证书标准选择方案 选择邮件证书不能只关注价格,需综合评估身份验证强度、客户端兼容、国密支持以及技术服务。国际品牌Digicert、Sectigo具备全球兼容和自动化优势;而CFCA与JoySSL具有国密算法支持,满足合规要求,适合国内企业。
兼容表现:邮件证书需被主流邮件客户端(Outlook、Foxmail、腾讯邮箱等)广泛信任,根证书预置范围越广,兼容表现越好。
算法支持:支持RSA/ECC国际算法,若国内企业有合规需求,最好支持SM2国密算法。
密钥管理:可硬件令牌存储私钥,实现邮件客户端自动配置,丢失后支持密钥恢复。
技术支持:机构是否提供中文技术支持,能否自动续期,避免证书过期导致拒收。
保护商业机密:对邮件进行数字加密后,该邮件仅目标收件人可以阅览,即使邮件被中途截取,也无法解密。
满足合规需求:GDPR、等保2.0等法规均要求对商业邮件进行加密,部署邮件安全证书满足合规需要。
提升品牌形象:与高等级SSL证书一样,签名邮件可展示经过认证的企业信息,树立品牌权威可信的形象。
“Claude 变笨了。” 过去一段时间,这个声音在 Hacker News、Reddit 以及 X 上此起彼伏。尤其是在万众瞩目的 Opus 4.7 发布后,不少老用户反馈 Claude Code 变得健忘、重复且废话连篇。 作为目前全球最强梯队的编程模型,Claude 的口碑滑坡让 Anthropic 压力倍增。 所以今天一早,Claude Code 研发团队打破沉默,发布了一篇看起来诚意十足的分析文章,名为《An update on recent Claude Code quality reports》,他们在文章中坦言,用户反馈的“降智”并非错觉,而是源于三处看似合理、实则导致连锁反应的产品优化。 没错,Claude Code 真的“变笨”了。 研发团队表示,目前 Anthropic 已修复全部漏洞,并宣布重置所有订阅用户的使用限额以示诚意。 截至 4 月 20 日(版本 v2.1.116),这三个问题均已修复。在这篇文章中,他们详细阐述了发现了什么、修复了什么,以及今后将如何改进,避免类似问题再次发生。 事件的起因,源于产品团队对“用户体验”的过度优化。经过调查,Claude Code 团队找出了三个不同的问题: 第一个优化发生在 3 月 4 日。通常来说,模型思考时间越长,输出效果越好。当时,不少用户吐槽 Opus 模型思考时间太长,甚至导致 UI 卡死。为了缩短延迟、节省 Token,团队私自将默认推理强度(Reasoning Effort)从“高”降到了“中”。 在产品层面,团队再从中选一个点作为默认值,并通过 Messages API 的 effort 参数传递该值;同时,团队还将其他可选强度通过 /effort 命令提供给用户。 内部评估认为,“中”等强度能以极小的智能损失换取显著的速度提升。然而,真实环境中的开发者并不买账,上线后不久,就有用户反映 Claude Code 感觉变笨了。对 AI 而言,“多思考一秒钟”往往意味着从“生成垃圾代码”到“产出优雅重构”的跨越。 在听取更多客户的反馈后,团队做了多次设计迭代,让当前的推理强度设置更清晰,以便提醒用户可以更改默认值(例如启动时弹出提示、增加内联的强度选择器、恢复“ultrathink”选项),但大多数用户仍然保留了“中”等推理强度默认值。 4 月 7 日,团队在意识到这种取舍逻辑的错误后,将默认强度重新调回了“高”,并在 Opus 4.7 上默认开启了“极高”模式。此问题影响的模型是 Sonnet 4.6 和 Opus 4.6。 第二个优化发生在 3 月 26 日。当 Claude 执行一项任务并进行推理时,这些推理内容通常会被保留在对话历史中。这样,在后续的每一轮交互中,Claude 都能了解自己之前为何做出某些编辑和工具调用。 3 月 26 日,团队针对这一功能上线了一项本意是提高效率的优化,有点类似于“自动清理历史思考内容”的功能。他们利用提示缓存(prompt caching)来降低用户连续 API 调用的成本并加快速度。Claude 在发起 API 请求时将输入 token 写入缓存;如果一段时间没有活动,该提示就会被从缓存中逐出,为其他提示腾出空间。 原本的设计应该很简单:如果会话空闲超过一小时,系统会剪除旧的推理信息以节省成本。为此,团队使用了 clear_thinking_20251015 这个 API 头部,并配合 keep:1 参数。 但代码中隐藏的一个漏洞:它并没有只清除一次思考历史,而是在会话后续的每一轮中都进行清除。一旦跨过空闲阈值,后续每一轮对话都会触发清理。这意味着 Claude 只能记住最近的一句对话,它彻底忘记了自己当初为什么要修改代码。在用户眼中,Claude 开始重复啰嗦、胡言乱语。这种“健忘”不仅损害了智能,还因为频繁的缓存未命中(Cache Miss)导致用户的使用额度被光速消耗。 据悉,该漏洞的发现过程较为曲折,由于 Anthropic 内部两个互不相关的实验干扰,导致漏洞难以复现——一个是仅用于服务端、涉及消息队列的内部实验,另一个是在思考内容展示方式上的正交改动,该改动在大多数 CLI 会话中掩盖了漏洞,使得外部构建测试时未能发现问题。 此外,该漏洞处于 Claude Code 的上下文管理、Anthropic API 和扩展推理三个模块的交汇点,相关变更已通过多轮人工和自动化代码审查、单元测试、端到端测试、自动化验证及内部试用,且仅在陈旧会话这一边缘情况下出现,因此 Anthropic 花费超过一周时间才找到并确认其根本原因。 值得注意的是,在调查过程中,团队使用 Opus 4.7 对有问题的拉取请求进行了反向的“代码审查”测试。当提供了获取完整上下文所必需的代码仓库后,Opus 4.7 发现了该漏洞,而 Opus 4.6 未能做到。 为防范此类问题再次发生,Anthropic 目前正增加对更多代码仓库作为代码审查上下文的支持,该漏洞也已经在 4 月 10 日 v2.1.101 版本中修复好了。此问题影响的模型是 Sonnet 4.6 和 Opus 4.6。 第三个优化发生在 4 月 16 日。Anthropic 曾为降低 Claude Opus 4.7 版本的冗长程度,修改了系统提示语。据悉,Claude Opus 4.7 相较于前代,明显更加“啰嗦”,虽能在困难问题上表现更出色,但会生成更多输出 token。 在该版本发布前几周,Anthropic 便开始对 Claude Code 进行调整,综合运用模型训练、提示语优化、思考体验改进等多种方式降低冗长程度,其中新增的一条系统提示语——“长度限制:在工具调用之间的文本控制在 25 个单词以内。最终回复控制在 100 个单词以内,除非任务确实需要更多细节”,对 Claude Code 的智能产生了过大影响。 该提示语经过数周内部测试,在 Anthropic 运行的评估集上未出现性能退化,因此于 4 月 16 日随 Opus 4.7 版本一同上线。 但在后续调查过程中,Anthropic 通过更广泛的评估集开展更多消融测试(即从系统提示中逐行删除以理解每行影响),发现 Opus 4.6 和 4.7 版本均出现 3%的性能下降。 为此,Anthropic 在 4 月 20 日的发布中,立即撤销了该条系统提示语。该优化受影响的模型包括 Sonnet 4.6、Opus 4.6 和 Opus 4.7。 为了避免再次出现这些问题,Claude Code 团队表示将从下面三个方面进行改进: 首先,是内部全员强制使用公共构建版,确保开发者与用户“同频感同身受”。 Claude Code 团队将推动内部使用版本的统一,确保更大比例的内部员工使用 Claude Code 的精确公共构建版本,而非用于测试新功能的内部版本,以此更贴近普通用户的实际使用场景,提前发现潜在问题。同时,团队将对内部使用的代码审查工具进行改进,并计划将优化后的代码审查工具同步提供给客户,助力客户提升使用体验。 其次,是引入更严苛的提示语审计工具,对系统提示语的每一行修改进行持续的消融测试。 在系统提示语管理方面,Claude Code 团队将增加更严格的控制措施。对于每一次系统提示语的更改,团队都会针对每个模型运行广泛评估,持续开展消融测试以明确每一行提示语的具体影响;同时,已构建新的工具,让提示语的修改更易于审查和审计。 第三,是增加“浸泡期”,对于任何可能牺牲智能换取性能的改动,采取逐步上线的流程。 团队已在自身的 CLAUDE.md 文件中新增指导原则,确保针对特定模型的更改仅限定在该模型范围内,避免跨模型影响。对于任何可能牺牲智能换取其他收益的改动,团队将增加“浸泡期”,扩大评估集范围,并采用逐步上线的流程,以便更早发现并规避问题。 在用户沟通与反馈渠道方面,Claude Code 团队近期已在 X(原 Twitter)平台创建 @ClaudeDevs 账号,用于深入解释产品决策及其背后的原理,同时会在 GitHub 的集中讨论帖中同步相关更新,提升产品决策的透明度。 当 Anthropic 试图用一份详尽的技术报告挽回 Claude 的口碑时,它可能低估了开发者积压已久的怒火。 在官方承认由于“推理强度下调”、“缓存漏洞”和“提示语冗长控制”导致 Claude 性能大幅下滑后,社交媒体上的评论呈现出一边倒的抨击。 对于众多支付高额订阅费的专业开发者来说,这份迟到的“真相”不仅没能平息焦虑,反而因补偿方案的敷衍和官宣时机的微妙被质疑在“作秀”。 在 X 上,一位网友反馈称,即使在重置后,流量消耗速度依然惊人:“我用了 5 个小时,x20 的套餐就烧掉了 64% 的流量,而我什么特别的事都没做。情况正在变得越来越糟。” 还有 X 用户愤怒地表示:“这简直是胡说八道!过去两周,我一直在反思是不是自己的提示词或工作流程出了问题,甚至怀疑过自己都没怀疑过 Claude,结果发现是你们的漏洞吞噬了我的历史记录。把重置当作道歉?这才是真正侮辱人的地方。” 该用户还表示:“过去一年我为 Anthropic Max 支付了约 2400 美元,为 OpenAI 支付了 0 美元。过去 48 小时我切换到 OpenAI 的Codex感觉真的非常棒,我正严肃考虑彻底更换系统。失去最忠实用户的方式,不是因为模型出 Bug,而是因为糟糕的道歉。” 另一位网友则精准补刀:“你们总是在每周限额到期前两小时宣布‘重置’,这根本不叫重置,这叫敷衍。” 最令社区玩味的是本次公告发布的时间点——恰逢 OpenAI 发布GPT-5.5的当天。有部分 X 用户认为,这样的做法是在分散人们对于 GPT 5.5 发布的关注。 有 X 用户质疑道:“几个月来你们一直坚称‘模型没有退化’,现在却在 GPT-5.5 发布的当天突然官宣漏洞分析,这很难不让人怀疑是在转移注意力。更讽刺的是,你们声称‘用 Claude 开发 Claude’,结果长达 15 天的严重漏洞竟然在内部完全没被发现?” 这场风波正在引发连锁反应:核心用户的忠诚度降至冰点。也让一部分人从 Anthropic 转向了 OpenAI。 对于 Anthropic 而言,这次危机揭示了一个残酷的现实:在大模型竞争进入白热化的今天,技术领先只是入场券,透明度与对用户时间的尊重才是留住开发者的护城河。 参考链接:Anthropic 正面回应模型“变笨”:三处优化导致的


三处优化细节详述



未来如何改进?
分析报告没有让用户满意







2025 年端午节假期,李志飞把自己关在房间里,每天从早上 9 点干到凌晨 1 点。他在用 Cursor 手搓了一个“AI 时代的飞书”,十几万行代码,一天烧掉 300 美元的 Token。三天后产品跑起来了,他的腰也坏了。 他把这段经历搬到公司的小型发布会,语气里难掩兴奋:“我们从一个有想法、有工程能力、但没有执行能力的团队,变成了一个超级个体。”那段时间他四处分享,在公司里讲,在湖畔大学讲,在朋友圈里讲。 “超级个体“成了 AI 圈最具诱惑力的叙事。几乎每位从业者,都被“一人顶一个团队”、“一夜重构产品”的故事撩拨过。 但这份狂热,只持续了一两个月。很快,李志飞发现了一个吊诡的事实:他自己确实变强了,但出门问问作为一家公司,却依然原地踏步。员工还是按旧方式开会、提需求、做文档、等排期、催研发。 “这只是超级个体的进化,但团队还是在旧有的工作方式里空转。”2025 年下半年,这位刚上市一年多的 AI 公司 CEO 第一次意识到:“超级个体在组织里,可能是一场灾难。” 不到一年后,出门问问交出了新答卷,企业级 AI 原生协作平台 CodeBanana。它的思想底座,源自于李志飞与高佳(出门问问首席战略官)合著的《超级组织》方法论:企业如何从“以人为核心”走向“智能体协同”。而 CodeBanana,正是这一理念的产品化落地。 这一次,他想讲的已经不再是“一个人怎么变强”,而是指向一个更具挑战性、也更现实的命题:当 AI 已经能让个体长出翅膀,组织又该如何一起变强? CodeBanana 的核心理念,被李志飞浓缩成一句话:沟通发生在哪里,执行就发生在哪里。 这句话听起来有点像口号,但落到产品结构里,逻辑就比较清晰了。 在 CodeBanana 里,最基本的单元不是文档,不是会议,也不是单条任务,而是“项目”。每个项目同时包含三层结构:群聊、Agent 和独立 Workspace。群聊承载人际沟通,Agent 负责调度执行,Workspace 沉淀上下文与资产。 换言之,它不是在传统协作软件里外挂一个 AI 助手,而是从项目创立之初,就把 Agent 当作正式成员编入阵型。 这套设计如果只停留在发布会 Demo 里,难免显得像在谈概念。但 CodeBanana 真正有说服力的地方在于:它最早并非对外售卖的标品,而是出门问问在自己身上做出来的内部工具与工作法则。 从 2025 年 8 月开始,李志飞先在研发团队下了一道近乎极端的铁律:禁止手写一行代码。哪怕改一个变量名,也必须用自然语言指挥 AI。有工程师觉得职业价值被怀疑,有人因此离开。 到 2025 年底,研发团队基本完成蜕变。李志飞给出了一组数字:研发效率飙升至从前的 4-5 倍,工程师从前端、后端、iOS 等细分工种,逐渐演变为全栈执行者。同年,出门问问孵化出两款体量不小的新品(TicNote 录音硬件与 CodeBanana),按以往的研发节奏,这基本无法实现。 更关键的是,这套方法随后被推向了非研发团队。 李志飞在群访中透露,最近三四个月他们将 AI 协作延展至非技术岗,十人中大概有三名达到了他定义的“超级个体”标准:市场人员能做 Dashboard、能爬数据、能自己搭系统;销售甚至自己搓出了一个 CRM。 “目前 Token 成本已经占公司人力成本的 15%,平均每个员工每月 Token 支出两三千美元。”一家 AI 公司在自己身上做了 18 个月的实验,有数字、有案例、有阻力、有筛选。这便是 CodeBanana 作为产品能否打胜仗的第一份答辩。 发布会上,李志飞用几轮实时 Demo 将这些场景拉得更具体。 昔日,销售接到客户需求,需与工程师反复拉扯,折腾数日方能拼出标书;如今,制作 Word 文档、处理图标等复杂流程被封装成 Skill,销售开完会直接在群里 @Agent,十几分钟内就能生成几十页文档。 市场岗的同事,搭起了一个覆盖数据爬取、竞品分析、ROI 计算和传播规划的网站;招聘场景下,一个岗位就是一个项目,简历流入后,AI 一分钟内完成评估、打分与排名,后续的面试提问与评价也由 AI 深度参与。 这些案例比 Demo 更有分量。 因为它们印证了 CodeBanana 的真正野心:它要解决的不是“AI 能不能写段代码”,而是要把“执行权能否归还需求方”。销售最懂客户要什么,市场最懂投放要什么,HR 最懂岗位要什么。过去他们手握需求,却无执行能力;如今,他们能通过 Agent 调度执行力。 真正让 CodeBanana 跳出“又一个协作工具”叙事的,是李志飞对竞争身位的重新定义。 面对飞书、钉钉、Notion 都在重兵投入 AI 集成,CodeBanana 的护城河在哪? 李志飞的回答很直接。他认为,飞书、钉钉争夺的是企业协作管理市场,而 CodeBanana 做的是“协作管理 + 执行”,切走的是劳动力市场的 Token 预算。他进一步将这个市场推演为:中国 8000 万知识工作者,如果工资的 15% 转化为 Token,这将是一个完全不同量级的蓝海。 这个回答包含两层深意。 第一层是差异化。CodeBanana 无意在传统协同办公的红海里肉搏。它不想做更聪明的群聊、更会总结的文档工具,而是试图向下穿透,直抵“任务如何被执行”的底座。 第二层是野心。它将自己的市场,不再定义为办公软件市场,而是知识工作中日益膨胀的 AI 执行成本与 AI 劳动力调度市场。 所以,CodeBanana 的功能设计并不是围绕“消息效率”展开,而是围绕“组织可控的执行”展开。 比如, Team Agent 与 Private Ask。前者面向团队共享,执行过程可见、可介入、可叫停;后者偏向个人私密,只读不写。 再比如,项目之间默认是独立文件空间,互不可见。若需跨项目协作,必须通过 A2A(Agent to Agent)的方式完成。企业若要沉淀公共知识库,可以单独建项目,再让其他项目的 Agent 来调用。 这和个人 AI 工具的逻辑完全不同。 Cursor、Claude Code 追求的是“个体如何更快闭环”;CodeBanana 追问的则是:当 AI 开始替团队干活,组织能否看清它在干什么、谁授权了它、它的边界在哪、结果如何复用、出了岔子谁来叫停? 这也解释了为何发布会要反复强调权限、跨项目调用、Skill 复用和定时任务。老板临时改期,工程师可将开发 Agent 的编辑权限开放给老板;老板在筹备群里直接 @Agent,页面主视觉、票务信息、倒计时同步刷新;后续“日程变更通知全员”的流程,还能被沉淀为 Skill 供下次复用。 这里真正有价值的不是网页生成,而是需求、权限、执行和复用被放进了同一个系统。 当然,这也意味着 CodeBanana 面对的问题会比普通 AI 工具更复杂。 大量项目并发时,如何防止 Agent 重复工作、越权? 李志飞没有把话说满。他承认系统仍在完善,目前先靠权限卡口,未来需解决排队通知机制。至于一个产品该建几个项目、哪些任务该并行、哪些该同组,眼下仍需 CEO 或产品经理在顶层设计时想清楚。未来,系统会尝试根据企业的人员构成与工作流,反向建议“该建几个群、谁该在群里”。 这种坦诚反而划清了产品的边界:CodeBanana 绝非开箱即用的效率魔法,而是一套需要重塑认知的组织工作系统。 它要真正跑通,企业买的不只是工具,更是对项目、权限、文件、人员与 Agent 之间关系的重新理解。 CodeBanana 尚不能被写进一份已充分验证的标准答案里。它仍需在真实组织的泥沼中跋涉,经受并发、权限、成本、可靠性及习惯迁移的考验。 但它值得关注的地方,也正在这里。 出门问问并非简单发布了一款 AI 协作产品,而是将过去一年多的组织实验进行了产品化:先让 CEO 自己蜕变为超级个体,再将这种能力溢向研发团队,最终推至销售、市场、HR 等非研发岗。 这也是 CodeBanana 最核心的叙事:AI 不再只是插在工具栏里的外挂,而是开始嵌入组织的骨架。 如果说超级个体解决的是“一个人怎么变强”,那么 CodeBanana 和“超级组织”想回答的,是那个更艰难的命题:当一群人和一群 Agent 混编作战,组织怎样才能不被新的效率反噬? 真正的竞争,或许并不发生在“谁的协作文档更好用”的层面。而是另一个维度:谁能率先把 AI 从工具栏里拿出来,放进公司的工作系统里。
一、CodeBanana 先是一场内部实验




二、不想打“协同办公”这场旧仗
三、结语:真正被重写的,是工作系统
由于最新的 bitwarden 插件会严重影响 Chromium 内核的浏览器,但不用不行,因此只能用之前的版本 brave
但是 brave 会在后台自动更新,参考网上教程在 Windows 的 Service 中关闭了 Brave 的两个服务( Brave & BraveElevationService )。再点开关于页面,就会提示更新失败了
但是今天一看又提示我进行更新了,蒙了,还有什么地方少关了吗?或者要做什么 hosts 才能彻底防止更新?
4月21日,第五届中国国际软件发展大会在北京国家会议中心开幕。本次大会以“人工智能与软件变革——AI融合与数智出海新机遇”为主题,汇聚了全球软件产业的顶尖智慧与创新力量。作为中国开源生态的重要力量,OpenAtom openKylin(以下简称“openKylin”)社区受邀参会,凭借扎实的品牌实力与持续的技术创新,一举斩获“2025年软件和信息技术服务业明星开源社区”行业荣誉。 同时,由麒麟软件联合国防科技大学、北京航空航天大学、工信部电子五所、中国科学院软件研究所、上海交通大学、国家工业信息安全发展研究中心、国网湖北公司及openKylin社区等多方共同承担的国家重点研发计划阶段性核心成果——“链源罗盘”开源供应链综合评估平台也在大会上正式发布。 全链路安全守护:“链源罗盘”正式亮相 中国软件行业协会常务副秘书长陈宝国、麒麟软件副总经理李祥凯、北京航空航天大学软件学院院长胡春明、中国科学院软件研究所副所长武延军、工信部电子五所北京中心主任冯冠霖、国防科技大学计算机学院某中心主任余杰、openKylin社区生态委员会主任李震宁出席发布仪式。 为落实国家《“十四五”软件和信息技术服务业发展规划》中“提升软件供应链安全保障能力”的号召,openKylin社区深度参与国家重点研发计划《开源开放社区软件供应链生态分析》项目,围绕开源软件供应链生态问题开展应用验证。“链源罗盘”正是该项目的阶段性核心成果。 一键评估,多维分析 全面覆盖,全程守护 目前,开源模式已成为全球技术创新的主流方向,中国开源项目数量已位居全球第二,供应链安全正成为行业关注的焦点。“链源罗盘”的发布,将汇聚政府、企业、高校及科研机构等多方力量,为提升国内开源生态成熟度及全球影响力提供坚实支撑,推动开源软件使用向安全化、合规化、自主化迈进。 openKylin社区荣膺“2025年明星开源社区” 作为中国领先的智能操作系统开源社区,openKylin社区始终秉持“开源、自愿、平等、协作”的理念,持续汇聚开发者、企业和科研机构的力量。未来,openKylin将继续深化开源软件全生命周期的安全治理,助力开源生态向更安全、更合规、更自主的方向迈进,为全球开源创新贡献中国智慧。
当前,全球开源生态发展迅猛,主流代码托管平台上开源项目数超4亿。以操作系统、数据库、AI框架等为代表的基础软件生态加速成熟,开源软件在信息技术创新技术体系中正成为关键支撑底座。然而开源组件质量参差不齐、依赖关系复杂、合规风险、安全漏洞等隐患日益突出,开源软件供应链的安全形势愈发严峻。
在本届中国国际软件发展大会上,“面向开源软件全生命周期的供应链综合评估平台——链源罗盘”作为重要成果发布。该平台是业界首个面向开源软件全生命周期的供应链综合评估平台,覆盖了软件质量、安全性、合规性、可持续性和可信度5大评估模型,助力开源供应链更透明、更安全、更可持续的演化。

链源罗盘平台支持输入开源软件名称,一键生成供应链可靠性评估报告。报告从组件依赖关系、代码与依赖质量、供应链抗风险能力、合规与法律风险、开发者活跃度与项目更新等多个维度进行综合评估开源项目的整体可靠性,为企业核心组件选型、社区开源治理、供应链风险审计等场景提供关键支撑。
目前,平台已基于Github、Gitee等代码托管平台主流开源项目形成150万条依赖关系、33万条漏洞信息收录、200万+开发者画像分析,3万+项目综合评估,并构建openKylin和openEuler 2个可信仓库,实现了“源代码分析—二进制文件评估—可信仓库构建—商业发行版构建”的全流程闭环。
在本次大会的表彰环节,openKylin社区凭借在开源生态建设、技术创新、社区治理及产业协同等方面的突出表现,被授予 “2025年软件和信息技术服务业明星开源社区” 称号。这一荣誉不仅是对社区过去工作的肯定,更彰显了openKylin在推动中国开源软件供应链安全、构建可信开源基础设施方面的重要贡献。