标签 AI for Science 下的文章

当前，AI for Science（AI4S）正从实验验证阶段快速迈向产业化落地的关键时期，从行业发展趋势看，AI 4S推动了研究机构"各自为政"的分散研发模式向"平台式构建"的模式演进，平台化的模式通过整合多模态大模型与自动化实验能力，能显著加速研发迭代进程。

但在AI赋能实际推进过程中，前沿研发领域仍面临多重瓶颈：生物、化学、物理等学科数据标准割裂，传统算法难以实现跨域关联；特定领域专家的经验无法有效转化为AI可理解的决策逻辑；另外，研发流程中从算法预测到实验验证环节仍依赖人工。

尤其在很多需要高度定制化的应用场景中，传统研发模式越来越可预见效率瓶颈。以化工行业为例，专用化学品等强定制化产品需要根据客户的具体应用和性能要求，进行个性化开发，传统依赖高经验技术人才"一对一"定制的方式在应对多样化需求时存在局限。

在这一背景下，枫清科技通过AI4S智能体体系与科研工作流协同，提供应对复杂参数组合和多样化目标的工具，让科研人员在模型的辅助下，降低试错成本，将精力聚焦于更高价值的创新构思与关键决策。

在业内人士看来，现阶段AI4S已应用于几类高价值场景，并创造了可验证的收益：一是在研发周期长、成本高的领域，AI的早期应用能快速验证技术路线，显著提升投资回报率；二是面对海量数据与复杂计算任务时，AI的高效处理能力可突破人工瓶颈；三是在需要探索高维设计空间（如微观结构、多元素组合）的场景中，AI能通过多模态学习与并行计算，快速筛选最优方案。而枫清科技AI4S智能体平台融合了文本、数据、知识图谱等多模态信息处理能力，为上述复杂科研场景攻克底层技术瓶颈，并提供从探索、设计到验证的全面支持。

在实践中，科研人员需要从海量文献、专利和多源异构数据中提取有效信息，而复杂科学问题的研究往往需要多轮迭代优化。枫清科技的智能体技术已展现出高效率、强数据处理能力与精准的微观结构设计能力。例如，在材料科学中，智能体可通过模拟不同元素组合的材料性能，优化新材料设计流程；在生物医药领域，则能加速分子筛选与结构预测。

该智能体体系以"通用智能体+场景智能体"的双层架构，实现了从科研基础能力支撑到垂直场景的全面覆盖。通用智能体聚焦科研中的高频共性需求，如文献智能处理、专利解析与数据挖掘，通过自然语言交互提升知识获取效率；场景智能体则深入化工、生物医药等专业领域，结合行业知识解决特定问题。

在该架构下，智能体能够通过模型定向指引研究方向，并基于数据反馈持续优化算法。此外，智能体系统可嵌入"设计执行验证"的闭环中，帮助研究人员快速迭代方案。

同时，在数据层面，枫清科技智能体平台强调对科学数据的深度治理与复用，通过构建标准化、高质量的数据处理流程，整合多源异构数据，为科研创新提供更可持续的数字基座。通过自动化平台准备并提供数据，科研人员可在可靠的数据基础上开展场景开发，加速突破。

未来，通过共享不同领域的底层知识体系、优化人机协同机制，枫清科技智能体将成为支撑多学科交叉创新的基础工具，助力科研路径实现从"经验试错"到"理性设计"的跃迁。

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网

展开列表

面向临床的心电图AI，上智院、复旦等提出CLEAR-HUG框架实现诊断性能与可解释性双突破

今天

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网

今天

美团又上新模型，8个Thinker齐开工，能顶个诸葛亮？

今天

失去三个联创后，Mira公司危机持续：又有两人要出走

今天

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

今天

支付宝携手千问App、淘宝闪购等发布中国首个AI商业协议ACT

今天

刚刚，Geoffrey Hinton成为第二位引用量破百万的科学家

今天

腾讯AngelSlim升级，首个集LLM、VLM及语音多模态为一体的投机采样训练框架，推理速度飙升1.8倍

今天

DeepSeek连发两篇论文背后，原来藏着一场学术接力

今天

仅需一个混频器的无线射频机器学习推理，登上Science Advances！

今天

国内首个可复现！萝博派对公开人形机器人 “从 0 到跑” 全开源方案

01月15日

联发科天玑9500s、8500发布：GPU、光追拉满，红米Turbo 5Max将搭载

01月15日

通用级PixVerse P1的技术突破，揣着进入平行世界的密码

01月15日

Mira公司内乱？CTO被开除，带团队回OpenAI，翁荔上推发言

01月15日

Nature丨清华等团队揭示AI科研双重效应：个人效率亦或是科学边界

01月15日

刚刚，喝到了千问APP给我点的奶茶

01月15日

人脸机器人登上Science Robotics封面：用AI教会仿生人脸机器人「开口说话」

01月15日

实测夸克「千问划词快捷指令」，这7个邪修Prompt，建议收藏

01月15日

已证实！清华姚班陈立杰全职加入OpenAI，保留伯克利教职

01月15日

解锁任意步数文生图，港大&Adobe全新Self-E框架学会自我评估

01月15日

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网

作者丨论文团队

编辑丨ScienceAI

最近，一篇由中国团队领衔全球 24 所 TOP 高校机构发布，用于评测 LLMs for Science 能力高低的论文，在外网炸了！

当晚，Keras （最高效易用的深度学习框架之一）缔造者 François Chollet 转发论文链接，并喊出：「我们迫切需要新思路来推动人工智能走向科学创新。」

AI 领域 KOL Alex Prompter 分享论文核心摘要后，NBA 独行侠队老板 Mark Cuban 跟帖转发，硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。

仅一夜，累计阅读量逼近 200 万。

值得一提的是，同一时间窗里，OpenAI 也发布了对于 AI 在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述，指出现有评测标准在 AI for Science 领域失灵。

神同步 OpenAI、海外讨论出圈，究竟是什么样的一份工作成果，搅动了全球 AI 舆论场？

AI 距离可以助力科学发现还有多远？

前段时间，美国推出「创世纪计划」，号称要调动「自阿波罗计划以来最大规模的联邦科研资源」，目标是在十年内将美国科研的生产力和影响力翻倍。

但在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下，一面是资本的狂欢，另一面却是 AI 能力困于「文生图」等表层应用的尴尬；一面是各类大语言模型频繁霸榜 GPQA、MMMU 等题库式 Benchmark 的层出不穷，另一面却是现有 LLMs 还无法准确解析简单核磁图谱的尴尬现状。

人们不禁要问：能在题库拿高分，就能助力科学发现吗？现在的模型距离科学发现还有多远？究竟什么样的 AI 模型可以胜任，拓宽人类的生存边界？这些讨论，在中美 AI 竞争白热化的当下变得愈发浓烈。

在此背景下，由中国 AI for Science 领域的初创企业「深度原理 Deep Principle」领衔麻省理工学院、哈佛、普林斯顿、斯坦福、剑桥、牛津等全球 24 所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文，正式回答该时代之问。

论文推出了 LLM for Science 首套评测体系 SDE（Scientific Discovery Evaluation），从科学问题到研究项目，对 GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。

同以往评测体系不同的是，SDE 对模型能力的考量，从简单的问答式，引向了具体的「假设 -> 实验 -> 分析」实验场景。

研究发现，GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均准确率 50–70%，远低于它们在 GPQA、MMMU 等题库上的 80–90%；在 86 道「SDE-Hard」难题中，最高分不足 12%，共同暴露出多步推理、不确定性量化和实验与理论闭环的短板。

更值得警惕的是，模型规模与推理能力的提升已呈现明显的「边际效益递减」。

GPT-5 相较于前一代模型，参数规模和推理算力显著增加，但在 SDE 基准的四大科学领域中，平均准确率仅提升 3%-5%，部分场景（如 NMR 结构解析）甚至出现性能下滑。

换句话说，当前大语言模型在推动科学发现方面的表现，还不如一个普通的本科生。

能领衔 24 所顶尖科研院校发布的背后团队是谁？

《Evaluating LLMs in Scientific Discovery》论文通讯作者段辰儒，是「深度原理 Deep Principle」创始人兼 CTO。早在 2021 年，在 MIT 攻读化学博士期间，他就已在图灵奖得主 Yoshua Bengio 的支持下，发起了 AI for Science 社区的建立，并在 NeurIPS 上举办 AI for Science workshop。

2024 年初，他与 MIT 物理化学博士贾皓钧回国，共同创立「深度原理 Deep Principle」。贾皓钧任 CEO，段辰儒任 CTO，两人虽为 95 后，但已在全球 AI for Science 创业领域小有名气。

创业一年半以来，其已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构的投资，且与晶泰科技、深势科技等 AI for Science 领域的知名企业建立战略合作关系。

「深度原理 Deep Principle」从创立之初，就带着全球 AI for Science 头部研究者们的期待。目前「深度原理 Deep Principle」已深入全球材料研发中的第一线，将生成式人工智能同量子化学结合起来，致力于推动材料发现等领域进入新纪元。

在过去的一年中，他们在 Nature 大子刊和 JACS 等顶级期刊上不断扔出重磅成果，宣告着他们的技术领先和开放交流的「95 后创业公司」心态。从开拓扩散生成模型（Diffusion Models）在化学反应的生成，证明「不止要生成材料，更需要生成材料的合成路径」，到机器学习势（Machine Learning Potentials, MLPs）和扩散生成模型的直接对比，证明传统的机器学习势不是「万能」的，再到现在组织各大顶级学者和高校推出 SDE，证明传统一问一答的 Benchmark 不能带领我们走向科学超级智能，精准切入 AI for Science 领域的核心冲突。

但同时，对于所有的 AI4S 公司而言，在商业真金白银的检验中，AI 能否真正解决新产品研发问题、满足客户期待，是日复一日必须面对的拷问。

随着与行业头部客户的商业化合作落地，「深度原理 Deep Principle」的数据库中已经汇聚了来源于客户与自己实验室、大量来自第一线的真实工业研发场景数据和模型应用经验。

学术圈的深耕与在 AI for Science 商业化第一线的积累，让「深度原理 Deep Principle」在提出要构建一把新尺子评测 LLMs for Science 能力时，一呼百应，摇来了 23 家全球 TOP 科学发现机构的 50 余位科学家，成立了制定 SDE 的「梦之队」。

这其中，不乏活跃在 LLM 领域的大牛学者们，比如：

孙欢（Huan Sun），MMMU 发起人，俄亥俄州立教授
杜沅岂（Yuanqi Du），康奈尔博士，AI4Science 社区「运营大管家」
王梦迪，普林斯顿最年轻教授，AI+Bio Safety 先驱者
Philippe Schwaller，IBM RXN 之父，EPFL 教授

而「深度原理 Deep Principle」前期积累的科学发现场景，成为了后来 SDE 评测体系的前身。

在经历近 9 个月的跨高校跨学科跨时区的协作后，《Evaluating LLMs in Scientific Discovery》论文正式发布，通讯单位赫然写着：深度原理，杭州，中国。

自此，汇聚着全球顶级科学发现机构的集体智慧，来自中国的创业团队「深度原理 Deep Principle」，和大洋彼岸的 OpenAI，同时站在了向 AI for Science—— 这一人类通往终极 AGI 顶峰攀登的起跑线。

或许千百年后，当人类回望 AGI 时代，在 21 世纪的四分之一结束的当口，这场由中美团队共同呼应的，对于 AI for Science 的严肃讨论，把 LLMs 在各类问答式榜单上的内卷，向真正科学发现的星辰大海推近了一步。

至于怎么通往彼岸，段辰儒表示：「当大语言模型在各种科学问答榜单表现饱和，但还不能有效支持科学发现时，就像『考试成绩好』不等于『顶级研究者』，说明我们需要新的评测体系与训练路径。」

「深度原理 Deep Principle」与 20 多所机构的 50 多位合作者的研究证明了，目前 LLM 的发展路径并不能「顺便攻克」科学发现。

这条通往科学超级智能之路，需要更多有识之士共同并肩而行。

标签 AI for Science 下的文章

AI4S能否打破「十年磨一剑」研发困境？枫清科技智能体引擎激活科研跨域协同生产力

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网｜

最新文章

最近回复

分类

归档

其它

标签 AI for Science 下的文章

AI4S能否打破「十年磨一剑」研发困境？枫清科技智能体引擎激活科研跨域协同生产力

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网 ｜

最新文章

最近回复

分类

归档

其它

神同步OpenAI！中国团队Deep Principle领衔发布LLMs for Science评测，引爆外网｜