浙大开源datamind搞定数据分析
论文名称:Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study Github地址:https://github.com/zjunlp/DataMind 开源大型语言模型(LLMs)在数据分析这类推理密集型任务中表现受限,而现有研究尚未明确训练数据关键属性对模型性能的影响。为此,该研究系统拆解数据分析任务的三大核心能力——数据理解、代码生成与战略规划,通过多源数据集构建与消融实验,揭示出战略规划质量是性能首要决定因素、数据质量比多样性更关键等核心发现。基于这些洞察,提出策略引导的数据合成框架,筛选中等长度对话与中高难度任务,富集简洁推理轨迹生成训练数据。经微调后,7B开源模型性能显著提升,14B模型表现接近甚至超越GPT-4o,为开源LLMs适配复杂数据分析场景提供了高效可行的优化路径。 大型语言模型(LLMs)在自动化数据分析任务中展现出潜力,相关代理系统与基准测试已逐步发展,但性能仍由闭源大模型主导。开源LLMs在这类推理密集型场景中表现受限,而现有研究尚未明确训练数据的哪些属性(如任务难度、场景多样性等)对模型泛化能力起关键作用,缺乏针对性的优化策略。 针对开源LLMs在数据分析任务中的短板,本研究旨在:剖析影响模型数据分析性能的核心因素;明确数据理解、代码生成、战略规划三大核心能力的作用权重;提出数据合成方法,系统性提升开源LLMs的分析推理能力,缩小与闭源模型的差距。 研究通过拆解数据分析任务核心能力、开展系统性实证研究,明确了开源LLMs性能受限的关键因素,提出的策略引导数据合成方法有效提升了模型分析推理能力,为开源LLMs适配复杂数据分析场景提供了可行路径。
作者团队-中文:浙江大学、蚂蚁集团
发表时间:2025年11月13日
发表会议:AAAI 2026
Lab4AI链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...论文简介
论文核心内容总结
1. 研究背景
2. 研究目的
3. 本文核心贡献
4. 研究方法
5. 研究结果
6. 总结与展望
总结
局限性与展望