浙大开源datamind搞定数据分析

论文名称：Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study
作者团队-中文：浙江大学、蚂蚁集团
发表时间：2025年11月13日
发表会议：AAAI 2026

Github地址：https://github.com/zjunlp/DataMind
Lab4AI链接：https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...

论文简介

开源大型语言模型（LLMs）在数据分析这类推理密集型任务中表现受限，而现有研究尚未明确训练数据关键属性对模型性能的影响。为此，该研究系统拆解数据分析任务的三大核心能力——数据理解、代码生成与战略规划，通过多源数据集构建与消融实验，揭示出战略规划质量是性能首要决定因素、数据质量比多样性更关键等核心发现。基于这些洞察，提出策略引导的数据合成框架，筛选中等长度对话与中高难度任务，富集简洁推理轨迹生成训练数据。经微调后，7B开源模型性能显著提升，14B模型表现接近甚至超越GPT-4o，为开源LLMs适配复杂数据分析场景提供了高效可行的优化路径。

论文核心内容总结

1. 研究背景

大型语言模型（LLMs）在自动化数据分析任务中展现出潜力，相关代理系统与基准测试已逐步发展，但性能仍由闭源大模型主导。开源LLMs在这类推理密集型场景中表现受限，而现有研究尚未明确训练数据的哪些属性（如任务难度、场景多样性等）对模型泛化能力起关键作用，缺乏针对性的优化策略。

2. 研究目的

针对开源LLMs在数据分析任务中的短板，本研究旨在：剖析影响模型数据分析性能的核心因素；明确数据理解、代码生成、战略规划三大核心能力的作用权重；提出数据合成方法，系统性提升开源LLMs的分析推理能力，缩小与闭源模型的差距。

3. 本文核心贡献

系统拆解数据分析任务的三大核心能力维度，揭示战略规划质量是模型性能的首要决定因素，为优化方向提供关键依据。
提出策略引导的数据合成框架，通过筛选中等长度对话、富集简洁推理轨迹等设计，生成高质量训练数据，无需复杂模型结构修改。
构建包含多源真实场景数据的训练集，通过实证分析明确数据质量比多样性更重要、交互设计与任务复杂度显著影响推理效果等关键结论。

4. 研究方法

数据构建：从DAEval、DSBench等多个公开数据集采集结构化数据与任务，经两轮筛选（自动化过滤无效样本+人工验证）得到5613个高质量样本，确保无评估集重叠。
能力评估：采用“提示词评估”（数据理解、代码生成）与“LoRA微调评估”（战略规划）结合的方案，在DiscoveryBench和QRData两大基准上以准确率为核心指标。
消融实验：围绕交互轮次、推理长度、任务复杂度、问题多样性四大变量设计实验，控制数据集规模以保证公平对比。
模型训练：基于LLaMA Factory框架，使用4块NVIDIA A800 GPU，采用DeepSpeed ZeRO-3优化进行监督微调，评估开源模型（Qwen2.5系列等）与闭源模型（GPT-4o等）性能差异。

5. 研究结果

三大核心能力中，战略规划对性能的影响远超数据理解与代码生成，多数错误源于高层推理失效而非代码缺陷。
中等长度交互轮次（4-5轮）、简洁聚焦的推理轨迹、中高难度任务数据更利于模型学习，问题多样性对性能提升影响微弱。
基于数据合成框架微调后，7B开源模型性能显著提升，14B模型性能接近甚至超越GPT-4o，验证了方法的有效性。

6. 总结与展望

总结

研究通过拆解数据分析任务核心能力、开展系统性实证研究，明确了开源LLMs性能受限的关键因素，提出的策略引导数据合成方法有效提升了模型分析推理能力，为开源LLMs适配复杂数据分析场景提供了可行路径。

局限性与展望

局限性：训练数据集规模仍有限（2.8k合成样本），未充分覆盖各类复杂真实场景；优化策略对更大规模模型的增益存在饱和效应。
未来方向：扩展数据集以涵盖更多真实复杂场景；探索结合强化学习进一步优化战略规划能力；将方法拓展至多模态数据分析任务，适配更广泛的应用场景。