DataFlow：用自然语言自动准备LLM数据

论文名称：DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
论文作者：Hao Liang, Xiaochen Ma, Zhou Liu, Zhen Hao Wong, Zhengyang Zhao, Zimo Meng, Runming He, Chengyu Shen, Qifeng Cai, Zhaoyang Han, Meiyi Qiang, Yalin Feng, Tianyi Bai, Zewei Pan, Ziyi Guo
Github地址：https://github.com/OpenDCAI/DataFlow
论文链接：https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_sour...

论文简介

该论文提出LLM驱动的统一数据准备框架DataFlow，旨在解决当前LLM数据准备碎片化、标准化缺失的问题。框架含近200个可复用算子与6类领域通用流水线，采用类PyTorch编程接口，支持模块化、可调试的数据处理。通过DataFlow-Agent，可将自然语言指令自动转化为可执行流水线。实验表明，其在文本、数学推理、代码等任务上表现优异，Text-to-SQL执行准确率提升3%，代码基准平均提升7%，10K样本数据集性能超越1M规模数据集，为数据中心型AI发展提供系统级基础。

DataFlow论文核心内容总结

1. 研究背景

大语言模型（LLMs）的发展高度依赖高质量、大规模数据，但当前LLM数据准备存在碎片化、标准化缺失的问题。现有实践多依赖临时脚本和松散工作流，缺乏统一抽象与可复用组件，难以支持模型在环的生成式工作流，且数据合成与语义精修等核心需求未得到充分满足，制约了LLM性能提升与跨任务泛化能力。

2. 研究目的

针对LLM数据准备的碎片化与低效问题，提出一套统一、可扩展的LLM驱动数据准备框架，实现模块化、可复用、可调试的数据处理流程。同时支持自然语言指令到可执行流水线的自动转换，提升数据准备的效率、质量与可重复性，为数据中心型AI发展提供系统级基础。

3. 本文核心贡献

提出统一的LLM驱动数据准备框架DataFlow，基于可组合抽象与LLM优先的算子执行模型构建。
构建包含近200个可复用算子和6个领域通用流水线的生态系统，覆盖文本、数学推理、代码等多任务场景。
设计类PyTorch的编程模型、IDE原生工具与插件式扩展机制，支持可复现实验与社区贡献。
引入DataFlow-Agent智能编排层，实现自然语言意图到可执行流水线的自动转换，降低使用门槛。
通过大规模实验验证框架有效性，公开高质量多领域数据集，为相关研究提供基准支持。

4. 研究方法

框架设计：采用全局存储抽象、分层编程接口（LLM服务、算子、提示模板、流水线）、多维度算子分类及扩展机制构建核心架构。
流水线构建：基于“生成-评估-过滤-精修”范式，设计多领域专用流水线，支持模块化组合与自定义扩展。
智能编排：通过LangGraph构建多智能体系统，实现意图分解、算子合成、流水线组装与验证的自动化。
实验设计：在文本、数学、代码等6类任务上，对比现有主流数据集与方法，采用Qwen2.5系列等模型进行预训练与微调验证，评估数据质量与效率。
数据处理：整合公开数据集与合成数据，通过统一存储接口实现多格式数据的标准化处理与流转。

5. 研究结果

各领域流水线性能优于现有基准，Text-to-SQL任务执行准确率较SynSQL提升3%，代码基准平均提升7%，数学推理任务在MATH等数据集上获得1-3个百分点增益。
仅10K样本的DataFlow-Instruct-10K数据集，训练效果超越1M规模Infinity-Instruct数据集，展现出极高的数据效率。
DataFlow-Agent可有效将自然语言指令转换为可执行流水线，文本规格对齐评分达0.80，支持多难度场景下的自动化流水线构建。
跨任务统一数据准备策略表现稳定，在数学、代码、通用知识任务中均实现性能提升，且未出现跨领域训练的负迁移问题。

6. 总结与展望

总结

DataFlow框架通过统一抽象、可复用组件与智能编排，解决了LLM数据准备的碎片化问题，实现了高效、高质量、可重复的数据处理流程。其多领域流水线与算子生态系统，为数据中心型AI提供了强大的技术支撑，验证了高质量合成数据在提升LLM性能与数据效率上的核心价值。

展望

未来将拓展多模态支持（表格、图形、多模态数据），开发面向特定领域的变体（如DataFlow-AI4S、DataFlow-Industry）；进一步完善生态系统，强化社区贡献机制；优化智能编排能力，提升复杂任务下的流水线自动构建精度，推动LLM数据准备向标准化、自动化方向发展。