文章来源:放心AI网发布时间:2025-06-21 12:20:45
近日,字节跳动宣布推出其全新的数据选择框架 QuaDMix,旨在提升大型语言模型(LLM)预训练的效率和泛化能力。众所周知,模型的训练效果受基础数据集的质量和多样性影响很大。然而,传统的数据筛选方法往往将质量和多样性视为两个独立的目标,先进行质量过滤,再进行领域平衡。
这种逐步优化的方式忽略了质量与多样性之间的复杂相互关系。优质数据集往往存在领域偏差,而多样化的数据集可能会降低质量。因此,在固定的训练预算下,如何同时优化这两个维度以最大化模型性能,成为了一个亟待解决的难题。
QuaDMix 框架的主要运作分为三个阶段:特征提取、质量聚合和质量 – 多样性感知采样。在初始阶段,每个文档都会被标注领域标签和多项质量评分。通过归一化和合并这些评分,生成一个综合质量分数。接着,系统通过基于 sigmoid 的函数采样文档,优先考虑高质量样本,并通过参数化控制确保领域平衡。
为了优化模型,QuaDMix 在不同参数设置下训练了数千个代理模型。通过这些代理实验训练的回归模型可以预测性能结果,从而识别出最佳采样配置。这种方法使得在高维参数空间中进行结构化探索成为可能,从而更好地将数据选择与下游任务对接。
实验结果显示,QuaDMix 在 RefinedWeb 数据集上进行的验证实验中,与多种基线模型相比,平均得分达到了39.5%。这些基线模型包括随机选择、Fineweb-edu、AskLLM、DCLM 等。实验结果表明,联合优化策略在整体表现上始终优于单独关注质量或多样性的方法。此外,经过优化的数据混合更能提升特定下游任务的性能。
QuaDMix 为大型语言模型的预训练数据选择提供了一个系统化的解决方案,解决了长期以来同时优化数据质量与多样性的挑战。通过结合质量聚合和领域感知采样,QuaDMix 建立了一种可扩展的方法论,提升了 LLM 预训练的效率。
相关攻略 更多
最新资讯 更多
字节跳动推出QuaDMix:大型语言模型预训练数据质量与多样性的统一框架
更新时间:2025-06-21
Meta聊天机器人被曝与未成年人进行不当对话
更新时间:2025-06-21
夸克AI超级框升级“拍照问夸克”功能,开启智能视觉搜索新时代
更新时间:2025-06-21
谷歌被曝每月巨资贿赂三星,助推Gemini应用预装
更新时间:2025-06-21
AI新功能震惊网友:轻松破解照片拍摄位置
更新时间:2025-06-21
巨人网络《太空杀》接入腾讯混元大模型已生成超700万AI玩家
更新时间:2025-06-21
广告行业如何适应AI时代:从Google到ChatGPT的转变
更新时间:2025-06-21
字节跳动启动“TopSeed”计划,面向2026届博士生招募AI人才
更新时间:2025-06-21
巨人网络《太空杀》引入腾讯AI技术,生成超700万AI玩家
更新时间:2025-06-21
Kimi与财新传媒达成了内容合作协议,提供更专业、可信的财经内容
更新时间:2025-06-21