谷歌发布大模型数据筛选方法:效率提升13倍,算力降低10倍

随着AI技术的飞速发展,尤其是GPT-4o、Gemini等多模态大模型的涌现,数据作为驱动模型性能提升的关键因素,其需求急剧攀升。这些大模型在自然语言处理、计算机视觉及语音识别等领域展现出了巨大潜力,但它们的训练过程却对数据的质量与数量提出了前所未有的挑战。精心标注的数据集不仅能显著提升模型性能,还能有效减少训练所需的数据量。

然而,当前的数据处理流程普遍依赖于人工筛选,这一过程不仅耗时耗力,成本高昂,且难以应对大规模数据集的快速增长。为解决这一瓶颈,谷歌DeepMind的研究团队创新性地提出了JEST数据筛选方法,该方法通过优化数据批次的联合选择策略,极大地加速了多模态大模型的学习效率。

JEST算法的核心在于其独特的评分机制,它跳出了传统单数据点标注的框架,转而以整个数据批次为单位进行评分与采样。这一策略不仅考虑了数据点自身的质量,还兼顾了它们之间的组合效应,从而能更有效地识别出对模型训练有益的数据子集。相较于最先进的算法,JEST在数据筛选效率上实现了13倍的提升,并成功将算力需求降低了10倍,为大规模数据集的快速处理提供了有力支持。

JEST算法引入了三种评分策略:硬学习者、易参考和可学习性。硬学习者策略专注于识别当前模型尚未掌握的高损失样本,以避免资源浪费;易参考策略则优先选取对预训练参考模型而言较为简单的低损失样本,以保证数据质量;而可学习性策略则巧妙结合了前两者的优点,通过计算学习者模型与参考模型损失之差,精准定位那些既具挑战性又具学习价值的样本。

为进一步优化算法性能并降低算力需求,JEST还融入了模型近似和多分辨率训练技术。通过降低图像分辨率和减少模型层计算,JEST在确保模型性能的同时,显著降低了单次迭代的计算成本。多分辨率训练则通过分阶段处理不同分辨率的数据,提高了模型的灵活性和泛化能力。

实验结果表明,在ImageNet、COCO等标准数据集上,JEST算法在图像分类、零样本学习、图像到文本检索及文本到图像检索等多项任务中均表现出了优异的性能。这一成果不仅为大规模数据集的快速筛选与处理提供了高效解决方案,也为多模态大模型的训练与优化开辟了新的路径。更多详细信息及研究成果可参见论文链接:https://arxiv.org/abs/2406.17711。

暂无评论

暂无评论...