近年来,随着大规模语言模型(LLMs)的飞速发展,尤其在处理复杂任务时,强化学习与人类反馈(RLHF)方法逐渐成为调整和优化语言模型输出的主流手段。
传统的RLHF方法在多任务学习(MTL)场景中面临诸多挑战,如奖励欺骗和多目标优化问题。
为了解决这些问题,MetaGenAI和FAIR团队最近提出了全新的后训练范式——ConstrainedGenerativePolicyOptimization(CGPO)。
该框架通过引入混合评审机制和约束优化器,显著提升了语言模型在多任务环境中的表现。
在多任务学习环境中,传统的RLHF方法依赖于线性组合的奖励模型,不仅需要人工调参,而且容易导致模型被某一任务的奖励优化误导。
更棘手的是,模型在某些任务中可能会过度优化特定的奖励指标,导致其他任务的表现下降,这种现象被称为“奖励欺骗”。
极端多目标优化问题也是一大难题,多任务学习通常涉及多个甚至冲突的目标,传统的RLHF框架难以处理这些目标之间的平衡。
为了解决上述问题,CGPO框架被设计出来,其核心在于突破了传统RLHF对多任务学习的局限性。
CGPO通过混合评审机制和约束优化器,实现了对语言模型的有效优化。
1. 混合评审机制:CGPO采用了基于规则和LLM的双重评审机制。规则评审能够检测模型生成结果是否符合任务需求,而LLM评审则利用语言模型的内在判断能力,检测生成内容的质量。这种机制能有效防止奖励欺骗行为。
2. 约束优化器:CGPO的约束优化器具备自动化调节能力,可以在不依赖人工经验的情况下,找到不同任务间的最优平衡点。它通过为每个任务单独设定评审和优化器,确保各任务能够独立优化其目标,避免了不同任务目标之间的相互妥协。
CGPO引入了三大RLHF约束优化器——CalibratedRegularizedPolicyGradient(CRPG)、ConstrainedRegularizedRewardRankingFinetuning(CRRAFT)、ConstrainedOnlineDPO(CODPO)。
这些优化器不仅有效解决了RLHF中的多任务优化难题,还具备强大的扩展性,适用于各种规模的LLM训练场景。
CGPO还采用了多目标奖励建模和多专家对齐等技术,更好地适应每个任务的独特特性,增加实现最优对齐结果的可能性。
在多任务环境下,CGPO通过奖励模型+多任务判定器(MoJs)+优化器的组合,为每个任务提供量身定制的对齐指导。
它先将提示集按照性质分类为不同的子集,然后针对每个任务选择合适的奖励模型进行训练。
通过这种方式,CGPO能更好地排除不相关或相互矛盾的目标,从而提高在每个任务中达成最优结果的可能性。
CGPO还采用了多专家对齐的方法,使用专门为每个任务定制的判定器来筛选不符合标准的生成结果。
在多项任务的测试中,CGPO展现了显著的性能优势。
相较于传统的RLHF方法和PPO算法,CGPO在多个基准测试中均有显著提升。
特别是在处理涉及知识问答、数学推理和编程任务的测试中,CGPO的表现尤为出色。
通过消融实验可以发现MoJs不仅能防止在编码任务中的奖励欺骗问题,还显著提升了模型在其他任务中的表现。
CGPO框架的提出为多任务学习的未来提供了新的优化路径。
通过创新的混合评审机制和约束优化器设计,CGPO有效解决了奖励欺骗和极端多目标优化难题。
随着研究的深入和技术的不断进步,我们有望看到更多基于CGPO的自动化优化方法,进一步提升多任务学习的表现和效率。
本文地址: https://www.gosl.cn/jsjcwz/f90dcdbab2ad0ac320bd.html
上一篇:上汽名爵在十月交付量再创新高,成功交付超过...