随着大规模语言模型(LLMs)的飞速发展,特别是通用大模型应用场景的不断扩展,调整和优化语言模型输出的方法逐渐成为研究热点。
强化学习与人类反馈(RLHF)是近年来备受关注的方法之一,但在多任务学习(MTL)场景中,RLHF面临着“奖励欺骗”和多目标优化中的矛盾问题。
为了解决这些问题,MetaGenAI和FAIR团队提出了全新的后训练范式——ConstrainedGenerativePolicyOptimization(CGPO)。
CGPO框架的核心在于突破了传统RLHF对多任务学习的局限性,特别是在奖励优化与任务目标冲突之间找到了新的平衡。
通过引入「混合评审机制」(Mixture of Judges, MoJ)与高效的约束优化器,CGPO全面提升了RLHF在多任务环境中的表现。
CGPO的混合评审机制能够有效识别并消除模型在任务中的过度优化特定奖励指标的行为,即“奖励欺骗”。
该机制包括基于规则和LLM的双重评审机制,确保模型生成的结果符合任务需求,同时避免对其他任务的负面影响。
CGPO的约束优化器具备自动化调节能力,可以在不依赖人工经验的情况下,找到不同任务间的最优平衡点。
这一特点使得CGPO能够根据不同任务的需求灵活调整优化策略,实现模型的自适应更新。
CGPO引入了三种主要的RLHF约束优化器——CalibratedRegularizedPolicyGradient(CRPG)、ConstrainedRegularizedReWardRankingFinetuning(CRRAFT)、ConstrainedOnlineDPO(CODPO)。
这些优化器不仅有效解决了RLHF中的多任务优化难题,还具备强大的扩展性,适用于各种规模的LLM训练场景。
CGPO通过奖励模型+多任务判定器(MoJs)+优化器的组合,为每个任务提供量身定制的对齐指导。
这种方法更好地适应了每个任务的独特特性,增加了实现最优对齐结果的可能性。
同时,CGPO的多目标奖励建模和多专家对齐策略,也有效提高了模型在各项任务中的表现。
在多项任务的测试中,CGPO展现了显著的性能优势。
特别是在通用聊天任务、STEM问题解答任务、指令跟随、数学与推理、编程任务以及知识问答等场景中,CGPO均大幅超越了现有的RLHF算法。
CGPO通过约束优化有效避免了PPO在编程任务中出现的奖励欺骗问题,确保了模型的稳定性。
CGPO框架的提出为强化学习与人类反馈在多任务学习中的应用提供了革命性的新思路。
通过混合评审机制与三大约束优化器的创新结合,CGPO不仅解决了奖励欺骗和极端多目标优化的难题,还为大型语言模型的后训练提供了更稳定和高效的优化路径。
随着研究的深入,未来有望看到更多基于CGPO的自动化优化方法,进一步提升多任务学习的表现。
本文地址: https://www.gosl.cn/hlzxwz/e338357b1f933dfe27eb.html
上一篇:推理成本锐减,科技力量凸显...