克服奖励欺骗:Meta 发布全新后训练方式——CGPO助力编程水平直升 5%

文章编号:18078 更新时间:2024-11-02 分类:技术教程 阅读次数:

资讯内容

CGPO框架:解决多任务学习中RLHF难题的创新路径

一、引言

近年来,随着大规模语言模型(LLMs)的飞速发展,尤其在处理复杂任务时,强化学习与人类反馈(RLHF)方法逐渐成为调整和优化语言模型输出的主流手段。
传统的RLHF方法在多任务学习(MTL)场景中面临诸多挑战,如奖励欺骗和多目标优化问题。
为了解决这些问题,MetaGenAI和FAIR团队最近提出了全新的后训练范式——ConstrainedGenerativePolicyOptimization(CGPO)。
该框架通过引入混合评审机制和约束优化器,显著提升了语言模型在多任务环境中的表现。

二、多任务学习中的RLHF挑战

克服奖励欺骗Meta发布全新后训练方式CGPO助力编

在多任务学习环境中,传统的RLHF方法依赖于线性组合的奖励模型,不仅需要人工调参,而且容易导致模型被某一任务的奖励优化误导。
更棘手的是,模型在某些任务中可能会过度优化特定的奖励指标,导致其他任务的表现下降,这种现象被称为“奖励欺骗”。
极端多目标优化问题也是一大难题,多任务学习通常涉及多个甚至冲突的目标,传统的RLHF框架难以处理这些目标之间的平衡。 克服奖励欺骗Meta发布全新后训练方式CGPO助力编 克服奖励欺骗Meta发布全新后训练方式CGPO助力编

克服奖励欺骗Meta发布全新后训练方式CGPO助力编

三、CGPO框架的核心设计

为了解决上述问题,CGPO框架被设计出来,其核心在于突破了传统RLHF对多任务学习的局限性。
CGPO通过混合评审机制和约束优化器,实现了对语言模型的有效优化。

1. 混合评审机制:CGPO采用了基于规则和LLM的双重评审机制。规则评审能够检测模型生成结果是否符合任务需求,而LLM评审则利用语言模型的内在判断能力,检测生成内容的质量。这种机制能有效防止奖励欺骗行为。
2. 约束优化器:CGPO的约束优化器具备自动化调节能力,可以在不依赖人工经验的情况下,找到不同任务间的最优平衡点。它通过为每个任务单独设定评审和优化器,确保各任务能够独立优化其目标,避免了不同任务目标之间的相互妥协。

四、CGPO的技术亮点

CGPO引入了三大RLHF约束优化器——CalibratedRegularizedPolicyGradient(CRPG)、ConstrainedRegularizedRewardRankingFinetuning(CRRAFT)、ConstrainedOnlineDPO(CODPO)。
这些优化器不仅有效解决了RLHF中的多任务优化难题,还具备强大的扩展性,适用于各种规模的LLM训练场景。
CGPO还采用了多目标奖励建模和多专家对齐等技术,更好地适应每个任务的独特特性,增加实现最优对齐结果的可能性。

五、CGPO在多任务场景的应用

在多任务环境下,CGPO通过奖励模型+多任务判定器(MoJs)+优化器的组合,为每个任务提供量身定制的对齐指导。 克服奖励欺骗Meta发布全新后训练方式CGPO助力编 克服奖励欺骗Meta发布全新后训练方式CGPO助力编
它先将提示集按照性质分类为不同的子集,然后针对每个任务选择合适的奖励模型进行训练。
通过这种方式,CGPO能更好地排除不相关或相互矛盾的目标,从而提高在每个任务中达成最优结果的可能性。
CGPO还采用了多专家对齐的方法,使用专门为每个任务定制的判定器来筛选不符合标准的生成结果。 克服奖励欺骗Meta发布全新后训练方式CGPO助力编

六、实验验证与性能提升

在多项任务的测试中,CGPO展现了显著的性能优势。
相较于传统的RLHF方法和PPO算法,CGPO在多个基准测试中均有显著提升。
特别是在处理涉及知识问答、数学推理和编程任务的测试中,CGPO的表现尤为出色。
通过消融实验可以发现MoJs不仅能防止在编码任务中的奖励欺骗问题,还显著提升了模型在其他任务中的表现。

七、结论与展望

CGPO框架的提出为多任务学习的未来提供了新的优化路径。
通过创新的混合评审机制和约束优化器设计,CGPO有效解决了奖励欺骗和极端多目标优化难题。
随着研究的深入和技术的不断进步,我们有望看到更多基于CGPO的自动化优化方法,进一步提升多任务学习的表现和效率。

标签: CGPO

本文地址: https://www.gosl.cn/jsjcwz/f90dcdbab2ad0ac320bd.html

上一篇:上汽名爵在十月交付量再创新高,成功交付超过...
下一篇:游戏巨头科乐美的巨大成功继续照耀着游戏界...

发表评论

    相关文章