腾讯优图联合上海交通大学实现大模型性能飞跃新技术揭秘

文章编号：5385 更新时间：2024-09-28 分类：技术教程 阅读次数：次

资讯内容

基于开源知识框架的大型语言模型特定任务性能提升研究

一、背景

近年来，大型语言模型（LLMs）在众多任务和领域取得了显著发展。
为了在复杂的实际业务场景中发挥模型的专业能力，通常需要在特定领域或任务上进行指令微调。
传统的指令微调方法需要大量有标注数据和计算资源，这在许多场景中难以实现。
为此，研究团队提出了一种切合业务实际的全新实验设置，旨在利用有限的K-shot样本来实现LLM的定向任务增强。腾讯优图联合上海交通大学大模型性能飞跃新

二、方法概述

本研究提出了一种结合公开可用模型和数据集，针对特定任务提升大型语言模型性能的方法全流程。该方法主要由以下几个部分组成：

1. LoRABankConstruction：构建了一个LoRABank，其中包含38个广泛使用的指令数据集。这些数据集经过预处理和LoRA微调，为特定任务提供了可选择的预训练模型集合。腾讯优图联合上海交通大学大模型性能飞跃新
2. K-shotGuidedExpertModelSelection：提出一种专家模型选择方法，综合考虑模型的推理困惑度、在K-shot数据上的性能表现以及模型多样性来筛选最有潜力的模型组。
3. Mixture-of-ExpertsInitialization：使用混合专家模型结构来合理利用LoRABank，并训练Router使模型能够自动分配不同的token给合适的专家。腾讯优图联合上海交通大学大模型性能飞跃新
4. K-shotGuidedSim-Div数据筛选：在数据筛选过程中，着重平衡数据的相似度和多样性，以保证数据的相关性和信息丰富性。
5. Mixture-of-ExpertsFine-Tuning：结合增强数据集和K-shot数据集来优化MoE系统的Router权重和专家权重。

三、具体实现

1. 数据集准备

研究使用了六个开源数据集作为评估集，并从每个数据集的官方训练集中随机采样K条有标注的指令-响应对作为K–shot数据。

2. 模型选择

研究对比了多种模型选择方法，发现综合考虑评测性能、推理困惑度和模型多样性的选择方法更为有效。
其中，推理困惑度在模型选择中起到了重要作用。

3. 数据筛选

基于相似性优先和多样性感知的数据选择策略进一步提高了MoE系统的性能。腾讯优图联合上海交通大学大模型性能飞跃新
研究发现，增加数据量时性能先上升后下降，多样性的平衡分布和缓解过拟合方面起着重要作用。

4. 实验结果

与基线和SOTA方法对比，本研究方法在各项任务上均取得了更好的性能。腾讯优图联合上海交通大学大模型性能飞跃新
通过可视化专家的激活模式，发现MoE系统每个专家都对整体有贡献。
研究发现K-shot数据在模型选择和增强中起到了关键作用。

四、优势与讨论

本方法不依赖数据集和模型的元信息，这是其一大优势。腾讯优图联合上海交通大学大模型性能飞跃新
在实际场景下，数据和模型的源信息可能存在描述不详细、难以确定相关数据点等问题。
本研究的方法具有多任务适用性和易用性，可广泛应用于不同的LLMs和开源模型。
不同PEFT方法之间计算模型间相似性可能不兼容，这需要在未来研究中进一步解决。