腾讯优图联合上海交通大学实现大模型性能飞跃 新技术揭秘

文章编号:5385 更新时间:2024-09-28 分类:技术教程 阅读次数:

资讯内容

基于开源知识框架的大型语言模型特定任务性能提升研究

一、背景

腾讯优图联合上海交通大学大模型性能飞跃新

近年来,大型语言模型(LLMs)在众多任务和领域取得了显著发展。
为了在复杂的实际业务场景中发挥模型的专业能力,通常需要在特定领域或任务上进行指令微调。
传统的指令微调方法需要大量有标注数据和计算资源,这在许多场景中难以实现
为此,研究团队提出了一种切合业务实际的全新实验设置,旨在利用有限的K-shot样本来实现LLM的定向任务增强。 腾讯优图联合上海交通大学大模型性能飞跃新

二、方法概述

本研究提出了一种结合公开可用模型和数据集,针对特定任务提升大型语言模型性能的方法全流程。该方法主要由以下几个部分组成:

1. LoRABankConstruction:构建了一个LoRABank,其中包含38个广泛使用的指令数据集。这些数据集经过预处理和LoRA微调,为特定任务提供了可选择的预训练模型集合。 腾讯优图联合上海交通大学大模型性能飞跃新
2. K-shotGuidedExpertModelSelection:提出一种专家模型选择方法,综合考虑模型的推理困惑度、在K-shot数据上的性能表现以及模型多样性来筛选最有潜力的模型组。
3. Mixture-of-ExpertsInitialization:使用混合专家模型结构来合理利用LoRABank,并训练Router使模型能够自动分配不同的token给合适的专家。 腾讯优图联合上海交通大学大模型性能飞跃新
4. K-shotGuidedSim-Div数据筛选:在数据筛选过程中,着重平衡数据的相似度和多样性,以保证数据的相关性和信息丰富性。
5. Mixture-of-ExpertsFine-Tuning:结合增强数据集和K-shot数据集来优化MoE系统的Router权重和专家权重。

三、具体实现

1. 数据集准备

研究使用了六个开源数据集作为评估集,并从每个数据集的官方训练集中随机采样K条有标注的指令-响应对作为K–shot数据。

腾讯优图联合上海交通大学大模型性能飞跃新

2. 模型选择

研究对比了多种模型选择方法,发现综合考虑评测性能、推理困惑度和模型多样性的选择方法更为有效。
其中,推理困惑度在模型选择中起到了重要作用。

腾讯优图联合上海交通大学大模型性能飞跃新 腾讯优图联合上海交通大学大模型性能飞跃新

3. 数据筛选

基于相似性优先和多样性感知的数据选择策略进一步提高了MoE系统的性能。 腾讯优图联合上海交通大学大模型性能飞跃新
研究发现,增加数据量时性能先上升后下降,多样性的平衡分布和缓解过拟合方面起着重要作用。

4. 实验结果

与基线和SOTA方法对比,本研究方法在各项任务上均取得了更好的性能。 腾讯优图联合上海交通大学大模型性能飞跃新
通过可视化专家的激活模式,发现MoE系统每个专家都对整体有贡献。
研究发现K-shot数据在模型选择和增强中起到了关键作用。

四、优势与讨论

腾讯优图联合上海交通大学大模型性能飞跃新

本方法不依赖数据集和模型的元信息,这是其一大优势。 腾讯优图联合上海交通大学大模型性能飞跃新
在实际场景下,数据和模型的源信息可能存在描述不详细、难以确定相关数据点等问题。
本研究的方法具有多任务适用性和易用性,可广泛应用于不同的LLMs和开源模型。 腾讯优图联合上海交通大学大模型性能飞跃新
不同PEFT方法之间计算模型间相似性可能不兼容,这需要在未来研究中进一步解决。

腾讯优图联合上海交通大学大模型性能飞跃新

五、结论

腾讯优图联合上海交通大学大模型性能飞跃新

本研究提出了一种通过K-shot数据在模型选择和数据扩增中发挥重要作用的方法,优于现有方法。 腾讯优图联合上海交通大学大模型性能飞跃新
通过消融研究验证了选择方法的有效性,展示了一种挖掘开放知识进行定制技能整合的高效流程。
该方法为实际业务场景中LLM的定向任务增强提供了新的思路和方法。

标签: 大模型公开知识拟合腾讯优图相似性

本文地址: https://www.gosl.cn/jsjcwz/d00f3c4d0d272faf0cc7.html

上一篇:花钱给孩子补课的家长你别不信他们才是最大...
下一篇:掀起手机革新的浪潮...

发表评论